南通颐猩文化传播有限公司

當(dāng)前位置:首頁(yè) >  科技 >  IT業(yè)界 >  正文

FACEBOOK/谷歌/微美全息等AI深度學(xué)習(xí)+AR技術(shù)助力交互顯示擴(kuò)展應(yīng)用場(chǎng)景

 2020-07-30 11:54  來(lái)源: 互聯(lián)網(wǎng)   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

通過(guò) AR 的方式,人們可以更好的理解數(shù)物互聯(lián)帶來(lái)的價(jià)值,這種價(jià)值有很多可以想象的空間,比如說(shuō)預(yù)測(cè)性的維護(hù),遠(yuǎn)程服務(wù)、遠(yuǎn)程診斷,包括基于云的眾包產(chǎn)品研發(fā)體系等等。一旦把數(shù)字和物理世界打通,就會(huì)產(chǎn)生越來(lái)越新的應(yīng)用場(chǎng)景。

盡管AR技術(shù)剛剛起步,但已有跡象表明其將成為主流,AR將深刻影響每個(gè)行業(yè)的企業(yè),在未來(lái)幾年,AR將改變我們學(xué)習(xí)、決策和與物理世界進(jìn)行互動(dòng)的方式。那么AR到底有什么用呢?說(shuō)到這里就不得不提到,與AR一起近年來(lái)一起大火的人工智能。

所謂VR(虛擬現(xiàn)實(shí)),簡(jiǎn)單來(lái)講就是身臨其境,把自己置身到另外一個(gè)虛擬的三維空間內(nèi),看到的場(chǎng)景雖然可能真實(shí)存在于另外一個(gè)空間,但眼前所見的都是假的。而AR(增強(qiáng)現(xiàn)實(shí))則是真真假假,將真實(shí)的環(huán)境和虛擬的物體實(shí)時(shí)地疊加到同一個(gè)畫面或空間同時(shí)存在。

有數(shù)據(jù)顯示,到2020年的時(shí)候整個(gè)AR和VR的整個(gè)市場(chǎng)將會(huì)達(dá)到1500億,但是在整個(gè)市場(chǎng)里面AR,增強(qiáng)現(xiàn)實(shí)的市場(chǎng)是有1200億,VR的市場(chǎng)是300億,AR市場(chǎng)將是VR市場(chǎng)的4倍。

AR因其更強(qiáng)的實(shí)用性和廣泛的應(yīng)用性得到各領(lǐng)域用戶的關(guān)注。事實(shí)上,AR技術(shù)正在逐漸滲入到智慧城市建設(shè)中的方方面面,在智慧城市的智能交通、智能教育、智能醫(yī)療、智能家居、智能旅游等諸多領(lǐng)域都實(shí)現(xiàn)著廣泛的應(yīng)用,對(duì)推動(dòng)以人為本、智慧參與的智慧城市建設(shè)起著重要的作用??碅R技術(shù)如何助力智慧城市的發(fā)展。

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子類,即軟件試圖模仿大腦中用于模式識(shí)別的部分,它已經(jīng)對(duì)整個(gè)技術(shù)行業(yè)產(chǎn)生了巨大的影響,而這是推動(dòng)AR行業(yè)向前發(fā)展的一個(gè)關(guān)鍵因素。計(jì)算機(jī)以人類無(wú)法模仿的速度執(zhí)行任務(wù),但計(jì)算機(jī)處理和排序信息的方式永遠(yuǎn)無(wú)法與人類相匹配。在AR領(lǐng)域,深度學(xué)習(xí)正被用于解決基于攝像機(jī)追蹤的檢測(cè)問(wèn)題。這一點(diǎn)很重要,因?yàn)閷?lái)消費(fèi)者會(huì)在智能手機(jī)以外的設(shè)備上追蹤攝像頭。由于增強(qiáng)對(duì)象是在不同的觀看條件下呈現(xiàn)的,包括不同的方向、規(guī)模以及光線條件,因此需要深度學(xué)習(xí)工具包在多個(gè)制造商的傳感器之間進(jìn)行無(wú)縫整合。

深度學(xué)習(xí)是培養(yǎng)實(shí)時(shí)圖像識(shí)別和追蹤增強(qiáng)對(duì)象的關(guān)鍵,并為它們提供了真實(shí)的位置數(shù)據(jù)和特征。深度學(xué)習(xí)的潛在用途遠(yuǎn)遠(yuǎn)超過(guò)3D建模,后者是在智能手機(jī)屏幕上疊加虛擬數(shù)據(jù),就像我們?cè)赑okémon Go中所看到的場(chǎng)景。深度學(xué)習(xí)成為主流的原因在于SLAM(同步定位和繪圖),它來(lái)自高層次的概述,被認(rèn)為是為蘋果ARKit提供動(dòng)力的主要技術(shù)。具體來(lái)說(shuō),VIO(視覺慣性測(cè)量)就是個(gè)簡(jiǎn)單的SLAM系統(tǒng),它讓ARKit的功能更加精確。SLAM使用計(jì)算機(jī)視覺來(lái)創(chuàng)建一個(gè)空間的數(shù)字輪廓,并追蹤與物體相關(guān)的手機(jī)位置。隨著處理技術(shù)變得越來(lái)越便宜,摩爾定律將會(huì)繼續(xù)生效,SLAM的能力也會(huì)隨之提高。但秘訣在于軟件開發(fā)。在這方面,領(lǐng)先的公司專注于加速性能。

要成為一個(gè)世界級(jí)的AI力量,需要具備三點(diǎn):最先進(jìn)的算法、專用的計(jì)算硬件,以及機(jī)器學(xué)習(xí)系統(tǒng)所依賴的原材料——數(shù)據(jù)的大量供應(yīng)。人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然言處理等先進(jìn)技術(shù)帶來(lái)的產(chǎn)業(yè)革命和生產(chǎn)力的充分釋放,經(jīng)過(guò)多年的創(chuàng)新發(fā)展,人工智能讓智能設(shè)備逐步實(shí)現(xiàn)從認(rèn)識(shí)物理世界到個(gè)性化場(chǎng)景落地的跨越。

在構(gòu)成人工智能行業(yè)主體的三類企業(yè)中,算法企業(yè)是推動(dòng)核心底層技術(shù)發(fā)展的重要力量,其重要意義在于以算法突破工業(yè)界紅線,推動(dòng)其真正達(dá)到工業(yè)界應(yīng)用的KPI。這類企業(yè)實(shí)際上是推動(dòng)當(dāng)前人工智能核心底層技術(shù)發(fā)展的根本力量。從國(guó)外的巨頭微軟、谷歌、FACEBOOK等無(wú)不一一深耕超算,國(guó)內(nèi)的微美全息等科技企業(yè)也涌上潮頭,將超算能力和場(chǎng)景落地結(jié)合前行。

FACEBOOK

Facebook的一項(xiàng)類似研究就在CVPR公布。據(jù)了解,該研究的特點(diǎn)是將對(duì)象(主要以人為主)疊加到現(xiàn)有的圖片中,并且讓他們通過(guò)更逼真的視角和方式融合,看上去更自然。

雖然目前各種基于神經(jīng)網(wǎng)絡(luò)模型的人像生成工具,一種是在給定條件下生成圖像,另一種是讓算法從零開始,自由發(fā)揮生成一個(gè)高清且逼真的人像。Facebook表示,在兩者之中似乎還存在一個(gè)新的應(yīng)用,那就是將給定圖像中的人像嵌入到包含其它人像的圖像中。

這個(gè)過(guò)程,需要生成一幅人像并嵌入到現(xiàn)有包含其它人像的照片中,而這個(gè)生成的人像在的質(zhì)量和原有圖像差別并不明顯,無(wú)論是清晰度和細(xì)節(jié)。而其中的幾個(gè)關(guān)鍵在于:人臉、衣服、頭發(fā)。

據(jù)了解,Facebook通過(guò)三個(gè)GAN完成整個(gè)過(guò)程:

第一個(gè)GAN基于現(xiàn)有被嵌入圖像中的人物之間以及人物與背景的上下文關(guān)系,并生成一副目標(biāo)的人體姿勢(shì);第二個(gè)GAN呈現(xiàn)出新的人物細(xì)節(jié),包括臉部細(xì)節(jié);第三個(gè)GAN對(duì)生成圖像的面部細(xì)節(jié)進(jìn)行增強(qiáng),保證人臉部分看上去足夠逼真。經(jīng)過(guò)測(cè)驗(yàn),Facebook表示第一步生成的虛擬人物姿勢(shì)和大多數(shù)自然的任務(wù)姿態(tài)幾乎相同,但是人物與人物之間的互動(dòng)仍然是一個(gè)挑戰(zhàn)。

而該研究的應(yīng)用,可以融入未來(lái)的AR/VR社交(遠(yuǎn)程社交),或者其他AR衍生應(yīng)用等場(chǎng)景。

微美全息:

而微美全息的全息AI云服務(wù)更是在行業(yè)中獨(dú)樹一幟。在現(xiàn)有的云服務(wù)市場(chǎng)中,科技巨頭占據(jù)多數(shù),構(gòu)建基于人工智能的云服務(wù)將成為巨頭的下一個(gè)主戰(zhàn)場(chǎng)。AI是信息基礎(chǔ)設(shè)施的一個(gè)升級(jí),是今后產(chǎn)業(yè)發(fā)展的巨大引擎。巨頭都想把握升級(jí)過(guò)程中涌現(xiàn)的大量機(jī)會(huì),賦能全行業(yè)。第二,開源是一種開放式創(chuàng)新。通過(guò)開源深度學(xué)習(xí)平臺(tái),不僅可以吸引大量開發(fā)者,還可以為機(jī)器學(xué)習(xí)提供大量的數(shù)據(jù)支持,以及大量的現(xiàn)實(shí)場(chǎng)景。

無(wú)論是對(duì)軟件開發(fā)者的內(nèi)容生成解決方案,還是針對(duì)不同硬件設(shè)備的AR功能和服務(wù)解決方案,微美全息始終致力于通過(guò)領(lǐng)先的AI技術(shù)為客戶和產(chǎn)業(yè)進(jìn)行賦能,并與國(guó)內(nèi)外領(lǐng)先的合作伙伴構(gòu)建完整的AR內(nèi)容及應(yīng)用開發(fā)生態(tài),共同推動(dòng)AR應(yīng)用落地及發(fā)展。

微美全息科技已集全息AI云移動(dòng)軟件開發(fā)商、處事商、運(yùn)營(yíng)商身份于一身,也成為海內(nèi)領(lǐng)先的全息AI領(lǐng)域整合平臺(tái)之一。在技術(shù)儲(chǔ)備上超過(guò)4654個(gè)全息內(nèi)容IP儲(chǔ)備,細(xì)分行業(yè)龍頭企業(yè)。各環(huán)節(jié)技術(shù)成熟,客戶數(shù)量為485,全息AR專利數(shù)為224,其中132項(xiàng)專利和92項(xiàng)待審批專利,技術(shù)方面日趨成熟。其商業(yè)應(yīng)用場(chǎng)景主要聚集在家用娛樂(lè)、光場(chǎng)影院、演藝系統(tǒng)、商業(yè)發(fā)布系統(tǒng)及廣告展示系統(tǒng)等五大專業(yè)領(lǐng)域。

微美全息(WIMI.US)以“眼界即視界”為使命,公司建立了全球頂級(jí)、自主研發(fā)的深度學(xué)習(xí)平臺(tái)和超算中心,并且研發(fā)了一系列AI技術(shù),包括:人臉識(shí)別、圖像識(shí)別、文本識(shí)別、醫(yī)療影像識(shí)別、視頻分析、無(wú)人駕駛和遙感等。全息3D人臉識(shí)別軟件的開發(fā)基于微美的全息成像特征成像檢測(cè)和識(shí)別技術(shù)、模板匹配全息成像檢測(cè)技術(shù),以及基于深度學(xué)習(xí)和訓(xùn)練的視頻處理和識(shí)別技術(shù)。傳統(tǒng)的2D面部識(shí)別技術(shù)是一種基于面部特征的識(shí)別技術(shù),它從面部圖像或面部視頻流中捕獲信息,并自動(dòng)檢測(cè)和跟蹤目標(biāo)面部;微美的全息3D面部識(shí)別技術(shù)是全息成像捕捉和3D肖像的結(jié)合的識(shí)別技術(shù)。

全息AR行業(yè)是技術(shù)密集型的。全息AR體驗(yàn)只能通過(guò)硬件和軟件技術(shù)的結(jié)合來(lái)實(shí)現(xiàn),并且與全息AR相關(guān)的技術(shù)進(jìn)步將把全息AR體驗(yàn)帶入下一階段。例如,深度學(xué)習(xí)AI技術(shù)的突破將使全息AR設(shè)備能夠以更加無(wú)縫的方式集成由攝像機(jī)捕獲并由計(jì)算機(jī)模擬的內(nèi)容,從而為用戶提供更加身臨其境的體驗(yàn)。此外,集成芯片的發(fā)展將使圖像處理器以更低的成本生產(chǎn),從而降低全息AR器件的銷售價(jià)格。5G網(wǎng)絡(luò)的廣泛采用將使本地設(shè)備和互聯(lián)網(wǎng)之間的實(shí)時(shí)數(shù)據(jù)傳輸成為可能,從而大大增強(qiáng)了內(nèi)容的多樣性。

谷歌:

谷歌一直是支持使用深度學(xué)習(xí)技術(shù)的一股強(qiáng)大力量。深度學(xué)習(xí)如今在前沿應(yīng)用中非常普遍,它幾乎與人工智能是一個(gè)意思了。原因很簡(jiǎn)單——它的效果明顯。運(yùn)用深度學(xué)習(xí),可以破解困擾數(shù)據(jù)科學(xué)家?guī)资甑碾y題,比如語(yǔ)音和圖像識(shí)別,以及自然語(yǔ)言生成問(wèn)題。

2011年,谷歌成立谷歌大腦項(xiàng)目,這是他們首次公開對(duì)深度學(xué)習(xí)潛在可能性的探索。第二年,谷歌宣布他們已經(jīng)建立了一個(gè)神經(jīng)網(wǎng)絡(luò),用來(lái)模擬人類的認(rèn)知過(guò)程。這個(gè)網(wǎng)絡(luò)在16000臺(tái)電腦上運(yùn)行,在學(xué)習(xí)了大約1000萬(wàn)張圖像之后,它能夠成功識(shí)別出貓。

2014年,谷歌收購(gòu)了英國(guó)深度學(xué)習(xí)初創(chuàng)公司DeepMind。DeepMind將現(xiàn)有的機(jī)器學(xué)習(xí)技術(shù)和神經(jīng)科學(xué)的前沿研究聯(lián)系起來(lái),開創(chuàng)了一種新的研究方法,讓系統(tǒng)更精確,就像大腦一樣有了智力。

DeepMind研發(fā)出了Alpha Go,為了驗(yàn)證算法執(zhí)行任務(wù)的能力,他們讓系統(tǒng)玩電子游戲,后來(lái)又讓系統(tǒng)下圍棋,在這個(gè)過(guò)程中他們發(fā)現(xiàn)系統(tǒng)的技術(shù)越來(lái)越高超。

谷歌在郵件服務(wù)中是如何使用深度學(xué)習(xí)的?

當(dāng)證明了深度學(xué)習(xí)在實(shí)驗(yàn)室和游戲競(jìng)賽中很有效果之后,谷歌悄然將這項(xiàng)技術(shù)推向了更多的服務(wù)領(lǐng)域。

第一次實(shí)用是在圖像識(shí)別中,可以用它對(duì)谷歌索引出的互聯(lián)網(wǎng)上的數(shù)百萬(wàn)張圖片進(jìn)行分類。這樣做可以讓圖像分類更精確,從而為用戶提供更準(zhǔn)確的搜索結(jié)果。

谷歌目前在深度學(xué)習(xí)的研究中,在圖像分析領(lǐng)域的最新突破是圖像增強(qiáng)。這包括重建或填充圖像中缺失的部分,這種功能是通過(guò)從現(xiàn)有的數(shù)據(jù)中推斷,以及利用學(xué)到的其他類似圖像實(shí)現(xiàn)的。

Google Cloud Video Intelligence向用戶開放視頻分析功能。用戶將視頻傳到谷歌服務(wù)器上之后,這個(gè)平臺(tái)可以對(duì)視頻的內(nèi)容進(jìn)行分割和分析,可以自動(dòng)生成摘要,如果視頻內(nèi)容有可疑之處,AI甚至還會(huì)發(fā)出安全警報(bào)。

語(yǔ)言處理是谷歌運(yùn)用深度學(xué)習(xí)的另一個(gè)服務(wù)領(lǐng)域。谷歌AI語(yǔ)音識(shí)別助手運(yùn)用深度神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)如何更好地理解語(yǔ)音指令和問(wèn)題。谷歌大腦開發(fā)的技術(shù)已經(jīng)在這個(gè)項(xiàng)目中有所運(yùn)用。

最近,谷歌的翻譯服務(wù)也運(yùn)用了谷歌大腦開發(fā)的技術(shù)。在新的谷歌神經(jīng)機(jī)器翻譯系統(tǒng)上進(jìn)行翻譯,可以將一切都任務(wù)都轉(zhuǎn)移到深度學(xué)習(xí)環(huán)境中。

另外,運(yùn)用谷歌大腦的技術(shù),可以在Youtube上提供更多個(gè)性化的推薦。當(dāng)我們?cè)诠雀璧姆?wù)器中瀏覽內(nèi)容時(shí),它會(huì)監(jiān)控和記錄我們的瀏覽習(xí)慣。已經(jīng)有數(shù)據(jù)顯示,為用戶推薦他們想要看的視頻是提高用戶留存率的關(guān)鍵,留住了用戶之后就有源源不斷的廣告費(fèi)了。深度神經(jīng)網(wǎng)絡(luò)能充分的用來(lái)研究和學(xué)習(xí)用戶的習(xí)慣和偏好,不斷推薦用戶喜歡的內(nèi)容。

總的來(lái)說(shuō),這一切加起來(lái)才是真正的沉浸式虛擬體驗(yàn),每個(gè)人都可以從各種設(shè)備中享受這些體驗(yàn)。盡管在整個(gè)行業(yè)中,要想實(shí)現(xiàn)真正的AR未來(lái)還需要我們?nèi)〉酶筮M(jìn)步,但許多偉大的公司和偉大的頭腦正在共同努力,使我們的夢(mèng)想早日成為現(xiàn)實(shí)。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

熱門排行

信息推薦