解析谷歌全息視頻聊天技術(shù)Project Starline
發(fā)布日期:2022/1/26 18:06:40 瀏覽量:
Starline是想解決超高清遠(yuǎn)程會議的三個問題與挑戰(zhàn)并且盡量使用現(xiàn)有的技術(shù)和google自己現(xiàn)有技術(shù),比如webrtc技術(shù)。
挑戰(zhàn)
- 可實用的代價不高的三維音視頻采集和播放(呈現(xiàn))。
- 創(chuàng)建一個舒適的三維視覺感觀?,F(xiàn)在頭戴式AV,RV太笨重,太不舒服。
- 真正實現(xiàn)面對面的眼神溝通,表情溝通,打手勢等非語言溝通。
從現(xiàn)有g(shù)oogle大量的測試數(shù)據(jù)和評估結(jié)果看,以上三點基本達到。當(dāng)然google也說了,現(xiàn)在的原型還有很多需要解決的問題。
starline系統(tǒng)中對于頭發(fā)和眼鏡的物體的采集和重建還有問題,并且對深凹和快速運動物體會有重建深度圖的錯誤或圖像空洞,還需要進一步的工作來克服這些偽影。
以下是google對starline的部分講解。
Starline 展示了一種實時的雙向交流系統(tǒng),可以讓兩個人,即使在遠(yuǎn)距離交互,也能體驗到面對面的對話體驗。通過參與者打分(如呈現(xiàn)、注意力、交互必、參與感等方面)、會議參與感和觀察到的非語言行為表達(如點頭、眉毛運動)各方面進行測量,這是第一個明顯優(yōu)于2D視頻會議的遠(yuǎn)程呈現(xiàn)系統(tǒng)。
Starline 是一個里程碑式的遠(yuǎn)程呈現(xiàn)系統(tǒng),這系統(tǒng)所有設(shè)計元素都為了最大化實現(xiàn)音視頻的保真度和真實感觀體驗來實現(xiàn)的,包括物理布局、照明、人臉跟蹤、多攝像頭采集、麥克風(fēng)陣列、多媒體流壓縮編碼、揚聲器輸出和透鏡顯示。
Starline 系統(tǒng)可以實現(xiàn)關(guān)鍵的3D視聽維度(立體視覺、運動視差和空間化音頻),并能實現(xiàn)全方位的交流體驗(眼神接觸、手勢和肢體語言),但使用者不需要佩戴特殊的眼鏡或的麥克風(fēng)/耳機。
Starline 系統(tǒng)系統(tǒng)由頭部跟蹤自動立體顯示、高分辨率三維采集和播放系統(tǒng)以及使用對色彩空間和視頻深度流進行壓縮編解碼并網(wǎng)絡(luò)傳輸組成。其他的技術(shù)點包括一個新的基于圖像的幾何融合算法,自由空間去混響和發(fā)言人者定位。
Starline系統(tǒng)實現(xiàn)如下:
如上圖系統(tǒng)由兩個主要結(jié)構(gòu)組成:一個顯示單元(Display Unit)和一個背光單元(Backlight Unit)。顯示單元里面有顯示器、攝像機、揚聲器、麥克風(fēng)、照明設(shè)備和計算機; 背光單元,里面有一個紅外背光設(shè)備同時也是一個長椅。
視頻采集子系統(tǒng)由三個雙目深度(景深)stereo cameras彩色攝像機組成,兩個在顯示屏上方,一個在顯示屏下方的位置,這個下方位置的還有一個額外的彩色相機color camera,可以放大采集被攝對象的臉部細(xì)節(jié)。還有四個單色跟蹤攝像頭tracking camera,兩個在顯示屏左右兩邊,另外兩個在顯示屏上方位置。 高速廣角攝像頭,用于眼睛、耳朵和嘴巴的實時3D定位。上圖說明采集和顯示組件的排布。
在接收端,使用一種新的“基于圖像的融合”光線投射算法,從觀眾的左眼和右眼位置渲染出三個深度流(stereo cameras),四路顏色的紋理流(color camera)被投射到融合的表面上,并使用從光滑的表面法線確定的權(quán)重進行混合。
上圖是3D采集播放的設(shè)備參數(shù)。都是獲得硬件設(shè)備。
系統(tǒng)時延,Starline 端到端的平均延遲為105.8 ms(標(biāo)準(zhǔn)偏差9.1 ms)。根據(jù)研究數(shù)據(jù),人類對端到端的對話時延要在250 ms以內(nèi)都是可以接受的。
starline 介紹
鏈接:https://www.zhihu.com/question/460452198/answer/2281654664
馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生