來源:映維網(wǎng) 作者 黃顏
在今年6月舉行的2020年計(jì)算機(jī)視覺和模式識(shí)別大會(huì)中,F(xiàn)acebook Reality Labs的首席科學(xué)家邁克爾·亞伯拉什通過視頻介紹了團(tuán)隊(duì)的研究及相關(guān)進(jìn)展。
其中,亞伯拉什展示了優(yōu)化的手部追蹤功能,并表示現(xiàn)在Facebook研發(fā)的系統(tǒng)已經(jīng)能夠相當(dāng)精確地追蹤手部和手指的快速運(yùn)動(dòng)。另外,他指出光學(xué)手部和手指追蹤將成為空間計(jì)算機(jī)范式的重要組成要素。
相關(guān)團(tuán)隊(duì)在8月舉行的SIGGRAPH大會(huì)展示了所述研究,并發(fā)布了具體論文。
以前大部分關(guān)于手部追蹤的研究都集中在外部深度攝像頭或RGB攝像頭。深度攝影頭可以提供2.5D點(diǎn)云的手部幾何圖像。然而,深度攝像頭對(duì)硬件設(shè)計(jì)和電量使用提出了額外的要求。相比之下,RGB攝像頭更容易集成,而隨著深度學(xué)習(xí)技術(shù)的進(jìn)步,它們的實(shí)用性同樣在不斷提高。所以,利用單一RGB攝像頭和神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)手部姿態(tài)已經(jīng)成為一個(gè)熱門的研究課題。
Facebook Reality Labs主要提出了用于驅(qū)動(dòng)虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)體驗(yàn)的實(shí)時(shí)手部追蹤系統(tǒng)。利用四個(gè)魚眼單色攝像頭,系統(tǒng)能夠生成精確和低抖動(dòng)的三維手部。研究人員主要是通過用于檢測(cè)手部和估計(jì)手部關(guān)鍵點(diǎn)位置的神經(jīng)網(wǎng)絡(luò)架構(gòu)來實(shí)現(xiàn)這一點(diǎn)。
相關(guān)論文:MEgATrack: Monochrome Egocentric Articulated Hand-Tracking for Virtual Reality
手部檢測(cè)網(wǎng)絡(luò)能夠可靠地處理各種真實(shí)世界的環(huán)境,而關(guān)鍵點(diǎn)估計(jì)網(wǎng)絡(luò)則利用追蹤歷史來產(chǎn)生時(shí)空一致的姿態(tài)。團(tuán)隊(duì)同時(shí)設(shè)計(jì)了可擴(kuò)展的半自動(dòng)機(jī)制,通過手動(dòng)注釋和自動(dòng)追蹤相結(jié)合的方式來收集大量不同的ground truth數(shù)據(jù)。
另外,研究人員引入了一種追蹤檢測(cè)的方法,在降低計(jì)算成本的同時(shí)提高了平滑度。優(yōu)化后的系統(tǒng)在PC端能夠以60Hz的速度運(yùn)行,而移動(dòng)處理器則是30Hz。
使用單色攝像頭進(jìn)行手部追蹤
下圖概述了Facebook研發(fā)的手部追蹤系統(tǒng)。團(tuán)隊(duì)從四個(gè)單色攝像頭的圖像開始,檢測(cè)每個(gè)圖像中的左手和右手,并生成一組邊界框。然后,從圖像中裁剪出每個(gè)包圍盒(bounding box),并將其傳遞給能夠檢測(cè)21個(gè)關(guān)鍵點(diǎn)的網(wǎng)絡(luò)。相關(guān)的手部模型分為兩部分:一個(gè)是手部骨架S;另一個(gè)是網(wǎng)格模型M。手部骨骼S由26個(gè)自由度組成,其中6個(gè)自由度代表全局變換,4個(gè)旋轉(zhuǎn)自由度代表手指關(guān)節(jié)。
具體而言,手部檢測(cè)的任務(wù)是在每個(gè)輸入圖像中尋找每只手的包圍盒。一個(gè)關(guān)鍵的挑戰(zhàn)是確保對(duì)各種真實(shí)世界環(huán)境的魯棒性。為了應(yīng)對(duì)這一挑戰(zhàn),團(tuán)隊(duì)使用半自動(dòng)標(biāo)記方法收集了大量不同的手部檢測(cè)數(shù)據(jù)集,并提出了一個(gè)簡(jiǎn)單而高效的CNN架構(gòu):DetNet
由于任何輸入都有固定數(shù)量的輸出(最多兩只手),團(tuán)隊(duì)將DetNet設(shè)計(jì)成直接從VGA分辨率輸入圖像中回歸出每只手的2D中心和標(biāo)量半徑,并經(jīng)過各種算法函數(shù)來預(yù)測(cè)相關(guān)的包圍盒。
然后,關(guān)鍵點(diǎn)估計(jì)網(wǎng)絡(luò)KeyNet根據(jù)手部檢測(cè)步驟中預(yù)測(cè)的包圍盒來從圖像中預(yù)測(cè)出關(guān)于手部的21個(gè)關(guān)鍵點(diǎn)。
先前關(guān)于關(guān)鍵點(diǎn)估計(jì)的研究通常是獨(dú)立地處理每個(gè)圖像。對(duì)于實(shí)時(shí)多攝像頭系統(tǒng)來說,這存在幾個(gè)缺點(diǎn)。首先,當(dāng)手在重疊的攝影頭視圖之間移動(dòng)時(shí),預(yù)測(cè)的質(zhì)量會(huì)降低,因?yàn)槊總€(gè)視圖都是獨(dú)立處理;第二,關(guān)鍵點(diǎn)容易抖動(dòng),因?yàn)闀r(shí)間一致性不是強(qiáng)制執(zhí)行。為了解決這兩個(gè)問題,研究人員將網(wǎng)絡(luò)設(shè)計(jì)成顯式地將推斷出的關(guān)鍵點(diǎn)納入為一個(gè)額外的網(wǎng)絡(luò)輸入。
研究使用了四個(gè)VGA同步全局快門攝像頭來驅(qū)動(dòng)手部追蹤系統(tǒng)。每個(gè)攝像頭的視場(chǎng)范圍為150度(寬)、120度(高)和175度(對(duì)角線)。右側(cè)的中心區(qū)域由兩個(gè)或多個(gè)攝像頭(立體、紅色/橙色/綠色)覆蓋,從而確保區(qū)域內(nèi)的追蹤最為準(zhǔn)確。
為了給KeyNet訓(xùn)練生成關(guān)鍵點(diǎn)標(biāo)簽,研究人員使用基于深度的手動(dòng)追蹤系統(tǒng)生成groundtruth關(guān)鍵點(diǎn)注釋,并將生成的關(guān)鍵點(diǎn)投影到數(shù)個(gè)已校準(zhǔn)的單色視圖中。
如上圖所示,六個(gè)60Hz的單色魚眼攝像頭放置在一個(gè)剛性框架之上,而一個(gè)50Hz的單色深度攝像頭則用來捕捉和標(biāo)記手部運(yùn)動(dòng)。攝像頭在空間和時(shí)間方面都相互注冊(cè),所以手部追蹤器生成的關(guān)鍵點(diǎn)可以重新投影和插值到單色視圖中。另外,由于這一捕獲裝置具備移動(dòng)性,從而能夠快速捕捉光線和環(huán)境的變化。
包圍盒標(biāo)簽對(duì)于訓(xùn)練一個(gè)精確的數(shù)據(jù)網(wǎng)絡(luò)而言十分重要。為了最大化標(biāo)記任務(wù)的吞吐量和效率,研究人員使用了一個(gè)創(chuàng)新的半自動(dòng)解決方案來標(biāo)記包圍盒。在手動(dòng)標(biāo)記初始幀的手部包圍盒之后,團(tuán)隊(duì)使用一個(gè)經(jīng)過訓(xùn)練的KeyNet和一個(gè)追蹤管道來傳輸手勢(shì)。如果注意到追蹤器失敗,注釋器只需注釋一個(gè)新盒,被追蹤的手部就會(huì)自動(dòng)更新。
研究人員分別使用通用的、校準(zhǔn)的和掃描的方法來描述默認(rèn)的手部模型。表1的中間部分使用了通過掃描系統(tǒng)獲得的手部模型。我們可以看到,團(tuán)隊(duì)研發(fā)的KeyNet所生成的MKPE與基線Keynet-S相似,但MKA在立體和單目圖像方面都顯著降低。這表明,所述的KeyNet架構(gòu)能夠有效地提高時(shí)間平滑度。
表1中的底部部分說明了解析手部比例的重要性。與使用掃描系統(tǒng)獲得的手部模型相比,使用通用手部模型時(shí)的系統(tǒng)精度大大降低。當(dāng)追蹤器在單目模式下運(yùn)行時(shí),這種問題更為嚴(yán)重,因?yàn)樵趩我灰晥D中解析深度模糊嚴(yán)重依賴于手部模型比例的準(zhǔn)確性。利用團(tuán)隊(duì)提出的手部比例分解方法,追蹤精度接近于通過三維掃描獲得的手部模型。
當(dāng)然,上述解決方案依然存在失敗的情況,例如在進(jìn)行復(fù)雜的手-手交互和手-對(duì)象交互時(shí),以及出現(xiàn)不常見的手部視圖時(shí)。研究人員承認(rèn),手-手交互和手-對(duì)象交互的失敗反映了系統(tǒng)的設(shè)計(jì)依然存在局限性。展望未來,團(tuán)隊(duì)將繼續(xù)致力于提升追蹤系統(tǒng)的精確性和魯棒性。
原文鏈接:https://yivian.com/news/77885.html