欧美vvv,亚洲第一成人在线,亚洲成人欧美日韩在线观看,日本猛少妇猛色XXXXX猛叫

新聞資訊

    點擊上方“計算機(jī)視覺life”,選擇“星標(biāo)”

    快速獲得最新干貨

    00 前言

    目前,三維重建技術(shù)已在游戲、電影、測繪、定位、導(dǎo)航、自動駕駛、VR/AR、工業(yè)制造以及消費品領(lǐng)域等方面得到了廣泛的應(yīng)用。方法同樣也層出不窮,我們將這些方法依據(jù)原理分為兩類:

    ?基于傳統(tǒng)多視圖幾何的三維重建算法

    ?基于深度學(xué)習(xí)的三維重建算法

    總地來說,盡管目前傳統(tǒng)的三維重建算法依舊占據(jù)研究的主要部分,但是越來越多的研究者開始關(guān)注于用CNN探索三維重建,或者說,兩者之間的交叉與融合。

    有人問,在三維重建中引入深度學(xué)習(xí)方法有什么意義?我將意義概括為三部分:

    ?為傳統(tǒng)重建算法性能優(yōu)化提供新的思路

    一項名為 Code SLAM1 的工作,這項研究獲得了CVPR 2018年的best paper提名獎,研究利用神經(jīng)網(wǎng)絡(luò)框架,并結(jié)合圖像幾何信息實現(xiàn)了單目相機(jī)的稠密SLAM。主要貢獻(xiàn)在于使用了深度學(xué)習(xí)方法從單張圖像中用神經(jīng)網(wǎng)絡(luò)提取出若干個基函數(shù)來表示場景的深度,這些基函數(shù)表示可以極大簡化傳統(tǒng)幾何方法中的優(yōu)化問題。顯然,深度學(xué)習(xí)方法的引入可以給傳統(tǒng)方法的性能提升提供新的思路,而以前,這部分工作大多由機(jī)器學(xué)習(xí)方法來做。

    ?將深度學(xué)習(xí)重建算法和傳統(tǒng)三維重建算法進(jìn)行融合,優(yōu)勢互補(bǔ)

    業(yè)界對算法的魯棒性要求比較高,因此多傳感器、乃至多種算法的融合以提升算法魯棒性是個必然趨勢,而深度學(xué)習(xí)在一些場景中具有天然優(yōu)勢,比如不可見部分的建模,傳統(tǒng)算法就很難憑借“經(jīng)驗”來估計物體的深度。

    ?模仿動物視覺,直接利用深度學(xué)習(xí)算法進(jìn)行三維重建

    動物跟人類直接基于大腦而非嚴(yán)格的幾何計算來進(jìn)行物體的三維重建,那么直接基于深度學(xué)習(xí)的方法在原理上也是可行的。特別需要注意的是,在一些研究中,有些方法直接基于單張圖像(非單目,單目指利用單個攝像頭)進(jìn)行三維重建。理論上講,單張圖像已經(jīng)丟失了物體的三維信息,因此在原理上即不能恢復(fù)深度信息,但是人類又能憑借經(jīng)驗大致估計物體的距離,因而也具有一定的“合理性”。

    兩者形成了各自的理論和體系,但未來三維重建領(lǐng)域研究一定是傳統(tǒng)優(yōu)化方法與深度學(xué)習(xí)的結(jié)合。目前,這方面研究仍處于起步階段,還有許多問題亟待解決。下面的綜述主要側(cè)重于深度學(xué)習(xí)方法,但也僅列出重要文獻(xiàn),更詳細(xì)的綜述將會在公眾后續(xù)的文章中介紹。

    01 基于傳統(tǒng)多視圖幾何的三維重建算法

    傳統(tǒng)的三維重建算法按傳感器是否主動向物體照射光源可以分為主動式和被動式兩種方法。這些年,也有不少研究直接基于消費級的 RGB-D 相機(jī)進(jìn)行三維重建,如基于微軟的 V1 產(chǎn)品網(wǎng)格有幾種算法視頻,同樣取得了不錯的效果。基于傳統(tǒng)多視圖幾何的三維重建算法概括如下:

    ?主動式,指通過傳感器主動地向物體照射信號,然后依靠解析返回的信號來獲得物體的三維信息,常見的有:

    –結(jié)構(gòu)光

    –TOF 激光飛行時間

    –三角測距法

    ?被動式,直接依靠周圍環(huán)境光源來獲取RGB圖像,通過依據(jù)多視圖幾何原理對圖像進(jìn)行解析,從而獲取物體的三維信息。常見的依據(jù)原理可以分為:

    –單目視覺

    –雙目/多目視覺

    ?基于消費級RGB-D相機(jī),相機(jī)可以基于主動式、被動式不同原理,優(yōu)點在于基于這些設(shè)備的算法更具備實用性。

    這些方法它們各自有著各自的優(yōu)點和缺點,同樣有各自所適用的應(yīng)用范圍。下面為想要入門基于深度學(xué)習(xí)進(jìn)行三維重建領(lǐng)域的同學(xué)簡要介紹這些方法,如需要深入了解,請仔細(xì)閱讀相關(guān)文獻(xiàn),SfM和多視圖幾何等經(jīng)典算法作為入門三維重建領(lǐng)域的基礎(chǔ)永遠(yuǎn)都不會過時。

    1.1 主動式(1)結(jié)構(gòu)光

    結(jié)構(gòu)光法依靠投影儀將編碼的結(jié)構(gòu)光投射到被拍攝物體上,然后由攝像頭進(jìn)行拍攝。由于被拍攝物體上的不同部分相對于相機(jī)的距離精度和方向不同,結(jié)構(gòu)光編碼的圖案的大小和形狀也會發(fā)生改變。這種變化可以被攝像頭捕獲,然后通過運算單元將其換算成深度信息,進(jìn)而獲取物體的三維輪廓信息。這種方法缺點是容易受環(huán)境光干擾,因此室外體驗差。另外,隨檢測距離增加,其精度也會變差。目前,一些研究通過增大功率、改變編碼方式等形式解決這些問題,取得了一定的效果。

    (2)TOF 激光飛行時間法

    TOF 飛行時間法依靠通過向目標(biāo)連續(xù)發(fā)送光脈沖,然后依據(jù)傳感器接收到返回光的時間或相位差來計算距離目標(biāo)的距離。但顯然這種方式足夠的精度需要極為精確的時間測量模塊,因此成本相對較高。好處是這種方法測量距離比較遠(yuǎn),受環(huán)境光干擾比較小。目前這方面研究旨在降低計時器良品率及成本,相應(yīng)的算法性能也在提升。

    (3)三角測距法

    三角測距法,即依據(jù)三角測距原理,不同于前兩者需要較為精密的傳感器,三角測距法整體成本較低,并且在近距離的時候精度較高,因而廣泛應(yīng)用于民用和商用產(chǎn)品中,如掃地機(jī)器人中。但三角測距的測量誤差與距離有關(guān),隨著測量距離越來越大,測量誤差也越來越大,這是由三角測量的原理導(dǎo)致的,不可避免。

    1.2 被動式

    被動式方面依靠多視圖幾何原理基于視差進(jìn)行計算,我們簡要敘述一下這些方法。

    (1)單目視覺

    單目視覺只使用單一攝像頭作為采集設(shè)備,具有低成本、易部署等優(yōu)點。其依靠一段時間內(nèi)獲得的連續(xù)圖像的視差來重建三維環(huán)境。但其存在固有的問題:單張圖像可能對應(yīng)無數(shù)真實物理世界場景(病態(tài)),因此使用單目視覺方法從圖像中估計深度進(jìn)而實現(xiàn)三維重建的難度較大。依據(jù)原理,可以分類為:

    目前這種算法廣泛應(yīng)用于手機(jī)等移動設(shè)備中,常見的算法有SfM,和SVO等。

    (2)雙目/多目視覺

    雙目視覺主要利用左右相機(jī)得到的兩幅校正圖像找到左右圖片的匹配點,然后根據(jù)幾何原理恢復(fù)出環(huán)境的三維信息。但該方法難點在于左右相機(jī)圖片的匹配,匹配地不精確都會影響最后算法成像的效果。多目視覺采用三個或三個以上攝像機(jī)來提高匹配的精度,缺點也很明顯,需要消耗更多的時間,實時性也更差。

    這兩種方法理論上都可較精確恢復(fù)深度信息,但實際上受拍攝條件的影響,其精度往往無法得到保證。常見的有SGM和SGBM算法等,其中自動駕駛數(shù)據(jù)集KITTI中,排名前五十的算法幾乎有一半都是對SGM的改進(jìn)。

    1.3 基于消費級RGB-D相機(jī)

    近年來,也有不少研究直接基于消費級的RGB-D相機(jī)進(jìn)行三維重建,如在微軟的 V1、V2產(chǎn)品上,取得了不錯的效果。最早,由帝國理工大學(xué)的等人于2011年提出的 開啟了RGB相機(jī)實時三維重建的序幕。此后有 和 等算法。

    02 基于深度學(xué)習(xí)的三維重建算法

    我們將基于深度學(xué)習(xí)的三維重建算法簡要地分為三部分,更詳細(xì)的文獻(xiàn)綜述將會在后續(xù)的公眾號的系列文章中做介紹:

    ?在傳統(tǒng)三維重建算法中引入深度學(xué)習(xí)方法進(jìn)行改進(jìn)

    ?深度學(xué)習(xí)重建算法和傳統(tǒng)三維重建算法進(jìn)行融合,優(yōu)勢互補(bǔ)

    ?模仿動物視覺,直接利用深度學(xué)習(xí)算法進(jìn)行三維重建

    2.1 在傳統(tǒng)三維重建算法中引入深度學(xué)習(xí)方法進(jìn)行改進(jìn)

    因為CNN在圖像的特征匹配上有著巨大優(yōu)勢,所以這方面的研究有很多,比如:

    ?,其基于深度遞歸卷積神經(jīng)網(wǎng)絡(luò)(RCNN)直接從一系列原始RGB圖像(視頻)中推斷出姿態(tài),而不采用傳統(tǒng)視覺里程計中的任何模塊,改進(jìn)了三維重建中的視覺里程計這一環(huán)。

    ?BA-Net,其將 SfM 算法中的一環(huán)集束調(diào)整( , BA)優(yōu)化算法作為神經(jīng)網(wǎng)絡(luò)的一層,以便訓(xùn)練出更好的基函數(shù)生成網(wǎng)絡(luò),從而簡化重建中的后端優(yōu)化過程。

    ?Code SLAM,如之前所提,其通過神經(jīng)網(wǎng)絡(luò)提取出若干個基函數(shù)來表示場景的深度,這些基函數(shù)可以簡化傳統(tǒng)幾何方法的優(yōu)化問題。

    2.2 深度學(xué)習(xí)重建算法和傳統(tǒng)三維重建算法進(jìn)行融合,優(yōu)勢互補(bǔ)

    CNN-將CNN預(yù)測的致密深度圖和單目SLAM的結(jié)果進(jìn)行融合,在單目SLAM接近失敗的圖像位置如低紋理區(qū)域,其融合方案給予更多權(quán)重于深度方案,提高了重建的效果。

    2.3 模仿動物視覺,直接利用深度學(xué)習(xí)算法進(jìn)行三維重建

    我們知道,三維重建領(lǐng)域主要的數(shù)據(jù)格式有四種:

    ?深度圖(depth map),2D圖片,每個像素記錄從視點到物體的距離,以灰度圖表示,越近越黑;

    ?體素(voxel),體積像素概念,類似于2D之于像素定義;

    ?點云(point cloud),每個點逗含有三維坐標(biāo),乃至色彩、反射強(qiáng)度信息;

    ?網(wǎng)格(mesh),即多邊形網(wǎng)格,容易計算。

    因而,依據(jù)處理的數(shù)據(jù)形式不同我們將研究簡要分為三部分:1)基于體素;2)基于點云;3)基于網(wǎng)格。而基于深度圖的三維重建算法暫時還沒有,因為它更多的是用來在2D圖像中可視化具體的三維信息而非處理數(shù)據(jù)。

    (1)基于體素

    體素,作為最簡單的形式,通過將2D卷積擴(kuò)展到3D進(jìn)行最簡單的三維重建:

    ?Depth Map from a Image using a Multi-Scale Deep , 2014

    該方法是用深度學(xué)習(xí)做三維重建的開山之作,基于體素形式,其直接用單張圖像使用神經(jīng)網(wǎng)絡(luò)直接恢復(fù)深度圖方法,將網(wǎng)絡(luò)分為全局粗估計和局部精估計,并用一個尺度不變的損失函數(shù)進(jìn)行回歸。

    ?3D-R2N2: A for and multi-view 3d , 2016

    等人基于體素形式提出的3D-R2N2模型使用--的網(wǎng)絡(luò)結(jié)構(gòu)建立2D圖形到3D體素模型的映射,完成了基于體素的單視圖/多視圖三維重建(多視圖的輸入會被當(dāng)做一個序列輸入到LSTM中,并輸出多個結(jié)果)。

    但這種基于體素的方法存在一個問題,提升精度即需要提升分辨率,而分辨率的增加將大幅增加計算耗時(3D卷積,立次方的計算量)。

    (2)基于點云

    相較而言,點云是一種更為簡單,統(tǒng)一的結(jié)構(gòu),更容易學(xué)習(xí),并且點云在幾何變換和變形時更容易操作,因為其連接性不需要更新。但需要注意的是,點云中的點缺少連接性網(wǎng)格有幾種算法視頻,因而會缺乏物體表面信息,而直觀的感受就是重建后的表面不平整。

    ?A Point Set for 3D From a Image, 2017

    該方法是用點云做三維重建的開山之作,最大貢獻(xiàn)在于解決了訓(xùn)練點云網(wǎng)絡(luò)時候的損失問題,因為相同的幾何形狀可能在相同的近似程度上可以用不同的點云表示,如何用恰當(dāng)?shù)膿p失函數(shù)來進(jìn)行衡量一直是基于深度學(xué)習(xí)用點云進(jìn)行三維重建方法的難題。

    ?Point-Based Multi-View , 2019

    該方法通過對場景的點云進(jìn)行處理,融合三維深度和二維紋理信息,提高了點云的重建精度。

    (3)基于網(wǎng)格

    我們知道之前的方法的缺點:

    ?基于體素,計算量大,并且分辨率和精度難平衡

    ?基于點云,點云的點之間缺少連接性,重建后物體表面不光滑

    相較而言,網(wǎng)格的表示方法具有輕量、形狀細(xì)節(jié)豐富的特點,重要是相鄰點之間有連接關(guān)系。因而研究者基于網(wǎng)格來做三維重建。我們知道,網(wǎng)格是由頂點,邊,面來描述3D物體的,這正好對應(yīng)于圖卷積神經(jīng)網(wǎng)絡(luò)的M=(V,E,F)所對應(yīng)。

    ?,用三角網(wǎng)格來做單張RGB圖像的三維重建,相應(yīng)的算法流程如下:

    –對于任意的輸入圖像都初始化一個橢球體作為初始三維形狀。

    –然后網(wǎng)絡(luò)分為兩部分:

    ?一部分用全卷積神經(jīng)網(wǎng)絡(luò)來提取輸入圖像的特征

    ?另一部分用圖卷積網(wǎng)絡(luò)來表示三維網(wǎng)格結(jié)構(gòu),

    –對三維網(wǎng)格不斷進(jìn)行變形,最終輸出物體的形狀。

    模型通過四種損失函數(shù)來約束形狀,取得了很好的效果。貢獻(xiàn)在于用端到端的神經(jīng)網(wǎng)絡(luò)實現(xiàn)了從單張彩色圖直接生成用網(wǎng)格表示的物體三維信息。

    03 總結(jié)

    傳統(tǒng)的三維重建算法可以分為:

    這些方法各自有各自優(yōu)點和使用范圍,簡要概括一下:

    而基于深度學(xué)習(xí)的三維重建算法研究主要有三種:

    ?在傳統(tǒng)三維重建算法中引入深度學(xué)習(xí)方法進(jìn)行改進(jìn)

    ?深度學(xué)習(xí)重建算法和傳統(tǒng)三維重建算法進(jìn)行融合,優(yōu)勢互補(bǔ)

    ?模仿動物視覺,直接利用深度學(xué)習(xí)算法進(jìn)行三維重建

    –基于體素

    –基于點云

    –基于網(wǎng)格

    交流群

    歡迎加入公眾號讀者群一起和同行交流,目前覆蓋SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、Re-id、強(qiáng)化學(xué)習(xí)、模型壓縮剪枝、醫(yī)學(xué)影像、GAN、算法競賽等微信群,請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

    投稿、合作也歡迎聯(lián)系:

    長按關(guān)注計算機(jī)視覺life

網(wǎng)站首頁   |    關(guān)于我們   |    公司新聞   |    產(chǎn)品方案   |    用戶案例   |    售后服務(wù)   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區(qū)    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權(quán)所有