今日, 宣布推出 ,該工具結合計算機圖形系統和計算機視覺系統,可利用大量無標注數據,解決復雜 3D 視覺任務的數據標注難題,助力自監督訓練。
選自博客,作者: 、 ,機器之心編譯,參與:王淑婷、路。
近幾年,一種可以插入神經網絡架構中的新型可微圖形層( layer)開始興起。從空間變換器( )到可微圖形渲染器,這些新型網絡層利用多年的計算機視覺和圖形學研究知識來構建更高效的新網絡架構。將幾何先驗和約束顯式建模到神經網絡中交互式計算機圖形學 第六版 pdf,為能夠以自監督的方式進行穩健、高效訓練的架構打開了大門。
從高級層面來說,計算機圖形管道需要 3D 物體及其在場景中的絕對位置、材質描述、光和攝像頭。然后,渲染器利用該場景描述生成合成渲染。
相比之下,計算機視覺系統從圖像開始,推理場景的參數,對場景中的物體及其材質、三維位置和方向進行預測。
訓練能夠解決這些復雜 3D 視覺任務的機器學習系統通常需要大量數據。由于標注數據的過程既昂貴又復雜交互式計算機圖形學 第六版 pdf,因此設計能夠理解三維世界且訓練時無需太多監督的機器學習模型非常重要。
結合計算機視覺和計算機圖形學技術后,我們得以利用大量可用的無標注數據。如下圖所示,這可以通過合成分析( by )來實現:視覺系統抽取場景參數,圖形系統基于這些參數渲染圖像。
如果渲染圖像結果與原始圖像匹配,則說明視覺系統準確地抽取了場景參數。在該設置中,計算機視覺和計算機圖形學攜手合作,形成了一個類似自編碼器的機器學習系統,該系統能夠以自監督的方式進行訓練。
可微圖形層
接下來,我們將探索 的一些可用功能。更多詳情,參見 項目。
變換
物體變換控制物體在空間中的位置。如下圖所示,利用軸角度旋轉立方體。旋轉軸指向上方,旋轉方向為逆時針,使得立方體逆時針旋轉。以下 Colab 示例展示了如何在神經網絡中訓練旋轉形式,該神經網絡被訓練用于預測觀測物體的旋轉和平移。
這項任務是很多應用的核心,包括聚焦于與其環境進行交互的機器人。在這些場景中,用機械臂抓取物體需要精確估計這些物體相對于機械臂的位置。
建模攝像頭
攝像頭模型在計算機視覺領域中非常重要且基礎,因為它們對三維物體投影到圖像平面上的外觀有極大影響。如下圖所示,該立方體看起來可以放大和縮小,但是事實上這些變化僅僅是由于焦距產生的變化。
想了解攝像頭模型的詳情,以及如何在 中使用它們的具體示例,可以查看:
材質
材質模型( model)定義光與物體的交互過程,從而提供物體的外觀。例如,一些材質(如石膏)在各個方向對光進行反射,而鏡面等材質會對光進行鏡面反射。
在以下交互式 Colab 中,你可以了解如何使用 生成如下渲染。你還可以試驗不同的材質和光的參數,更充分地了解其交互過程。
準確地預測材質屬性是很多任務的基礎。例如,它可以讓用戶在自己的環境中放置虛擬家具,室內環境搭配家具的場景非常逼真,從而讓用戶準確地感知到這件家具的外觀。
幾何——3D 卷積和池化
近年來,以點云或網格形式輸出三維數據的傳感器逐漸成為我們日常生活的一部分,包括智能手機深度傳感器、自動駕駛汽車雷達等等。由于其結構不規則,在這些表征上執行卷積要比在規則網格結構上困難得多。
提供兩個 3D 卷積層和一個 3D 池化層,允許網絡在網格上執行語義部分分類(如下圖所示),更多信息參見該 Colab :
3d
視覺 debug 是評估實驗是否按正確方向運行的重要方式。因此, 配備有 插件,以便交互式地查看 3d 網格和點云。
開始項目
與 1.13.1 及以上版本兼容。API 和安裝說明參見:
原文鏈接: