農林漁牧網

您現在的位置是:首頁 > 畜牧業

DisARM:用於3D目標檢測的位移感知關聯模組(CVPR2022)

2022-04-03由 3D視覺工坊 發表于 畜牧業

相對位移怎麼理解

作者丨花椒殼殼@知乎

編輯丨3D視覺工坊

論文標題:

DisARM: Displacement Aware Relation Module for 3D Detection

作者單位:

國防科技大學

論文:

https://arxiv。org/abs/2203。00871

程式碼:

暫無

針對問題:

目標不完整,包含噪聲的時候是難以檢測的。

解決方法:

上下文資訊的融合是三維理解的關鍵,可以提高目標檢測效能。因此論文的重點就是如何利用上下文資訊來提高3D目標檢測的效能。同時為了避免冗餘的關係特徵對訓練的誤導和提取重要的資訊,從兩個方面選擇和收集最關鍵的上下文。

基本步驟:

1)透過一個3D backbone(VoteNet)生成一定數量的proposals (文中有的地方也成為anchor),此時proposals 較多

(2)對proposals 進行取樣,這裡使用了一種基於objectness分數的採用方式,objectness定義的方式可以往後看。

這一步取樣了一些更具代表性的proposals 。

(3)這裡將上一步獲得的proposals 成為Anchor,這裡開始考慮引入上下文資訊,計算不同的Anchor之間的權重,然後融合不同anchor之間的特徵,融合的權重有兩個部分組成,包括基於空間距離和特徵距離的權重。

這裡獲得了新的融合了上下文資訊的Anchor特徵。

(4)扔進檢測頭裡面獲得檢測結果。

3. DisARM module

3.1. Overview

本文提出了一種行動式網路模組,即DisARM,以有效地利用3D上下文,它可以很容易地與現有的目標檢測方法組合在一起,以提高效能。

在我們的案例中,我們認為在室內場景中檢測有用的上下文資訊需要滿足兩個條件:它可以反映物體之間的內在關係,並隱含地代表整個場景的佈局。因此,提出了一種雙向網路框架來有效地提取上下文資訊。如下圖2所示,DisARM的前一個模組對每個潛在目標提議學習到的深度特徵之間的關係錨進行取樣,後一個模組對每個提議在錨之間的相對位移進行編碼場景佈局。更具體地說,前者的核心是定位最具代表性和資訊量最大的關係特徵構造proposals,我們將這些選定的建議表示為錨點,後面的模組透過分析空間位移和特徵位移來計算每個錨的權重,實驗表明,本文提出的框架能夠有效地提取用於三維目標檢測的上下文,並且與其他現有框架相比,該框架的效能有顯著提高。

DisARM:用於3D目標檢測的位移感知關聯模組(CVPR2022)

3.2. Relation anchors

Initial proposals

採用VoteNet作為Backbone,產生proposals作為DisARM模組的輸入。也可以使用其他的backbones。每個proposals都用它的中心點表示。該特徵編碼器網路具有多層感知功能(MLP)層和具有跳過連線的特徵傳播層。輸出特徵f(pi)是一個F維向量,它是對支援proposals pi的每一票所學習到的深度特徵的集合。

Proposal objectness

如圖3所示,P的整個集合在某種程度上是冗餘的,並且包含大量不完整和無效的proposals ,考慮場景中所有可能的關係來構建上下文特徵是無效的,可能會引入過多的噪聲資訊。因此,設計有效利用這些關係的機制的關鍵是找到最具代表性和資訊量最大的關係。圖3只展示了Backbone給出的少數proposals 是完整的。我們引入objectness的概念來過濾不完整和有噪聲的資訊。

DisARM:用於3D目標檢測的位移感知關聯模組(CVPR2022)

給定一個proposals pi及其對應的特徵f(pi),我們將其objectness表示為o(pi)。計算objectness的網路模組是一個具有全連線層、sigmoid啟用和批次歸一化的簡單MPL網路。因為大多數資料集只將標註了場景中的有效物件的真值,我們將objectness損失定義如下:

DisARM:用於3D目標檢測的位移感知關聯模組(CVPR2022)

其中,χPgt(pi)為指示函式。如圖3所示,o(pi)可以表示給定提案的完整性,這對於定位提案錨點至關重要。

Anchor sampling 先選擇一個上一步中

objectness最高的proposals ,然後使用FPS採用,選夠M個,文中M=15。

DisARM:用於3D目標檢測的位移感知關聯模組(CVPR2022)

這裡FPS計算的是proposals 之間的特徵距離,直觀理解可能取樣出來的是最具代表性又各不相同的proposals 。

3.3. Displacement based context feature fusion

Spatial displacement

該proposal anchors可以有效地描述整個輸入場景的上下文。然而,他們對不同目標的檢測貢獻不應該是相等的,如下圖4所示:

DisARM:用於3D目標檢測的位移感知關聯模組(CVPR2022)

空間佈局模式可以有效地描述室內場景中具有代表性的子結構。因此,我們認為檢測的上下文資訊也應該根據佈局感知的空間位移分配權重。

我們認為,對於不同的空間佈局移,一個物體對不同的建議錨有不同的感知。例如,櫥櫃通常放在床的旁邊,椅子通常放在書桌或桌子的前面。這些模式可以透過建議錨對之間的空間佈局來反映。因此,我們將提案周圍不同位移的重要性視為位移權重,從而鼓勵網路給予不同程度的關注。具體來說,給定位置c(pi)的目標提案pi和位置c(pj)的提案錨點pj,

DisARM:用於3D目標檢測的位移感知關聯模組(CVPR2022)

他們的權重就是上面的計算方法,其實就是距離過一個MLP。

Feature displacement

與空間位移類似,在度量提議錨對的重要性時,也要考慮目標提議錨對pi和提議錨對pj給出的特徵位移f(pi)f(pj)。這裡的重點是,佈局模式有時是語義感知的。例如,浴缸的存在總是表示場景中的臉盆。這個特徵可以透過預先編碼的特徵f(pi)和f(pj)反映出來,因為具有相似語義標籤的物件在特徵空間上也很接近,反之亦然。因此,給定目標建議pi,pj,它們之間的特徵位移權重表示為dfeature(pi, pj) = σ(f(pi)f(pj)),其中σ是MLP網路給出的感知函式。

Aggregated weights

我們將空間位移權值dspatial(pi, pj)和特徵位移權重dfeature(pi)concatenate起來,將感知到的資訊融合在一起,然後將它們放入如圖2所示的MLP網路中。我們可以得到如下的最終彙總權重

DisARM:用於3D目標檢測的位移感知關聯模組(CVPR2022)

其中φ是由多個MLP層啟用的感知功能。為了進一步歸一化Panchor中pi與所有錨點之間的權值,最後採用softmax函式。

DisARM:用於3D目標檢測的位移感知關聯模組(CVPR2022)

最後,我們將用於檢測的目標建議pi的融合關係特徵ri表述如下:

DisARM:用於3D目標檢測的位移感知關聯模組(CVPR2022)

但很明顯,訓練f(·)、w(·)與尋找最優P anchor高度相關,是一個具有挑戰性的最佳化問題,我們提出了一個3階段框架來尋找最優的ri,在熱身階段,將w(pi,pj)設為非活動狀態,提出的模組專注於定位最優P anchor和訓練f(pi)。這個設計的重點是w(pi, pj)只有在網路已經能夠提取出一些合理的提案錨點的情況下才具有功能性,下一階段,我們凍結Panchor和f(pi)來最佳化w(pi)pj)。本設計將充分利用從現場提取的佈局資訊來衡量錨的重要性。在這兩個階段之後,w(pj, pj), Panchor和f(pi)一起進行微調,最終達到最優。

4。 Experiments