深度學習中的物件識別

識別的物件是什麼選擇

對於初學者來說，區分不同的相關計算機視覺任務可能會具有挑戰性。

例如，影象分類是直接的，但是物件定位和物件檢測之間的差異可能會造成混淆，尤其是當所有三個任務都可以等同地稱為物件識別時。

影象分類涉及為影象分配類標籤，而物件本地化則涉及在影象中的一個或多個物件周圍繪製邊界框。物件檢測更具挑戰性，將這兩個任務結合在一起，並在影象中的每個感興趣的物件周圍繪製一個邊框，併為它們分配一個類別標籤。所有這些問題一起被稱為物件識別。

什麼是物體識別？

物件識別是一個通用術語，用於描述涉及識別數字照片中的物件的相關計算機視覺任務的集合。

影象分類涉及預測影象中一個物件的類別。物件本地化是指識別影象中一個或多個物件的位置，並在其範圍內繪製大量框。物件檢測將這兩個任務結合在一起，並對影象中的一個或多個物件進行定位和分類。

因此，我們可以區分這三個計算機視覺任務：

影象分類：預測影象中物件的型別或類別。

輸入：具有單個物件的影象，例如照片。

輸出：類標籤（例如，對映到類標籤的一個或多個整數）。

物件本地化：在影象中找到物件的存在，並用邊界框指示其位置。

輸入：具有一個或多個物件的影象，例如照片。

輸出：一個或多個邊界框（例如，由一個點，一個寬度和一個高度定義）。

物件檢測：使用邊框和影象中所定位物件的型別或類別來找到物件的存在。

輸出：一個或多個邊界框（例如，由一個點，寬度和高度定義），以及每個邊界框的類標籤。

這種計算機視覺任務分解的進一步擴充套件是物件分割，也稱為“物件例項分割”或“語義分割”，其中透過突出顯示物件的特定畫素而不是粗邊框來指示已識別物件的例項。

從這一細分中，我們可以看到物件識別是指一組具有挑戰性的計算機視覺任務。

影象識別問題中的大多數最新創新都是參與ILSVRC任務的一部分。

這是一年一度的學術競賽，針對這三個問題型別中的每一個，都面臨著單獨的挑戰，目的是在每個級別上促進獨立和單獨的改進，從而可以更廣泛地利用這些改進。例如，請參閱以下來自2015年ILSVRC審查論文的三種相應任務型別的列表：

影象分類：演算法會生成影象中存在的物件類別的列表。

單物件定位：演算法會生成影象中存在的物件類別列表，以及指示每個物件類別一個例項的位置和比例的軸對齊邊界框。

物件檢測：演算法會生成影象中存在的物件類別的列表以及指示每個物件類別的每個例項的位置和比例的軸對齊邊界框。

我們可以看到“單物件本地化”是更廣泛定義的“物件本地化”的簡化版本，將本地化任務限制在影象中的一種型別的物件上，我們可以認為這是一件容易的事。

農林漁牧網