多目標目標跟蹤綜述（一）

1。多目標跟蹤

多目標跟蹤處理的物件是影片，從影片的第一幀到最後一幀，裡邊有多個目標在不斷運動。多目標跟蹤的目的就是

將每個目標和其他目標進行區分開來，具體方法是給每個目標分配一個 ID，並記錄他們的軌跡。

剛開始接觸，可能覺得直接將目標檢測的演算法應用在影片的每一幀就可以完成這個任務了。實際上，目標檢測的效果是很不穩定的，其實

最大的區別

在於，僅僅使用目標檢測無法給物件分配 ID，並且跟蹤能夠最佳化整個跟蹤過程，能讓目標框更加穩定。

多目標跟蹤中一個比較經典的和深度學習結合比較好的方法就是 Detection Based Tracking，對前後兩幀進行目標檢測檢測，然後根據得到的前後兩幀的所有目標進行匹配，從而維持 ID。初學者接觸比較多的就是 SORT 和 Deep SORT 演算法了。

2. MOT16 資料集

MOT16 資料集是在 2016 年提出來的用於衡量多目標跟蹤檢測和跟蹤方法標準的資料集，專門用於行人跟蹤。官網地址是：

https：//motchallenge。net/

從官網下載的資料是按照以下的檔案結構進行組織的：

- MOT16 - train - MOT16-02 - det - det。txt - gt - gt。txt - img1 - seqinfo。init - MOT16-04 - MOT16-05 - MOT16-09 - MOT16-10 - MOT16-11 - MOT16-13 - test - MOT16-01 - det - det。txt - img1 - seqinfo。ini - MOT16-03 - MOT16-06 - MOT16-07 - MOT16-08 - MOT16-12 - MOT16-14

在 MOT16 資料集中，是包含了檢測得到的框的，這樣是可以免去目標檢測這個部分，提供統一的目標檢測框以後，然後可以比較目標跟蹤更關注的部分，而不用在花費精力在目標檢測上。

。 seqinfo。ini

在每個子資料夾中都有這個，主要用於說明這個檔案的一些資訊，比如長度，幀率，圖片的長和寬，圖片的字尾名。

［Sequence］name=MOT16-09imDir=img1frameRate=30seqLength=525imWidth=1920imHeight=1080imExt=。jpg

。 det。txt

這個檔案中儲存了圖片的檢測框的資訊（檢測得到的資訊檔案），部分內容展示如下：

1，-1，1359。1，413。27，120。26，362。77，2。3092，-1，-1，-11，-1，571。03，402。13，104。56，315。68，1。5028，-1，-1，-11，-1，650。8，455。86，63。98，193。94，0。33276，-1，-1，-11，-1，721。23，446。86，41。871，127。61，0。27401，-1，-1，-12，-1，460。48，442。1，90。896，274。69，0。26749，-1，-1，-12，-1，643。66，461。78，59。629，180。89，0。18023，-1，-1，-12，-1，1494。4，408。29，112。14，338。41，0。16075，-1，-1，-12，-1，572。83，364。89，128。96，388。88，-0。011851，-1，-1，-13，-1，1359。1，413。27，120。26，362。77，2。3387，-1，-1，-13，-1，571。03，402。13，104。56，315。68，0。79923，-1，-1，-13，-1，1482。5，390。88，128。96，388。88，0。35271，-1，-1，-1。。。600，-1，708。37，476。87，20。435，63。306，-0。1483，-1，-1，-1600，-1，421。14，446。86，41。871，127。61，-0。19971，-1，-1，-1600，-1，613。25，412。69，51。78，157。34，-0。38627，-1，-1，-1600，-1，375。27，454。06，48。246，146。74，-0。42444，-1，-1，-1

從左到右分別代表：

frame：第幾幀圖片

id：這個檢測框分配的 id，在這裡都是 - 1 代表沒有 id 資訊

bbox（四位）：分別是左上角座標和長寬

conf：這個 bbox 包含物體的置信度，可以看到並不是傳統意義的 0-1，分數越高代表置信度越高

MOT3D（x，y，z）：是在 MOT3D 中使用到的內容，這裡關心的是 MOT2D，所以都設定為 - 1

可以看出以上內容主要提供的和目標檢測的資訊沒有區別，所以也在一定程度上可以用於檢測器的訓練。

。 gt。txt

這個檔案只有 train 的子資料夾中有，test 中沒有，其中內容的格式和 det。txt 有一些類似，部分內容如下：

1，1，912，484，97，109，0，7，12，1，912，484，97，109，0，7，13，1，912，484，97，109，0，7，1。。。136，1，912，484，97，109，0，7，0。93878137，1，912，484，97，109，0，7，0。86735138，1，912，484，97，109，0，7，0。79592139，1，912，484，97，109，0，7，0。72449140，1，912，484，97，109，0，7，0。65306。。。338，1，912，484，97，109，0，7，0339，1，912，484，97，109，0，7，0340，1，912，484，97，109，0，7，0341，1，912，484，97，109，0，7，0。。。599，1，912，484，97，109，0，7，1600，1，912，484，97，109，0，7，11，2，1338，418，167，379，1，1，12，2，1342，417，168，380，1，1，13，2，1346，417，170，380，1，1，1。。。

從左到右分別是：

frame：第幾幀圖片

ID：也就是軌跡的 ID，可以看出 gt 裡邊是按照軌跡的 ID 號進行排序的

bbox：分別是左上角座標和長寬

是否忽略：0 代表忽略

classes：目標的類別個數（這裡是駕駛場景包括 12 個類別），7 代表的是靜止的人。

第 8 個類代表錯檢，9-11 代表被遮擋的類別

最後一個代表目標運動時被其他目標包含、覆蓋、邊緣裁剪的情況。

總結：

train 中含有的標註資訊主要來自 det。txt 和 gt。txt。test 中只含有 det。txt。

det。txt 含有的有用資訊有：frame， bbox， conf

gt。txt 含有的有用資訊有：frame，bbox， conf， id， class

output。txt（使用 deepsort 得到的檔案）中含有的有用資訊有：frame，bbox， id

3. MOT 中的評價指標

評價出發點

：

所有出現的目標都要及時能夠找到；

目標位置要儘可能與真實目標位置一致；

每個目標都應該被分配一個獨一無二的 ID，並且該目標分配的這個 ID 在整個序列中保持不變。

評價指標數學模型

：評價過程的步驟：

建立目標與假設最優間的最優一一對應關係，稱為 correspondence

對所有的 correspondence，計算位置偏移誤差

累積結構誤差 a。計算漏檢數 b。計算虛警數（不存在目標卻判斷為目標） c。跟蹤目標發生跳變的次數

參考資料

Evaluating Multiple Object Tracking Performance： The CLEAR MOT Metrics

。

https：//motchallenge。net/

https：//blog。csdn。net/u012477435/article/details/104158573