GaitSet:透過交叉視角步態識別

摘要

步態是一種獨特的生物特徵,可以在一定距離內被識別;因此,它在犯罪預防、司法鑑定、社會保障等方面有著廣泛的應用。為了描述步態,現有的步態識別方法要麼使用難以儲存時間資訊的步態模板,要麼使用保留不必要的序列約束從而喪失步態識別靈活性的步態序列。在本文中,作者提出一個新穎的視角,採用步態作為一套深,這意味著一套步態框架由一個全球性的本土整合融合深度網路受左,右半球處理資訊的方式學習資訊,可用於識別。基於這種深集視角,作者的方法不受幀排列的影響,可以很自然地將不同場景下獲取的不同影片幀進行整合,比如不同的觀看角度,不同的衣服,或者不同的攜帶物品的情況。實驗表明,在正常步行條件下,作者的單模型方法在CASIA-B步態資料集上的平均秩1精度達到96。1%,在OU-MVLP步態資料集上的平均秩1精度達到87。9%。在各種複雜的場景下,作者的模型也表現出高度的健壯性。在提包行走和穿大衣行走條件下,CASIA-B的準確率分別達到90。8%和70。3%,顯著優於現有的最佳方法。此外,該方法即使在測試樣本中幀數較少的情況下也能保持令人滿意的精度;例如,在CASIA-B上,即使只使用7幀,它也能達到85。0%。

程式碼連結:https://github。com/AbnerHqC/GaitSet

論文創新點

作者提出了一種端到端的深度學習模型,稱為Gaitset,從步態框架集提取特徵來識別步態。圖2為Gaitset的總體方案。作者模型的輸入是一組步態輪廓。首先,使用CNN從每個輪廓獨立提取幀級特徵(區域性資訊)。其次,一個稱為集池的操作用於將幀級特性聚合為單個集級特性(全域性資訊)。由於該操作使用的是高階特徵圖而不是原始輪廓,它比步態模板更好地儲存了空間和時間資訊;這方面在第4。5節中得到了實驗驗證。全域性-區域性融合深度網路類似於作者的大腦處理[11]資訊的方式。第三,應用水平金字塔對映(HPM)結構將集-水平特徵投影到一個更具判別性的空間,以獲得最終的深集表示。本文所提出的方法的優越性可以概括為以下三個方面:

靈活:作者的模型非常靈活,因為除了輪廓的大小,它沒有對輸入施加任何限制。這意味著輸入集合可以包含任意數量的非連續輪廓,這些輪廓是在不同的視點和不同的行走條件下拍攝的。

快速:作者的模型直接學習步態的深層步態表徵,而不是測量一對步態模板或序列之間的相似性。這樣,每個樣本的表示只需計算一次,透過比較不同樣本表示之間的歐氏距離即可進行識別。

有效:作者的模型顯著提高了CASIA-B[12]和OU-MVLP[13]資料集的最新效能,顯示出對觀察和行走條件變化的強大魯棒性和對大資料集的高泛化能力。

框架結構

GaitSet:透過交叉視角步態識別

GaitSet的框架。SP表示集合池。梯形表示卷積和池塊,在同一列中的那些具有相同的配置,如大寫字母的矩形所示。注意,儘管MGP中的塊與主管道中的塊具有相同的配置,但引數只在主管道中的塊之間共享,而不與MGP中的塊共享。HPP表示水平金字塔池化。

GaitSet:透過交叉視角步態識別

七個不同的集合池(SP)例項化。1_1C和cat分別表示1×1卷積層和連線操作。其中,n表示集合中特徵對映的數量,c、h、w分別表示通道數量、特徵對映的高度和寬度。a。三個基本統計關注和兩個聯合關注,b。畫素關注和c。幀關注。

GaitSet:透過交叉視角步態識別

水平金字塔的結構對映

實驗結果

GaitSet:透過交叉視角步態識別

結論

在這篇論文中,作者提出了一個新的觀點,將步態視為一個深度集,稱為步態集。與現有的將步態視為模板或序列的方法相比,本文提出的步態提取方法能更有效地提取空間和時間資訊。與其他現有的步態識別方法不同,GaitSet方法還提供了一種創新的方法,可以從不同序列中聚合有價值的時空資訊,以提高跨視角步態識別的準確性。在兩個基準步態資料集上的實驗表明,與其他最先進的演算法相比,GaitSet實現了最高的識別精度,結果表明,GaitSet在應用於各種複雜環境時表現出廣泛的靈活性和魯棒性,顯示了實際應用的巨大潛力。此外,由於set假設可以適用於各種其他生物特徵識別任務,包括人的再識別和基於影片的人臉識別,GaitSet的結構可以在未來應用於這些任務,很少有微小的變化。

論文連結:https://arxiv。org/pdf/2102。03247。pdf

每日堅持論文分享不易,如果喜歡我們的內容,希望可以

推薦

或者

轉發

給周圍的同學。