NeurIPS 2021|AP-10K:學界最大動物姿態估計資料集問世,更多數量、更多種類、更多工

準確的動物姿態估計是理解動物行為的關鍵,它為諸如野生動物保護之類的許多下游任務創造了基礎。先前的工作只包含了有限的動物種類,忽略了動物的多樣性,這限制了神經網路的泛化能力。

最近,京東探索研究院聯合西安電子科技大學、悉尼大學提出了AP-10K[1]:第一個大規模的哺乳動物姿態資料集。

NeurIPS 2021|AP-10K:學界最大動物姿態估計資料集問世,更多數量、更多種類、更多工

論文連結

https://openreview。net/forum?id=rH8yliN6C83

AP-10K資料集:

https://github。com/AlexTheBad/AP-10K

NeurIPS 2021|AP-10K:學界最大動物姿態估計資料集問世,更多數量、更多種類、更多工

AP-10K中包含大約1萬張標記有姿態資訊的哺乳動物圖片,這些圖片從生物學的角度,又被歸納為23科,54個物種。我們在該資料集的基礎上研究了動物姿態估計問題,研究的問題包括:有監督學習下的動物姿態估計;人體姿態估計和動物姿態估計模型的遷移效能;屬於同科的物種和不同科之間的物種與泛化效能的關係等。這些實驗有力地證明了動物多樣性對有監督姿態估計問題帶來的準確率和泛化能力的提升。AP-10K資料集為動物姿態估計的未來研究開闢了新的方向。

目前AP-10K資料集已經整合到mmpose框架。

一、研究背景

姿態估計問題是一個很有應用前景的領域[2],它的目的是在識別目標的基礎上標記出一系列具有語義資訊的關鍵點。先前的工作主要關注的都是人體姿態估計問題,自2014年以來,已經有一系列人體姿態估計算法得到發表,人體姿態估計的效能也在不斷提升,典型的人體姿態估計模型有Hourglass,SimpleBaseline和HRNet。然而除了人體之外,自然界中還有豐富的動物類別,姿態估計算法對於動物姿態的識別效果如何?人體姿態估計的神經網路模型能在多大程度上遷移到動物姿態估計領域?目前對這些問題的研究還比較少。現有的研究建立了一些小規模的動物資料集,Horse-10和ATRW分別收集了基於馬和老虎的圖片資料,Animal Pose Dataset提出了一個包含5類動物(貓、狗、牛、羊、馬)的資料集。

一、研究背景

為不同種類的動物標記姿態不僅需要大量的人力工作,還需要生物學相關的領域知識作為標記依據。豐富的動物種類帶來的外貌和骨骼的差異性,使得標記動物的過程也會存在誤差。AP-10K資料集為解決上述問題邁出了建設性的一步。在AP-10K資料集中,我們類比人體關鍵點,同時考慮到不同動物的骨骼差異性,定義了17個關鍵點來描述不同種類的哺乳動物。這些關鍵點從動物的骨骼位置和運動特點角度作了權衡,最大程度上描述了這些動物的外形和運動特點。為了促進泛化效能的研究,

然而動物姿態估計的一個重要的問題在於:目前還不存在一個規模較大,動物種類豐富的資料集能夠用來作為基準,來驗證姿態估計算法的效能和泛化能力。

下圖展示了AP-10K的部分標記案例(圖1)。

NeurIPS 2021|AP-10K:學界最大動物姿態估計資料集問世,更多數量、更多種類、更多工

圖1 AP-10K的部分標記案例

我們將所有動物按照科和物種的生物學概念整理為了一個23科,54物種的集合。我們的實驗初步證明了,姿態估計模型對於生物學關係相近,外形相近的物種具有較好的泛化效能。

網際網路上已經存在了一些公開發布的動物圖片資料集,這些資料集中的大部分用於影象分類任務,充分利用這些資料集不失為一個較好的方法。我們以9個公開發布的動物資料集作為基礎,經過仔細清洗、鑑別、再組織和標記,構建了一個包含59658張圖片的動物資料集,在這裡不同的動物按照科和物種的生物學概念進行了最大程度的劃分,物種之間的生物學關係得到了更進一步的體現。在此基礎上,我們經過仔細分析和挑選,本著“每個物種選取200張作為基礎,稀有物種充分標記”的原則,對其中50類動物進行標記,最終得到了10015張包含姿態資訊的圖片。

二、資料集的構建和特點

NeurIPS 2021|AP-10K:學界最大動物姿態估計資料集問世,更多數量、更多種類、更多工

表1 17個關鍵點的定義

NeurIPS 2021|AP-10K:學界最大動物姿態估計資料集問世,更多數量、更多種類、更多工

圖2 黑猩猩圖片及其對應的標記

為了獲得高質量的標記效果。我們招募了13名志願者進行標記工作。

二、資料集的構建和特點

為了更進一步保證標註資訊的質量,我們採取了自動化和人工兩種校驗手段。其中自動化校驗是指用程式碼對於標記好的座標資訊進行檢查,去除一些低質量標記和錯誤標記。例如標記點落在檢測框外側,同一個例項出現重複的標記名稱等。人工校驗是指組織者和標記者進行了三輪檢查,這確保了高質量的標註資訊。三輪檢查過程如下:

· 首先,標記者在分配的標記工作完成後,將標記結果提交組織者進行檢查,組織者將檢查出的錯誤資訊反饋給標記者,這是一輪檢查;

· 標記者根據反饋的勘誤表對標記進行修改,並將二次修改結果反饋給組織者,這是二輪檢查;

· 最後組織者拿到二次標記結果,對於標記進行最後的檢查,如果發現錯誤就進行本地修改,這是三輪檢查。

經過上述三輪檢查,一批高質量的動物標註圖片就完成了。三輪檢查的過程如同TCP協議的三次握手一般,確保了標註過程的可靠性。

下圖展示了AP-10K資料集的特點(表2)和動物種類分佈(圖3)。由圖中可以看出,

下面展示了17個關鍵點的定義(表1)和一幅黑猩猩圖片及其對應的標記(圖2)。

值得一提的,AP-10K資料集的標記圖片具有長尾分佈的特點,比如對於貓科(Felidae)來說,一共有10個標記物種,1913張標記圖片。而河狸科只包含1個物種,178張標記圖片。這些特性對於小樣本學習、零樣本學習或者元學習等研究方向是很有意義的。

NeurIPS 2021|AP-10K:學界最大動物姿態估計資料集問世,更多數量、更多種類、更多工

圖3 動物種

類分佈

NeurIPS 2021|AP-10K:學界最大動物姿態估計資料集問世,更多數量、更多種類、更多工

表2 不同資料集的比較

我們首先對他們開展了動物標記概念的講解工作,其中特別強調了不同動物的外形特點對標記帶來的影響。然後我們又撰寫了詳盡的文件對於標記者可能遇到的標記狀況進行了詳細的解說,其中包括對於多個體、遮擋情況等情形的處理情況等。這些舉措保證了多個體、遮擋等有難度的少見樣本的準確標記效果,相關研究文章[3]已經證明了有難度的少見樣本對於姿態估計模型效能的重要性。

AP-10K資料集不論是在動物種類還是在標記數量均具有顯著優勢。

我們以每種動物為單位,對標記圖片按照 7:1:2 的比例將其隨機劃分為訓練集、驗證集和測試集,將這樣的過程重複三次,這樣我們就得到了三個訓練用的有監督學習資料集。我們測試了五種主流的姿態估計模型,它們分別是HRNet-w32[4],HRNet-w48[4],SimpleBaseline(ResNet50骨幹網路)[5],SimpleBaseline(ResNet101骨幹網路)[5]和Hourglass[6],然後又對比了使用流行的ImageNet預訓練模型和隨機初始化網路進行訓練的效果。實驗結果(mAP)表明:

三、實驗結果

NeurIPS 2021|AP-10K:學界最大動物姿態估計資料集問世,更多數量、更多種類、更多工

表3 五種主流的姿態估計模型的測試結果

除此之外,我們還探究了增加訓練的epoch會帶來怎樣的效果。我們設定了210,420和630的訓練epoch,對比了使用ImageNet預訓練和隨機初始化網路的訓練效果。實驗結果表明:

1. 有監督學習下的動物姿態估計

NeurIPS 2021|AP-10K:學界最大動物姿態估計資料集問世,更多數量、更多種類、更多工

表4 增加訓練的epoch帶來的效果

使用ImageNet預訓練比隨機初始化的效果要更好,ImageNet預訓練能夠提升上述5種模型的效能。隨著網路規模的增大,HRNet和SimpleBaseline的訓練指標也逐漸提升,這是因為大網路具有更好的表徵能力。

因為人和四足動物在身體結構上的相似性,於是我們猜想:

在開始階段,使用預訓練模型能夠提供一個更優的結果,我們認為這是因為使用預訓練模型能夠提供一個較好的初始解。而隨著訓練時間的增加,隨機化初始化的訓練效果也逐漸逼近使用預訓練模型的效果,這說明給予足夠的訓練時間,模型也能夠收斂一個更好的解。

,因此我們使用HRNet-w32模型,載入基於COCO的人體姿態預訓練模型,然後在AP-10K資料集上進行微調並測試。實驗結果(mAP)表明當訓練epoch較少時,訓練結果不夠好,這是因為動物和人在外形和紋理上有較大的差異性。隨著訓練時間的增加,微調的效果也逐漸增加,並顯著優於採用ImageNet預訓練模型進行訓練的結果。該結果證明了上述猜想並支援了以下結論:

2. 人體姿態估計模型的遷移效果

NeurIPS 2021|AP-10K:學界最大動物姿態估計資料集問世,更多數量、更多種類、更多工

表5 使用HR

Net-w32模型載入基於COCO的人體姿態預訓練模型。

一個基於人體姿態估計的預訓練模型可能會對大規模動物姿態資料集的訓練效果起到促進作用

人體姿態估計和動物姿態估計任務之間域間隔(Domain Gap)相比姿態估計任務和影象分類任務之間域間隔更小。

在科內實驗中,我們選取了三個數量最多的科(牛科,狗科和貓科)進行實驗。

3. 模型在科內物種和科間物種的泛化效能研究

在科間實驗中我們採用牛科作為訓練集,採用鹿科、馬科和猴科作為測試集。上述兩種實驗設定中我們均使用HRNet-w32載入ImageNet預訓練網路並保證了足夠的訓練代數。

科內實驗結果(mAP)表明,在三個不同科中,測試物種的分數雖然不如在第一部分中使用大量物種進行訓練的效果好,但是也能達到一個不錯的結果。這是因為

3.1 科內物種實驗和科間物種實驗

實驗結果中狗(Dog)的分數偏低,首先是因為相比狐狸(Fox)和狼(Wolf),狗(Dog)包含了更多的圖片。其次,狗(Dog)中包含了許多人工培育的寵物型別,它們的外形差異較大,類似的現象也存在於貓(Cat)中。我們針對狗科和貓科進行了更為細緻的科內物種泛化性實驗,相關結果可以參考論文補充材料中的實驗結果[1]。

NeurIPS 2021|AP-10K:學界最大動物姿態估計資料集問世,更多數量、更多種類、更多工

表6 科內實驗結果(mAP)1

NeurIPS 2021|AP-10K:學界最大動物姿態估計資料集問世,更多數量、更多種類、更多工

表7 科內實驗結果(mAP)2

NeurIPS 2021|AP-10K:學界最大動物姿態估計資料集問世,更多數量、更多種類、更多工

表8 科內實驗結果(mAP)3

科間實驗表明,使用牛科作為訓練集的模型在鹿科和馬科的泛化結果很好,但是在人科上泛化效果較差。因為牛科和鹿科、馬科的生物學關係相近,外形差異也較小。而人科物種和牛科的生物學關係較遠,外形和生存環境也差異較大,所以泛化效果不好。作為對照,表格最後一列使用了猴科作為訓練集來測試人科的物種,效能得到了大幅提升,這再次證明了我們的觀點:

在每科中,我們選取一個物種用作測試集而剩下的物種構成訓練集。

NeurIPS 2021|AP-10K:學界最大動物姿態估計資料集問世,更多數量、更多種類、更多工

表9 表格最後一列使用猴科作為訓練集來測試人科物種。

同科的物種在生物學關係和外形上具有高度的相似性。

在科間泛化實驗的基礎上,我們又進一步探究了少樣本學習和遷移學習帶來的效能提升效果。我們同樣採用牛科的圖片作為訓練集,然後在鹿科、馬科和人科的訓練集上進行微調,最後在這三科的測試集上進行測試。其中少樣本學習對每個物種抽樣20張進行微調,而遷移學習採用該物種的全部訓練集圖片進行微調。實驗結果表明

生物學關係和外形相似的物種,彼此之間的域差異也越小,這更利於姿態估計模型的泛化。

更多不同樣本數量設定下的少樣本學習結果可以參見論文補充材料[1]。

NeurIPS 2021|AP-10K:學界最大動物姿態估計資料集問世,更多數量、更多種類、更多工

表10 在鹿科、馬科和人科訓練集上進行微調並測試

3.2 科間的遷移學習和少樣本學習

我們對比了Animal Pose Dataset[7](包含5類動物)和AP-10K資料集的雙向泛化效果。我們分別對源資料集進行訓練,然後進行直接在目標資料集上進行泛化測試、微調並測試、訓練並測試三種實驗。實驗結果表明

少樣本學習和遷移學習的效果均相對於直接泛化測試有了不同程度的提升。即便是對人科這樣和訓練集差距較大的測試集,採用更多的圖片進行遷移也能得到效能的提升。

NeurIPS 2021|AP-10K:學界最大動物姿態估計資料集問世,更多數量、更多種類、更多工

表11 對比Animal Pose

Dataset和AP-10K資料集的雙向泛化效果。

下圖(圖4)第一行展示了HRNet-w32網路在Animal Pose Dataset上訓練後的測試效果,第二行展示了該模型在AP-10K上的訓練並測試效果,第三行是圖片的原標記。由圖中可以看出在AP-10K上的訓練效果不但更好,而且還能預測出一些未標記的關鍵點位置。

NeurIPS 2021|AP-10K:學界最大動物姿態估計資料集問世,更多數量、更多種類、更多工

圖4 HRNet-w32的測試效果對比

3.3 跨資料集測試

本文提出了

採用包含更多物種的AP-10K資料集進行(預)訓練的模型的泛化效能更好。

它的物種數量、姿態多樣性,以及按照生物學關係組織上的優勢可以極大的促進相關領域的研究,例如動物保護和動物行為研究等。我們採用了5種經典的姿態估計模型並測試了它們的在AP-10K資料集上的表徵能力,初步探究了動物和人體姿態估計之間的聯絡以及不同物種之間的泛化實驗。總得來說,AP-10K資料集為動物姿態估計領域提供新的測試基準。

為了便於大家使用,

四、結論和展望

,可以輕鬆實現文中提及的多種任務的訓練和測試。

AP-10K資料集下載地址為:

https://github。com/AlexTheBad/AP-10K

四、結論和展望

AP-10K:第一個大規模的哺乳動物姿態資料集。

[1]。 Yu H, Xu Y, Zhang J, et al。 AP-10K: A Benchmark for Animal Pose Estimation in the Wild[J]。 Advances in Neural Information Processing Systems Datasets and Benchmarks Track, 2021。

[2]。 Zhang J, Tao D。 Empowering things with intelligence: a survey of the progress, challenges, and opportunities in artificial intelligence of things[J]。 IEEE Internet of Things Journal, 2020, 8(10): 7789-7817。

[3]。 Zhang J, Chen Z, Tao D。 Towards high performance human keypoint detection[J]。 International Journal of Computer Vision, 2021, 129(9): 2639-2662。

[4]。 Sun K, Xiao B, Liu D, et al。 Deep high-resolution representation learning for human pose estimation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition。 2019: 5693-5703。

[5]。 Xiao B, Wu H, Wei Y。 Simple baselines for human pose estimation and tracking[C]//Proceedings of the European conference on computer vision (ECCV)。 2018: 466-481。

[6]。 Newell A, Yang K, Deng J。 Stacked hourglass networks for human pose estimation[C]//European conference on computer vision。 Springer, Cham, 2016: 483-499。

[7]。

https://sites。google。com/view/animal-pose/

[8]。

https://mmpose。readthedocs。io/en/latest/index。html

本文來自:公眾號【京東探索研究院】

作者:喻航

Illustrastion

b

y Tatyana Krasutskaya from

Icons8

-The End-

NeurIPS 2021|AP-10K:學界最大動物姿態估計資料集問世,更多數量、更多種類、更多工

AP-10K資料集已經整合到了mmpose[8]框架中

NeurIPS 2021|AP-10K:學界最大動物姿態估計資料集問世,更多數量、更多種類、更多工