最全綜述|機器人語義建圖(上)

最全綜述|機器人語義建圖(上)

本文來源:智車科技

/

導讀

/

大家好,今天給大家帶來一篇移動機器人語義建圖的綜述,文章非常硬核,所以分為上下兩篇文章。

最全綜述|機器人語義建圖(上)

內容摘要

當代移動機器人技術的發展已經推動了一系列相關技術的進步。其中就包括語義建圖,它能提供對空間的抽象和人機交流的手段。最近語義建圖的各種引入和發展催生了這篇文章,文中對現有方法進行了明確地分析。對幾種演算法按照各自的主要特徵(即可擴充套件性、推斷模型、時間一致性和拓撲地圖的使用情況)進行了分類。語義地圖相關的應用也在文章開頭進行了概述,主要強調人機互動、認知表達和規劃能力。文中還詳細討論了目前公開可用的、適合用於評估語義建圖技術的驗證集和基準測試。最後,嘗試探討了開放性問題的解決方案。

關鍵詞:

移動機器人,語義地圖,拓撲地圖,時間一致性,物件識別,地點識別,人機互動,認知表達,規劃

最全綜述|機器人語義建圖(上)

引言

上面引用的比喻(見原文)被邏輯地理學的創造者用來解釋該術語(邏輯地理學)。但是今天的機器人專家已經意識到,他們面臨著與當地村民相同的問題,而另一種情況則相反。如今,人們可能會認為,SLAM問題已經被解決了,但這一過程(SLAM)的輸出只有當人們帶著羅盤和測量單元的時候才能使用。因此,移動機器人的行為就像機器製圖師,他們無法與當地村村民(即人類居民)交流,這些村民是憑藉習慣來在自己的環境中導航的(意思就是,人類憑藉經驗和習慣而產生的導航能力無法直接轉換成機器人建圖所需的精確、一致的方位和距離)。因此,現有大多數建圖方法致力於構建一個關於機器人工作環境的全域性一致的度量地圖。這些機器人配備了最先進的儀器,一方面可以構建地圖,另一方面可以確定自己相對地圖的定位,從而以驚人的精度確定自己的全域性位姿。基於這種能力,機器人可以規劃一條路徑並朝著一個目標前進,該目標也應該位於全域性地圖參考框架中的某個特定度量位置(即目標點應在所建地圖範圍內)。然而, 要讓機器人像人類那樣理解環境,從而能帶領一個陌生人從一個地方到另一個地方,需要一種完全不同的技能,它不同於任何幾何地圖所能提供的技能。未來的機器人應當具備以人為本地理解周圍環境的能力,即能夠辨別房間和走廊的不同,或者能區分廚房和客廳的不同功能。因此,透過涉及人類(認知)概念(如房間、物體的型別,以及它們的空間佈局)的語義屬性來形成擴充地圖,被視為未來機器人的必備屬性,這些機器人應被設計為能在人類居住的環境中運作。

語義建圖為該問題提供了一種解決方案,它提供了關於機器人周圍環境的定性描述,這些描述旨在增強機器人的導航能力、任務規劃能力以及彌補人機互動(HRI)方面的差距,參見[2-4]。特別是[4]的工作,透過使用自然語言解決了以HRI為重點的語義建圖,從而為機器人與人類的社交提供了最直接的方式。因此,語義建圖是一個蓬勃發展的前沿領域,催生了幾篇博士論文[5,6]。單詞semantic起源於希臘詞xxx,代表意義,它另一方面又起源於動詞xxx,意思是表示(signify),它又依次來源於名詞xxx,即sign(不看也罷,非母語者很難理解)。因此,語義學與符號和符號所指的事物之間的研究有關,這就是它們的意義。後者面向識別兩個或多個實體之間彼此互動、動作和處理的方式。因此,語義建圖的目標是:當機器人在人類居住的區域中漫遊時,識別和記錄含有對人類而言有意義的訊號與標誌。因此,語義地圖是一種對環境的增強表示,它同時包含幾何資訊和高層次的定性特徵。透過人工智慧體對自身環境的語義感知能力,和對學習到的空間記憶的精確回憶能力,可以建立人類和機器人之間基本的通訊聯絡。因此,對於一次成功的HRI,機器人必須保持對空間的認知解釋能力,即他們應該涉及有關物體和所遇到地點的語義屬性,並將這些屬性與對周圍環境的幾何感知建立聯絡。此外,存在於客觀環境中的語義資訊也需要以這種方式組織起來,人工智慧體能夠以該方式適當地感知和表示它所處的環境。組織所有這些資訊(語義+幾何)的最合適的方法就是使用地圖,即語義地圖。由於現代機器人是透過計算自身在度量地圖中的位姿來實現在所處環境中的導航,文獻中發表的大量語義建圖方法都採取了在度量地圖上新增語義資訊的方式。因此,語義地圖包含了高層次的特徵,這些特徵建模了人類關於地點、物體、形狀甚至所有這些物件之間關聯的概念,而(底層的)度量地圖則保留了機器人應該瞭解的所有幾何特徵,以實現在周圍環境中的安全導航。然而,應該進一步指出的是,語義建圖領域已經發表了一些工作,這些工作沒有使用度量地圖去確定地點的型別,特別是使用視覺的情況下[8,9]。

最全綜述|機器人語義建圖(上)

Fig。1。 語義建圖方法的分類。注意,度量建圖被視作語義建圖的補充屬性。

本篇綜述的目的在於,提供有關語義建圖的深刻理解,研究其中包含的不同元件,對相關文獻進行分類,提供在移動機器人領域可能的應用,以及最後,引出可用於基準測試的方法和資料庫。為了支撐這一目標,本文嘗試對現有建圖策略進行了基於質量的分類,分類應該突出這些方法保有的主導屬性。在Fig。1中對語義建圖方案所包含的最常見元件的分類做出了說明性的表示。這些主要特徵構成了生成完整語義地圖所應該滿足的條件,還沒有任何方案給出過這種條件。特徵之一是用來對觀測到的場景進行推理的模式,場景中包含易於區分不同方法豐富度的元素。具體地,許多方法只使用單一線索(如物體)來推斷一個地點,而一些其他方法則利用多條線索(如物體、地點和形狀等)來產生關於一個區域的語義線索。在許多語義建圖技術中頻繁出現的另一特徵是這種地圖所展現的時間一致性,這使得它在執行高階活動(如任務規劃或HRI)時非常實用。典型語義建圖方案所擁有的另一種重要屬性是存在各自的拓撲地圖,這是根據圖對探索環境的一種抽象。這種圖的節點以幾何方式組織起來,以便於同時儲存關於探索場景的概念認知。這些圖既可以是隻保留幾何特徵的無約束圖,也可以根據他們所包含的語義屬性擁有多個約束。探索環境(室內或室外)的2D或3D度量圖是作為一個補充元件而存在,它經常用於補充由符號學方法實現的屬性。根據每種方法被擴充套件的尺度,度量地圖既可以是一個單獨場景,也可以是一個漸進建立的地圖,即位姿分別以區域性或全域性座標系作參考。

最全綜述|機器人語義建圖(上)

發展歷程

在應用於機器人導航的幾種模式中,視覺佔據主導地位。這主要是因為學者們能夠將自己基於視覺的導航經驗直接複製到他們的實驗機上。[10]中對基於視覺的機器人導航的前二十年進行了綜述。這項工作是在十多年前進行的,它得出的結論是,儘管當時(2002年)對將移動機器人從一個座標傳送到另一個座標積累了足夠的專業知識,但仍不足以執行功能/任務驅動地導航,例如從大廳內的某個地方找到並帶回一個滅火器。此外,這篇文章還認為,如果機器人在一個導航正規化中需要意識到它所要操作物件的意義,那麼這種導航正規化是笨重、難以處理的。對於這種導航情況的任何解決方案都需要和計算機視覺的整體問題相關聯,即自動場景判斷。參考Kuipers的先驅性工作[11-13],在過去的十年中引入了幾種語義建圖和導航方案,以期填補這一空白。當然,為了讓機器人能夠高效地導航,必須建立一個一致的幾何地圖。因此,我們可以說,除非事先在SLAM領域取得進展,否則在語義建圖領域不會取得任何進展。在過去的幾十年間,在各自領域裡都進行了大量艱苦的研究,這些研究在移動機器人導航和建圖領域取得了顯著的成果[14]。為了精確定位自身[15,16],移動機器人構建了其工作環境空間佈局的一致表示。在[14,17-19]中發表的代表性工作,證明了準確表示機器人周圍環境與開發高效建圖方法的必要性。更準確地說,SLAM為這一問題提供瞭解決方案。透過SLAM,被放置在未探索區域中任意位置地點的移動機器人都可以逐步建立一個環境的一致地圖,同時同時確定自己在地圖中的位置。為了尋找該問題的有效解決方案,已經進行了一些成功的研究嘗試,它們的分析總結被髮表在一篇綜述中20,21。

最全綜述|機器人語義建圖(上)

Fig。 2。 (a)探索的室內環境的2D度量地圖例項,(b)對應的拓撲地圖和(c)混合拓撲-度量地圖,其中拓撲地圖中的每個節點都登記在佔用網格的特定空間區域。

然而,要想更深入地理解SLAM,需要進一步分解問題。根據環境感知方式,嘗試對現有的幾何建圖方案進行分類,可以分成三類,即度量、拓撲和拓撲-度量建圖。度量建圖由一種幾何表示構成,其中每個位姿都與一個全域性座標系嚴格相關。這通常表現為一幅3D或2D佔用網格,能滿足機器人的精確定位。此外,拓撲建圖涉及到一張(拓撲)圖,圖中的每個節點都對應真實環境中的一個不同地點[22,23],例如放置於車廂門上方的地鐵地圖。同一場景的度量地圖和拓撲地圖分別如Fig。2(a)和Fig。2(b)所示。最新的方法是拓撲-度量建圖,它由拓撲和度量建圖的組合構成,正如Fig。2(c)所展示的那樣。該方法有助於實現更加快速、精確地機器人定位。該方法早期引入了一種結合了度量和拓撲地圖的拓撲-度量方法,旨在重構連續-離散混合狀態空間中的機器人路徑[24]。在最近的一個方案中,SLAM問題是透過結合視覺迴環檢測與測量資訊(來源於實時生成的、關於未知環境的拓撲-度量地圖)來解決的。儘管迄今為止所開發的所有方法都被證明足以支援機器人導航到特定的目標位置,但它們缺乏適合於典型環境中作業的高層級屬性。因此,(研究內容)轉向構建具有認知能力的、以人類為中心的地圖是不可避免的。因此,機器人的當代(技術)趨勢是設計在人類環境中行為接近生物的智慧體。

最全綜述|機器人語義建圖(上)

語義地圖構建趨勢

3.1 基於規模的分類

最全綜述|機器人語義建圖(上)

Fig。3。 基於規模分類的圖形化表示。

由於在許多情況下,語義地圖都是建立在度量地圖之上的,因此可以基於底層方法保留的規模(即度量地圖的規模)對現有技術進行簡單的分類。因此,語義建圖正規化已經被應用於室內和室外情況,此外,為室內場景開發的方案還被進一步劃分為單一場景和大規模場景兩種。單一場景類涉及的方法,可以根據區域性座標系推斷例項框架,還能提供有關場景中被觀測物件的概念屬性。此外,大規模方法逐步構建一個關於全域性座標系的度量地圖,同時還標註了高層級特徵,如物件類別、地點標籤和形狀解釋。關於室外方案,值得注意的是幾乎沒有任何單一場景的方法。對文獻中發表的方法按照規模進行了分類,總結的結果如Fig。3所示,其中值得注意的是,大規模室內情況佔據了大部分研究內容。

3.1.1 室內單一場景解釋

最全綜述|機器人語義建圖(上)

Fig。4。 室內單一場景解釋的一個例項[33]。

Nielsen等人[26]將語義建圖近似為機器人和人類之間的介面。他們引入了單幀快照應用作為一種捕獲真實世界照片並存儲他們方法,以此擴充套件度量地圖。特別是地圖的改進是透過圖示或符號來完成的,從而提供了地點和感興趣物體的意義。在Kostavelis等人提出的早期工作[27]中,一種基於SVM的記憶演算法被用於語義推斷場景的可遍歷性。由於語義推理被區域性路徑規劃演算法進一步利用,該項工作適用於災後的室內環境。[28]中描述的方法利用了立體視覺,並且在影象平面上進行操作,以對場景的可遍歷性進行分類。值得注意的是,這項工作在室內和室外都表現出卓越的效能。Rusu等人[29]提出了一種室內機器人,它配備有一個立體相機和一個SICK鐳射掃描器,能夠對廚房內的物體進行推斷。該方法透過融合各種感測器輸入來獲取所感知環境的基本資訊,同時機器人還能從示範中學習。Viswanathan等人[30,31]提出了一種利用LabelMe資料集[32]來解決視覺位置識別問題的方案。LabelMe資料集是一個由使用者註釋影象組成的線上資料庫。在LabelMe中,使用者可以透過選擇一個多邊形區域,並將其與適當的標籤相關聯來標註影象中的物體。在近期的工作中,Trevor等人[33]透過RGB-D資料引入了利用關聯元件實踐的單一場景點雲分割。首先,對點雲資料進行平面分割,以區分場景中的主平面。然後,在彩色圖向上應用基於L2範數的聚類和關聯元件標記蒙版,以檢測桌面上的物體,如Fig。4所示。Swadzba等人[34]引入了適用於單個場景分類的空間3D特徵向量,該向量作用於預先捕獲的幀。在另一項單一場景解釋工作中,Mozos等人[35]使用了微軟Kinect感測進行視覺地點分類。此外,[36]的作者還利用視覺輸入來推斷在機器人探索過程中被檢測到的物體的類別標籤。對這條資訊進行分層融合處理,以進 一步根據現有物件刻畫觀測到的場景。

3.1.2 室內大規模場景解釋

最全綜述|機器人語義建圖(上)

Fig。5。 一個室內場景解釋的例項[40],其中對可使用物體進行了標註。

考慮到室內大規模場景解釋方法,人們可以根據感測器和構建度量地圖所用的策略來進行劃分。因此,文獻[37-41]採用了安裝在移動機器人上的鐳射掃描器來重建三維環境。更具體地說,Nüchter等人[37]利用了SICK鐳射掃描器來捕獲場景的360°地圖。透過語義標籤建立連續獲取的點雲的對應關係,然後透過迭代最近點(ICP)演算法進行配準,以獲得全域性一致的地圖。Blodow等人[38]以類似的方式,利用逐漸獲得的鐳射掃描(點雲)與2D-3D配準程式結合來形成度量地圖。分割技術被用於產生關於物體意義的初始假設,例如傢俱抽屜和門。Rusu等人[39,41]透過處理大型輸入資料集,並提取相關物體,擴充套件了幾何地圖。被建模的物體是專用於廚房場景的,如電器、櫥櫃、桌子和抽屜等,它們對於家庭助理機器人而言具有特殊意義。[40]中使用了結合旋轉單元和里程計估計的Hokuyo UTM-30LX測量,來構建探索環境的3D地圖。基於特徵的地圖包含水平表面(如桌子、架子或櫃檯等)的位置資訊,這些表面是在3D點雲中被檢測到的,如Fig。5所示,其中代表性平面區域以不同顏色顯示。此外,Trevor等人[42]利用GTSAM方法生成了探索環境的度量地圖。該方法定義了可用於SLAM和語義建圖的各種特徵型別。在一個對探索環境生成語義推斷的群體機器人正規化中,[43]的作者利用鐳射掃描器生成了一幅3D度量地圖。

最全綜述|機器人語義建圖(上)

Fig。6。 室內大規模解釋的一個例項[3]。

[3,44]中描述的方法都採用RGB-D感測器來獲取環境的3D地圖。在[3]中,採用分層策略建立了一個全域性一致的3D度量地圖。首先,使用視覺測程法對連續獲取的點雲進行合併,然後基於主導平面ICP配準進行細化。接著,採用結合SVM的特徵袋技術對多個不相似地點進行精準識別,如Fig。6所示。第二種基於RGB-D的方法[44]採用了SLAM6D工具包將下級點雲註冊到一致的全景點雲中。

與[40]類似,基於特徵的地圖採用了不同型別的傢俱及其位姿,而在這種情況下,透過傢俱各自的計算機輔助設計(CAD)模型,可以進一步增強效果。Civera等人[45]採用單目SLAM演算法來建立所感知環境的度量地圖。該演算法並行地執行基於EKF的單目SLAM和物件識別執行緒,並利用該執行緒對場景進行語義標註。

另一類室內大規模語義建圖方法是利用鐳射掃描器生成2D佔用網格建模,以探索環境。Mozos等人[46]利用了兩個裝配有SICK鐳射掃描器的不同機器人,利用CARMEN軟體模擬不同地圖中的鐳射掃描。此外,該方法使用AdaBoost將從距離資料提取出的簡單特徵增強為強分類器。進一步地,在[2,48,49,4]中提取了鐳射距離掃描的幾何基元,然後應用EKF來整合特徵測量結果。[50]中,作者採用一個裝配有2D鐳射掃描器的機器人,根據標準SLAM方法,構建了環境的佔用網格,並將其作為構建語義模型的基礎。所有這些方法所使用的幾何特徵都是線,它通常對應於牆壁和其它在鐳射掃描器所處高度以線段形式出現的直線結構。[2]中使用了一種圖模型表示語義資訊並實現了推理,而在[48]中則是使用了基於SVM的線索整合機制實現推理的。[49]中,利用有關現有物體的區域性和全域性資訊來擴充/增強所生成的地圖。Zender等人[4]以類似的方式分別透過鐳射和視覺資料來識別地點和物體,以增強所構建的度量地圖。此外,[51]捕獲鐳射掃描來檢測地圖中的轉換,然後在迴環檢測規則下將其合併到全域性度量地圖中。最近,Luperto等人[52]利用背靠背放置的鐳射掃描器來覆蓋機器人周圍360°的區域。然後在探索區域的語義劃分過程中使用這個度量地圖。Pronobis等人[43]提出了一種結合多種視覺與幾何資訊的多層語義建圖演算法。利用M空間特徵表示構建度量地圖。

相同室內類別的進一步分類包括利用立體視覺獲取場景深度資訊的研究工作,這些深度資訊隨後被用於解決SLAM問題,從而獲得全域性一致的度量地圖[54,55]。具體地,[54]中由SLAM生成的地圖利用物件標籤進行擴充/增強,這些標籤是透過SIFT特徵識別的。而在[55]中,透過在帶有文字標籤(如房間號和辦公人員姓名)的辦公室環境中引入文字檢測來對基於SLAM的地圖進行擴充套件。此外,Nieto-Granda等人[51]利用內置於ROS中的SLAM建圖模組(基於Rao-Blackwellized粒子濾波器技術),透過高斯模型將生成的地圖劃分成帶標記的區域。Feng等人[58]提出了一種室內環境下移動機器人定位框架,其中使用了單應性和匹配等概念,這些概念來源於立體影象檢索技術和基於內容的影象檢索技術。[59]中的工作利用視覺SLAM系統來建立一個大範圍度量地圖,其中包含了機器人在移動過程中觀測到的不同特徵的3D位置。

最後,值得一提的是,還有大量只關注語義建圖問題本身的其它論文,因此他們直接利用文獻中現有的度量地圖[60-63]。作者在[60]中提出了一種利用貝葉斯推理提取地圖平面輪廓的方法,該方法產生了一個定義於抽象的環境的機率生成模型。這項工作還增加了基於規則的上下文知識推理。Galindo等人[61]透過所謂的概念層次(其中的兩個一般類別是物體和房間)方法對於語義知識進行編碼。Fasola和Mataric[63]提出了一種允許服務機器人透過自然語言與人類交流的方法,朝著這個方向,他們還提出了一個空間介詞(prepositions)的語義場模型,該模型可以表示動態空間關係。在[64]中,作者以類似的方式假定了進行過相應縮放的環境的CAD模型,然而,他們利用機器人軌跡對探索過的區域進行語義標註。在[62]中,透過使用可穿戴反射視覺系統生成了室內環境的語義拓撲地圖。

3.1.3 室外解釋

最全綜述|機器人語義建圖(上)

Fig。7。 室外語義建圖重構的一個例項[69]。

為了應對室外場景語義建圖問題,已經提出了多種方法。其中一些工作在開環方式下推斷觀測場景的語義屬性。[28]中描述的方法利用立體視覺,並且在影象平面上進行操作,以對場景的可遍歷性進行分類。[65]中提出的方法利用多個感測器來分析場景的基本元素,如地面、植被、結構、障礙等。在[66]所引入的一種更復雜的方法中,作者對環境進行了大規模3D建圖。更確切地說,透過使用作用於立體影象的條件隨機場,對街道級影象進行了自動標記。同時,還將估計的標籤進行了聚類,進而以魯棒的方式對3D體積進行註釋。此外,在[67]中,作者將有監督多類高斯過程(GP)分類應用於3D點雲資料,以此處理場景的語義解釋。更具體地,先對3D點雲進行特徵提取和分割,然後將特徵向量餵給透過GP表示的隱函式。其中,GP是分類器的核。該方法的主要優點是,當3D點雲變得更稠密時,已分類場景物體的不確定性會減少。Steder等人[68]提出了一種基於3D距離資料的演算法,適用於可靠地檢測環境中曾訪問過的地方,並且同時計算對應幀之間的精確變換。它將用於迴環檢測的詞袋(BoW)模型和基於點特徵的相對位姿估計結合起來,以生成環境的一致度量地圖。該方法在地面和空中載具上均取得了顯著效果。類似地,在[69]中,透過直接分割幀來生成街道影象的語義標籤。然後將輸出結果與多個連續幀聚合,以生成一個大規模語義地圖,如Fig。7所示。Singh和Kosecka[70]利用瓢蟲多相機系統對街景影象進行遠距離語義建圖。他們用各自的標籤將室外場景集中到特定區域。他們還引入了一種資訊特徵來表徵感知環境的佈局,同時訓練了一個分類器來識別城市中心場景中的十字路口。在[71]所述的方法中,利用無人機(UAV)根據地面觀測進行語義推理。更具體地,設計了一種線上梯度增強演算法來互動解釋背景依賴檢測器,對車載相機影象進行影片域自適應的方法中會使用該檢測器。Katsura等人[72]提出了一種具有物件識別屬性的、基於視覺的室外導航方法。該系統的一大創新在於,識別部分在面對天氣和季節變化時能保持魯棒。作者提出了一種比較方法:機器人首先使用允許外觀變化的物件模型識別影象中的物件,然後將學到的識別結果和目標影象進行比較,以此獲得了很好的泛化能力。

3.2 拓撲地圖

度量地圖以幾何方式組織,因此有利於表示空間資訊,而相關的概念資訊仍然是隱藏的。揭示隱藏資訊的一種方法是將其組織成拓撲圖,即一張這樣的圖:圖中的頂點和邊分別對應位置和位置間的路徑。拓撲地圖這個屬於來源於拓撲學,一個研究形狀和空間的數學分支,特別是研究空間在連續變形下保持不變的屬性。因此,透過拓撲地圖的方式,環境應該被構建得既能夠保留曾訪問地點的分佈的幾何資訊,也能夠保留關於它們所屬類別的概念資訊。因此,這樣的圖構成了語義建圖的基本特徵之一,因為它們能同時抽象度量地圖和概念資訊。此外,拓撲地圖既可以是無約束的(保留空間和語義特徵),也可以根據其語義屬性(如當前訪問地點的不確定性,或者建圖區域間的轉換可行性)處理多種約束(如Fig。1所示)。

最全綜述|機器人語義建圖(上)

Fig。8。 與度量地圖相關聯的環境的拓撲地圖(包含機率性斷言)

對於無約束拓撲地圖,只要機器人走了一定距離或推理機制收斂到特定類標籤,就將該節點新增到地圖中。[61]中引入了一種層級式語義建圖方法,它透過拋錨(anchoring)建立空間和語義資訊之間的聯絡。此外,[51]在度量地圖的頂層構建了拓撲圖。圖中的每個頂點都代表一個語義結構或標籤,例如一個房間或走廊,而邊代表一個過渡點,例如連線兩個語義實體的門口。這種方法利用通道檢測(passage detection),試圖區分探索的地點。Ranganathan和Dellaert[9]利用物件識別來形成具有度量資訊的物件地圖。Viswanathan等人[73]在該工作的基礎上進一步開發出一種識別具有特定地點標籤(如“客廳”)的物件的技術。這些物件在空間排列上的聚類產生了一個圖,圖中的節點對應著對房間的記憶。在[74]中提出了一個類似的架構,儘管如此,註釋地點的界限(limits)並不統一。類似這個概念,Nieto-Granda等人[56]將空間自動識別和分類作用於單獨語義(高斯)區域,並使用這種資訊來生成環境的拓撲地圖。Vasudevan等人[54]提出了一種基於物件的分層機率空間表示。在這項工作中,提出了一種以物件圖作為區域性地圖的地點全域性拓撲表示方法。這些工作的先驅是[2,48,53,75,76],在這些先驅工作中,賦予了拓撲圖機率斷言(assertion),從而形成了更直觀的語義地圖,如Fig。8所示。此外,[3]中介紹了一種語義註釋的拓撲圖,它同時依賴幾何和認知約束來區分具有相同標籤的多個房間。[77]中提出構建保留全域性地標(landmark)的語義地圖,這種全域性地標類似於人類認知導航機制中的地標。

對於有約束拓撲地圖而言,他們通常透過導航圖進一步抽象。後者(導航圖)是語義註釋拓撲圖的概念表示,描述了被探索地點之間的連通性和過渡可行性。Mozos和Burgard[78]提出了這種近似,該近似提出了一種將探索地點的語義資訊和拓撲地圖結合起來的方法。具體而言,Adaboost被用作一種有監督學習演算法,用於將度量地圖分類到語義類(如走廊、房間等)中。之後,採用機率分割步驟來剔除分類錯誤,並透過結合幾何和語義知識來得到拓撲地圖。該地圖以一種圖的形式表達出來,圖中的節點和邊分別對應於語義標註的區域和它們之間的連線。此外,在[46]中作者採用了隱馬爾可夫模型(HMM)對拓撲圖中的節點進行語義推理。除此之外,在[4,49,79]中,還利用機器人軌跡,將度量線圖轉換為稀疏導航圖。每個節點都遵循特定的幾何約束被剔除,同時它還具有特定的地點標籤。門和通道包含有特定的節點,而整個地圖由更高層次的導航圖中推匯出的標籤進一步抽象。最後,在一個更現代的工作[80]中引入了一種稀疏拓撲地圖,圖中每個節點都帶有一個位置標籤。HMMs還用於構建增強導航圖,圖中保留了在機器人探索過程中被識別地點的物理約束連通訊息。

此外,在一個室外場景中[70],作者展示了不同語義概念的證據/線索是如何誘導/產生出實用的、可以輔助導航和定位任務的環境拓撲表示的。在[62]中介紹的正規化中,作者採用可穿戴折反射系統,透過對公式化馬爾可夫模型進行分組,來對拓撲地圖進行語義標記。

3.3. 時間一致性

最全綜述|機器人語義建圖(上)

Fig。9。 (a)疊加在機器人軌跡上的拓撲圖,其中軌跡被表示為現存節點間的最小生成樹;(b)歸一化時間調整矩陣,圖中根據它們(指量化中心)的類標籤和不同組之間的過渡對量化中心的劃分進行了標註。

時間一致性是各種語義建圖方法中的另一個共同屬性。既可以在度量地圖的構建過程中考慮時間一致性,也可以在模型的概念公式化(formulation,即用數學描述出來)過程中考慮它。Ranganathan在[81]中提出了利用時間一致性的模型概念公式化的正規化。(具體來說,)作者介紹了基於影象序列分割的地點標註(PLISS)方法,它具有兩種主要屬性:(i)直接對影片流進行操作,以利用幀的時間臨近性和推理場景的語義屬性;(ii)對沒有可用先驗知識的地點進行檢測的能力。在這項工作中,利用GP分類器來進行地點建模,並進一步利用產生的不確定性來檢測具有未知標記的地點。變動點檢測(change point detection)是透過將多元隨機波利亞(Polya)測量模型的投影應用到低維空間實現的,可以同時保證速度與精度。這裡有一種適用於語義建圖的純地點識別方法[82]值得一提,因為它採用整合了時間屬性的BoW。請記住,機器人獲取的幀具有較大的時間臨近性,這樣的方法可以提高機器人導航期間的地點識別效能。此外,在[38]中描述的一個例子中,在全域性度量地圖的點雲標註期間,使用了時間差配準來分割出傢俱朝向的正面。此外,Cadena等人[83]引入了一種檢測視覺記憶時間一致性的系統,以收斂於迴環檢測,從而促進了魯棒度量建圖。另一方面,由於在單個點/視角獲取的資訊幾乎無法提供足夠的證據來實現對地點或物體的可靠分類,因此在[2,48]描述的方法中支援所開發的系統應該擁有對(獲取資訊的在)空間和時間(維度上)進行整合的能力。因此,在學習機制的推理過程中,這些工作都考慮了投票操作。在另一項不同的工作中[62],作者利用機率模型下的地點標記結果來解釋/說明機器人軌跡上的時間一致性。在[46,80]中,以一種更復雜的方式使用了HMM,從而記錄探索地點間的時間臨近性/接近度和物理過渡性/空間連通性。具體來說,在[80]中,在兩個階段利用了時間臨近性:(i)在系統推理當前訪問的地點期間,考慮觀測幀的鄰域/相鄰幀;(ii)在機器人從一個特定識別地點前進到下一個地點的過程中,從而產生一個物理約束增強的導航圖。透過時間鄰接矩陣,Fig。9中視覺化地展示了時間臨近性。此外,Kostavelis等人[84]在機器人運動過程中利用了所獲取幀的時間臨近性。沿著這個方向(繼續研究),可以確定一個時間視窗,在該視窗內執行SVM推理模式期間的投票流程來標記觀測到的場景。

3.4. 基於線索的感知

最全綜述|機器人語義建圖(上)

Fig。10。 基於線索型別的感知。

語義建圖方法的一個原始意圖是用人類符號來表示周圍環境。也就是說,這種方法利用了地點和物體的識別與分類領域的大量研究,這些研究產生了顯著的結果,如[85,86]中描述的那樣。這些調查得出的解決方案足以應用於真正的機器人,以提高它們的導航和建圖能力。當代的建圖演算法具有地點和物體識別能力,使得他們能對觀測到的場景作出結論。這一事實包含了語義建圖問題的基本解決方案,並且開發的方法可能會整合單個或多個線索以獲得更加一致的解決方案。根據所使用線索的型別,語義建圖的分類概述如Fig。10所示。

3.4.1. 單線索推理

在這一類中,我們收集了所有具有同一特徵的方法,即它們都基於單一感知元件/成分(如地點、區域或物體)來對環境要素進行推理。這種元件的輸出通常用於標註機器人所觀測到的區域。根據感測器輸入和採用的(系統)架構,這類方法可以進一步被細分為基於場景標註和基於畫素級點雲標註兩種,如Fig。10所示。初步的結論是:畫素級點雲標註方法可以直接識別出一個地點,儘管它們利用了由各個感知機制捕獲的充足資訊。因此,它們必須以一種更加擬人化/類人化的方式來記憶知識,即物體的型別、特徵和功能等。

場景註釋:到目前為止提出的許多工作中,地點識別都被用作語義增強度量地圖的唯一屬性。Pronobis等人[8]提出了一種基於視覺資訊的地點識別判別方法。在SVM輔助下,一個全域性描述符直接作用於機器人獲得的影象上,產生了有意義的基於外觀的解釋。該方法在機器人平臺上執行,並在室內場景中進行了測試,(測試表明該方法)在地點識別問題上產生了顯著的結果。朝著相同的方向,在[87]中作者將SVM的一種增量擴充套件和能夠減少建立決策函式所需的支援向量數目的方法相結合,並且沒有任何效能損失。此外,在[83]中提出了一個立體視覺地點識別演算法,該演算法同時考慮了影象中感興趣點的外觀和幾何資訊。透過比較CRF來解決迴環驗證問題,這是演算法的重點。在[35]中,作者將深度和彩色影象變換為區域性二值模式直方圖,其維度根據統一的標準被進一步控制。在有監督方式下,同時在SVM和隨機森林上測試了這些直方圖的效能,結果證明其足以支援顯著地點識別。Wang等人[64]專注於開發一種特定描述符來對地點進行視覺辨識。該描述符透過凸包Census變換將影象特徵和彩色資訊整合起來,該變換之後會被用於SVM的有監督訓練。該方法適用於室內場景,並使用廣角相機拍攝的影象。Feng等人[63]從對比影象中提取興趣點,以提供影象內容的感知一致測量。透過對機器人在互相關下的行為進行建模來做影象匹配,從而確定興趣點的對應關係,然後(透過)RANSAC單應性最佳化準則(進一步篩選)。Fazl-Ersi和Tsotsos[88]利用方向統一模式直方圖,提供了強大的判別能力,並可以以競爭方式解決地點識別問題。在[59]中,作者提出了一種利用相機影象資訊在預構建地圖中標記區域的方法。該方法標記的是相機影象中可見的區域而不僅僅是當前的機器人位置。可見場景的標記被整合進一個CRF中,該CRF還考慮了鄰接(關係)和地點邊界。此外,在[3]中,推薦了一種新的基於外觀的方向直方圖方法,以解決地點分類問題。相同的解決方案在[80]中也被用於地點分類任務,以構建語義註釋的拓撲地圖,該地圖利用了機器人探索過程中產生標籤的時間一致性。在一個戶外場景中,Weiss和Biber[89]對場景做了粗略的分析,以構建可用於地點分類的特徵。該方法被證明能夠用預定義的地點型別對觀測場景進行語義標註。在面向群體機器人的方法中[90],作者提出了一種將目標地點自動分配給單個機器人的解決方案。他們採用透過AdaBoost方法學習的分類器來確定機器人應該去的地點的型別,該分類器還考慮了附近位置之間的空間依賴性。在拓撲-度量和語義地圖中使用群體機器人進行探索的問題也被Cowley等在[43]中解決了。在這項工作中,高度雜亂的環境會干擾那些僅依賴於 佔用網格邊界識別 和 以幾何特徵為關鍵的分類方法 的探索策略。

最全綜述|機器人語義建圖(上)

Fig。11。 透過將有意義的物件標籤分配到地圖中的各個位置,實現度量地圖和物件識別相結合的示例:(a)史賓機器人(robosapien)訓練時期的資料樣例;(b)探索環境的檢視;(c)生成的地圖,圖中對三個物體(□籃球,◇垃圾箱,▽史賓機器人)及其各自被觀測到的位置進行了標註。

關於物件識別,一個簡單的技術是在[49]中實現的,旨在構建一個機器人,它能夠在度量地圖上定位自己的位置、識別(行進)道路上的物體、並將其分配到地圖上。在一個更復雜的方法中[91],作者開發了一個由顯著性注意模型支援的物件識別演算法。具體來說,為了在現實世界場景中成功地進行識別,他們將peripheral–foveal視覺方法、自下而上的視覺顯著性與立體結構和度量地圖相結合。在計算圖上的物件識別過程的結果如Fig。11所示。在[54]中,提出了一種基於物件的分層機率空間表示。採用了一種基於SIFT的物件識別系統,同時使用立體相機捕獲物件、獲取其在度量地圖中的座標。Ranganathan和Dellaert[9]提出了一個使用物件作為基本表示單元的地點模型。利用立體距離資料計算物件的3D位置。此外,採用了Swendsen-Wang演算法(一種馬爾可夫鏈、蒙特卡洛聚類方法)來解決影象特徵與物件間的匹配問題。Jebari等人[92]利用BoW檢測和識別場景中的各種障礙。當一個物件被識別後,它就與所構建的語義地圖相關聯。此外,Civera等人[45]採用了一種物件識別策略,該策略透過搜尋SURF匹配並檢查它們的幾何相容性來告知序列中存在一個物件。被識別的物件被插入到度量地圖上測定的精確位置上,並因此(可以)在隨後的幀中透過SLAM演算法進行細化。

[69]分析了一種在室外場景下,根據多視角街景影象生成語義地圖的方法。用物件標籤(如車、人行道、建築等)對街道影象進行了增強,進而生成語義地圖。它首先利用CRF來對每一幀的影象分割建模,然後將分割的部分組合到定義於地平面上的一組連續影象上。此外,Swadzba等人[34]引入了3D空間特徵向量,即Gist特徵,它被發現適用於單獨場景分類。在一個更通用/一般的模型中,[72]中的作者提出在機器人導航過程中,透過表徵基於均勻化變化的檢測區域,對諸如天空、建築、地面等實體進行識別,這樣即使在不同的天氣條件下也能實現魯棒。

畫素級點雲註釋:這類方法具有對排列好的點雲進行語義劃分和標記的共同特點,其中點雲要麼直接從鐳射掃描器或RGB-D相機獲得,要麼根據立體影象計算得到。在各種情況下,3D資訊都可以按比例放大,以便於機器人定位。Trevor等人[33]專注於檢測放置在桌面上的物體,但這種方法保留了觀測場景的退化語義資訊。Nüchter等人[37]將獲取的3D鐳射掃描結果和語義特徵進行匹配。用語義資訊標註3D點的基本思想是利用相鄰點之間的梯度來區分地板點、物體點和天花板點三類。然後,這些特徵被用於連續圓周掃描(資料)的精確配準。在[39,41]中,重點研究了廚房環境中3D點雲資料的語義物件標註。假設了廚房的大部分表面是平面,因此3D點雲被分割成平面。計算出的幾何特徵進一步用於透過CRF實現的物件類別學習。在類似的工作中[40],引入了基於特徵的建圖技術,包含有地圖上水平面的位置資訊。產生的表面掃描結果被分析和分割成不同的表面,其中可能包含單個表面在多次掃描中的測量結果。在[50]中作者提出了一種利用貝葉斯推理從典型網格地圖中提取抽象平面圖的方法。透過這一過程,揭示了在抽象概念上定義的、環境的機率生成模型。採用多步RANSAC對點雲集進行過分割,而搜尋物件的匹配遵循幾何約束。Günther等人[44]引入了一個基於RGB-D的系統來重建點雲中的表面、檢測不同型別的傢俱以及估計它們的位姿。結果是生成了關於環境的一致網格表示,同時還利用檢測到的傢俱的CAD模型對網格表示進行了豐富。在[55]中,使用了霍夫森林(隨機決策迴歸樹的一種變體)來實現畫素級分類和對3D物件的位置和方向進行投票。Cadena和Koecka[93]將室內環境解析/劃分為地面、結構、傢俱和道具四類。因此,他們將場景中遇到的例項劃分為物件和非物件類別。同樣,該方法也是基於CRF實現的語義分割。

最全綜述|機器人語義建圖(上)

Fig。12。 室外語義建圖重構中畫素級點雲標註的示例:最上方用相關的類標籤描述了稠密3D語義重建(結果);中間展示了稠密表面重建,而下面則是其中一幅輸入影象[66]。

在過去,一些集中於室外場景的研究使用了畫素級點雲註釋技術。例如Wolf和Sukhatme[94]結合SVM與HMM來生成地形地圖和基於活動的地圖。對獲得的點雲根據其可導航性進行分割和註釋。此外,[71]中介紹的工作包括無人機採集資料的語義建圖。一旦建立了度量地圖,就會呼叫一組針對特定目標而設計、使用線上梯度增強的分類器。這些分類器幾何上適用於機載相機影象域,並被髮送回飛行無人機。另一種室外場景95利用立體影象對生成稠密深度地圖。反過來,使用來自立體視覺里程計的相機位姿,將這些深度圖組合到全域性3D重建中。與此同時,使用非引數場景分析方法的2D語義分割也被融合到3D模型中。在類似的方法中[66],深度地圖(由跨時間的立體對生成)以線上方式融合到一個全域性3D體中,以適應任意長的影象序列。使用利用立體影象的CRF策略自動對街面影象進行標記,同時對標記估計值進行合併以標註3D體積,如Fig。12所示。

3.4.2 多線索推理

最全綜述|機器人語義建圖(上)

Fig。13。 一幅標註有線索(語義標籤)的度量地圖,其中線索是從張貼在牆上的標誌中讀取的[55]。

雖然在前一段中提到的許多技術都依賴單線索推理,但也有足夠數量的應用利用了多線索所來得出語義結論。這些方法要麼結合了不同(感知)模式來理解機器人的周圍環境,要麼利用相同感測器輸入的多種感知方法來對觀測場景進行推理。現有的方法結合了人的概念,如地點、物體的型別,甚至這兩者的幾何,導致了度量地圖增加了語義資訊。[96]中描述了一種利用視覺資料來產生用於語義地點識別的多線索的方法的例子。(文中)提出了一種遷移學習策略,它使機器人能自主決定其內部知識是否對一個沒有先驗資訊的地點有效。Krishnan和Krishna[51]採用了兩種不同的(感知)模式來產生語義線索,即2D鐳射掃描和彩色影象。鐳射掃描可以探測所探索區域中的過渡區域,而彩色影象則是透過BoW機制來進行地點註釋和迴環檢測。在一些論文[73,76]中,同時使用了視覺地點和物體識別(出現頻率)以構建一個空間語義模型。具體而言,在[76]中作者使用語義地圖來搜尋基於計劃規則下的記憶物件。Viswanathan等人[30,31]結合影象的區域性和全域性特徵,對觀測場景進行語義推理。這是一種以物件為中心的方法,融合了室內場景中的全域性屬性,並在地點識別中取得了良好效果。除此之外,Ko等人[77]利用地點分類和物件匹配技術構建了一致的語義地圖。幾何資訊也被用於增加被檢測物件間的空間關係。Trevor等人[42]透過使用各種特徵型別作為地標來生成語義地圖,所採用的特徵型別包括平面如牆、桌子和置物架,以及物體如門標誌。這項工作還調查了這些地標可以被人類選擇性標記以供之後參考的方面。此外,Blodow等人[38]利用鐳射資料首先提取廚房環境中平面相關的幾何資訊,然後推理有組織點雲內的物體標籤。此外,在[74]中嘗試建立起機器人感測器、物件和地點之間的聯絡。它採用了一種地點分類演算法,該演算法在物體識別演算法的輔助下,透過樸素貝葉斯分類器增強關於地點的語義知識。類似地,Anand等人[97]提出了一種對基於RGB-D資料的3D點雲進行語義標記和搜尋(的方案)。對於RGB-D資料的情況,Kostavelis等人[84]利用視覺詞彙進行地點識別,利用分層時間網路結合注意力模型進行物件識別。在決策演算法下,這兩種線索被融合到一起,從而對機器人所處位置進行語義推理。該方法利用2D影象來檢測物件,並利用相應的深度資料得到其形狀資訊。[55]中討論的方法側重於建立帶有文字資料的語義地圖,包括房間號、人名和其他與房間和辦公室相關的書面/文字描述。機器人捕獲走廊的圖片,並查詢訓練好的文字檢測器來對影象區域進行分類。透過使用深度資料,將檢測到的標誌以特定方向放置在度量地圖中(參見Fig。13)。此外,在[36]中,作者引入了一種生成機率分層模型,其中物件類別分類器用於將低階視覺特徵與物件相關聯,上下文關係(contextual relations)用於將物件與地點相關聯。透過使用3D距離感測器提高了檢測精度,該感測器允許開發的注意力機制成功地回憶起幾何和結構資訊。在更復雜的工作中,如[2,48,79]中所述,作者利用多感測器來推理場景的不同特徵。例如,地點和物體識別是透過視覺進行的,而房間的形狀則是利用鐳射掃描器提取的。所有保留的概念(即前邊提取到的概念資訊)在廣義SVM模型下進行融合,以生成關於探索區域的機率推理。Pronobis等人[53]也使用了類似的策略來構建語義地圖,圖中包含了環境中物體的存在性資訊,以及有關空間拓撲和語義屬性的知識,如房間尺寸、形狀和一般外觀。在另一項研究中,Luperto等人[52]假設機器人作業所處的建築(即機器人的工作環境)具有特定的型別。在這種方式下,通過了解機器人作業所處建築的型別,可以選擇正確的分類器。(這一過程)利用了兩種不同型別的特徵:一種是描述地點形狀的特徵,一種是表示建築結構以及房間與環境其它部分之間關聯的特徵。當然,為了獲得這些資訊,必須事先了解建築物的情況。在[62]中,作者提出了一個有趣的思路來增加典型室內拓撲地圖的語義資訊。在這項工作中,考慮了室內區域的基本型別,如地點(即房間等)和過渡點(即門等),以完成對環境的語義分割。

最全綜述|機器人語義建圖(上)

Fig。14。 (a)根據推理型別(單/多(線索))和執行環境(室內/室外)對各種方法所做的劃分圖示,以及(b)根據推理型別(單/多(線索))和是否涉及拓撲地圖或時間一致性對各種方法所做的劃分圖示。

(對前文)所提及的方法按照推理型別和操作環境(所作)的分類(結果),以及按照推理型別和時間一致性或拓撲地圖的存在性(所作)的分類(結果),分別如Fig。14(a)和(b)所示。

- End -

▎最新熱文

首個L4級自動駕駛系統ISO安全標準最新發布!

剛剛小鵬G3i釋出| 除了外觀和內飾,一文讀懂小鵬G3i智慧駕駛的三大賣點

免責宣告:

凡本公眾號註明“來源:XXX(非智車科技)”的作品,均轉載自其它媒體,轉載目的在於傳遞和分享更多資訊,並不代表本平臺贊同其觀點和對其真實性負責,版權歸原作者所有,如有侵權請聯絡我們刪除。

最全綜述|機器人語義建圖(上)