達摩院VQA首超人類,會帶給我們什麼?

自從2016年Alphago戰勝李世石後,全球許多科技巨頭都投入到AI的競爭中。我們也很快在我們的日常生活中用上了AI智慧音箱,接觸到AI智慧客服,用上了AI的人臉識別。

同時,眾多科技公司追求AI技術進步的腳步也從未停歇。2021年8月12日,阿里巴巴達摩院的AliceMind團隊重新整理全球最權威機器視覺問答榜單VQA(Visual Question Answering) ,並以81。26分的成績讓AI在“讀圖會意”上首次超越人類表現。

達摩院VQA首超人類,會帶給我們什麼?

AI技術雖然發展很早,但是一度停滯了很多年,一直到新世紀深度神經網路復興,應用到AlphaGo上擊敗頂級棋手李世石,AI才開始重新進入快車道。

AI的機器視覺,是一個非常重要而且有實用性的分支,透過CNN卷積模型,AI在2015年實現了視覺分類超越人類。但是應用到真實世界,AI僅僅能識別是不夠的。

所以,全球計算機視覺頂會ICCV及CVPR從2015年起先後舉辦VQA挑戰賽,聚集微軟、Facebook、斯坦福大學、阿里巴巴、百度等眾多世界最強AI研究機構,形成了國際上規模最大、認可度最高的VQA資料集,對視覺-文字多模態技術進行攻關。

VQA測試,是給定一些圖片,然後用自然語言針對圖片中的內容提出問題,讓AI理解自然語言提出的問題,識別圖片,然後正確回答。

我們看VQA的一道試題,給定下面這張玩具的圖片,然後提出問題。

達摩院VQA首超人類,會帶給我們什麼?

What are those toys there for?(這些玩具用在什麼地方?)正確答案是Wedding(婚禮)。

這個問題,對人類來說似乎不太難,但是對AI來說非常大的挑戰。

整個測試都是各種各樣不同的圖和各種各樣不同的問題,2016年水平的AI,在進行VQA測試的時候,分數很低,最高準確率僅能達到55%。

而經過多年的努力,2021年,阿里在這個測試中取得了非常好的成績,這是與微軟、Facebook、伯克利、百度等一流公司、一流大學、一流研發機構競爭,取得高分來之不易。

而且,這也是VQA測試以來,AI第一次超過人類水平,是標誌性的重大突破。

達摩院VQA首超人類,會帶給我們什麼?

最近幾年,AI的成果一直在轉化,今天,我們用自然語言可以給智慧音箱下命令,讓AI像管家一樣幫我們控制聯網的家電。

這在短短十年前,都是科幻片的情景。但我們和音箱的互動技術主要是語音語義識別,仍然是單模態的。

那麼,這次阿里達摩院在VQA這個高難度領域突破,超越人類,又會給我們帶來什麼?

皇冠上的明珠

過去幾年,人類在AI上有很多突破,這些突破主要都是單模態的,也就是替代人類一種感官。譬如機器視覺用於人臉識別、物體識別。語音識別用於識別人類語音,判斷語義。這些都依賴深度神經網路的發展。

從DNN(深度神經網路)到RNN(迴圈神經網路),CNN(卷積神經網路),GAN(生成式對抗網路),Transformer(機器翻譯模型),AI在最近10多年中取得了巨大進步。

我們用上了智慧音箱,普及了基於AI技術的人臉識別,有了能夠交談的AI客服,但AI與人類跨模態的互動問題一直沒有解決。

VQA給AI一幅影象,一個用自然語言描述的問題,讓AI用自然語言回答,要求多模態的技術能力。

首先,要讓AI非常準確地理解影象和問題,這是第一步。

人類理解自然語言描述的一個問題,首先要懂語言,譬如一個英文問題,你先得懂英語才行。要懂英語,你得學單詞,背語法,瞭解固定搭配,知道句型。而AI要看懂也得經歷這個過程。除此之外,AI還要像人一樣擁有常識和推理能力。

就影象識別來說,目前人工智慧技術已經比較成熟,畢竟2015年AI已在影象分類上超過人類,識別單一物體人工智慧已經不再是難事。

但是對VQA任務來說,問題往往並不是關於整張圖片,而是針對圖片中某一個或者某幾個物體。人工智慧要根據對問題的理解,把目標物體從複雜影像中聚焦出來,這是第二步。

譬如,圖片中可能有10個人,VQA所提出的問題只與一個人有關,AI要從10個人中聚焦到問題相關的人,這就難了。

達摩院VQA首超人類,會帶給我們什麼?

準確理解問題、聚焦資訊還不夠,還得根據問題的意思作出回答,你能夠聚焦出來一幅圖的重點物體是衣服,但是要回答的問題是衣服的文字代表什麼球隊。

因此AI還要學會推理,看衣服上什麼文字和球隊相關,然後根據球隊標識回答。

最後,AI推理完畢了,還要產生自然語言的回答。這才算是完成任務。

我們現在日常用的AI識別,還屬於感知級別的AI,譬如認個人臉,認個身份證,聽懂語音。而VQA是多種AI技術的整合,已接近認知層面,可以算AI技術皇冠上的明珠之一。

所以,一開始這類測試,儘管參加者都是世界一流的科技公司,大學,研發機構,但是得分都很低,後來一年年隨著技術和算力的進步才逐漸提升。

今天,阿里已經取得了80多分,超過人類的分數,這是非常不容易的。

攻克VQA難題

如同我們前面說的,VQA挑戰的核心難點在於,需在單模態精準理解的基礎上,整合多模態的資訊進行聯合推理認知,最終實現跨模態理解。

這相當於人類透過多個認知途徑獲取資訊,最後綜合判斷做出結論。

對於這個挑戰,阿里達摩院的NLP和視覺團隊聯手,對AI視覺-文字推理體系進行了系統性的設計,融合了大量演算法創新,做出一個整體的解決方案,具體包括四個方面:

一是先儘可能地提升單模態理解的精度。主要是對圖片識別的精確。阿里從多個方面刻畫圖片的區域性和全域性的語義資訊,同時使用Region,Grid,Patch等視覺特徵表示,更清楚的把圖片上的東西都識別清楚了,這樣可以更精準地進行單模態理解。相當於人類在識別物體的時候看得更清楚,為後續打下基礎。

二是做大量多模態預訓練。達摩院團隊基於海量的圖文資料和多粒度視覺特徵做多模態預訓練,用於更好地進行多模態資訊融合和語義對映,發展出了SemVLP,Grid-VLP,E2E-VLP和Fusion-VLP等預訓練模型。

這個相當於人類上學學基礎知識,你有了基礎知識,才能對看到的東西做個判斷,古代人不認識汽車,現代人因為學過什麼是汽車,所以看到汽車就知道這是汽車。計算機也得學習,多模態的預訓練就是這樣的學習過程。學習得越多,識別得越準。

三是研發自適應的跨模態語義融合和對齊技術,創新性地在多模態預訓練模型中加入Learning to Attend機制來進行跨模態資訊地高效深度融合。就是說AI不能只會掃描大圖,還要能聚焦到與問題相關的視覺資訊上。

四是採用Mixture of Experts (MOE)技術進行知識驅動的多技能AI整合。因為VQA本身是多模態的,人工智慧的神經網路當然不能只用一個,也得多個一起來,A神經網路適合算A,就去算A。B神經網路適合算B,就去算B。把這些神經網路整合起來,可以取得最好的效果。

達摩院VQA首超人類,會帶給我們什麼?

達摩院VQA首超人類,會帶給我們什麼?

至於看懂問題,阿里達摩院前身IDST早在2018年就在斯坦福SQuAD挑戰賽中歷史性地讓機器閱讀理解首次超越人類,當時轟動全球。2021年阿里開源了歷時三年打造的深度語言模型體系AliceMind,包含通用語言模型、多語言、生成式、多模態、結構化、知識驅動等領域,能力已經很全面。

所以,阿里VQA超越人類不是一朝一夕之功,而是多年技術積累的結果。

VQA的未來

AI技術史上許多不起眼的進步,最終都給我們的生活帶來了便利。自動駕駛的突破雖然沒有讓無人駕駛普及,但是自動泊車、自動跟車、高速路自動巡航已非常普及。

VQA技術擁有廣闊的想象空間,可以用於圖文閱讀、跨模態搜尋、盲人視覺問答、醫療問診、智慧駕駛、虛擬主播等領域,有可能將變革人機互動方式。

目前,VQA技術已在阿里內部應用於商品圖文理解、智慧客服等場景。

據報道,數萬家淘寶天貓商家開通了店小蜜客服VQA視覺問答功能,AI幫助提升了提問解決率,優化了買家體驗,降低了商家配置工作量。盒馬、考拉的客服場景,閒魚的圖文同款匹配場景也接入了VQA能力。

當然,這些VQA相關的應用僅僅是牛刀小試。

因為VQA其實並不是理解一張圖片那麼簡單。未來的人機互動輸入,可能不是圖片而是現實世界的影像。而解決方案,也未必是語言回答,也可以是控制行動。VQA的技術成熟以後,我們可以透過自然語言發出指令,讓AI在現實世界中完成更復雜的操作。

比如,我們給機器人下命令,機器人理解你的語言意圖後,然後掃描周邊環境,找到符合你意圖的東西,執行行動。

可能,未來有一天,你對機器人說,“給我洗衣服。”

機器人理解你的意圖,然後掃描房間內環境,聚焦到髒衣籃這個物體,移動到髒衣籃,然後聚焦到髒衣服這個物體,把髒衣服用機械手拿起來。

然後再聚焦到洗衣機這個物體,把衣服放進去。它透過常識和邏輯判斷洗衣機如何操作,給你完成洗衣、甩幹、烘乾,最後拿出衣服,聚焦到你的衣櫃,把衣服放進衣櫃整理好。

整個過程的識別都需要VQA技術作為基礎,這可能是VQA技術未來的一個應用方向。