達摩院VQA首超人類，會帶給我們什麼？

自從2016年Alphago戰勝李世石後，全球許多科技巨頭都投入到AI的競爭中。我們也很快在我們的日常生活中用上了AI智慧音箱，接觸到AI智慧客服，用上了AI的人臉識別。

同時，眾多科技公司追求AI技術進步的腳步也從未停歇。2021年8月12日，阿里巴巴達摩院的AliceMind團隊重新整理全球最權威機器視覺問答榜單VQA（Visual Question Answering），並以81。26分的成績讓AI在“讀圖會意”上首次超越人類表現。

AI技術雖然發展很早，但是一度停滯了很多年，一直到新世紀深度神經網路復興，應用到AlphaGo上擊敗頂級棋手李世石，AI才開始重新進入快車道。

AI的機器視覺，是一個非常重要而且有實用性的分支，透過CNN卷積模型，AI在2015年實現了視覺分類超越人類。但是應用到真實世界，AI僅僅能識別是不夠的。

所以，全球計算機視覺頂會ICCV及CVPR從2015年起先後舉辦VQA挑戰賽，聚集微軟、Facebook、斯坦福大學、阿里巴巴、百度等眾多世界最強AI研究機構，形成了國際上規模最大、認可度最高的VQA資料集，對視覺-文字多模態技術進行攻關。

VQA測試，是給定一些圖片，然後用自然語言針對圖片中的內容提出問題，讓AI理解自然語言提出的問題，識別圖片，然後正確回答。

我們看VQA的一道試題，給定下面這張玩具的圖片，然後提出問題。

What are those toys there for？（這些玩具用在什麼地方？）正確答案是Wedding（婚禮）。

這個問題，對人類來說似乎不太難，但是對AI來說非常大的挑戰。

整個測試都是各種各樣不同的圖和各種各樣不同的問題，2016年水平的AI，在進行VQA測試的時候，分數很低，最高準確率僅能達到55%。

而經過多年的努力，2021年，阿里在這個測試中取得了非常好的成績，這是與微軟、Facebook、伯克利、百度等一流公司、一流大學、一流研發機構競爭，取得高分來之不易。

而且，這也是VQA測試以來，AI第一次超過人類水平，是標誌性的重大突破。

最近幾年，AI的成果一直在轉化，今天，我們用自然語言可以給智慧音箱下命令，讓AI像管家一樣幫我們控制聯網的家電。

這在短短十年前，都是科幻片的情景。但我們和音箱的互動技術主要是語音語義識別，仍然是單模態的。

那麼，這次阿里達摩院在VQA這個高難度領域突破，超越人類，又會給我們帶來什麼？

皇冠上的明珠

過去幾年，人類在AI上有很多突破，這些突破主要都是單模態的，也就是替代人類一種感官。譬如機器視覺用於人臉識別、物體識別。語音識別用於識別人類語音，判斷語義。這些都依賴深度神經網路的發展。

從DNN（深度神經網路）到RNN（迴圈神經網路），CNN（卷積神經網路），GAN（生成式對抗網路），Transformer（機器翻譯模型），AI在最近10多年中取得了巨大進步。

我們用上了智慧音箱，普及了基於AI技術的人臉識別，有了能夠交談的AI客服，但AI與人類跨模態的互動問題一直沒有解決。

VQA給AI一幅影象，一個用自然語言描述的問題，讓AI用自然語言回答，要求多模態的技術能力。

首先，要讓AI非常準確地理解影象和問題，這是第一步。

人類理解自然語言描述的一個問題，首先要懂語言，譬如一個英文問題，你先得懂英語才行。要懂英語，你得學單詞，背語法，瞭解固定搭配，知道句型。而AI要看懂也得經歷這個過程。除此之外，AI還要像人一樣擁有常識和推理能力。

就影象識別來說，目前人工智慧技術已經比較成熟，畢竟2015年AI已在影象分類上超過人類，識別單一物體人工智慧已經不再是難事。

但是對VQA任務來說，問題往往並不是關於整張圖片，而是針對圖片中某一個或者某幾個物體。人工智慧要根據對問題的理解，把目標物體從複雜影像中聚焦出來，這是第二步。

譬如，圖片中可能有10個人，VQA所提出的問題只與一個人有關，AI要從10個人中聚焦到問題相關的人，這就難了。

準確理解問題、聚焦資訊還不夠，還得根據問題的意思作出回答，你能夠聚焦出來一幅圖的重點物體是衣服，但是要回答的問題是衣服的文字代表什麼球隊。

因此AI還要學會推理，看衣服上什麼文字和球隊相關，然後根據球隊標識回答。

最後，AI推理完畢了，還要產生自然語言的回答。這才算是完成任務。

我們現在日常用的AI識別，還屬於感知級別的AI，譬如認個人臉，認個身份證，聽懂語音。而VQA是多種AI技術的整合，已接近認知層面，可以算AI技術皇冠上的明珠之一。

所以，一開始這類測試，儘管參加者都是世界一流的科技公司，大學，研發機構，但是得分都很低，後來一年年隨著技術和算力的進步才逐漸提升。

今天，阿里已經取得了80多分，超過人類的分數，這是非常不容易的。

攻克VQA難題

如同我們前面說的，VQA挑戰的核心難點在於，需在單模態精準理解的基礎上，整合多模態的資訊進行聯合推理認知，最終實現跨模態理解。

這相當於人類透過多個認知途徑獲取資訊，最後綜合判斷做出結論。

對於這個挑戰，阿里達摩院的NLP和視覺團隊聯手，對AI視覺-文字推理體系進行了系統性的設計，融合了大量演算法創新，做出一個整體的解決方案，具體包括四個方面：

一是先儘可能地提升單模態理解的精度。主要是對圖片識別的精確。阿里從多個方面刻畫圖片的區域性和全域性的語義資訊，同時使用Region，Grid，Patch等視覺特徵表示，更清楚的把圖片上的東西都識別清楚了，這樣可以更精準地進行單模態理解。相當於人類在識別物體的時候看得更清楚，為後續打下基礎。

二是做大量多模態預訓練。達摩院團隊基於海量的圖文資料和多粒度視覺特徵做多模態預訓練，用於更好地進行多模態資訊融合和語義對映，發展出了SemVLP，Grid-VLP，E2E-VLP和Fusion-VLP等預訓練模型。

這個相當於人類上學學基礎知識，你有了基礎知識，才能對看到的東西做個判斷，古代人不認識汽車，現代人因為學過什麼是汽車，所以看到汽車就知道這是汽車。計算機也得學習，多模態的預訓練就是這樣的學習過程。學習得越多，識別得越準。

三是研發自適應的跨模態語義融合和對齊技術，創新性地在多模態預訓練模型中加入Learning to Attend機制來進行跨模態資訊地高效深度融合。就是說AI不能只會掃描大圖，還要能聚焦到與問題相關的視覺資訊上。

四是採用Mixture of Experts （MOE）技術進行知識驅動的多技能AI整合。因為VQA本身是多模態的，人工智慧的神經網路當然不能只用一個，也得多個一起來，A神經網路適合算A，就去算A。B神經網路適合算B，就去算B。把這些神經網路整合起來，可以取得最好的效果。

至於看懂問題，阿里達摩院前身IDST早在2018年就在斯坦福SQuAD挑戰賽中歷史性地讓機器閱讀理解首次超越人類，當時轟動全球。2021年阿里開源了歷時三年打造的深度語言模型體系AliceMind，包含通用語言模型、多語言、生成式、多模態、結構化、知識驅動等領域，能力已經很全面。

所以，阿里VQA超越人類不是一朝一夕之功，而是多年技術積累的結果。

VQA的未來

AI技術史上許多不起眼的進步，最終都給我們的生活帶來了便利。自動駕駛的突破雖然沒有讓無人駕駛普及，但是自動泊車、自動跟車、高速路自動巡航已非常普及。

VQA技術擁有廣闊的想象空間，可以用於圖文閱讀、跨模態搜尋、盲人視覺問答、醫療問診、智慧駕駛、虛擬主播等領域，有可能將變革人機互動方式。

目前，VQA技術已在阿里內部應用於商品圖文理解、智慧客服等場景。

據報道，數萬家淘寶天貓商家開通了店小蜜客服VQA視覺問答功能，AI幫助提升了提問解決率，優化了買家體驗，降低了商家配置工作量。盒馬、考拉的客服場景，閒魚的圖文同款匹配場景也接入了VQA能力。

當然，這些VQA相關的應用僅僅是牛刀小試。

因為VQA其實並不是理解一張圖片那麼簡單。未來的人機互動輸入，可能不是圖片而是現實世界的影像。而解決方案，也未必是語言回答，也可以是控制行動。VQA的技術成熟以後，我們可以透過自然語言發出指令，讓AI在現實世界中完成更復雜的操作。

比如，我們給機器人下命令，機器人理解你的語言意圖後，然後掃描周邊環境，找到符合你意圖的東西，執行行動。

可能，未來有一天，你對機器人說，“給我洗衣服。”

機器人理解你的意圖，然後掃描房間內環境，聚焦到髒衣籃這個物體，移動到髒衣籃，然後聚焦到髒衣服這個物體，把髒衣服用機械手拿起來。

然後再聚焦到洗衣機這個物體，把衣服放進去。它透過常識和邏輯判斷洗衣機如何操作，給你完成洗衣、甩幹、烘乾，最後拿出衣服，聚焦到你的衣櫃，把衣服放進衣櫃整理好。

整個過程的識別都需要VQA技術作為基礎，這可能是VQA技術未來的一個應用方向。