AI與人類一起“打工”,靠譜麼?

AI與人類一起“打工”,靠譜麼?

AI與人類一起“打工”,靠譜麼?

隨著技術的更新迭代,數字人進入3。0時代,擁有更加高精的模型,並且能透過人工智慧的驅動,提供專業的、個性化的服務。如今的虛擬人也能夠滲透到更豐富的場景中,為觀眾和消費者帶來新的內容和體驗。《部落格天下》採訪了百度智慧雲數字人相關負責人,深入瞭解當前數字人的發展情況,探討百度智慧云為數字人行業帶來的改變。

AI與人類一起“打工”,靠譜麼?

出品 | 部落格

天下品牌觀察組

作者|魏僑

編輯 | 潘冬妮

“還有什麼是AI幹不了的?”

7月21日,2022百度世界大會上,AI數字人希加加與撒貝南搭檔主持,今晚還要與《沉香如屑》主演成毅跨時空連線對話,AI數字人度曉曉和龔俊數字人秒懂小撒粵語點咖啡需求……似乎正如世界大會喊出的口號所言,人均一個數字人的時代已經到來。

AI與人類一起“打工”,靠譜麼?

2022百度世界大會直播截圖

這已經不是數字人第一次進入大眾的視線了,

6月19日,北京國際電影節宣佈虛擬偶像“梅澀甜”擔任本屆電影節元宇宙推介官,訊息一經發布,就在社交網路上引發了熱烈討論。

網友們爭執的焦點大多集中在,海報中梅澀甜的外形與其所代表的“未來感”相去甚遠。大眾注意力仍然聚焦在其外貌特徵上,認為“沒有必要用一個審美落後的虛擬形象”來作為宣傳噱頭。

今年5月虛擬偶像團體A-SOUL的珈樂終止活動,揭開了虛擬主播由“中之人”扮演的幕後規則,不禁令人深思——虛擬偶像的“虛擬”是否只是一層皇帝的新衣?

隨著數字人科技的發展,事實上,並非所有的數字人都需要真人扮演。同樣在5月,國際博物館日當天,百度智慧雲曦靈提供獨家技術支援,與中國文物交流中心、極幕科技共同打造的首個文博界虛擬宣推官“文夭夭”正式釋出。

無獨有偶,6月百度APP推出的虛擬AI助手度曉曉風頭正勁,先是40秒創作40篇高考作文,並獲得48分的高分,又用幾十秒創作了4幅畫,亮相西安美術學院畢業展,還與百度App代言人龔俊的數字人一起釋出了新歌《每分每秒每天》。

AI與人類一起“打工”,靠譜麼?

《每分每秒每天》歌曲宣傳海報

顯然,有前沿的AI技術作為保障,百度智慧雲在數字人的生產開發、創作運營上都取得了飛躍式的突破。據悉,文夭夭、度曉曉、希加加,他們之所以能夠擁有流暢的“聽說讀寫”等AI能力,均依託於百度智慧雲去年釋出的數字人平臺“百度智慧雲曦靈”。

從虛擬女團A-SOUL、阿里虛擬偶像AYAYI、抖音虛擬達人柳夜熙,到央視網數字虛擬小編小C、湖南衛視虛擬主持人小漾等等,大眾往往只聞其名,並不瞭解他們是如何產生、如何活動的。

日前,《部落格天下》走進百度,與百度服務型數字人產品業務負責人侯浩進行了交流,深入瞭解當前數字人的發展情況,探討百度智慧云為數字人行業帶來的改變。

創造00後數字人

2022年的國際博物館日(5月18日),由百度智慧雲提供獨家技術支援,聯合中國文物交流中心、極幕科技精心打造的國內首個文博虛擬宣推官“文夭夭”正式亮相。

這個畫著唐代花鈿妝容、梳著雙髻丸子頭、身著一席淡雅長裙、行走在數字化博物館中的少女,不僅親和靈動,還通曉古今。未來在博物館、考古現場、文物修復現場等等,是否也能看到夭夭靈動的身影,充滿了想象與期待。

AI與人類一起“打工”,靠譜麼?

首位文博虛擬宣推官 文夭夭

“文夭夭是持證上崗的。”在接受《部落格天下》專訪時,侯浩說道。

作為文博界的首位虛擬宣推官,文夭夭跳脫了常見的“賽博朋克風”或“盛世美顏系”,以00後大學生結合國風造型的親民形象,樹立了獨樹一幟的IP標籤。

文夭夭的雙丸子頭源自古代少女髮型,同時在髮型後部增加了現代編髮;妝容融入唐代盛行的花鈿裝飾,彩色眼線、粉嫩面板,整體呈現出少女的清新可愛,更符合現代審美;服裝細節運用了盤扣立領的古典元素,顏色清新淡雅,材質上則營造出流光溢彩、富有未來感的效果;腰間配飾的造型源自唐代葡萄花鳥紋銀香囊,象徵著她文博宣推官的身份。

值得一提的是,扇子的元素在文夭夭的形象設計中貫穿始終。

扇子不僅是她拿在手中的重要配飾,如果仔細分辨服裝細節,還能發現上衣遍佈扇子形狀的圖騰暗紋。領口的盤扣用兩個扇子拼接,形成一個領口的裝飾品;耳墜結合了扇子的百褶以及花朵的曲線;腰間的腰帶裝飾也融入了扇子設計。

AI與人類一起“打工”,靠譜麼?

首位文博虛擬宣推官 文夭夭

“文夭夭裙子、袖口的百褶,都取自摺扇的輪廓,做得很細緻,體現出科技與文化的交融。”侯浩告訴《部落格天下》。

從古至今,中國的扇文化底蘊深厚,歷來有“制扇王國”之稱,扇子是貫穿中國歷史的標誌性文物。在外交場合,扇子常常被作為國禮相贈,文夭夭也將帶著象徵禮儀之邦的文化符號,跟隨國家級的展覽赴海外出訪交流,傳播中國文化。

另一方面,“扇”是“善”的諧音,也寓意著文夭夭的善良單純,“手執一扇,求的是自我本心,念念向善。”

據侯浩介紹,“數字人的生產過程,先進行原畫設計,包括人像、衣服、髮型、妝容,以及臉部特徵等,然後做模型繫結,類似給木偶穿線,形成骨骼,最後在平臺上完成配置和渲染,一個數字人便生產出來。”

侯浩口中的“平臺”,就是“百度智慧雲曦靈”平臺,作為一個可以全鏈路生產數字人的平臺,百度智慧雲曦靈最大程度地簡化了數字人的設計難度,降低了數字人的創作門檻。

AI與人類一起“打工”,靠譜麼?

後臺運營圖

生成數字人形象後,平臺內建表情庫、動作庫。這背後是大量的動作捕捉與資料收集,經過長期的綜合分析,形成自然、接近真實的表情和動作。例如當工作人員輸入一段文字,輔以與內容相應的表情動作,一段簡單的數字人播報影片就生成了。除了AI自主驅動之外,百度智慧雲曦靈平臺也支援真人動作捕捉以及面部捕捉。

在百度智慧雲曦靈平臺上,一張照片或者一段影片就可以製作一段數字人影片。使用者照片上傳之後,平臺對照片進行解析,摘取特徵元素之後建模和重組,形成數字人模型的底版。相比市場上良莠不齊的換臉、建模軟體,百度智慧雲曦靈平臺有更高的精確度和流暢度。

跨模態的情感互動

相比線下人工講解員,文博數字人可跨越時空限制,以多個“數字人分身”服務數十上百家博物館。

再者,運用數字人的優勢在於,省去了長年累月學習積累知識的過程,未來打造文博行業的數字人只要接入知識庫,並不斷升級,各件文物的歷史、藝術、科學價值都能如數家珍,上下五千年浩如煙海的歷史都將信手拈來。

在錄入必備的文博知識之外,同時也有大量開放性知識,共同生成數字人的知識儲備,兼具專業性與多元性。開放性知識基於百億級訓練引數的開放域對話模型PLATO-XL,引數達到了 110 億,被認為是當前最大規模的中英文對話生成模型。

在使用者與數字人的交流過程中,可以最大程度地模擬真實的對話交流。同時隨著模型的更新迭代,數字人也可以持續學習,在與使用者的交流過程中不斷調整、完善自身,重新整理開放域對話效果。

AI與人類一起“打工”,靠譜麼?

數字人願景圖

當用戶透過語言進行交流時,既輸出有效的內容資訊,也表達個人情緒。而想要實現情感層面的互動,就必須對使用者的情緒進行精準的識別、解析,並輸出相應的反饋。

值得一提的是,目前百度的語音互動引擎擁有世界首個線上語音互動注意力模型,能實現與數字人自然暢通交流,高準確度的音畫同步,逐字口型準確率達到了98。5%以上。

要實現完整的情緒識別與互動,需要同時對語音、表情、動作進行轉化和識別。一般來說,輸入語音返回的就是語音,輸入影象返回就是影象。但在實際的互動中,使用者可能輸入語音、文字,或者透過攝像頭輸入影象。不同型別的資訊要求數字人都能處理,同時以不同的形式輸出反饋,這個能力被稱之為跨模態。

例如央視新聞的AI手語主播,除了擁有高精度的3D模擬形象之外,也具備極高的專業度。從北京冬奧會上崗開始,既能完成專業的體育賽事解說,也能跟上朱廣權的花式押韻。

在AI手語主播進行手語直播時,需要現將輸入的語音轉化為文字,在理解語義的基礎上“翻譯”為手語語序,進行相應的對映,最後透過動作、口型輸出。這個過程已經完成了一次跨模態的轉化輸出。

AI與人類一起“打工”,靠譜麼?

AI手語主播+朱廣權

百度智慧雲在今年上半年已經發布了AI手語平臺,為了動作的準確性,工作人員精修了11000個手語動作,同時為了保持手語的連貫,每一個動作中間都需要透過融合演算法連線。平臺也可以根據需求接入不同的知識庫,例如播報冬奧就接入了體育賽事類的知識庫。

在AI手語平臺上,只要透過語音輸入就能直接生成手語影片。如果將AI手語平臺搭載在硬體上,就可以形成手語一體機,廣泛運用在法庭、銀行等等場景,更好地服務於聽障人員。

百度的底層的AI技術優勢支援著百度智慧雲曦靈,使得平臺上針對不同形式的內容都具備相應的AI能力,才能最終實現數字人真正的跨模態互動。

“最先感知數字人的就是其外在特徵,對於好的數字人的理解就是長得好看、高精度。發展到現在,還要看它的內涵,它的感知和認知能力,與使用者的互動體驗怎麼樣,有沒有持續學習、更新迭代的能力等等……這些是數字人實現差異化,能夠脫穎而出的關鍵。”侯浩對《部落格天下》說。

AI技術注入靈魂

迎著風口,市面上以“數字人”為噱頭的產品層出不窮,然而,什麼才是真正意義上的數字人?

AI與人類一起“打工”,靠譜麼?

洛天依入駐上海杜莎夫人蠟像館

縱觀數字人的發展歷史,到如今經歷了三個階段。第一代數字人是如初音未來、洛天依等依靠使用者創作內容的虛擬歌手。“初音未來之父”伊藤博之曾表示,設計初音未來這個形象最初的目的,是為了推廣雅馬哈旗下的人聲音樂軟體,即後來被廣泛應用到虛擬歌手音樂創作的VOCALOID。

精心設計的形象、聲優配音並經過處理的聲音組成了第一代數字人的雛形,生產內容主要依靠UGC,數字人只提供外觀形象,幾乎沒有自主行為,依靠人為設計來完成行為動作。

動作捕捉、實時渲染等技術飛速發展之後,出現瞭如絆愛、A-SOUL這樣以直播互動、舞臺表演等方式活動的虛擬主播。動捕技術解決了數字人的驅動問題,讓數字人可以完成自主行為與即時互動。

但第二代數字人仍然不具備獨立的行為能力和思想能力。由真人扮演數字人,包含著另一重隱憂。一旦扮演者發生狀況,數字人也會受到直接影響,此前絆愛的永久性休眠,以及A-SOUL成員嘉然的退出,都為行業敲響了警鐘。

當數字人的行為、能力等都與扮演者高度繫結,數字人的行動也受到限制,很難實現跨時空的活動。這個階段數字人實現的還是那種一對多的互動,形象千人一面,還沒有實現一對一,定製化的互動。

由於其互動能力的限制以及文化淵源,前兩代數字人大多為表演型的虛擬偶像,受眾主要來自泛二次元使用者,形象也以更具二次元動漫特徵的2D形象為主。

AI與人類一起“打工”,靠譜麼?

百度數字人

如今數字人發展到第三代,模型更加的高精,不僅在影片、直播中出現,還可以搭載在不同的智慧硬體上。依託成熟的AI技術,數字人具有自主思考、反饋、行為、互動的能力,也就是說,真正為數字人注入了“靈魂”。在“表演”之外,數字人也具備了更豐富的能力和活動的空間。

這一代數字人,除了接近真人的外觀之外,還需要具備接近於人的行為特徵和思想特徵,因此“人格化”成為第三代數字人的關鍵詞。

“如果沒有人格,數字人就是面無表情的一張畫,和動畫、影片區別不大,很難和使用者產生連線。想要讓數字人和使用者的互動體驗變得更好,那麼數字人也要微笑,要有自己的人設,這個形象背後需要鮮明的人物特徵來支撐。”

對真人來說,人格是自然流露的行為傾向,而在數字人身上則需要進行細緻的塑造模擬。例如,文夭夭的性格被設定為溫柔親和,因此微笑是她最常露出的表情,少有大開大合的動作,言行輕巧靈動,觀之可親。

在以往的數字人生產過程中,往往需要複雜的預先設計才能完成人格的模擬,而百度智慧雲曦靈平臺已經接入了龐大的模型庫,包括數字人的動作、笑容、表情、語言等等,每一種能力背後都存在著對應模型庫,具備相對完善的輸出標準。

當用戶輸入到需要的性格特質,平臺就會輸出相應的表情、動作、行為方式。只有足夠豐富的模型庫,才能實現精準的匹配,實現無縫聯動。以及,數字人的打造還需要語音、語義、視覺、大模型等全鏈路的AI能力來支援。

AI與人類一起“打工”,靠譜麼?

度曉曉高考作文海報

今年高考作文題目披露之後,百度數字人度曉曉在直播中根據新高考一卷作文題目,以圍棋術語《本手、妙手、俗手》命題,迅速做出了一篇標題為《苦練本手,方能妙手隨成》的高考作文。

文章不僅主題明確、邏輯清晰、論證清楚,還大量運用修辭,旁徵博引,文采斐然。在直播間中,語文名師申怡給這篇滿分60分的作文打了48分。

顯然,度曉曉的文字能力已經擺脫了機械性的拼湊,遠遠超過大眾以往對於AI自動寫作的想象。

運用AI技術,透過資料訓練讓數字人做詩、繪畫,直接完成內容創作已經不再是難事。數字人的創作方式也從以往的UGC、PGC過度到AIGC,內容創作、IP孵化模式也進入了新的階段。