如何讓AI語音更富有人類情感？

集微網訊息，英偉達研究人員目前正在INTERSPEECH 2021大會上展示其最新專案，讓AI更好地模仿人說話時複雜的節奏、音調和音色。

英偉達研究人員正在建立高質量、可控制的語音合成模型和工具，這些模型和工具能夠捕捉人類語音的豐富性，並且不會出現音訊雜音。這有助於為銀行和零售商的自動客戶服務熱線配音，使影片遊戲和書籍中的人物變得栩栩如生，併為數字化身提供實時語音合成。

情感語音合成只是英偉達研究院在對話式 AI領域的重點工作之一。該領域還包括自然語言處理、自動語音識別、關鍵詞檢測、音訊增強等。

這些前沿工作經過最佳化後可以在NVIDIA GPU上高效執行，其中的一些工作已經透過NVIDIA NeMo工具包開放原始碼，可在NVIDIA NGC 容器和其他軟體中心獲得。

英偉達研究人員和專業創作人員並不是在針對對話式AI進行紙上談兵。他們將突破性的語音合成模型應用於“I AM AI”系列影片中。該系列影片介紹了重塑各個行業的全球AI創新者。不久之前，這些影片還都是由人類配音的。以前的語音合成模型對合成聲音節奏和音調的控制十分有限，因此AI配音無法喚起觀眾的情感反應，只有富有感情的人類聲音才能做到這一點。

在過去的一年中，英偉達文字-語音研究團隊開發出更強大、更可控的語音合成模型（如RAD-TTS），使得上述情況發生了變化。英偉達在SIGGRAPH Real-Time Live比賽中的獲獎演示就採用了這個模型。透過使用人類語音音訊來訓練文字-語音模型，RAD-TTS可以將任何文字轉換成說話人的聲音。

該模型的另一項功能是語音轉換，即使用一名說話人的聲音講述另一名說話人的話語（甚至歌唱）。RAD-TTS介面的靈感來自於將人的聲音作為一種樂器這一創意。使用者可以使用它對合成聲音的音調、持續時間和強度進行精細的幀級控制。

透過這個介面，影片製作者可以在錄製中自行閱讀影片文字，然後使用AI模型將他作為男敘述者的語音轉換成女敘述者的聲音。製作者可以使用這個基準敘述，像指導配音演員一樣指示AI，比如透過調整合成語音來強調特定的詞語、修改敘述節奏以更好地表達影片中的語氣等。

該AI模型的能力已超出了配音工作的範圍：文字-語音轉換可以用於遊戲、為有聲音障礙的人提供幫助，或幫助使用者用自己的聲音進行不同語言的敘述。它甚至可以重現標誌性歌手的表演，不僅能夠匹配歌曲的旋律，還能匹配人聲背後的情感表達。

據英偉達介紹，NVIDIA NeMo是一款用於GPU加速對話式AI的開源Python工具包。研究者、開發者和創作者透過使用該工具包，能夠在自己的應用實驗和和微調語音模型方面取得先機。

NeMo中易於使用的API和預訓練模型能夠幫助研究人員開發和自定義用於文字-語音轉換、自然語言處理和實時自動語音識別的模型。其中幾個模型是在NVIDIA DGX 系統上使用數萬小時的音訊資料訓練而成。開發者可以根據自己的使用情況對任何模型進行微調，運用NVIDIA Tensor Core GPU上的混合精度計算加快訓練速度。

NVIDIA NeMo還透過NGC提供在Mozilla Common Voice上訓練的模型，該資料集擁有76種語言、近14000小時的眾包語音資料。該專案的目標是在NVIDIA的支援下，透過全球最大的開源資料語音資料集實現語音技術的普及化。

（校對/Sharon）