直播連麥、智慧音箱、一鍵求救……實時互動技術應用全面爆發!

直播連麥、智慧音箱、一鍵求救……實時互動技術應用全面爆發!

作者 | 唐小引 & 孫浩峰

出品 | CSDN(ID:CSDNNews)

今時今日,當我們使用著微信的音影片通話功能,在吃雞、狼人殺劇本殺里語音對話、直播答題組隊,以及在各類線上教育的 App 網站與老師一對一或一對多地課堂互動,並習以為常之時,已經很難記起曾經那個普遍使用著 2G 把上網叫作「網上衝浪」的年代裡我們都是怎麼生活學習與工作的,那時候,上網的成本甚高,通話的質量卻低得今天回想起來都不敢置信。

儘管這樣的景象才過去十年有餘,卻如隔了半個世紀。

而如今,語音聊天、影片社交,透過網路實時地與朋友家人乃至世界各地的人們互動都已經成為了我們的日常工作生活不可或缺的一部分,一如西北工業大學教授陳景東在 RTC 2018 實時網際網路大會的主題演講中所分享的,我們不僅實現了“通訊+互動+控制+智慧”,更有 Handsfree 和遠場互動。從前單通道的聲訊號獲取已經發展至今天的高保真、多方及具有沉浸感的臨境體驗。這背後的一切均離不開 RTC 實時通訊技術,而其所帶來的實時互動的能力,深入了從泛娛樂、教育、遠端醫療到政務、公安等各行各業,正如聲網 Agora 創始人 & CEO 趙斌在 RTC 2018 實時網際網路大會上所言 —— “正在一點一滴地在線上創造一個新世界”。

直播連麥、智慧音箱、一鍵求救……實時互動技術應用全面爆發!

聲網 Agora 創始人 & CEO 趙斌

實時互動技術應用已全面爆發!

在不久前,筆者與大家曾分享過從遊戲、直播到社交、教育這些社交需求極強的應用,以及微信開放了實時音影片能力後所帶來的在小程式上的實時互動探索。而在正在舉行的 RTC 2018 實時網際網路大會上,筆者則看到了實時互動更加豐富的技術應用。

在大會現場,聲網 Agora 創始人 & CEO 趙斌為我們帶來了直播連麥、線上遊戲房、智慧 AR 眼鏡、K12 家教一對一、影片急救 120 等諸多已經成型並落地的應用。其中在直播方面,聲網專門推出了百萬人實時大頻道互動能力,從更高質量、更大規模、更低延時三個角度,實現線下巨型會議的線上化。從實際應用資料來看,實時大頻道互動中,98。5% 的參與者延遲在200ms以內,優質傳輸率為 97。3%。在演唱會、體育比賽、講座大課等超大型直播場景下,觀眾不僅能夠觀看直播,更可以把自己的現場反饋如歡呼、尖叫反饋給主播和其他觀眾,重現現場感受。

眾所周知,當前在國內的社交直播中,已經實現了動態實時濾鏡支援,透過實時追蹤人臉多個特徵點,實現實時動態貼紙、360°無死角美顏、自帶哈哈鏡和顏色濾鏡等功能。而聲網還在幫助海外的平臺實現這些功能,譬如被稱為美國版“陌陌”的全美最大線上婚戀約會社交平臺 MeetMe,即實現了互動直播,支援多人連麥互動,之後又陸續推出了人臉識別、臉部特效和虛擬禮物等動態功能。在大會現場,MeetMe 技術高階副總裁 Richard Friedman 分享了對於實時互動的見解:“實時影片是人與人之間的通訊交流,表情和肢體語言是很重要的一部分,以前依賴於文字聊天,很多東西其實都沒有傳輸出去。而有了 RTC 之後,這些部分能夠有效地被表現出來,從而更好地解決溝通的問題。並且區別從前的長延時直播,低延時互動直播拉近了主播與觀眾的距離,重新定義了盈利的模式,不止於傳統廣告,還有使用者打賞行為。而未來,實時互動將在生態系統上實現突破。”

直播連麥、智慧音箱、一鍵求救……實時互動技術應用全面爆發!

MeetMe 技術高階副總裁 Richard Friedman

而智慧 AR 眼鏡在國內外主流媒體都有過大幅報道,便是我國警方已經正式採用智慧眼鏡執法,只要戴上一副 AR 眼鏡,就能實現執法記錄、人臉識別、車牌識別、人證比對、實時語音指揮等功能。智慧眼鏡在實時互動方面的應用除了這點,亮亮視野聯合創始人馬寅還分享了一個遠端醫療急救的例子,在卡達透過 5G 網路與遠端醫院專家進行溝通,在急救車上解決如何生產嬰兒、腦梗治療等問題。

直播連麥、智慧音箱、一鍵求救……實時互動技術應用全面爆發!

此外,趙斌現場分享的一個影片急救 120 的例子引起了諸多討論。聲網與重慶市聯合推出的傷急救影片 120 自救互救服務,能夠讓傷者實現“一鍵求救”,醫生可透過影片實時指導現場人員自救或互救。

趙斌表示,“這是對行業的一個穿透和改造。過去,打 120 只能在家裡等著救護車到,你與醫生之間的交流是非常有限的。透過這樣的方式,電話結束後透過傳送簡訊裡的連結,開啟手機瀏覽器,醫生即可知道病人發生了什麼,指導病人家屬做緊急處理。這個場景一旦成熟,將會改變行業的經營方式和模型。有些幸運的患者經過影片指導後,甚至無須到醫院處理,這對緊急情況下病人的福祉有深度影響。”

當筆者聞此時,不禁想起了讓人痛心的一再發生的滴滴順風車乘客遇害事件。在此之後,滴滴大力推廣透過新增緊急聯絡人夜間出行開啟自動行程分享來解決這一安全痛點,筆者在電梯中常常會見到,從一定程度上來講,應該是透過 Socket 長連線不斷髮送地理位置。

直播連麥、智慧音箱、一鍵求救……實時互動技術應用全面爆發!

順風車事件後,筆者便常見到滴滴開啟行程分享的廣告

那麼,我們是不是可以透過整合這樣的實時互動 SDK 服務,在滴滴中,只需一鍵操作,即可報警或求救,而對方可以實時地獲取行程路徑位置、車輛、司機等資訊?當筆者就此疑問來請教趙斌時,他對此進行了肯定,不過要想在出行中實現這樣的安全保障還需要從行業的對接與努力。

這一切應用的背後,是標準制定與技術的迭代

去年 6 月,筆者在《蘋果終於入夥 WebRTC,新一代移動 Web 應用爆發路上還有哪些坑?》一文中曾為大家詳細解讀了 WebRTC(網路實時通訊)這項技術的來龍去脈,彼時在聊到“蘋果 Safari 終於實現對於 WebRTC 的支援,究竟意味著什麼?”時,聲網創始人 & CEO 趙斌與我們分享道:“在 Safari 支援 WebRTC 後,過去只能在諸如 Chrome 瀏覽器之間實現的音影片通話,現在在 Safari 以及 Chrome 與 Safari 之間實現了,其影響一定是積極的。可以預見,很多網站及開發者將會更加認真地考慮將這類功能新增至網站及應用中。”

在過去的一年裡,我們不僅看到了蘋果支援 WebRTC 所帶來的各種音影片應用實現支援 WebRTC,並將瀏覽器作為音影片應用的入口,還迎來了 WebRTC 1。0 的 Feature Complete。趙斌表示,“這是一個里程碑的事件,這是行業多少年來的發展和推動走到了今天的成果”。此外,在 RTC 領域,還有幾項重大技術事件的發生,包括 AV1 1。0 版定稿,蘋果加入 AOM 聯盟;AVS 2。0 音訊標準頒佈,中國原創音影片標準完成等。當筆者問到這些對於 RTC 意味著什麼,將帶來哪些改變時,趙斌如是說道:“WebRTC 的定稿意味著功能和能力上的最終固化,這勢必將帶來行業的標準統一,下一步是繁榮成長和互通互動能力的擴充套件。而新一代的影片編碼是免費開源的能力開放,也會促進這個場景應用能力的延伸,就如同我們運營商每個月為開發者和創業者提供一萬分鐘的免費使用,給予他們非常大的自由度可以在沒有成本顧慮的環境下做創新。”

而一直以來“延時”是橫亙在通訊面前的一大難題,筆者曾言過“現存的網際網路作為冷戰時代的產物最早其實是為了用於保障美國通訊網路,其在網路傳輸方面的種種侷限也直接導致了現在的網際網路在大檔案傳輸、實時傳輸方面的窒礙難行。而語/影片通訊、直播連麥對實時性要求非常高,要求延遲低至幾百毫秒,因此,現存的網際網路並不能滿足這種新型的實時應用場景。”

也是因為這點,從 IM 到實時通訊,一直都在致力於解決傳輸問題,而趙斌也表示,“在過去的一年裡聲網的研發團隊在持續改進和提高音影片處理方面的能力,其 Agora Solo 編碼演算法的升級版 Solo X 不僅能夠改造丟包對抗的能力,現在還實現了與 WebRTC 預設標準的 OPUS 編碼結合,幫助 OPUS 提高丟包對抗能力,且可以實現相容互通。比如在瀏覽器上智慧用標準的 OPUS,在客戶端可以用其他編碼演算法,當這兩者互通時,是不是能夠平滑切換並繼續使用丟包對抗能力。”

在大會現場,聲網 Agora 首席科學家鐘聲則更系統地為我們講解了從影片編碼、網路和雲資料中心、影片前/後處理以及深度學習等技術挑戰。譬如如何在低延時限制(比如 < 300ms)下有效對抗 70% 網路丟包率?又如何實時準確估計上下行網路的可用頻寬?如何及時發現、修復和預防影響使用者體驗的問題?如何標定相關資料,比如對影片內容、使用者畫像的精確描述?如何有效提升影象解析度和細節、修復影象損傷?如何設計可以基於更小資料的小模型快速學習演算法、推理決策能在移動端軟體實時執行等等。

基於這種種的挑戰,鐘聲分享了聲網技術團隊經過研究摸索實踐後的初步成果。在丟包率方面新演算法對比傳統演算法已經實現了在高丟包率和低延時下更具優勢,譬如在 4 幀延時、60% 丟包率的情況下實現了 21。36% 的位元速率節省。而在諸如影象、檔案傳輸過程中由於低位元速率或低解析度而導致出現模糊情況,聲網研發團隊透過深度學習演算法,讓細節和清晰度都實現了極大提升。

直播連麥、智慧音箱、一鍵求救……實時互動技術應用全面爆發!

當 AI 與 RTC 深度融合、5G 商用落地,實時互動將走向何方?

鐘聲在現場提出了一個問題 —— “今天的實時技術狀態猶如 20 年前網際網路 1。0 時期剛興起那般充滿了期待,那麼未來的 RTC 2。0、3。0 又將如何?”並基於此分享了一則資料 —— “思科在 2017 年做過預測,網際網路流量從 2017 年到 2021 年將實現 4 倍增長,其中影片流量將會持續增長到 87%。就細分領域來看,實時影片會增長 15 倍,佔影片流量的 13%,也就是整個網際網路流量中超過 11%;線上遊戲增長 11 倍,佔整體的 5%,VR/AR 將增長 20倍,由於現有基數較低,2021 將佔全球流量的 1%,但隨著 5G 的到來,將會實現爆發式增長。”

而趙斌則是更系統性地為我們梳理了在實時互動方面的行業趨勢,主要分為三點:

AI 和深度學習在 RTC 技術深度結合:

由 AlphaGo 開始,我們已經看到了在影象影片識別、自然語言處理、語音識別等諸多領域,人工智慧都已取得了重大的技術突破,同時也被應用到很多場景,在實時互動方面,AI 能夠為其在質量、體驗、功能上做出更新、更好的效果。

各國 5G 商用時間表落地,將催生更多 RTC 場景:

5G 有著更大的頻寬,支援更多的 IoT 裝置同時連線。未來的實時互動不僅僅只是發生在人與人之間,更有人與裝置的連線、裝置與裝置的連線,這些互動都要依賴於更好的網路。而 5G 網路的出現和快速普及,會給予實時互動 RTC 領域更大的機會,帶來更普遍的實時場景滲透。

微軟、NVIDIA、Valve、Oculus、AMD 組成聯盟,推出 VirtualLink 介面標準:

VirtualLink 的落地給行業帶來了新的機會。虛擬現實是行業都在關注的未來實時互動的一種全新的媒體和體驗形式,為行業帶來了新的高度。在過去一年多的時間裡,我們已經看到了 VR/AR 在實時互動行業的場景爆發。

徵稿啦”

CSDN 公眾號秉持著「與千萬技術人共成長」理念,不僅以「極客頭條」、「暢言」欄目在第一時間以技術人的獨特視角描述技術人關心的行業焦點事件,更有「技術頭條」專欄,深度解讀行業內的熱門技術與場景應用,讓所有的開發者緊跟技術潮流,保持警醒的技術嗅覺,對行業趨勢、技術有更為全面的認知。

如果你有優質的文章,或是行業熱點事件、技術趨勢的真知灼見,或是深度的應用實踐、場景方案等的新見解,歡迎聯絡 CSDN 投稿,

聯絡方式:微信(guorui_1118,請備註投稿+姓名+公司職位),郵箱([email protected])。

直播連麥、智慧音箱、一鍵求救……實時互動技術應用全面爆發!

直播連麥、智慧音箱、一鍵求救……實時互動技術應用全面爆發!

直播連麥、智慧音箱、一鍵求救……實時互動技術應用全面爆發!