10月25日,在 RTE2024 第十屆實時互聯(lián)網(wǎng)大會主論壇上,聲網(wǎng)創(chuàng)始人兼 CEO 趙斌發(fā)表了《實時互動十年:從 WebRTC 到生成式 AI 時代的 RTE 》主旨演講。
趙斌認(rèn)為,生成式 AI 正在驅(qū)動 IT 行業(yè)發(fā)生大變革,這一趨勢主要體現(xiàn)在四個層面:終端、軟件、云以及人機界面。在這樣的時代背景下,生成式 AI 將會一如既往地助力 RTE 能力的進化與普及,同時也將借助 RTE 能力以及 RTE 應(yīng)用的廣度與深度來實現(xiàn)自身進化。
同時,他也在分享中發(fā)布了聲網(wǎng) RTE+AI 能力全景圖。在全景圖中,聲網(wǎng)從實時 AI 基礎(chǔ)設(shè)施、RTE+AI 生態(tài)能力、聲網(wǎng) AI Agent、實時多模態(tài)對話式 AI 解決方案、RTE+AI 應(yīng)用場景五個維度,清晰地呈現(xiàn)了當(dāng)前 RTE 與 AI 相結(jié)合的技術(shù)能力與應(yīng)用方案。趙斌表示,生成式 AI 與 RTE 結(jié)合帶來的場景創(chuàng)新,也將成為下一個十年的主題。
以下內(nèi)容基于趙斌演講全文整理:
感謝大家在金秋十月再次來到北京 RTE 大會的現(xiàn)場,與各位嘉賓、講師一起探討 RTE 行業(yè)的現(xiàn)狀和未來。尤其要感謝來參會的開發(fā)者、工程師、產(chǎn)品經(jīng)理、創(chuàng)業(yè)者,在過去十年中,是你們與我們共同參與并見證了 RTE 行業(yè)波瀾壯闊的成長歷程。
在過去的十年里,RTE 能力成為了顛覆眾多行業(yè)發(fā)展與成長的核心力量。在社交泛娛樂領(lǐng)域,涌現(xiàn)出了多家以實時音視頻技術(shù)為底層能力的企業(yè),它們開創(chuàng)了新的玩法、場景和商業(yè)服務(wù),其中有不少已成功上市,使得 RTE 能力逐步廣泛應(yīng)用并普及至全球市場。
在在線教育領(lǐng)域,以 RTE 能力為支撐的 “線上課堂” 不僅曾是中國互聯(lián)網(wǎng)創(chuàng)業(yè)圈的熱門關(guān)注點,還為體制內(nèi)教育 “三個課堂” 這一全國性政策提供了支持,并且在疫情期間發(fā)揮了不可或缺的作用。
在 IoT 領(lǐng)域,也出現(xiàn)了許多依托 RTE 能力而實現(xiàn)的新產(chǎn)品,例如兒童手表。VR/AR 設(shè)備進化中,RTE 也賦能了眾多高價值功能。
在企業(yè)服務(wù)領(lǐng)域,從金融業(yè)的雙錄面簽到產(chǎn)業(yè)遠(yuǎn)程巡檢巡查、生產(chǎn)現(xiàn)場指導(dǎo)協(xié)同,以及快遞站點和調(diào)度中心的實時協(xié)同等場景,各行業(yè)都在通過RTE能力深度改造經(jīng)營方式。
過去十年,大家熟知的互聯(lián)網(wǎng)風(fēng)口也有很多離不開RTE能力的賦能和參與。社交泛娛樂、在線教育等行業(yè)的創(chuàng)業(yè)風(fēng)口,電商直播對電商行業(yè)格局的改變等等,其中很多都和實時互動能力的使用和進化有不可分割的關(guān)系。如今,在大模型和生成式 AI 時代,也將伴隨 RTE 能力的輔助與賦能走向成熟和應(yīng)用。
生成式 AI 時代IT 行業(yè)四大變革趨勢
過去一年,通過與大模型以及 IT 行業(yè)同行、合作伙伴進行深入的探討與交流,我們逐漸厘清了生成式 AI 能力將會如何改造和影響未來十年甚至二十年 IT 行業(yè)進化的途徑與方法,并總結(jié)出了四大趨勢,這些趨勢將會決定并影響整個 IT 行業(yè)發(fā)展的進程。
趨勢一:終端的進化將以對大模型的能力支持為核心驅(qū)動。在未來十到二十年,無論是 PC 還是智能手機,必然會以如何更好地支持大模型能力在端上的應(yīng)用,以及推理能力的成熟和推理性能的提升為主要進化軸線。
趨勢二:所有的軟件都可以且將會通過大模型重新實現(xiàn)。僅僅在現(xiàn)有軟件中運用大模型能力進行小改進和補充是遠(yuǎn)遠(yuǎn)不夠的,而是要以大模型能力為核心,重新思考每個領(lǐng)域的軟件應(yīng)如何設(shè)計、如何實現(xiàn),以及最終會有怎樣的使用體驗和效果。這便是從 “ Software with AI ” 到 “ AI Native Software ” 的根本轉(zhuǎn)變,也將改變行業(yè)的技術(shù)框架和技術(shù)能力進化方式。
趨勢三:所有的云都需要具備對大模型的訓(xùn)練和推理能力。大模型出現(xiàn)后,對于云服務(wù)而言,在早期提出的三個基本能力之外,GPU 算力必然成為第四個關(guān)鍵能力。沒有這一能力,就很難成為一個真正意義上的大規(guī)模公有云服務(wù)。
趨勢四:人機界面從鍵盤、鼠標(biāo)、觸屏轉(zhuǎn)變?yōu)樽匀徽Z言對話界面(LUI)。自計算機出現(xiàn)的第一天起,人機界面就是一個持續(xù)進化的話題。從窗口卡片,到鍵盤鼠標(biāo),以及當(dāng)下最主流的觸屏,都不如幾十年前科幻小說中就開始提出的自然語言人機對話界面更為易用、高效。多模態(tài)對話式智能體(Agent)的出現(xiàn),已經(jīng)滲透到 IoT 設(shè)備以及電腦、手機的各種軟件中,也將極快地改變這些設(shè)備中人機界面的使用體驗。
以上四個趨勢定義了下個時代 IT 進化的主題,也將成為 IT 進化的核心驅(qū)動力。在這樣的時代背景下,我們認(rèn)為生成式 AI 將會一如既往地助力 RTE 能力的進化與普及,同時生成式 AI 也將借助 RTE 能力以及 RTE 應(yīng)用的廣度與深度來進化自身。
我們對生成式 AI 的未來發(fā)展有兩個方向性的總結(jié):
其一,向多模態(tài)深度進化。目前,文字所能提供的訓(xùn)練數(shù)據(jù)已基本被充分利用。語言作為聲音化的文字,所提供的信息和數(shù)據(jù)空間將會被放大很多倍。同時,自然環(huán)境聲音和視覺數(shù)據(jù)的獲取與運用,也將為大模型提供幾乎無限的數(shù)據(jù)空間,進一步滿足大模型智能進化的數(shù)據(jù)需求。
其二,多步推理。無論是思維鏈(CoT)還是多 Agent 協(xié)同的方式,都為依托推理引擎完成具有高智能、高復(fù)雜度的現(xiàn)實任務(wù)提供了清晰的機會。這必然會成為一個重要的發(fā)展方向,從而實現(xiàn)利用大模型完成許多人完成起來都頗具挑戰(zhàn)的任務(wù)。狹義的通用人工智能(AGI)有望在未來幾年內(nèi)通過多步推理的方式迅速變?yōu)楝F(xiàn)實。
回歸到生成式 AI 未來發(fā)展的兩大方向與 RTE 之間的關(guān)系。多模態(tài)大模型已逐步進化到能夠提供高度擬人化的聽、說、看、寫能力。通過與多個行業(yè)伙伴的打磨和深度實驗,我們發(fā)現(xiàn)多模態(tài)對話體驗存在兩個關(guān)鍵側(cè)面:
第一,是聲音體驗,包括延遲、語氣、情感、情緒、口音等,都是大模型參與人機對話時體驗感知和評價的關(guān)鍵角度。
第二,人與 AI Agent 對話時,最核心的互動體驗就是打斷。如果在對話過程中打斷體驗不自然,出現(xiàn)搶話或者不知道如何順利開展下一段對話的情況,就會對多模態(tài)大模型的實用化產(chǎn)生嚴(yán)重影響和阻礙。
為了解決這一問題,我們發(fā)現(xiàn)現(xiàn)有 RTC 技術(shù)棧和基礎(chǔ)設(shè)施有大量改進空間。只有通過改進,大模型才有機會在各種場景、形態(tài)、模型下大規(guī)模參與到和人的語言對話中,參與的來源也是從云到端再到更低延遲的邊緣進行的。基于這些能力的改進和普及,未來 RTE 必將成為生成式 AI 時代 AI 基礎(chǔ)設(shè)施(AI Infra)的關(guān)鍵部分。
很多智能都涉及所在領(lǐng)域的專業(yè)知識和信息,在完成復(fù)雜任務(wù)時,這些專業(yè)信息和知識可能由于隱私、數(shù)據(jù)權(quán)屬、財產(chǎn)保密等原因,分布在云邊端的各個部分。當(dāng)它們協(xié)同完成任務(wù)時,其中連接的延遲降低和可用性的穩(wěn)定保障就成了一個關(guān)鍵需求。實時互動領(lǐng)域的軟件定義實時網(wǎng) SD-RTN?,對傳輸質(zhì)量的保證以及穩(wěn)定可靠的支持,將是其中必不可少的能力保障。
10 月初,聲網(wǎng)兄弟公司 Agora 作為語音 API 合作者,出現(xiàn)在了 OpenAI 發(fā)布的 Realtime API 公開測試版中。同時,我們也很高興地宣布,聲網(wǎng)與 MiniMax 正在打磨國內(nèi)第一個 Realtime API,這里給大家放個彩蛋。讓我們一起期待接下來 MiniMax 的正式發(fā)布。
Beyond GenAI更多進化與商業(yè)價值
生成式 AI 固然是宏大時代潮流中最重大的趨勢之一,但絕非全部,還有更多 IT 技術(shù)和產(chǎn)業(yè)進化在推動 RTE 行業(yè)發(fā)展,不斷提供新的商業(yè)價值。
值得一提的是,去年 Apple Vision Pro 正式發(fā)布,盡管行業(yè)第一手體驗反饋褒貶不一,但我們認(rèn)為它依舊實現(xiàn)了實時互動領(lǐng)域的重大邊界拓展。
Immersive Video 在人的視覺體驗上展現(xiàn)了全新的潛力,具備接近全息視覺體驗的能力,給人所建立的真實感遠(yuǎn)遠(yuǎn)超越上一代 VR 設(shè)備。這種新的媒體形式也是未來創(chuàng)造“如聚一堂”互動感覺的基礎(chǔ),這些進展著實令人激動。
我們很高興在行業(yè)內(nèi)率先推出支持 Vision Pro OS 的 SDK,與客戶和開發(fā)者共同創(chuàng)造眾多有趣的場景。例如 InSpaze,便是利用設(shè)備新能力開展社交的一次極有意義的探索。
隨著疫情的消退,WebRTC 需求雖曾有明顯下降,但在 2023 年回歸穩(wěn)定且呈現(xiàn)穩(wěn)中有升的狀態(tài),整體用量是疫情前的四倍。
WebRTC 開源項目過去一年的進化主要體現(xiàn)在一些具體能力點上,包括 AI 噪聲消除、AI 語音增強、支持 AV1 以及適配 AI Insertable Streams。
社交出海持續(xù)升溫,核心區(qū)域的視頻社交增長超過一倍。1V1、秀場直播、語聊房是最受青睞的三個社交出海場景;用量最大的區(qū)域為東南亞、中東和印度;增長最快的三大區(qū)域分別是東南亞、中東和南美地區(qū)。
2024 年是體育賽事大年,這也促使體育賽事直播應(yīng)用不斷進化。數(shù)據(jù)顯示,本屆奧運會相比上屆,通過手機和智能設(shè)備觀看直播的數(shù)量大幅提升。我們支持的云演播廳場景,可以實現(xiàn)更低的卡頓率、延遲,擁有更好的互動體驗和易用性。
在自動駕駛領(lǐng)域,RTE 技術(shù)不僅應(yīng)用于 Robotaxi 這種自動駕駛出租車上,在各種功能性車輛上的應(yīng)用也在加速落地,甚至比 Robotaxi 更快。
游戲大作的出現(xiàn)持續(xù)推動游戲社區(qū)和游戲開黑使用場景的成長。“黑神話:悟空” 的推出使得游戲開黑業(yè)務(wù)呈現(xiàn)爆發(fā)式增長。
在全球市場上,許多被 AI 影響和改造的新場景和新案例也在持續(xù)演進。例如,利用 AI 能力進行視頻風(fēng)格化處理,可以將視頻改造成卡通等各種風(fēng)格;AI 呼叫中心,由于多模態(tài)和大模型智能的進化,也開始加速替代人工客服;AI 智能嬰兒監(jiān)護,除了過去的聽得見和看得見之外,AI 也在嘗試解讀嬰兒的哭聲究竟代表何種需求。
在更多領(lǐng)域,如高端酒店管家、線上劇本殺、虛擬主播等等,都是大模型和多模態(tài)能力進化帶來的令人感到豐富多彩、耳目一新的創(chuàng)新。
RTE 產(chǎn)品也正朝著更加專業(yè)化的方向邁進。近期,我們推出了面向?qū)崟r互動的 Status Page。它提供了電信級的質(zhì)量保證,擁有分鐘級更新質(zhì)量保證狀態(tài)的能力。同時,針對實時互動對話體驗,無論是卡頓還是延遲,都能提供更為細(xì)致且清晰的指標(biāo)。我們期望將這樣的 Status Page 透明給所有開發(fā)者和客戶,以便為大家更好地提供對實時互動服務(wù)狀態(tài)和能力的感知。
AI+RTE推動各行業(yè)場景創(chuàng)新與成熟
生成式 AI 技術(shù)正在結(jié)合新的專業(yè)能力滲透到各個場景,創(chuàng)造新場景、加速場景成熟以及降低生成場景的成本。
社交泛娛樂領(lǐng)域, 過去一年 AI 寵物突然變成一個新的有趣玩法。
在線教育領(lǐng)域,生成式 AI 技術(shù)讓原本很難、很貴的服務(wù),變得算力化和平民化。例如 AI 題庫幾乎變成所有大模型都有的知識,降低了利用題庫開展教育服務(wù)的門檻;AI 口語教學(xué)中,多模態(tài)大模型在語言能力上,已經(jīng)完全可以替代傳統(tǒng)口語老師,無論發(fā)音、語法、還是用詞表達(dá)等方面都表現(xiàn)的不錯;
AI 答疑老師基本也可以做到隨叫隨到,結(jié)合多模態(tài)能力,做到與真實答疑老師能力相當(dāng),甚至更有耐心。語言翻譯能力也隨著我們RTT實時翻譯產(chǎn)品功能的發(fā)布成為觸手可及的能力,當(dāng)前這一能力的使用價值仍然被遠(yuǎn)遠(yuǎn)低估。
AI 多語言交流,正在打破全球語言障礙,成為推進全球化的新方式。
IoT 領(lǐng)域最值得關(guān)注的是大模型能力帶來的對話機器人的實用化,不僅更容易理解意圖,而是能夠提供實質(zhì)性、信息量豐富、且擁有高度智慧的答案。預(yù)計未來一年左右的時間,大家就會感受到各種對話機器人場景的實用性進化。
可穿戴設(shè)備利用生成式 AI 能力成為爆品,比如 Meta 智能眼鏡憑借提供 LLAMA3 支持的對話能力,至少賣了300萬副。
具身智能機器人也逐漸在 AI 推動下成為現(xiàn)實,已經(jīng)沒有什么障礙可以妨礙機器人走路和生活。
AI 客服正在實質(zhì)性地替代人工客服,已經(jīng)不只一家創(chuàng)業(yè)公司在大規(guī)模采用 AI 客服,最讓人感到驚訝的是,不僅節(jié)省了人工客服成本,也提升了客服滿意度,這里面有很多值得關(guān)注的進化潛力。
會議場景上,我們的 aPaaS 產(chǎn)品靈動會議已經(jīng)把實時字幕、實時翻譯和智能會議紀(jì)要完全做在模板里,任何做會議協(xié)同甚至社交場景的開發(fā)者和創(chuàng)業(yè)者,都可以利用這一能力簡單打破語言障礙。
AI 對新場景的催化也讓人大開眼界,例如現(xiàn)在智能眼鏡對環(huán)境的理解、認(rèn)知,結(jié)合地理位置和自然對話能力已經(jīng)完全可以取代導(dǎo)盲犬,甚至更好用,這些都開創(chuàng)了以前從未有過的機會。
生成式 AI 的確為我們展現(xiàn)了無限的想象空間與諸多可能性,然而,生成式 AI 應(yīng)用的開發(fā)同時也面臨著諸多挑戰(zhàn)。
首先,基礎(chǔ)大模型和AI應(yīng)用之間的邊界是在哪里?過去一年,包括 Inflection、CharacterAI 以及很多估值10億美元以上的公司被收購,Perplexity 的搜索創(chuàng)新,也遭到了大模型公司和以搜索為主業(yè)的公司的強烈挑戰(zhàn)。那么,究竟哪些應(yīng)用才真正屬于創(chuàng)業(yè)者的機會呢?我們認(rèn)為,只有與垂直應(yīng)用所在的領(lǐng)域結(jié)合得越深,壁壘才會越高,應(yīng)用開發(fā)者也才越有機會。
其次,應(yīng)用開發(fā)的架構(gòu)與機制尚不明晰。在當(dāng)下這個時代,將大模型能力視作推理引擎或者知識庫,如何在此基礎(chǔ)上進行應(yīng)用領(lǐng)域的知識推理和服務(wù),仍然是一個處于探索階段的話題。LangChain、RAG、SWARM 等框架僅僅是一種思路,雖然可以提供一定能力的支持,但還不夠成熟、不夠完備,更不用說易用性了,這些框架自身不斷變化的現(xiàn)象恰恰反映出其不成熟和不確定的特點。
RTE 10年在場景創(chuàng)新中一路走來
過去的十年,是 RTE 行業(yè)從無到有逐步崛起的十年。十年前,RTE 行業(yè)處于 “三無狀態(tài)”,既無行業(yè)會議,又無專業(yè)書籍,也無專業(yè)媒體和社區(qū),而如今這些都已逐步建立起來。
在這十年的大會中,有超過 2000 位來自各領(lǐng)域的專家、講師參與分享,累計超過 4 萬人次的參會者親臨現(xiàn)場交流,累計影響的開發(fā)者超過 200 萬。
今年,我們非常高興地推出了行業(yè)首本系統(tǒng)介紹實時互動的技術(shù)型科普圖書《讀懂實時互動》。通過這本書,讀者能夠窺探到過去十年實時互動領(lǐng)域發(fā)展的關(guān)鍵節(jié)點以及其中的規(guī)律、脈絡(luò)和未來的可能性。
RTE 開發(fā)者社區(qū)始終是過去十年 RTE 行業(yè)成長的主旋律。我們欣喜地看到當(dāng)下各個開發(fā)者項目之間的技術(shù)交流與互動達(dá)到了極為高頻和活躍的狀態(tài)。通過 RTE 開發(fā)者社區(qū),我們與大家共同打造一個技術(shù)共建、產(chǎn)品加速、交流連接的平臺,與各個開發(fā)者一同把社區(qū)建設(shè)得更加繁榮。
十年征程,RTE 已從一個理念發(fā)展成為一個行業(yè)。然而,在如今的生成式 AI 時代,我們覺得所有過往都僅僅是未來的序章。憑借著 RTE 與 AI 能力結(jié)合的廣闊前景,我們有理由期待下一個更加波瀾壯闊、激動人心的十年。希望在未來的發(fā)展進程中,我們能繼續(xù)與大家攜手共進,開創(chuàng)生成式 AI 時代下 RTE 的嶄新篇章。
【免責(zé)聲明】【廣告】本文僅代表作者本人觀點,與和訊網(wǎng)無關(guān)。和訊網(wǎng)站對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。郵箱:news_center@staff.hexun.com
最新評論