隨著大模型元宇宙熱潮日漸高漲,虛擬主播、虛擬客服等數(shù)字人已從科幻走進(jìn)現(xiàn)實(shí)。他們的語言、動(dòng)作、表情等都十分接近真人。這樣的虛擬數(shù)字人是如何打造出來的?5月19日舉行的全國首個(gè)高校大模型元宇宙科創(chuàng)大賽——第四屆“天馬杯”全國高?萍紕(chuàng)新大賽(簡稱“天馬杯”)決賽將為大家揭秘。
據(jù)大賽主辦方馬上消費(fèi)金融股份有限公司(下稱“馬上消費(fèi)”) 副總經(jīng)理兼首席信息官蔣寧介紹,本次大賽將賽道集中在前沿科技領(lǐng)域,以元宇宙為核心,設(shè)置了2D數(shù)字人驅(qū)動(dòng)、3D數(shù)字人驅(qū)動(dòng)、NLP(自然語言處理,屬于人工智能的一個(gè)子領(lǐng)域) 三個(gè)賽道。
其中,2D數(shù)字人驅(qū)動(dòng)賽道的賽題為“語音驅(qū)動(dòng)數(shù)字人口型生成”,3D數(shù)字人驅(qū)動(dòng)賽題為“視頻驅(qū)動(dòng)人臉生成”,NLP賽道賽題為“數(shù)字人播報(bào)資訊內(nèi)容生成”。在前期的預(yù)賽中,參賽團(tuán)隊(duì)圍繞這三大賽題進(jìn)行開發(fā),取得了讓數(shù)字人具備“人的行為模式”的創(chuàng)新成果。決賽中,他們將通過現(xiàn)場演示、答辯,展示這些創(chuàng)新成果。
譬如,在2D數(shù)字人驅(qū)動(dòng)賽道中,主辦方提供了一系列真人錄制的音畫同步的短視頻,以及對應(yīng)的其中人臉的3DMM參數(shù)(這個(gè)參數(shù)用來表示人臉關(guān)鍵點(diǎn)位的空間坐標(biāo)和形變)。有賽隊(duì)基于這些數(shù)據(jù)開展建模訓(xùn)練,實(shí)現(xiàn)了通過分析語音信號中的語調(diào)、語速、情感等信息來預(yù)測說話人的面部表情。據(jù)此,可以一張圖片和通過語音生成的表情參數(shù)作為輸入,生成與輸入語音同步的說話人人臉視頻。
在3D數(shù)字人驅(qū)動(dòng)賽道中,主辦方提供了一系列真人錄制的人臉短視頻,以及對應(yīng)的其中人臉的BlendShape參數(shù)(用于描述人體表面形狀變化的參數(shù))。有賽隊(duì)基于這些數(shù)據(jù),根據(jù)輸入人臉提取的關(guān)鍵點(diǎn)信息與基準(zhǔn)的人臉關(guān)鍵點(diǎn)計(jì)算差值,然后用差值加上額外計(jì)算參數(shù)輸入模型去預(yù)測人臉表情變化。據(jù)此,僅通過攝像頭就能捕捉面部表情并構(gòu)建3D人臉模型。
在NLP賽道中,主辦方提供了一系列基于真實(shí)新聞得到的素材——新聞以及與之相關(guān)的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)。有賽隊(duì)基于其中的訓(xùn)練數(shù)據(jù),探索多種可行的預(yù)訓(xùn)練模型并最終選定一種模型,打造出了數(shù)字人新聞播音員。該數(shù)字人新聞播音員能夠基于關(guān)鍵新聞素材(如時(shí)間、地點(diǎn)、人物、事件等)生成一段通暢、易讀的資訊新聞。
蔣寧表示,隨著大模型概念火爆,各種虛擬數(shù)字人如潮水般涌現(xiàn)。而另一方面,元宇宙又對虛擬數(shù)字人的語言、動(dòng)作、表情等提出了更高的要求,需要虛擬數(shù)字人像真人一樣“動(dòng)起來”。在此背景下,“天馬杯”決賽設(shè)置上述三大賽道,旨在以比賽促進(jìn)數(shù)字人技術(shù)創(chuàng)新發(fā)展,探索讓數(shù)字人能真實(shí)還原真人表情、語言和動(dòng)作的新方法、新路徑。
“參加本次比賽之前,我們團(tuán)隊(duì)也在研究數(shù)字人,但往往更偏重理論,實(shí)用性不大。而本次比賽和我們平時(shí)的研究有一定的相關(guān)性,有利于我們將所學(xué)理論知識與實(shí)踐相結(jié)合,提高團(tuán)隊(duì)開發(fā)數(shù)字人的技術(shù)水平。”參賽隊(duì)代表USTC-Qingbo賽隊(duì)隊(duì)長李弘毅說。
【免責(zé)聲明】本文僅代表第三方觀點(diǎn),不代表和訊網(wǎng)立場。投資者據(jù)此操作,風(fēng)險(xiǎn)請自擔(dān)。
最新評論