山海通用能力躋身國內(nèi)大模型Top10，長文本能力位居全國三甲

2024-05-08 09:32:58 投資資訊網(wǎng)

4月30日，國內(nèi)權(quán)威大模型評(píng)測機(jī)構(gòu)SuperCLUE發(fā)布《中文大模型基準(zhǔn)測評(píng)2024年度4月報(bào)告》，報(bào)告選取國內(nèi)外具有代表性的32個(gè)大模型在4月份的版本，通過多維度綜合性測評(píng)，真實(shí)反映大模型通用能力。

SuperCLUE作為國內(nèi)權(quán)威通用大模型綜合性測評(píng)基準(zhǔn)，其前身可追溯至第三方中文語言理解評(píng)估基準(zhǔn)CLUE（The Chinese Language Understanding Evaluation）。自2019年成立以來，CLUE基準(zhǔn)一直致力于提供科學(xué)、客觀、中立的語言模型評(píng)測，其先后推出了CLUE、FewCLUE、KgCLUE、DataCLUE等多個(gè)被廣泛認(rèn)可的評(píng)估標(biāo)準(zhǔn)。根據(jù)CLUE多年測評(píng)經(jīng)驗(yàn)，SuperCLUE基于通用大模型在學(xué)術(shù)、產(chǎn)業(yè)與用戶側(cè)的廣泛應(yīng)用，構(gòu)建了多層次、多維度的綜合性測評(píng)基準(zhǔn)。

作為一個(gè)完全獨(dú)立的第三方評(píng)測機(jī)構(gòu)，SuperCLUE采用自動(dòng)化評(píng)測技術(shù)，有效消除人為因素帶來的不確定性，確保提供無偏倚的客觀評(píng)測結(jié)果。為確保與真實(shí)用戶體驗(yàn)一致，SuperCLUE納入了開放主觀問題的測評(píng)，通過多維度多視角多層次的評(píng)測體系以及對(duì)話的形式，真實(shí)模擬大模型應(yīng)用場景，真實(shí)有效考察模型生成能力。同時(shí)，通過構(gòu)建多輪對(duì)話場景，更深層次考察大模型在真實(shí)多輪對(duì)話場景的應(yīng)用效果，對(duì)大模型的上下文、記憶、對(duì)話能力全方位評(píng)測。

本次評(píng)測題目為多輪開放式簡答題，評(píng)測集共2194題，涵蓋計(jì)算、邏輯推理、代碼、工具使用、知識(shí)百科、語言理解、長文本、角色扮演、生成與創(chuàng)作、安全十大基礎(chǔ)任務(wù)。

評(píng)測數(shù)據(jù)顯示，云知聲山海大模型總分為69.51，躋身國內(nèi)大模型Top10。值得一提的，在具有產(chǎn)業(yè)落地意義的長文本能力上，山海大模型取得了68.2分的優(yōu)異成績，位列全球大模型第四、國內(nèi)大模型第三。

此外，為真實(shí)反應(yīng)通用大模型與產(chǎn)業(yè)應(yīng)用之間的差距，引導(dǎo)大模型提升技術(shù)落地效果，在通用能力基礎(chǔ)上更好進(jìn)行垂直領(lǐng)域的應(yīng)用，SuperCLUE基于基礎(chǔ)能力和應(yīng)用能力兩個(gè)維度，構(gòu)建了大模型四個(gè)象限，分別代表潛力探索者、技術(shù)領(lǐng)跑者、實(shí)用主義者、卓越領(lǐng)導(dǎo)者，以此區(qū)分大模型所處的不同階段與定位。象限圖顯示，山海大模型被歸類為實(shí)用主義者，這意味著其在場景應(yīng)用上處于領(lǐng)先地位。

自山海大模型發(fā)布以來，云知聲一邊保持大模型能力高速迭代，一邊不斷探索大模型場景落地應(yīng)用。

在大模型能力提升上，目前山海大模型通用能力持續(xù)演進(jìn)，于3月OpenCompass大模型評(píng)測中排名全球大模型廠商第六、國產(chǎn)大模型廠商第四，躋身通用大模型第一梯隊(duì)；醫(yī)療專業(yè)能力在2023年6月的MedQA任務(wù)中取得87.1%的優(yōu)異成績，在臨床執(zhí)業(yè)醫(yī)師資格考試中得分523（總分600分），超過99%的考生水平，并在MedBench評(píng)測中以綜合得分54.7的優(yōu)異成績登頂榜首，其基于山海大模型孵化的醫(yī)療大模型也在CCKS 2023 PromptCBLUE醫(yī)療大模型評(píng)測中奪得通用賽道一等獎(jiǎng)。

在大模型場景落地探索上，云知聲基于過往實(shí)踐經(jīng)驗(yàn)，將山海大模型應(yīng)用于熟悉的醫(yī)療、座艙、交通等行業(yè)場景——在醫(yī)療領(lǐng)域，云知聲基于山海大模型打造的門診病歷生成系統(tǒng)已落地北京友誼醫(yī)院，有效提升了病歷撰寫效率與質(zhì)量；在政務(wù)領(lǐng)域，云知聲率先開發(fā)出深圳首個(gè)政務(wù)大模型“龍知政”,全場景賦能提升政府治理水平；在座艙領(lǐng)域，云知聲通過山海大模型賦能吉利睿藍(lán)汽車打造情感型虛擬助手，為用戶帶來全車全場景的情感化智能交互體驗(yàn)；在交通領(lǐng)域，云知聲山海大模型“入駐”南寧火車東站，打造更具人性化的智能客服，為乘客帶來更快捷、更便利的出行體驗(yàn)，相關(guān)案例也于近期被央視《焦點(diǎn)訪談》欄目報(bào)道。

隨著技術(shù)進(jìn)步和應(yīng)用場景拓展，大模型市場競爭將更加激烈，也將進(jìn)一步推動(dòng)技術(shù)創(chuàng)新和產(chǎn)業(yè)升級(jí)。作為大模型賽道的積極參與者與創(chuàng)新者，未來云知聲將持續(xù)深耕大模型技術(shù)創(chuàng)新與研發(fā)，增強(qiáng)大模型實(shí)用性、適應(yīng)性，通過與行業(yè)伙伴緊密合作，共同推動(dòng)大模型技術(shù)向更高水平發(fā)展，為產(chǎn)業(yè)升級(jí)和經(jīng)濟(jì)增長注入新的動(dòng)力。

（免責(zé)聲明：此文內(nèi)容為廣告，相關(guān)素材由廣告主提供，廣告主對(duì)本廣告內(nèi)容的真實(shí)性負(fù)責(zé)。本網(wǎng)發(fā)布目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)，請(qǐng)自行核實(shí)相關(guān)內(nèi)容。廣告內(nèi)容僅供讀者參考。）

（責(zé)任編輯：張曉波）

看全文

寫評(píng)論已有條評(píng)論跟帖用戶自律公約

提交還可輸入500字

山海通用能力躋身國內(nèi)大模型Top10，長文本能力位居全國三甲

最新評(píng)論

相關(guān)推薦

熱門閱讀

和訊特稿

山海通用能力躋身國內(nèi)大模型Top10，長文本能力位居全國三甲

最新評(píng)論

相關(guān)推薦

熱門閱讀

和訊特稿

推薦閱讀