山海通用能力躋身國內(nèi)大模型Top10,長文本能力位居全國三甲

2024-05-08 09:32:58 投資資訊網(wǎng) 

4月30日,國內(nèi)權(quán)威大模型評(píng)測機(jī)構(gòu)SuperCLUE發(fā)布《中文大模型基準(zhǔn)測評(píng)2024年度4月報(bào)告》,報(bào)告選取國內(nèi)外具有代表性的32個(gè)大模型在4月份的版本,通過多維度綜合性測評(píng),真實(shí)反映大模型通用能力。

SuperCLUE作為國內(nèi)權(quán)威通用大模型綜合性測評(píng)基準(zhǔn),其前身可追溯至第三方中文語言理解評(píng)估基準(zhǔn)CLUE(The Chinese Language Understanding Evaluation)。自2019年成立以來,CLUE基準(zhǔn)一直致力于提供科學(xué)、客觀、中立的語言模型評(píng)測,其先后推出了CLUE、FewCLUE、KgCLUE、DataCLUE等多個(gè)被廣泛認(rèn)可的評(píng)估標(biāo)準(zhǔn)。根據(jù)CLUE多年測評(píng)經(jīng)驗(yàn),SuperCLUE基于通用大模型在學(xué)術(shù)、產(chǎn)業(yè)與用戶側(cè)的廣泛應(yīng)用,構(gòu)建了多層次、多維度的綜合性測評(píng)基準(zhǔn)。

作為一個(gè)完全獨(dú)立的第三方評(píng)測機(jī)構(gòu),SuperCLUE采用自動(dòng)化評(píng)測技術(shù),有效消除人為因素帶來的不確定性,確保提供無偏倚的客觀評(píng)測結(jié)果。為確保與真實(shí)用戶體驗(yàn)一致,SuperCLUE納入了開放主觀問題的測評(píng),通過多維度多視角多層次的評(píng)測體系以及對(duì)話的形式,真實(shí)模擬大模型應(yīng)用場景,真實(shí)有效考察模型生成能力。同時(shí),通過構(gòu)建多輪對(duì)話場景,更深層次考察大模型在真實(shí)多輪對(duì)話場景的應(yīng)用效果,對(duì)大模型的上下文、記憶、對(duì)話能力全方位評(píng)測。

本次評(píng)測題目為多輪開放式簡答題,評(píng)測集共2194題,涵蓋計(jì)算、邏輯推理、代碼、工具使用、知識(shí)百科、語言理解、長文本、角色扮演、生成與創(chuàng)作、安全十大基礎(chǔ)任務(wù)。

評(píng)測數(shù)據(jù)顯示,云知聲山海大模型總分為69.51,躋身國內(nèi)大模型Top10。值得一提的,在具有產(chǎn)業(yè)落地意義的長文本能力上,山海大模型取得了68.2分的優(yōu)異成績,位列全球大模型第四、國內(nèi)大模型第三。

此外,為真實(shí)反應(yīng)通用大模型與產(chǎn)業(yè)應(yīng)用之間的差距,引導(dǎo)大模型提升技術(shù)落地效果,在通用能力基礎(chǔ)上更好進(jìn)行垂直領(lǐng)域的應(yīng)用,SuperCLUE基于基礎(chǔ)能力和應(yīng)用能力兩個(gè)維度,構(gòu)建了大模型四個(gè)象限,分別代表潛力探索者、技術(shù)領(lǐng)跑者、實(shí)用主義者、卓越領(lǐng)導(dǎo)者,以此區(qū)分大模型所處的不同階段與定位。象限圖顯示,山海大模型被歸類為實(shí)用主義者,這意味著其在場景應(yīng)用上處于領(lǐng)先地位。

自山海大模型發(fā)布以來,云知聲一邊保持大模型能力高速迭代,一邊不斷探索大模型場景落地應(yīng)用。

在大模型能力提升上,目前山海大模型通用能力持續(xù)演進(jìn),于3月OpenCompass大模型評(píng)測中排名全球大模型廠商第六、國產(chǎn)大模型廠商第四, 躋身通用大模型第一梯隊(duì);醫(yī)療專業(yè)能力在2023年6月的MedQA任務(wù)中取得87.1%的優(yōu)異成績,在臨床執(zhí)業(yè)醫(yī)師資格考試中得分523(總分600分),超過99%的考生水平,并在MedBench評(píng)測中以綜合得分54.7的優(yōu)異成績登頂榜首,其基于山海大模型孵化的醫(yī)療大模型也在CCKS 2023 PromptCBLUE醫(yī)療大模型評(píng)測中奪得通用賽道一等獎(jiǎng)。

在大模型場景落地探索上,云知聲基于過往實(shí)踐經(jīng)驗(yàn),將山海大模型應(yīng)用于熟悉的醫(yī)療、座艙、交通等行業(yè)場景——在醫(yī)療領(lǐng)域,云知聲基于山海大模型打造的門診病歷生成系統(tǒng)已落地北京友誼醫(yī)院,有效提升了病歷撰寫效率與質(zhì)量;在政務(wù)領(lǐng)域,云知聲率先開發(fā)出深圳首個(gè)政務(wù)大模型“龍知政”,全場景賦能提升政府治理水平;在座艙領(lǐng)域,云知聲通過山海大模型賦能吉利睿藍(lán)汽車打造情感型虛擬助手,為用戶帶來全車全場景的情感化智能交互體驗(yàn);在交通領(lǐng)域,云知聲山海大模型“入駐”南寧火車東站,打造更具人性化的智能客服,為乘客帶來更快捷、更便利的出行體驗(yàn),相關(guān)案例也于近期被央視《焦點(diǎn)訪談》欄目報(bào)道。

隨著技術(shù)進(jìn)步和應(yīng)用場景拓展,大模型市場競爭將更加激烈,也將進(jìn)一步推動(dòng)技術(shù)創(chuàng)新和產(chǎn)業(yè)升級(jí)。作為大模型賽道的積極參與者與創(chuàng)新者,未來云知聲將持續(xù)深耕大模型技術(shù)創(chuàng)新與研發(fā),增強(qiáng)大模型實(shí)用性、適應(yīng)性,通過與行業(yè)伙伴緊密合作,共同推動(dòng)大模型技術(shù)向更高水平發(fā)展,為產(chǎn)業(yè)升級(jí)和經(jīng)濟(jì)增長注入新的動(dòng)力。

(免責(zé)聲明:此文內(nèi)容為廣告,相關(guān)素材由廣告主提供,廣告主對(duì)本廣告內(nèi)容的真實(shí)性負(fù)責(zé)。本網(wǎng)發(fā)布目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),請(qǐng)自行核實(shí)相關(guān)內(nèi)容。廣告內(nèi)容僅供讀者參考。)

(責(zé)任編輯:張曉波 )
看全文
寫評(píng)論已有條評(píng)論跟帖用戶自律公約
提 交還可輸入500

最新評(píng)論

查看剩下100條評(píng)論

熱門閱讀

    和訊特稿

      推薦閱讀

        县级市| 京山县| 于都县| 视频| 库伦旗| 巩义市| 三穗县| 盐山县| 微博| 武夷山市| 类乌齐县| 城步| 朝阳市| 简阳市| 望谟县| 潼关县| 石河子市| 北安市| 镇赉县| 宝应县| 长宁区| 永安市| 武乡县| 安乡县| 扶余县| 贺州市| 清新县| 象山县| 玉屏| 建水县| 蕉岭县| 安泽县| 从化市| 正定县| 汝阳县| 横山县| 富裕县| 兴仁县| 泸西县| 靖西县| 舞阳县|