商湯科技劉宇：AIGC的價(jià)值不只體現(xiàn)在產(chǎn)品上，更是激發(fā)靈感的工具

2024-07-11 12:47:00 時(shí)代財(cái)經(jīng)

在AI繪畫的技術(shù)領(lǐng)域中，文生圖（text-to-image generation）技術(shù)因其卓越性能而備受矚目，被廣泛應(yīng)用于創(chuàng)造獨(dú)具特色且引人入勝的藝術(shù)作品。

然而，大部分用戶在使用中發(fā)現(xiàn)，想要生成一張理想的高質(zhì)量作品，往往需要對描述過程中的Prompt（提示詞）進(jìn)行反復(fù)地調(diào)整與優(yōu)化。

近日，時(shí)代財(cái)經(jīng)針對當(dāng)前文生圖領(lǐng)域發(fā)展現(xiàn)狀及大模型在垂直領(lǐng)域的商業(yè)模式等問題專訪了商湯科技研究執(zhí)行總監(jiān)劉宇。對于這些核心議題，劉宇給出了詳盡的解釋，并對該行業(yè)的未來發(fā)展趨勢進(jìn)行了深入地分析與預(yù)判。

圖片來源：受訪者提供

語言理解能力及數(shù)據(jù)是提升出圖質(zhì)量的關(guān)鍵

事實(shí)上，在內(nèi)容合理性方面，文生圖在人體結(jié)構(gòu)和手部方面的內(nèi)容生成經(jīng)常出現(xiàn)問題�！霸谖纳鷪D領(lǐng)域，普遍出現(xiàn)構(gòu)圖錯(cuò)位、畫面油膩、實(shí)際效果不佳等問題。即便是行業(yè)頭部公司，生成作品中仍然存在著諸多畫面內(nèi)容上的不足�！眲⒂罘Q。

“目前業(yè)界正在解決宏觀結(jié)構(gòu)、多主體之間的關(guān)系、微觀結(jié)構(gòu)這三個(gè)問題，也是我們一步一步在解決的問題。我們需要從基礎(chǔ)模型，即資源百億參數(shù)的AIGC大模型進(jìn)行優(yōu)化，這一過程涵蓋了眾多技術(shù)層面的深度調(diào)整與改進(jìn)。”

據(jù)了解，商湯科技在2024WAIC期間有兩款新產(chǎn)品發(fā)布，分別為“秒畫AIGC大模型?Artist_v1.0.0正式版”和“秒畫趣拍”。其中秒畫正式版融合了商湯最先進(jìn)的技術(shù)和創(chuàng)新算法，在語言理解能力等方面較此前有著較大提升。

“首先，其顯著特點(diǎn)之一在于對多語種內(nèi)容的深度理解與支持，與此同時(shí)，該版本‘秒畫’對于語言的邏輯性、語言間的關(guān)聯(lián)以及同一主體在不同語境下的多樣化描述方式均展現(xiàn)出較高的容忍性。這一特性使得用戶在使用過程中，無需頻繁調(diào)整Prompt，即可直接生成具有精美內(nèi)容和高度準(zhǔn)確性的圖像�！眲⒂畋硎�。

據(jù)劉宇介紹，商湯科技專門訓(xùn)練了一個(gè)大規(guī)模語言模型，用于對prompt用戶輸入文本進(jìn)行理解。除模型外，數(shù)據(jù)也是重點(diǎn)的優(yōu)化項(xiàng)。“在過去的半年里，我們的新版本進(jìn)行了大量的數(shù)據(jù)收集和清洗，這是除算力外成本最大的部分，也使得全新模型與上一版本相比有著較大飛躍�！�

劉宇舉例稱，“回顧一年前，即在我們還在自研v0.4.0beta版本時(shí)，該模型在某些情況下還是會(huì)存在‘多手多腳’或‘手指數(shù)量不對’的問題。如今，無論是在行業(yè)內(nèi)部還是在使用我們大模型的場景中，盡管這類問題仍然可能出現(xiàn)，但其出現(xiàn)的頻率或概率已經(jīng)顯著降低。”

“在當(dāng)前的情境下，要實(shí)現(xiàn)100%的解決方案，微調(diào)確實(shí)是一個(gè)必要的手段。”劉宇表示，從基礎(chǔ)大模型的發(fā)展脈絡(luò)來看，我們正處于一個(gè)持續(xù)優(yōu)化和改進(jìn)的過程中，未來隨著基礎(chǔ)模型的持續(xù)進(jìn)步和技術(shù)的不斷革新，這類問題終將得到全面解決。

垂直領(lǐng)域應(yīng)用落地

2023年被稱為“大模型元年”，中國涌現(xiàn)出上百個(gè)大模型，掀起“百模大戰(zhàn)”，2024年，越來越多的用戶真正開始使用大模型。

事實(shí)上，業(yè)內(nèi)對大模型在落地層面的理解一直在加強(qiáng)。劉宇表示，大模型在多個(gè)行業(yè)領(lǐng)域均展現(xiàn)出廣泛的需求，涵蓋了營銷領(lǐng)域、電商行業(yè)以及手機(jī)電腦等終端產(chǎn)品，擁有大量面向企業(yè)級的B端客戶。

“我們始終堅(jiān)信，即在當(dāng)前階段，無論是從調(diào)用量還是付費(fèi)能力來說，大模型在B端的應(yīng)用始終是高于C端的。”劉宇表示。

針對秒畫當(dāng)前的商業(yè)模式，劉宇的闡述主要聚焦于三個(gè)核心類別。“首先，對于終端廠商而言，他們傾向于直接調(diào)用我們的模型API，并原封不動(dòng)地將其集成至服務(wù)流程中，以此為用戶帶來便利。其次，對于特定垂直應(yīng)用場景的B端客戶，如電商或營銷行業(yè)，他們可能會(huì)基于品牌特性，選擇定制專屬的模型，以滿足其特定需求�！�

“此外，還有一些合作伙伴，他們對模型的需求尤為詳盡，往往要求我們?yōu)槠涠ㄖ埔粋€(gè)大型模型，用于端上的生圖交互場景服務(wù)，這一模型的訓(xùn)練也將涉及全面數(shù)據(jù)的應(yīng)用�！�

而在C端市場，和眾多科技大廠一樣，商湯秒畫目前的策略也主要側(cè)重于提升用戶體驗(yàn)的階段�！拔覀冎铝τ趯⑽覀冊贐端所擁有的核心能力，特別是我們目前在業(yè)界領(lǐng)先的基礎(chǔ)大模型，以及之前提及的經(jīng)過廣泛訓(xùn)練所具備的能力，以免費(fèi)的形式提供給C端用戶進(jìn)行體驗(yàn)，從而讓他們能夠充分感受到我們的技術(shù)優(yōu)勢�！眲⒂畋硎尽�

業(yè)內(nèi)普遍表示，大模型本身不產(chǎn)生價(jià)值，只有跟具體業(yè)務(wù)結(jié)合并落地，其價(jià)值才能得以體現(xiàn)。對于大模型在文生圖領(lǐng)域的價(jià)值體現(xiàn)，劉宇也表達(dá)了相似的觀點(diǎn)，“大模型在文生圖領(lǐng)域所展現(xiàn)的核心價(jià)值，主要在于其能夠啟發(fā)用戶通過生成的產(chǎn)品圖聯(lián)想到特定的需求。換言之，AIGC對于用戶群體的價(jià)值并非直接體現(xiàn)在最終的產(chǎn)品圖上，而是作為一種能夠激發(fā)創(chuàng)意和靈感的工具，為用戶帶來無限的可能性�！�

（責(zé)任編輯：董萍萍）

看全文

寫評論已有條評論跟帖用戶自律公約

提交還可輸入500字

商湯科技劉宇：AIGC的價(jià)值不只體現(xiàn)在產(chǎn)品上，更是激發(fā)靈感的工具

最新評論

相關(guān)推薦

熱門閱讀

和訊特稿

商湯科技劉宇：AIGC的價(jià)值不只體現(xiàn)在產(chǎn)品上，更是激發(fā)靈感的工具

最新評論

相關(guān)推薦

熱門閱讀

和訊特稿

推薦閱讀