在AI繪畫的技術(shù)領(lǐng)域中,文生圖(text-to-image generation)技術(shù)因其卓越性能而備受矚目,被廣泛應(yīng)用于創(chuàng)造獨(dú)具特色且引人入勝的藝術(shù)作品。
然而,大部分用戶在使用中發(fā)現(xiàn),想要生成一張理想的高質(zhì)量作品,往往需要對描述過程中的Prompt(提示詞)進(jìn)行反復(fù)地調(diào)整與優(yōu)化。
近日,時(shí)代財(cái)經(jīng)針對當(dāng)前文生圖領(lǐng)域發(fā)展現(xiàn)狀及大模型在垂直領(lǐng)域的商業(yè)模式等問題專訪了商湯科技研究執(zhí)行總監(jiān)劉宇。對于這些核心議題,劉宇給出了詳盡的解釋,并對該行業(yè)的未來發(fā)展趨勢進(jìn)行了深入地分析與預(yù)判。
圖片來源:受訪者提供
語言理解能力及數(shù)據(jù)是提升出圖質(zhì)量的關(guān)鍵
事實(shí)上,在內(nèi)容合理性方面,文生圖在人體結(jié)構(gòu)和手部方面的內(nèi)容生成經(jīng)常出現(xiàn)問題!霸谖纳鷪D領(lǐng)域,普遍出現(xiàn)構(gòu)圖錯(cuò)位、畫面油膩、實(shí)際效果不佳等問題。即便是行業(yè)頭部公司,生成作品中仍然存在著諸多畫面內(nèi)容上的不足!眲⒂罘Q。
“目前業(yè)界正在解決宏觀結(jié)構(gòu)、多主體之間的關(guān)系、微觀結(jié)構(gòu)這三個(gè)問題,也是我們一步一步在解決的問題。我們需要從基礎(chǔ)模型,即資源百億參數(shù)的AIGC大模型進(jìn)行優(yōu)化,這一過程涵蓋了眾多技術(shù)層面的深度調(diào)整與改進(jìn)。”
據(jù)了解,商湯科技在2024WAIC期間有兩款新產(chǎn)品發(fā)布,分別為“秒畫AIGC大模型?Artist_v1.0.0正式版”和“秒畫趣拍”。其中秒畫正式版融合了商湯最先進(jìn)的技術(shù)和創(chuàng)新算法,在語言理解能力等方面較此前有著較大提升。
“首先,其顯著特點(diǎn)之一在于對多語種內(nèi)容的深度理解與支持,與此同時(shí),該版本‘秒畫’對于語言的邏輯性、語言間的關(guān)聯(lián)以及同一主體在不同語境下的多樣化描述方式均展現(xiàn)出較高的容忍性。這一特性使得用戶在使用過程中,無需頻繁調(diào)整Prompt,即可直接生成具有精美內(nèi)容和高度準(zhǔn)確性的圖像!眲⒂畋硎。
據(jù)劉宇介紹,商湯科技專門訓(xùn)練了一個(gè)大規(guī)模語言模型,用于對prompt用戶輸入文本進(jìn)行理解。除模型外,數(shù)據(jù)也是重點(diǎn)的優(yōu)化項(xiàng)。“在過去的半年里,我們的新版本進(jìn)行了大量的數(shù)據(jù)收集和清洗,這是除算力外成本最大的部分,也使得全新模型與上一版本相比有著較大飛躍!
劉宇舉例稱,“回顧一年前,即在我們還在自研v0.4.0beta版本時(shí),該模型在某些情況下還是會(huì)存在‘多手多腳’或‘手指數(shù)量不對’的問題。如今,無論是在行業(yè)內(nèi)部還是在使用我們大模型的場景中,盡管這類問題仍然可能出現(xiàn),但其出現(xiàn)的頻率或概率已經(jīng)顯著降低。”
“在當(dāng)前的情境下,要實(shí)現(xiàn)100%的解決方案,微調(diào)確實(shí)是一個(gè)必要的手段。”劉宇表示,從基礎(chǔ)大模型的發(fā)展脈絡(luò)來看,我們正處于一個(gè)持續(xù)優(yōu)化和改進(jìn)的過程中,未來隨著基礎(chǔ)模型的持續(xù)進(jìn)步和技術(shù)的不斷革新,這類問題終將得到全面解決。
垂直領(lǐng)域應(yīng)用落地
2023年被稱為“大模型元年”,中國涌現(xiàn)出上百個(gè)大模型,掀起“百模大戰(zhàn)”,2024年,越來越多的用戶真正開始使用大模型。
事實(shí)上,業(yè)內(nèi)對大模型在落地層面的理解一直在加強(qiáng)。劉宇表示,大模型在多個(gè)行業(yè)領(lǐng)域均展現(xiàn)出廣泛的需求,涵蓋了營銷領(lǐng)域、電商行業(yè)以及手機(jī)電腦等終端產(chǎn)品,擁有大量面向企業(yè)級的B端客戶。
“我們始終堅(jiān)信,即在當(dāng)前階段,無論是從調(diào)用量還是付費(fèi)能力來說,大模型在B端的應(yīng)用始終是高于C端的。”劉宇表示。
針對秒畫當(dāng)前的商業(yè)模式,劉宇的闡述主要聚焦于三個(gè)核心類別。“首先,對于終端廠商而言,他們傾向于直接調(diào)用我們的模型API,并原封不動(dòng)地將其集成至服務(wù)流程中,以此為用戶帶來便利。其次,對于特定垂直應(yīng)用場景的B端客戶,如電商或營銷行業(yè),他們可能會(huì)基于品牌特性,選擇定制專屬的模型,以滿足其特定需求!
“此外,還有一些合作伙伴,他們對模型的需求尤為詳盡,往往要求我們?yōu)槠涠ㄖ埔粋(gè)大型模型,用于端上的生圖交互場景服務(wù),這一模型的訓(xùn)練也將涉及全面數(shù)據(jù)的應(yīng)用!
而在C端市場,和眾多科技大廠一樣,商湯秒畫目前的策略也主要側(cè)重于提升用戶體驗(yàn)的階段!拔覀冎铝τ趯⑽覀冊贐端所擁有的核心能力,特別是我們目前在業(yè)界領(lǐng)先的基礎(chǔ)大模型,以及之前提及的經(jīng)過廣泛訓(xùn)練所具備的能力,以免費(fèi)的形式提供給C端用戶進(jìn)行體驗(yàn),從而讓他們能夠充分感受到我們的技術(shù)優(yōu)勢!眲⒂畋硎尽
業(yè)內(nèi)普遍表示,大模型本身不產(chǎn)生價(jià)值,只有跟具體業(yè)務(wù)結(jié)合并落地,其價(jià)值才能得以體現(xiàn)。對于大模型在文生圖領(lǐng)域的價(jià)值體現(xiàn),劉宇也表達(dá)了相似的觀點(diǎn),“大模型在文生圖領(lǐng)域所展現(xiàn)的核心價(jià)值,主要在于其能夠啟發(fā)用戶通過生成的產(chǎn)品圖聯(lián)想到特定的需求。換言之,AIGC對于用戶群體的價(jià)值并非直接體現(xiàn)在最終的產(chǎn)品圖上,而是作為一種能夠激發(fā)創(chuàng)意和靈感的工具,為用戶帶來無限的可能性!
最新評論