7月4日,騰訊混元文生圖大模型(混元DiT)宣布開源小顯存版本,僅需6G顯存即可運行,對使用個人電腦本地部署的開發(fā)者十分友好,該版本與LoRA、ControlNet等插件,都已適配至Diffusers庫;并新增對Kohya圖形化界面的支持,讓開發(fā)者可以低門檻地訓練個性化LoRA模型;同時,混元DiT模型升級至1.2版本,在圖片質感與構圖方面均有所提升。
模型易用性再提升,個人電腦可輕松運行
基于DiT架構的文生圖模型生成圖片質感更佳,但對顯存的要求卻非常高,讓許多開發(fā)者望而卻步。這也是新版本Stable Diffusion模型無法快速普及的原因之一。
應廣大開發(fā)者的需求,混元DiT推出小顯存版本,最低僅需6G顯存即可運行優(yōu)化推理框架,對使用個人電腦本地部署的開發(fā)者非常友好。經過與Hugging Face合作,小顯存版本、LoRA與ControlNet插件,都已經適配到Diffusers庫中。開發(fā)者無需下載原始代碼,僅用簡單的三行代碼僅可調用,大大簡化了使用成本。
同時,混元DiT宣布接入Kohya,讓開發(fā)者可以低門檻地訓練專屬LoRA模型。
Kohya是一個開源的、輕量化模型微調訓練服務,提供了圖形化的用戶界面,被廣泛用于擴散模型類文生圖模型的訓練。用戶可以通過圖形化界面,完成模型的全參精調及LoRA訓練,無需涉及到代碼層面的細節(jié)。訓練好的模型符合Kohya生態(tài)架構,可以低成本與 WebUI 等推理界面結合,實現(xiàn)一整套“訓練-生圖”工作流。
此外,騰訊宣布混元文生圖打標模型”混元Captioner“正式對外開源。該模型支持中英文雙語,針對文生圖場景進行專門優(yōu)化,可幫助開發(fā)者快速制作高質量的文生圖數(shù)據集。
相比起業(yè)界的開源打標模型,混元Captioner模型能更好的理解與表達中文語義,輸出的圖片描述更為結構化、完整和準確,并能精準識別出常見知名人物與地標。模型還支持開發(fā)者自行補充和導入個性化的背景知識。
混元Captioner模型開源之后,全球的文生圖研究者、數(shù)據標注人員,均可使用混元Captioner高效地提升自身圖像描述質量,生成更全面、更準確的圖片描述,提升模型效果;煸狢aptioner生成的數(shù)據集不僅能用于訓練基于混元DiT的模型,亦可用于其他視覺模型訓練。
眾多開發(fā)者關注,成最受歡迎國產DiT開源模型
在提升模型易用性的同時,騰訊宣布混元文生圖打標模型”混元Captioner“正式對外開源。該模型支持中英文雙語,針對文生圖場景進行專門優(yōu)化,可幫助開發(fā)者快速制作高質量的文生圖數(shù)據集。
相比起業(yè)界的開源打標模型,混元Captioner模型能更好的理解與表達中文語義,輸出的圖片描述更為結構化、完整和準確,并能精準識別出常見知名人物與地標。模型還支持開發(fā)者自行補充和導入個性化的背景知識。
作為首個中文原生DiT開源模型,混元DiT自全面開源以來,一直持續(xù)建設生態(tài)。6月,混元DiT發(fā)布的專屬加速庫,可將推理效率進一步提升,生圖時間縮短75%;并進一步開源了推理代碼;發(fā)布LoRA和ControlNet等插件。于此同時,模型易用性大幅提升,用戶可以通過Hugging Face Diffusers快訊調用混元DiT模型及其插件,或基于Kohya和ComfyUI等圖形化界面訓練與使用混元DiT。
目前,在眾多開發(fā)者的支持下,混元DiT發(fā)布不到2個月,Github Star數(shù)已經超過2.6k,成為最受歡迎的國產DiT開源模型。
(免責聲明:此文內容為廣告,相關素材由廣告主提供,廣告主對本廣告內容的真實性負責。本網發(fā)布目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,請自行核實相關內容。廣告內容僅供讀者參考。)
【免責聲明】【廣告】本文僅代表作者本人觀點,與和訊網無關。和訊網站對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。郵箱:news_center@staff.hexun.com
最新評論