近日,聯(lián)通數(shù)據(jù)智能有限公司開(kāi)源了首個(gè)完全在國(guó)產(chǎn) N騰 AI 基礎(chǔ)軟硬件平臺(tái)上實(shí)現(xiàn)訓(xùn)練和推理的中文原生文生圖模型,實(shí)現(xiàn)多項(xiàng)自主創(chuàng)新突破。
在架構(gòu)上,該模型通過(guò)在 SDXL 架構(gòu)中融合復(fù)合語(yǔ)言編碼模塊,實(shí)現(xiàn)了對(duì)中文長(zhǎng)文本、多屬性對(duì)應(yīng)和中文特色詞匯的精確語(yǔ)義理解,對(duì)應(yīng)圖像的生成效果得到了極大提升。
在 N騰 AI 大規(guī)模算力集群上實(shí)現(xiàn)了中文原生文生圖模型的訓(xùn)練和推理,并將模型和代碼對(duì)業(yè)界開(kāi)源,以推動(dòng)文生圖領(lǐng)域的國(guó)產(chǎn)化進(jìn)程。
當(dāng)前的文生圖主流模型以英文輸入為主,中文原生的文生圖模型研發(fā)則相對(duì)比較緩慢,這導(dǎo)致了模型對(duì)中文語(yǔ)義的理解能力不足,中文特色圖片生成能力有限。中國(guó)聯(lián)通作為數(shù)字信息運(yùn)營(yíng)服務(wù)國(guó)家隊(duì)、數(shù)字技術(shù)融合創(chuàng)新排頭兵,長(zhǎng)期關(guān)注中文原生大模型的發(fā)展,并走出了一條夯實(shí)基礎(chǔ)、自主研發(fā)的技術(shù)創(chuàng)新突破之路。目前,元景文生圖模型已在聯(lián)通內(nèi)外部多個(gè)項(xiàng)目中成功應(yīng)用,成為助力企業(yè)降本增效、智能化升級(jí)的重要一環(huán)。
架構(gòu)創(chuàng)新:引入復(fù)合語(yǔ)言編碼模塊,支持中文長(zhǎng)文本輸入。原始 SDXL 的語(yǔ)言編碼器僅使用了英文 CLIP 模型,導(dǎo)致其一方面僅支持英文文本作為輸入,另一方面在輸入長(zhǎng)度上也存在嚴(yán)重限制(最長(zhǎng) 77 個(gè) token)。對(duì)此,元景文生圖模型一方面將英文 CLIP 模型替換成中文 CLIP,使得模型中文短文本輸入具有更好的理解能力;同時(shí),引入復(fù)合語(yǔ)言編碼架構(gòu),將基于 encoder-decoder 架構(gòu)的語(yǔ)言模型引入了語(yǔ)言編碼器部分,這使得模型能支持超過(guò) CLIP 長(zhǎng)度限制的長(zhǎng)文本,實(shí)現(xiàn)更準(zhǔn)確的中文語(yǔ)義理解和判斷。
中文原生模型:支持中文原生語(yǔ)義理解和中文特色圖像生成。通過(guò)引入復(fù)合語(yǔ)言編碼模塊,元景文生圖模型實(shí)現(xiàn)了原生中文語(yǔ)義理解,避免了傳統(tǒng)的利用翻譯插件等作為中介調(diào)用英文文生圖模型的方法所帶來(lái)的中文信息損失。同時(shí)通過(guò)引入海量中文圖文對(duì)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,模型對(duì)中文專(zhuān)屬名詞,如鼠標(biāo)-老鼠、仙鶴-吊車(chē)等英文模型易混淆的對(duì)象,以及中文菜譜等英文模型無(wú)法理解的名詞,都能夠準(zhǔn)確理解并生成對(duì)應(yīng)的高質(zhì)量圖片。
支持國(guó)產(chǎn)全棧訓(xùn)推,打造數(shù)十個(gè)行業(yè)標(biāo)桿案例。中國(guó)聯(lián)通在國(guó)產(chǎn) N騰 AI 基礎(chǔ)軟硬件平臺(tái)上實(shí)現(xiàn)了元景文生圖模型從微調(diào)訓(xùn)練到推理的一體化適配。在微調(diào)訓(xùn)練方面,用戶(hù)可使用自定義數(shù)據(jù)集,實(shí)現(xiàn)從其它平臺(tái)至 N騰的平滑切換;在模型推理方面,接口與 Diffusers 對(duì)齊,簡(jiǎn)單易用,支持單卡和多卡,單卡推理支持 UNet Cache 加速。
通過(guò)架構(gòu)創(chuàng)新、中文原生語(yǔ)義支持、硬件適配等多項(xiàng)突破性成果,聯(lián)通元景中文文生圖模型為廣大開(kāi)發(fā)者提供了研發(fā)中文定制文生圖模型和應(yīng)用的全棧支持。該模型已在聯(lián)通的多個(gè)內(nèi)外部項(xiàng)目中賦能文創(chuàng)、服裝、工業(yè)設(shè)計(jì)等諸多領(lǐng)域