中國(guó)聯(lián)通宣布,昇騰聯(lián)通數(shù)據(jù)智能公司打造、平臺(tái)首個(gè)完全在國(guó)產(chǎn)昇騰AI軟硬件平臺(tái)上實(shí)現(xiàn)訓(xùn)練和推理的訓(xùn)練中文原生文生圖模型“聯(lián)通元景文生圖模型”,正式開源。推理圖 該模型實(shí)現(xiàn)了多項(xiàng)自主創(chuàng)新突破: 首先是中國(guó)真正在架構(gòu)上,通過在SDXL架構(gòu)中融合復(fù)合語言編碼模塊,聯(lián)通實(shí)現(xiàn)了對(duì)中文長(zhǎng)文本、元景多屬性對(duì)應(yīng)和中文特色詞匯的文生文精確語義理解,對(duì)應(yīng)圖像的模型生成效果得到了極大提升。 其次是開源在昇騰AI大規(guī)模算力集群上,實(shí)現(xiàn)了中文原生文生圖模型的懂中訓(xùn)練和推理,并將模型和代碼對(duì)業(yè)界開源,昇騰以推動(dòng)文生圖領(lǐng)域的平臺(tái)國(guó)產(chǎn)化進(jìn)程。 據(jù)悉,訓(xùn)練原始SDXL的推理圖語言編碼器僅使用英文CLIP模型,智能支持英文文本輸入,輸入長(zhǎng)度也不能超過77個(gè)token。 對(duì)此,聯(lián)通元景文生圖模型一方面將英文CLIP模型替換成中文CLIP,并引入復(fù)合語言編碼架構(gòu),使用基于encoder-decoder架構(gòu)的語言模型,突破文本長(zhǎng)度限制。 通過引入復(fù)合語言編碼模塊,元景文生圖模型實(shí)現(xiàn)了原生中文語義理解,避免了利用翻譯插件等作為中介調(diào)用英文文生圖模型造成的中文信息損失。 同時(shí),通過引入海量中文圖文對(duì)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,模型對(duì)中文專屬名詞,如鼠標(biāo)-老鼠、仙鶴-吊車等英文模型易混淆的對(duì)象,以及中文菜譜等英文模型無法理解的名詞,都能夠準(zhǔn)確理解并生成對(duì)應(yīng)的高質(zhì)量圖片。 (在英文中均翻譯成crane,易混淆)
(中文特色詞匯)
中國(guó)聯(lián)通在國(guó)產(chǎn)昇騰AI基礎(chǔ)軟硬件平臺(tái)上實(shí)現(xiàn)了元景文生圖模型從微調(diào)訓(xùn)練到推理的一體化適配。 在微調(diào)訓(xùn)練方面,用戶可使用自定義數(shù)據(jù)集,實(shí)現(xiàn)從其它平臺(tái)至?xí)N騰的平滑切換; 在模型推理方面,接口與Diffusers對(duì)齊,簡(jiǎn)單易用,支持單卡和多卡,單卡推理支持UNet Cache加速。 該模型已在聯(lián)通的多個(gè)內(nèi)外部項(xiàng)目中服務(wù)于文創(chuàng)、服裝、工業(yè)設(shè)計(jì)等諸多領(lǐng)域,支撐了中華器靈、服裝大模型等數(shù)十個(gè)案例。 聯(lián)通元景文生圖模型賦能服裝設(shè)計(jì)
聯(lián)通元景文生圖模型賦能文物活化
目前,元景文生圖模型已在GitHub、Hugging Face、魔搭、始智等社區(qū)全面開源,地址如下: GitHub: https://github.com/UnicomAI/UniT2IXL.git HuggingFace: https://huggingface.co/UnicomAI/UniT2IXL 魔搭: https://www.modelscope.cn/UnicomAI/UniT2IXL.git 始智: https://wisemodel.cn/models/UnicomAI/UniT2IXL 聯(lián)通元景文生圖模型在全球數(shù)字經(jīng)濟(jì)大會(huì)上獲獎(jiǎng)
|