DPG-Bench榜首!智譜開源文生圖模型CogView4:支持中英文輸入和生成,免費(fèi)商用授權(quán)!
在圖像生成技術(shù)的浪潮中,智譜開源再次引領(lǐng)潮流,推出了全新的文生圖模型——CogView4。這款模型不僅支持中英雙語提示詞輸入,更擅長(zhǎng)理解和遵循中文指令,讓創(chuàng)意表達(dá)無界限。尤為值得一提的是,CogView4開創(chuàng)了先河,成為首個(gè)能在畫面中直接生成漢字的開源文生圖模型,讓文字與圖像的融合更加自然流暢。

不僅如此,CogView4還具備極高的靈活性,支持生成任意寬高比的圖片,同時(shí)接受任意長(zhǎng)度的提示詞輸入,滿足用戶多樣化的創(chuàng)作需求。更令人期待的是,后續(xù)還將開源對(duì)應(yīng)的Controlnet、Comfyui支持及模型微調(diào)工具,為用戶帶來更加便捷、高效的創(chuàng)作體驗(yàn)。

在DPG-Bench基準(zhǔn)測(cè)試中,CogView4憑借卓越的表現(xiàn)榮獲綜合評(píng)分第一,彰顯了其在圖像生成領(lǐng)域的強(qiáng)大實(shí)力。今年,圖像模型領(lǐng)域終于迎來了新的突破,而CogView4無疑是這場(chǎng)變革中的佼佼者。
CogView4主要特點(diǎn)總結(jié)如下:
- 支持中英雙語提示詞輸入,擅長(zhǎng)理解和遵循中文提示詞
- 首個(gè)能夠在畫面中生成漢字的開源文生圖模型
- 支持生成任意寬高的圖片以及任意長(zhǎng)度提示詞輸入
相關(guān)鏈接
- 論文:https://arxiv.org/pdf/2403.05121
- 項(xiàng)目:github.com/THUDM/CogView4
- 模型:huggingface.co/THUDM/CogView4-6B
- 試用:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

效果展示

推理要求與模型介紹
- 分辨率:寬度和高度必須介于512px和之間2048px,可被 整除32,并且確保最大像素?cái)?shù)不超過2^21px。
- 精度:BF16 / FP32(不支持 FP16,因?yàn)樗鼤?huì)導(dǎo)致溢出,從而導(dǎo)致圖像完全變黑) 使用BF16精度為batchsize=4進(jìn)行測(cè)試,內(nèi)存使用情況如下表所示:

模型指標(biāo)
DFG-Bench

GenEval

T2I-CompBench

Chinese Text Accuracy Evaluation































