騰訊混元開源AI繪畫新框架:24維度對齊人類意圖,讓AI讀懂復(fù)雜指令
AI繪畫總“畫不對”,讓創(chuàng)作者一再崩潰。
如今,騰訊混元團(tuán)隊開源的PromptEnhancer框架,為這一難題提供了解決方案。

無需修改任何預(yù)訓(xùn)練T2I模型的權(quán)重,僅通過 “思維鏈(CoT)提示重寫” 這一簡單思路,就能讓AI繪畫的文本-圖像對齊精度大幅提升。
在抽象關(guān)系理解、數(shù)值約束等復(fù)雜場景中,準(zhǔn)確率甚至能提升17%以上。

同時,為了助力研究人員進(jìn)一步深入探索提示優(yōu)化技術(shù),騰訊混元團(tuán)隊同步開源了一個全新的高質(zhì)量人類偏好基準(zhǔn)測試數(shù)據(jù)集。
該數(shù)據(jù)集圍繞復(fù)雜場景構(gòu)建,包含大量標(biāo)注數(shù)據(jù),不僅為PromptEnhancer的訓(xùn)練與評估提供了有力支撐,更為相關(guān)研究領(lǐng)域提供了重要參考。
核心創(chuàng)新:兩大模塊破解 “理解難題”,實現(xiàn) “即插即用” 優(yōu)化
近年來,從Stable Diffusion、Imagen到HunyuanDiT、Flux,T2I擴(kuò)散模型已能生成超寫實、風(fēng)格多樣的圖像,但它們對 “人類指令” 的解讀能力,仍存在明顯短板。
騰訊混元團(tuán)隊在研究中發(fā)現(xiàn),T2I模型的核心問題集中在三大領(lǐng)域:
- 屬性綁定混亂:無法將 “紅色”“條紋” 等屬性精準(zhǔn)匹配到 “帽子”“衣服” 等對象上;
- 否定指令失效:輸入 “沒有蔥的牛肉面”,生成的圖像里卻總會出現(xiàn)蔥;
- 復(fù)雜關(guān)系失控:難以理解 “貓在狗左邊,且比狗小一半” 這類空間與比較關(guān)系,更無法渲染 “用橘子瓣拼成的貓” 這種抽象組合場景。
這些問題的根源,在于用戶輸入的簡潔指令與模型需要的 “精細(xì)化描述” 之間存在巨大鴻溝。
此前的解決方案要么需要針對特定T2I模型微調(diào),難以通用;要么依賴CLIP分?jǐn)?shù)等粗糙評價指標(biāo),無法定位具體錯誤。
這就導(dǎo)致AI繪畫更像 “開盲盒”,而非可控的創(chuàng)作工具。
PromptEnhancer的突破,在于構(gòu)建了一套與生成模型完全解耦的提示優(yōu)化框架,核心包含 “CoT-based重寫器” 與 “AlignEvaluator獎勵模型” 兩大模塊,通過兩階段訓(xùn)練讓AI 學(xué)會“精準(zhǔn)說話”。
△圖1:PromptEnhancer技術(shù)架構(gòu)
由上圖可以看出,PromptEnhancer由兩部分組成,分別是SFT監(jiān)督訓(xùn)練用于激活CoT改寫能力,基于AlignEvaluator的GRPO強(qiáng)化學(xué)習(xí)對齊24個維度。
CoT-based 重寫器:像人類設(shè)計師一樣拆解指令
不同于傳統(tǒng) “關(guān)鍵詞堆砌” 式的提示優(yōu)化,PromptEnhancer的重寫器引入了 “思維鏈(CoT)” 機(jī)制——模擬人類設(shè)計師的思考過程,將簡潔指令拆解為 “核心元素-潛在歧義-細(xì)節(jié)補(bǔ)充” 三步驟。
△圖2:穿宇航服的湯姆貓在太空漂浮
例如,用戶輸入 “可愛的湯姆穿宇航服在太空漂浮,油畫風(fēng)格”。
重寫器會先明確 “湯姆是《貓和老鼠》IP角色” 這一背景知識,再補(bǔ)充 “宇航服是米白色多層設(shè)計,頭盔帶黃色高光”“太空背景用厚涂技法,星體是白色黃色點(diǎn)彩” 等細(xì)節(jié),最終生成結(jié)構(gòu)化的精細(xì)化提示。
為讓重寫器掌握這種能力,團(tuán)隊首先通過 “監(jiān)督微調(diào)(SFT)” 進(jìn)行初始化。
利用Gemini-2.5-Pro等大模型生成48.5萬組 “原始提示(user prompt)-思維鏈(think)-精細(xì)化提示(reprompt)” 數(shù)據(jù),讓重寫器學(xué)會從 “宏觀概述” 到 “微觀細(xì)節(jié)” 的描述邏輯。
AlignEvaluator:24維度 “打分”,精準(zhǔn)定位錯誤
傳統(tǒng)獎勵模型(如CLIP分?jǐn)?shù))只能給出 “整體相似度”,無法判斷AI錯在哪。
PromptEnhancer則構(gòu)建了覆蓋6大類別、24個關(guān)鍵維度的評價體系,讓錯誤定位更精準(zhǔn)。
這24個關(guān)鍵維度幾乎涵蓋了T2I模型的所有 “盲區(qū)”,例如:
- 語言理解:否定指令、代詞指代(如 “它是金屬做的,所以砸壞了桌子” 中的 “它” 是否指 “球”);
- 視覺屬性:物體數(shù)量(3只以上)、材質(zhì)(冰雕 vs 石雕)、表情(輕蔑 vs 微笑);
- 復(fù)雜關(guān)系:包含關(guān)系(杯子里裝著蘇打水)、相似關(guān)系(湖的形狀像吉他)、反事實場景(女孩抓著蒲公英梗懸在云端)。
AlignEvaluator通過大規(guī)模標(biāo)注數(shù)據(jù)訓(xùn)練,能針對每一個維度給出生成圖像的 “精準(zhǔn)分?jǐn)?shù)”。
例如 “牛肉面沒畫蔥” 在 “否定指令” 維度得高分,“貓的顏色錯了” 在 “屬性綁定” 維度得低分,從而為提示優(yōu)化提供明確方向。
△圖3:AlignEvaluator評估維度
兩階段訓(xùn)練:從 “會寫” 到 “寫得好”
有了基礎(chǔ)能力與評價標(biāo)準(zhǔn),PromptEnhancer通過兩階段訓(xùn)練讓重寫器持續(xù)進(jìn)化:
階段 1:SFT初始化:掌握結(jié)構(gòu)化描述能力,能生成符合語法邏輯的精細(xì)化提示;
階段 2:GRPO強(qiáng)化學(xué)習(xí):將重寫器生成的8個候選提示輸入凍結(jié)的T2I模型(如Hunyuan-Image 2.1),用AlignEvaluator對生成圖像打分。
通過 “獎勵越高的提示越受重視” 的邏輯,讓重寫器逐漸學(xué)會 “生成能讓T2I模型讀懂的提示”。
20個維度準(zhǔn)確率提升,復(fù)雜場景突破明顯
△圖4:在24個維度benchmark的文生圖語義準(zhǔn)確率
在HunyuanImage 2.1模型上的測試顯示,PromptEnhancer帶來了全方位的性能提升:
- 整體準(zhǔn)確率+5.1%:在24個評價維度中,20個維度實現(xiàn)正提升,僅2個維度出現(xiàn)輕微下降(文本布局-0.7%、無接觸交互-0.9%);
- 復(fù)雜場景突破顯著:在最具挑戰(zhàn)性的 “相似關(guān)系”(如 “湖像吉他”)、“反事實推理”(如 “蒲公英梗懸云端”)、“數(shù)量計數(shù)”(如 “4只狗”)維度,準(zhǔn)確率分別提升17.3%、17.2%、15.0%;
- 風(fēng)格與細(xì)節(jié)更精準(zhǔn):在 “面部表情”(如 “輕蔑的表情”)、“跨對象屬性綁定”(如 “男人短發(fā)藍(lán)襯衫,女人長發(fā)黃襯衫”)維度,準(zhǔn)確率提升超10%,油畫、點(diǎn)彩等風(fēng)格的還原度也大幅提高。
從定性效果看,原始提示生成的 “湯姆穿宇航服” 圖像中,宇航服細(xì)節(jié)模糊、太空背景單調(diào)。
而經(jīng)過PromptEnhancer優(yōu)化后,不僅角色I(xiàn)P特征清晰,宇航服的紋理、背景的繪畫技法都完全符合用戶預(yù)期。
PromptEnhancer的 “即插即用” 特性,在HunyuanImage 2.1、Flux dev、Qwen-Img等主流 T2I 模型上的圖文對齊,真實感,美感均有一定提升,驗證了對不同架構(gòu)生成模型的適配性。
以下為典型場景的提示詞經(jīng)過PromptEnhancer改寫前后的效果對比:
△圖5:Qwen-Image生成
User Prompt:沒有糖霜的草莓蛋糕,放在鋪著格子餐布的木桌上,油畫質(zhì)感。
△圖6:Qwen-Image生成
Reprompt:一幅油畫作品描繪了一個沒有糖霜的草莓蛋糕,它被放置在一張鋪有格子餐布的木質(zhì)桌子上。蛋糕主體為圓形,呈現(xiàn)出明顯的厚涂油畫技法,其表面布滿了粗獷的brushstrokes。蛋糕的內(nèi)部是草莓色的海綿體,結(jié)構(gòu)松軟,層與層之間填充著粉色的果醬。蛋糕頂部裝飾著幾顆新鮮的紅色草莓,其形態(tài)和顏色均由厚重的油畫顏料表現(xiàn)。蛋糕下方是一塊格子圖案的餐布,由藍(lán)色和白色交織的筆觸構(gòu)成,鋪設(shè)在一張深棕色的木質(zhì)桌面上,桌面的木紋grain也以明顯的油畫筆觸刻畫出來。整體畫面呈現(xiàn)出強(qiáng)烈的油畫質(zhì)感,色彩飽和且厚重,筆觸感強(qiáng)烈,是一幅典型的Still-life painting(靜物畫)作品。
△圖7:FLUX Dev生成
User Prompt:三只戴著不同顏色領(lǐng)結(jié)的兔子,最大的在最左邊,最小的在最右邊,中間的兔子抱著胡蘿卜,低多邊形風(fēng)格。
△圖8:FLUX Dev生成
Reprompt:一幅圖像描繪了三只大小不一、戴著不同顏色領(lǐng)結(jié)的兔子,它們以從大到小的順序從左至右排列在一個低多邊形風(fēng)格的場景中。畫面最左側(cè)是體型最大的一只兔子,它身體呈淺灰色,由清晰的多邊形平面構(gòu)成,脖子上戴著一個紅色的多邊形領(lǐng)結(jié)。中間位置是一只中等大小的兔子,它身體為白色,前爪緊緊抱著一個橙色的胡蘿卜,胡蘿卜的葉子是綠色的,同樣呈現(xiàn)出明顯的多邊形結(jié)構(gòu),它的領(lǐng)結(jié)是藍(lán)色的。畫面最右側(cè)是體型最小的一只兔子,它身體呈淡粉色,脖子上戴著一個黃色的領(lǐng)結(jié),它靜靜地站立著。它們站立的地面是由多邊形塊狀拼接而成,背景是簡單的幾何色塊。整體畫面呈現(xiàn)出鮮明的低多邊形(Low Poly)風(fēng)格。

△圖9:HunyuanImage-2.1生成
User Prompt:手繪作業(yè),一個方塊、兩個三角形和三個圓形,所有圖形的輪廓都是粉色的。
△圖10:HunyuanImage-2.1生成
Reprompt:手繪作業(yè)。多個基本幾何圖形排列在一個白色的紙張背景上。中央是一個正方形,其輪廓由一條明顯的粉色線條勾勒而成,線條粗細(xì)不均,帶有手繪感。在正方形的上方,擺放著兩個三角形,它們的輪廓同樣為粉色。在這些圖形的周圍,散落著三個圓形,它們的邊界也是粉色的線條。所有圖形的內(nèi)部均為白色,與粉色的輪廓形成對比。背景是白色的畫紙,上面有一些輕微的褶皺或污漬,增加了手繪的真實感。兒童手繪或概念草圖的風(fēng)格。
這些跨模型測試表明,PromptEnhancer無需針對特定T2I模型做定制化修改,僅通過 “提示重寫+AlignEvaluator 反饋” 的通用邏輯,就能提升不同架構(gòu)的生成模型的復(fù)雜指令理解能力。
這意味著產(chǎn)業(yè)界可低成本將該技術(shù)嫁接至現(xiàn)有工作流,快速提升AI繪畫的可控性與創(chuàng)作效率。
為了推動提示優(yōu)化技術(shù)的可解釋性與可復(fù)現(xiàn)性研究,騰訊混元團(tuán)隊同步開源了包含6000條Prompt及對應(yīng)多個維度精細(xì)標(biāo)注的高質(zhì)量基準(zhǔn)測試集。
這套數(shù)據(jù)集不僅覆蓋 “屬性綁定”“復(fù)雜關(guān)系”“否定指令” 等T2I模型核心痛點(diǎn)場景,更通過多維度統(tǒng)計分析,為研究人員揭示AI繪畫指令理解的深層規(guī)律。
數(shù)據(jù)集概覽:6k Prompt覆蓋復(fù)雜創(chuàng)作場景
該基準(zhǔn)測試集的6000條Prompt,圍繞 “人類意圖精準(zhǔn)表達(dá)” 核心目標(biāo)構(gòu)建,涵蓋三類復(fù)雜場景:
- 日常創(chuàng)作延伸:如 “穿條紋圍裙的廚師在大理石臺面上切紅蘋果,chiaroscuro明暗對比風(fēng)格”;
- 抽象關(guān)系挑戰(zhàn):如 “用云朵形狀組成的鯨魚在紫色天空游動,像素藝術(shù)風(fēng)格”;
- 反事實與推理場景:如 “如果貓長著大象的耳朵,它會如何趴在櫻花樹上,浮世繪風(fēng)格”。
每條Prompt均配備AlignEvaluator所需的24維度標(biāo)注,確保對 “人類意圖” 的精準(zhǔn)捕捉。
Prompt長度分布:指令復(fù)雜度的直觀映射
△圖11:Prompt的字符長度分布
長度集中于80-120字符區(qū)間,峰值約在100字符處,體現(xiàn)數(shù)據(jù)集以 “中等復(fù)雜度指令” 為核心 —— 既覆蓋日常簡短指令的延伸,又能挑戰(zhàn)模型對長指令中多元素關(guān)系的理解。
120字符以上的 “長尾區(qū)間” 仍有較高頻率,代表 “極復(fù)雜指令”(多對象、多屬性、多關(guān)系組合指令)的存在,為模型極限能力測試提供素材。
這種分布與真實創(chuàng)作場景高度契合:創(chuàng)作者既會用簡潔指令表達(dá)核心想法,也會在專業(yè)創(chuàng)作中補(bǔ)充大量細(xì)節(jié)。
關(guān)鍵維度共現(xiàn):指令復(fù)雜度的 “組合密碼”
△圖12:Top 24維度共現(xiàn)熱力圖
顏色越深(數(shù)值越高),代表兩個維度在同一條Prompt中共同出現(xiàn)的頻率越高。例如,“Style(風(fēng)格)” 與 “Action-Contact Interaction Between Entities(實體接觸交互)” 共現(xiàn)頻率達(dá)676次,說明 “帶風(fēng)格的動態(tài)交互場景” 是創(chuàng)作者高頻需求。
“Attribute-Expression(屬性-表情)” 與 “Action-Character/Anthropomorphic Full Body Movement(角色全身動作)” 共現(xiàn)332次,反映 “角色動作+表情細(xì)節(jié)” 的組合需求普遍存在。
小眾但關(guān)鍵的維度組合也被呈現(xiàn),如 “Logical Reasoning(邏輯推理)” 與 “Relationship-Comparative(比較關(guān)系)” 共現(xiàn),對應(yīng) “貓比狗小一半所以跳得更高” 這類需邏輯鏈條的指令。
未來與展望
PromptEnhancer的意義,不僅在于提升了單模型的生成精度,更從技術(shù)與生態(tài)層面為 AI 繪畫領(lǐng)域帶來三大突破:
- 通用性:無需修改T2I模型權(quán)重,可作為 “即插即用” 模塊適配混元、Stable Diffusion、Imagen等任意預(yù)訓(xùn)練模型,降低優(yōu)化成本;
- 可解釋性:通過CoT思維鏈與24維度評價,讓 “提示優(yōu)化” 不再是黑箱,開發(fā)者可清晰定位模型的理解盲區(qū);
- 生態(tài)補(bǔ)全:團(tuán)隊同步發(fā)布了高質(zhì)量人類偏好基準(zhǔn),包含大量針對復(fù)雜場景的標(biāo)注數(shù)據(jù),為后續(xù)提示優(yōu)化研究提供了重要參考。
隨著AI繪畫從 “娛樂工具” 向 “工業(yè)設(shè)計、廣告創(chuàng)作” 等專業(yè)領(lǐng)域滲透,“精準(zhǔn)理解人類意圖” 將成為核心競爭力。
PromptEnhancer通過 “優(yōu)化指令而非修改模型” 的思路,為這一方向提供了可落地的技術(shù)路徑。
未來,創(chuàng)作者或許只需輸入簡單想法,AI就能自動補(bǔ)全專業(yè)細(xì)節(jié),讓 “所想即所得” 的創(chuàng)作成為現(xiàn)實。
項目主頁:https://hunyuan-promptenhancer.github.io
Github:https://github.com/Hunyuan-PromptEnhancer/PromptEnhancer
PromptEnhancer-7B: https://huggingface.co/tencent/HunyuanImage-2.1/tree/main/reprompt














































