PosterGen:告別學術海報制作煩惱,從PDF一鍵生成「演示級」可編輯PPTX學術海報
許多研究者在參加學術會議前,常常會因為制作海報所耗費的大量時間和精力而感到困擾。一張精心設計的海報是高效的學術交流媒介,但現有自動化方法普遍忽略了核心設計原則,導致生成的海報仍舊需要大量人工調整。
為解決這一痛點,來自紐約州立大學石溪分校、紐約大學、不列顛哥倫比亞大學和浙江大學的聯合團隊推出了 PosterGen,一個能將論文 PDF 直接轉化為設計精良、完全可編輯的 PPTX 格式學術海報的多智能體框架。

- 論文標題:PosterGen: Aesthetic-Aware Paper-to-Poster Generation via Multi-Agent LLMs
- 論文地址:https://arxiv.org/abs/2508.17188
- 代碼地址:https://github.com/Y-Research-SBU/PosterGen
- 項目主頁:https://Y-Research-SBU.github.io/PosterGen
PosterGen 的核心創新在于:
- 通過模擬專業設計師工作流的多智能體協作架構,將復雜且依賴創意的設計任務進行了系統性的分解與執行;
- 構建了一條從論文 PDF 直達可編輯 PPTX 海報的端到端工作流,使研究者從耗時費力的海報設計工作中解放,專注于學術交流的核心價值;
- 建立了一套遵循核心設計原則的自動化流程,打造出首個在視覺美學和版式規范上,能與人類設計的海報相媲美的自動化生成效果。
case 1:

case 2:

case 3:

深度嵌入框架的四大核心設計原則
PosterGen 能夠生成高品質海報的核心要素在于,它并非簡單地堆砌內容,而是將專業設計師的美學知識和設計策略,轉化為 AI 可理解和執行的四大核心原則。
敘事結構(Narrative):一張好的海報必須邏輯清晰。PosterGen 采用科學寫作中經典的「And, But, Therefore」(ABT)敘事結構。它首先建立研究背景(And),接著點明問題與挑戰(But),最后呈現解決方案與成果(Therefore),以此構建出一條引人入勝的邏輯線索,引導觀眾快速理解研究核心。
空間布局(Layout Structure):為確保信息傳遞的秩序感,PosterGen 采用專業且高效的三欄式網格布局。這種布局能夠保證自然的閱讀流,確保第一時間抓住觀眾的注意力的同時,提供一定的視覺喘息。同時,通過對留白(White Space)的有效運用,清晰地分離各個內容模塊,減少視覺混亂感。
色彩方案(Color Design):色彩在視覺傳達中扮演著建立層次和確保可讀性的關鍵角色。PosterGen 采用一套克制的主題單色調配色方案,以維持視覺的和諧統一。該顏色方案由主題色、用于背景的單色變體以及用于高亮的高對比度強調色構成。所有文本的色彩應用都嚴格遵守 WCAG 4.5:1 的對比度標準,以保證在標準觀看距離下的可讀性。
版式層級(Typography Design):字體設計與色彩協同工作,用來構建信息的清晰度。PosterGen 優先選用易讀的無襯線字體,并建立兩類層級:(1)利用不同字號區分標題、正文等的視覺層級;(2)通過粗體、斜體和強調色等格式來構建關鍵詞的語義層級,共同確保信息傳遞的高效與精準。

圖 1 PosterGen 多智能體框架概覽
PosterGen 的工作流由四個協同工作的專業智能體(或模塊)構成,系統性地將設計原則貫穿于海報生成的每一個環節,環環相扣、各司其職,讓學術海報的自動化生成擁有了接近人類設計師的「審美與靈感」。
- 內容解析與策劃(Parser and Curator Agents)
該階段主要功能是一次「智能化的故事重構」。Parser Agent 負責從原始 PDF 論文中提取所有文字與視覺元素(如圖表),而 Curator Agent 則像一個「敘事導演」,按照 ABT 結構(And, But, Therefore),將復雜的論文內容轉化為簡明扼要的故事板,為后續設計奠定敘事骨架。
- 空間布局生成(Layout Agent)
Layout Agent 負責將概念性的故事板轉化為精確的空間布局,在一個標準的三欄式畫布上,系統地放置每一個內容元素。這種結構被廣泛證明能有效確保自然的閱讀流,并通過將關鍵視覺元素策略性地放置在視平線的「熱區」(如中間列頂部),構成視覺錨點以吸引觀眾。

圖 2 PosterGen 所采用的基本布局框架
為實現元素間的精準間距控制,Layout Agent 還將留白(white space)視為關鍵的設計元素。它實現了一個類似 CSS 的盒模型(box model),為每個內容元素(文本、圖片、表格)封裝獨立的「外邊距」和「內邊距」屬性,從而對元素周圍的間距進行精細化控制。

圖 3 類 CSS 的盒模型布局方法
由于不同系統的渲染引擎的差異,精確計算文本框的高度是 PPTX 自動化布局中的一個核心挑戰。為此,研究團隊提出了一種優化的估算算法,該算法通過二分搜索來確定避免字體大小被自動縮減的最小文本框高度,并結合換行符進行偏移校正,以精準預測最終渲染高度,從而有效避免了令人頭疼的內容溢出與浪費空間。

圖 4 文本高度估算算法偽代碼
- 視覺風格化(Stylist Agents)
此階段是 PosterGen 實現「美學設計」的關鍵,由兩個智能體組成:
- 色彩智能體(Color Agent) 會自動提取機構 Logo 或關鍵圖像中的主題色,再結合色彩理論生成一套專業調色板:主題色、單色變體與高對比度強調色,既保證美觀,也嚴格遵守 WCAG 對比度標準,做到「美且易讀」。

圖 5 學術海報智能色彩生成方案
- 字體智能體(Font Agent) 則負責構建清晰的視覺層級和語義層級,讓標題、正文、關鍵詞各有視覺上的分工,重點信息用粗體、斜體或強調色加以突顯,讓觀眾的目光「不由自主」被引導。

圖 6 學術海報字體樣式設計方案
- 海報渲染輸出(Renderer)
最后,Renderer 模塊將所有風格與布局信息精準落地,并調用 python-pptx 庫生成完全可編輯的 PPTX 格式的學術海報,并自動生成高分辨率的 PNG 圖像,供用戶查閱和使用。生成的結果能夠直接用于學術會議現場,達到演示級別的水準。
實驗評估與結果
為了證明 PosterGen 的「美學驅動」確實有效,研究團隊引入了一套基于視覺語言模型(VLM)的綜合性評估標準(VLM-as-Judge),從內容和設計兩大維度對生成結果進行評分。


圖 7 定量實驗結果

圖 8 案例研究對比結果
實驗結果證明了 PosterGen 框架的有效性:
- 定量結果表明,PosterGen 在內容保真度上與當前 SOTA 方法(PosterAgent)相當,但在所有設計與美學指標上均取得了顯著且一致的提升,尤其在「主題一致性」、「風格層次」、「字體可讀性」等維度上實現了壓倒性領先。
- 定性對比同樣印證了優勢:相比之下,直接使用文生圖模型的 GPT-4o 存在內容幻覺和文本亂碼問題;而 SOTA 方法(PosterAgent)則在布局上存在元素重疊、閱讀流不自然等缺陷,而 PosterGen 的結果在海報布局結構、視覺層次和整體美感上表現出色。

圖 9 消融實驗結果
消融實驗進一步證明了 PosterGen 各核心智能體設計的必要性。結果顯示:
- 僅有 Curator Agent 生成的初始故事板缺乏空間規劃,導致布局混亂、內容溢出;
- Layout Agent 的介入成功解決了這些空間缺陷,實現了均衡的列布局;
- Stylist Agents 的應用則為海報注入了最終的視覺美感,通過和諧的色彩與分層的字體設計,極大地提升了海報的專業性和吸引力。
這一過程清晰地展示了每個智能體在從內容到最終設計成品轉化過程中的不可或缺的貢獻。
總結與意義
PosterGen 不僅是又一個自動化工具,而是一次對「設計智能體」未來形態的大膽探索。它讓學術海報自動生成真正跨越了從「能用」到「好用」、再到「夠美」的門檻。
這一框架不僅極大地減輕了研究者的負擔,更展示了多智能體系統在「邏輯與創意融合任務」上的巨大潛力。對科研人員來說,PosterGen 意味著:從此再也不用被海報設計困住,可以把寶貴的精力完全放在學術會議中的科研與交流上。






























