“AI版LeCun”自己講解論文,自我進化智能體框架生成精美演講視頻
AI自己講明白論文,還能生成更美觀的幻燈片。

加州大學圣塔芭芭拉(UCSB)與圣克魯茲(UCSC)的研究者提出EvoPresent,一個能夠自我進化的學術演講智能體框架,讓AI不僅能“講清楚論文”,還能“講得好看”。


從邏輯到審美:科研演講自動化的瓶頸
盡管已有很多系統能將論文自動轉化為幻燈片或海報,但它們仍存在三大局限:
敘事單一、設計僵化、缺乏反饋。
AI往往沿用論文結構機械提煉內容,講述缺乏起伏;模板化設計又難適配不同風格,常出現色彩沖突、排版擁擠等問題;生成過程一旦結束,系統便無法判斷“哪里不美”,更談不上自我修正。 這些不足讓AI演講顯得冷漠機械,難以兼顧邏輯與美感。
EvoPresent正是在此提出新的路徑,讓AI像人類講者一樣,在生成中反思,在反思中進化。

多智能體協作:讓AI成為一個“演講團隊
EvoPresent由四個智能體組成:Storyline Agent構建敘事邏輯,
Scholar Agent豐富內容與可視化,Design Agent負責排版與渲染,Checker Agent基于美學模型評估并反饋。 它們在“草稿—反饋—修正”的循環中協同工作,使AI具備自我改進能力,從而生成兼具邏輯與美感的學術演講。

PresAesth:讓AI懂設計的美
EvoPresent的核心是美學模型PresAesth,這是一個基于多任務強化學習(Multi-task RL)的模型,用來模擬人類的審美判斷。
它同時執行三項任務:
- 美學評分:為幻燈片生成1–10分的視覺得分;
- 缺陷識別:發現布局、留白、字體比例等問題并給出解釋性反饋;
- 版本比較:判斷多種設計中哪一個更具美感。
研究者采用了Group Relative Policy Optimization (GRPO)算法,通過人類偏好數據訓練模型,使其能在反饋中逐步形成可解釋的審美推理。與傳統監督學習不同,這種方式讓模型不僅會“打分”,還能說明原因,如“標題層級不清晰”“文字與圖像間距不足”。

EvoPresent Benchmark:學術演講的“美學標準”
為了讓AI“學會好看”,團隊構建了首個系統化評測體系——EvoPresent Benchmark。它由兩個部分組成:
第一部分Presentation Generation Quality,收錄650篇來自NeurIPS、ICLR、CVPR等頂會的論文,覆蓋幻燈片、講稿、視頻等多模態形式,從敘事流暢性、布局平衡、美學分數等多個維度評估自動生成質量。
第二部分Aesthetic Awareness Dataset,包含2000對人工標注的幻燈片樣本,通過不同程度的視覺擾動(如調整留白、色彩或版式)生成對比樣本,用于訓練與驗證美學評估能力。
這一框架使AI的視覺表達有了可量化的標準,也讓演講生成的“美學進化”可以被系統性衡量。

實驗結果:AI正在學會反思
在實驗中,研究者將EvoPresent與多種主流方法進行了對比,包括GPT-4o、Claude 4、DeepSeek-R1等端到端模型,以及PresentAgent、Paper2Poster等多智能體系統。結果表明,EvoPresent在內容連貫性與視覺設計兩方面均取得顯著提升。

更重要的發現是,模型的自我提升能力與規模無關,而與反饋質量高度相關。
即使使用輕量模型(如GPT-4o),只要有高質量審美反饋,系統也能在三輪迭代內將視覺評分從3.2提升至8.0。這意味著AI的“反思機制”比單純的算力擴張更關鍵。

從自動化到藝術化:科研傳播的新拐點
EvoPresent展示了一種全新的科研傳播范式,讓AI成為“自我改進的講述者”。
它將論文解讀、敘事構建、視覺設計與美學評價融為一體,使自動化生成不再止步于信息復述,而能在形式與內容間尋求新的平衡。
這種理念的意義不僅在于節省時間,更在于重塑科研表達的美學標準。未來,上傳論文或許意味著自動生成一場完整的“AI講演”:幻燈片、配音、視頻皆由系統完成,并根據會議風格與受眾特征自動調整設計風格。正如論文標題所言,“Presenting a Paper is an Art.”
EvoPresent讓AI真正開始學習這門藝術,不僅理解邏輯,更理解“美”。
Project Page: https://evopresent.github.io
arXiv: arXiv:2510.05571



































