攻克長文檔與多模態挑戰,Paper2Video實現學術視頻的自動化生產
本研究由新加坡國立大學 Show Lab 團隊主導完成。共一作者 Zeyu Zhu 祝澤宇(博士生)與 Kevin Qinghong Lin 林慶泓(博士生)均來自 ShowLab@NUS,聚焦于多模態理解以及智能體(Agent)研究。項目負責人為新加坡國立大學校長青年助理教授 Mike Zheng Shou 壽政。

背景:學術展示視頻生成挑戰
學術展示視頻作為科研交流的重要媒介,制作過程仍高度依賴人工,需要反復進行幻燈片設計、逐頁錄制和后期剪輯,往往需要數小時才能產出幾分鐘的視頻,效率低下且成本高昂,這凸顯了推動學術展示視頻自動化生成的必要性。然而,與自然視頻生成不同(如 Sora2、Veo3 等擴散模型),學術展示視頻面臨以下獨特挑戰:
- 長文檔與高密度輸入 (Multi-modal Long-context Input): 來源于完整學術論文,包含大段專業文本、復雜公式、多幅圖表,遠超自然視頻的輸入復雜度。
- 多模態通道的協同生成 (Coordination of Multiple Aligned Channels): 需要同時生成并對齊幻燈片、字幕、語音、光標軌跡與講者視頻,保證多模態之間的語義一致性與時序同步。
- 缺乏專門的評價標準 (Lacks Well-defined Evaluation Metrics): 現有視頻生成指標主要關注畫面質量或風格一致性,難以衡量學術展示視頻在 知識傳遞、受眾理解與學術可用性 上的效果。
因此,現有自然視頻生成模型和簡單的幻燈片 + 語音拼接方法難以勝任,亟需一個系統化的基準和方法來推動自動化、可用的學術視頻生成。為了解決以上挑戰,本文提出了 Paper2Video 基準對學術展示視頻進行評價,并提出一個多智能圖框架 PaperTalker,為實現自動化和可用的學術視頻生成邁出切實可行的一步:

圖 1: Paper2Video 概覽

- 論文鏈接:https://arxiv.org/abs/2510.05096
- 項目主頁:https://showlab.github.io/Paper2Video/
- 開源代碼:https://github.com/showlab/Paper2Video
- 開源數據:https://huggingface.co/datasets/ZaynZhu/Paper2Video

Paper2Video 評價基準
為了評價學術展示視頻的質量,本文收集了 101 片論文和對應的作者錄制的學術展示視頻作為測試基準,并從學術展示視頻的用途出發,提出了四個評價指標: Meta Similarity, PresentArena, PresentQuiz 和 IP Memory。
Paper2Video 基準

圖 2: Paper2Video 基準統計概覽
Paper2Video 基準收集了來自近三年頂會的 101 篇論文及其作者錄制的展示視頻,涵蓋機器學習、計算機視覺與自然語言處理領域。每個樣例包含論文 LaTeX 工程、幻燈片、展示視頻、講者肖像與語音樣本,其中部分還提供原始 PDF 幻燈片。數據統計顯示,論文平均 13.3K 字、44.7 幅圖表,展示視頻平均 16 頁幻燈片、時長 6 分鐘。
作為首個系統化的學術展示視頻基準,它為多模態長文檔輸入與多通道輸出(幻燈片、字幕、語音、光標、講者)的生成與評估提供了可靠依據,為推動自動化學術展示視頻生成奠定了基礎。
Paper2Video 評價指標

圖 3: Paper2Video 評價指標設計
本文從學術展示視頻的用途出發,認為其質量應從三個核心視角進行衡量:
- 類人一致性:生成的視頻應與作者精心設計的人類版本保持相似,反映人類偏好。
- 信息傳遞性:生成的視頻應盡可能涵蓋論文中的關鍵信息,并被受眾正確理解。
- 學術影響力:生成的視頻應能突出作者的學術身份,并增強觀眾對該工作的記憶。
基于上述視角,我們設計了四個互補的評價指標:
- Meta Similarity — 類人相似度(內容級): 比較生成的幻燈片、字幕和語音與人類版本的一致性,衡量生成結果在細節和風格上的接近程度。
- PresentArena — 類人一致性(觀感級): 使用 VideoLLM 作為代理觀眾進行成對對比,從清晰度、流暢性與吸引力等維度判斷生成視頻是否符合人類偏好。
- PresentQuiz — 信息傳遞性:通過基于論文構造選擇題,使用 VideoLLM 作為代理觀眾進行問答,測試生成視頻能否覆蓋并有效傳遞論文中的關鍵信息。
- IP Memory — 學術影響力:模擬會議場景,使用 VideoLLM 作為代理觀眾,評估觀眾是否能夠在觀看后將視頻與作者身份和研究工作正確關聯,反映學術可見性與記憶度。
四個指標共同構建了一個覆蓋類人偏好、信息傳遞與學術記憶的系統化評價框架,為學術展示視頻生成的客觀測評提供了可靠依據。
PaperTalker 多智體架構

圖 4: PaperTalker 流程簡介
為解決學術展示視頻制作繁瑣且難以自動化的問題,本文提出了 PaperTalker —— 首個支持學術展示視頻生成的多智能體框架,用于處理這一具有長時依賴的多模態智能體任務(Long-horizon Multi-modal Agentic Task)。該框架以研究論文、講者圖像與語音樣本為輸入,自動生成包含幻燈片、字幕、語音、光標軌跡和講者視頻 (slide creation, subtitling, speech, cursor highlight, talking head) 的完整展示視頻。
PaperTalker 由四個關鍵構建模塊組成:
- Slide Builder:基于論文內容生成 LaTeX Beamer 幻燈片,并引入 Tree Search Visual Choice 模塊克服大語言模型在細粒度數值調整上的局限,從而優化版面布局,確保幻燈片布局合理設計。
- Subtitle Builder:利用視覺語言模型從幻燈片提取關鍵信息,生成逐句字幕及對應的視覺焦點提示詞。
- Cursor Builder:結合 UI-Grounding 和 WhisperX 模型,實現光標在時間和空間上的精準對齊,在演講過程中,引導觀眾關注關鍵信息。
- Talker Builder:根據講者肖像與語音樣本,合成身份一致、唇形同步的個性化講者視頻,并支持逐頁并行生成以提升效率。
由此,PaperTalker 通過模塊化的多智能體協作,實現了可控、個性化、學術風格化的展示視頻生成。
高效魯棒的幻燈片生成
在學術展示視頻生成任務中,我們測試發現 LaTeX/Beamer 在輸出效果與穩定性上顯著優于 pptx,能夠直接生成學術風格的幻燈片。但在此過程中,即便是閉源 VLM 也難以魯棒地判斷視覺元素(如圖片文字大小、排版比例),導致基于多輪交互的參數調優效率極低。
Tree Search Visual Choice 布局優化機制

圖 5: Tree Search Visual Choice 模塊
為此,本文提出 Tree Search Visual Choice:針對給定的視覺素材,預設一組比例參數,渲染得到多種候選布局,并將這些候選拼接成單張大圖,交由 VLM 進行一次性的多選比較,從而將低效的多輪參數搜索轉化為高效的單輪視覺判別,實現圖像尺寸與布局的自動優化。
空間–時間對齊的光標生成
本文進一步探討了如何模擬人類在講解過程中使用鼠標的行為。光標軌跡能夠引導觀眾聚焦于幻燈片的關鍵區域,但實現這一點需要將幻燈片和演講內容與光標停留點 — 時間戳 — 屏幕空間坐標 (x, y, t) 建立起對應關系。為此,我們引入 Computer-Use 和 WhisperX 模型分別進行空間和時間的標定,實現了時間與空間的雙重對齊。
具體來說,我們首先基于幻燈片內容生成逐句字幕及視覺焦點提示,然后利用 UI-TARS 將提示 grounding 為屏幕坐標 (x, y),再通過 WhisperX 獲取詞級時間戳并對齊到對應的字幕句子,從而得到精確的光標軌跡 (x, y, t)。
高效 Talking-head 生成
在學術展示視頻生成中,講者部分對于增強觀眾參與感和體現研究者的學術身份至關重要。然而,Talking-Head 渲染通常需要數小時才能生成幾分鐘的視頻,而且部分模型甚至無法原生支持長時段視頻的生成,這嚴重限制了方法的可擴展性與實用性。
為此,本文提出一種高效的解決方案:首先,基于每頁幻燈片的字幕與講者的語音樣本,利用 F5-TTS 合成逐頁的個性化語音;隨后,結合 Hallo2(高保真頭像驅動)與 FantasyTalking(支持上半身動作)生成對應的講者視頻。受到人類逐頁錄制習慣的啟發,我們進一步將講者生成過程 劃分為獨立的幻燈片片段,并行化執行每頁的語音合成與視頻渲染。由于幻燈片間存在自然的硬切換,且無需保持跨頁的動作連續性,這種設計既保證了身份一致性與唇形同步,又顯著提升了整體效率,實驗證明這種方式實現了超過 6 倍的加速。
基于 Paper2Video 基準的實驗與評估
在實驗中,本文對比了三類方法:
(i) 端到端方法(如 Wan2.2、Veo3),直接從文本或提示生成視頻;
(ii) 多智能體框架(如 PresentAgent、PPTAgent),將論文內容轉化為幻燈片并結合文本轉語音生成展示視頻;
(iii) 本文提出的 PaperTalker,通過幻燈片生成與布局優化、字幕與光標對齊以及個性化講者合成來生成的學術展示視頻。
學術演示視頻性能比較

圖 6: 學術演示視頻性能比較
- Meta Similarity(相似度)
- PaperTalker 在幻燈片、字幕和語音的相似度上均取得最高分,說明其生成結果與人類作品最為接近。
- 個性化 Text-to-Speech 模型與基于 Beamer 的幻燈片生成設計顯著提升了相似度表現。
- PresentArena(觀感質量對比)
- 在與人類視頻的成對對比中,PaperTalker 獲得最高的勝率,說明 PaperTalker 視頻觀感質量最高。
- 同時,相比去掉講者和光標的變體,完整的 PaperTalker 視頻更受偏好,表明講者與光標均有貢獻。
- PresentQuiz(知識傳遞)
- PaperTalker 在問答準確率上超過了其他基線方法,能夠更好地覆蓋論文信息。
- 缺少講者和光標的版本會導致性能下降,表明這些模塊有助于增強信息傳遞。
- IP Memory(學術記憶度)
- PaperTalker 在觀眾識別作者與作品的一致性上表現最佳
- 引入講者視頻(面孔與聲音)顯著提升了記憶效果。
- 人類主觀評價
- 人類評價結果顯示,人類錄制視頻得分最高,PaperTalker 次之,且顯著優于其他方法,接近人類水平。
實驗結果表明,本文提出的 PaperTalker 在 Meta Similarity、PresentArena、PresentQuiz 和 IP Memory 四個維度均取得最佳表現:其生成的幻燈片、字幕與語音更接近人類作品,整體觀感更受偏好,知識傳遞更完整,且在學術身份記憶方面更具優勢;同時,人類主觀評價也顯示 PaperTalker 的視頻質量接近人工錄制水平。
模型效率比較

圖 7: 模型效率比較
PaperTalker 在生成成本上最低。其效率主要來自三個方面:(i) 基于 Beamer 的幻燈片生成顯著減少了 token 消耗;(ii) 引入輕量化的 tree search visual choice 作為幻燈片的后處理;(iii) 采用并行的 talking-head 生成機制縮短了整體運行時間。相比之下,PresentAgent 由于在幻燈片編輯過程中頻繁依賴大模型查詢,導致成本更高。
消融實驗
光標提示對信息定位與理解的貢獻

圖 8: 光標提示消融實驗
光標提示通過提供顯式空間線索,幫助觀眾和 VLM 更好地定位幻燈片中的關鍵信息。為驗證這一點,本文設計了定位問答任務,比較有無光標情況下的答題準確率。結果顯示,帶光標的視頻準確率顯著更高,證明了光標在增強學術展示視頻的視覺定位與內容可達性方面的重要作用。
Tree Search Visual Choice 在幻燈片質量提升中的作用

圖 9: Tree Search Visual Choice 消融實驗
為評估 Tree Search Visual Choice 模塊的貢獻,本文進行了消融實驗(表 5),利用 VLM 從內容、設計與連貫性三個維度對生成的幻燈片進行 1–5 分評價。結果顯示,當去除該模塊時,幻燈片的設計質量明顯下降,說明該方法在解決版面溢出問題、提升整體設計質量方面發揮了關鍵作用。圖 9 展示了該模塊的性能。

圖 10: Tree Search Visual Choice 可視化
結語
本文提出 Paper2Video 基準與 PaperTalker 框架,為學術展示視頻生成提供了系統化任務與評測體系。實驗驗證了其在信息傳遞、觀感質量與學術記憶方面的優勢,生成效果接近人工水平。我們期待這項工作能推動 AI4Research 的發展,促進科研交流的自動化與規模化。

Paper2Video生成Paper2Video學術視頻






























