大規模文檔版式分析數據集生成-OmniLayout-1M數據生成思路 原創
再來看一個文檔版式數據生成思路,利用大模型從粗到細粒度的生成通用文檔版面分析數據,解決現有版式分析“缺多樣性”、“缺規模”、“依賴人工標注”問題。

OmniLayout

與現有布局數據集的比較
OmniLayout-1M 數據集
為解決上面提到的問題,構建OmniLayout-1M 數據集,因此有幾個點需要提一下:覆蓋的場景需要豐富,數據來源于學術數據庫(13個,如arXiv、PubMed);出版商(7個,如Elsevier、Springer);文檔共享平臺(16個,如教育、新聞、經濟領域平臺)。通過“去重+文檔質量分析”過濾噪聲(如模糊掃描件、格式錯亂文檔),最終保留100萬樣本。

分布情況
偽標:標注“塊級元素”:覆蓋10個核心類別(文本、標題、圖片、表格、公式、列表等), 按“自然閱讀順序”排序元素。
對于特殊場景如報紙:手動標注1000個報紙樣本,微調DocLayout-YOLO,提升特殊場景的標注精度。

與現有布局數據集的比較
方法

兩階段生成路線
提出由“粗到細“兩階段學習范式,直接用少量細粒度數據(如M?Doc的復雜報紙標注)訓練模型,易導致過擬合(無法泛化)和學習困難(復雜規則難以一次性掌握);而先通過大規模粗粒度數據學習“通用布局原則”(如對齊、空間組織、元素共存邏輯),再用少量細數據適配“領域特殊規則”(如報紙的導語-正文-廣告布局、教科書的章節-公式-圖表布局)。兩階段的具體實現如下:
Stage 1:粗粒度學習-通用布局能力
這一階段的目的是讓模型掌握跨文檔類型的通用布局邏輯(如“標題通常在頁面頂部”“圖片常配說明文字”“文本塊避免重疊”)。
數據:OmniLayout-1M的粗粒度標簽數據:僅包含基礎元素類別(如TEXT、TITLE、IMAGE、TABLE、FORMULA),不區分細分類別(如TEXT不拆分為“段落”“導語”); 樣本量:構建9M個訓練樣本,覆蓋6種文檔類型,對應5種生成任務,任務比例為1:1:1:3:3(補全和修復任務占比更高,因更貼近實際場景)。
任務名稱 | 輸入條件(給模型的信息) | 輸出目標(模型預測的信息) | 應用場景舉例 |
U-Cond(無條件) | 僅文檔類型、畫布大小、元素數量 | 完整布局(所有元素的c+x+y+w+h) | 快速生成初始布局草稿 |
C→S+P | 元素類別(c)+ 文檔元數據 | 元素的大小(w,h)+ 位置(x,y) | 已知內容類型,自動排版 |
C+S→P | 元素類別(c)+ 大小(w,h)+ 文檔元數據 | 元素的位置(x,y) | 固定內容尺寸,優化位置避免重疊 |
Completion(補全) | 部分元素(如10%)+ 文檔元數據 | 補全剩余元素,形成完整布局 | 文檔編輯時補充缺失內容布局 |
Refinement(修復) | 被噪聲擾動的布局(如坐標加高斯噪聲) | 恢復為合理的原始布局 | 修復掃描錯誤或手動調整后的布局 |
因此這一部分模型學習的重點可以歸納為如下幾點:
- 空間關系:元素的坐標(x,y)、大小(w,h)的合理分配;
- 元素共存:哪些元素(如標題+文本、圖片+ caption)常一起出現;
- 閱讀順序:元素序列與自然閱讀邏輯的一致性。
Stage 2:細粒度學習—適配特定領域
將Stage 1學到的通用能力,適配到具體復雜領域(如報紙、教科書)等場景。輸入數據為少量細粒度標注數據(如M?Doc中的報紙樣本):該數據集將粗標簽拆分為領域特定細分類別,例如:粗標簽“TEXT”→報紙中拆分為“paragraph(正文)、lead(導語)、ordered_list(有序列表)等等。
模型和建模細節
將“文檔布局生成”轉化為LLM的序列生成任務,核心是“布局表示+生成任務設計+Prompt統一格式”,確保模型能處理多樣化場景和復雜約束。
布局表示如下:

并通過以下方式序列化:
- 歸一化與量化:將坐標(x,y)和大小(w,h)歸一化到[0,1],再量化到[0,999]的整數(離散化處理,適配LLM的token輸入);
- 特殊標記包裹:每個元素的類別和邊界框用特殊token分隔,格式為:
<|cat_start|> [元素類別] <|cat_end|> <|box_start|> [x] [y] [w] [h] <|box_end|>- 一頁的所有元素按“自然閱讀順序”拼接成一個完整序列,作為LLM的輸入/輸出。
實驗結果




合成數據可視化

參考文獻:OMNILAYOUT: ENABLING COARSE-TO-FINE LEARNING WITH LLMS FOR UNIVERSAL DOCUMENT LAYOUT GENERATION,https://arxiv.org/pdf/2510.26213
本文轉載自??大模型自然語言處理?? 作者:老余

















