大規模文檔版式分析數據集生成-OmniLayout-1M數據生成思路原創

大模型自然語言處理

發布于 2025-11-6 09:28

瀏覽

0收藏

再來看一個文檔版式數據生成思路，利用大模型從粗到細粒度的生成通用文檔版面分析數據，解決現有版式分析“缺多樣性”、“缺規模”、“依賴人工標注”問題。

大規模文檔版式分析數據集生成-OmniLayout-1M數據生成思路-AI.x社區

OmniLayout

大規模文檔版式分析數據集生成-OmniLayout-1M數據生成思路-AI.x社區

與現有布局數據集的比較

OmniLayout-1M 數據集

為解決上面提到的問題，構建OmniLayout-1M 數據集，因此有幾個點需要提一下：覆蓋的場景需要豐富，數據來源于學術數據庫（13個，如arXiv、PubMed）；出版商（7個，如Elsevier、Springer）；文檔共享平臺（16個，如教育、新聞、經濟領域平臺）。通過“去重+文檔質量分析”過濾噪聲（如模糊掃描件、格式錯亂文檔），最終保留100萬樣本。

大規模文檔版式分析數據集生成-OmniLayout-1M數據生成思路-AI.x社區

分布情況

偽標：標注“塊級元素”：覆蓋10個核心類別（文本、標題、圖片、表格、公式、列表等），按“自然閱讀順序”排序元素。

對于特殊場景如報紙：手動標注1000個報紙樣本，微調DocLayout-YOLO，提升特殊場景的標注精度。

大規模文檔版式分析數據集生成-OmniLayout-1M數據生成思路-AI.x社區

與現有布局數據集的比較

方法

大規模文檔版式分析數據集生成-OmniLayout-1M數據生成思路-AI.x社區

兩階段生成路線

提出由“粗到細“兩階段學習范式，直接用少量細粒度數據（如M?Doc的復雜報紙標注）訓練模型，易導致過擬合（無法泛化）和學習困難（復雜規則難以一次性掌握）；而先通過大規模粗粒度數據學習“通用布局原則”（如對齊、空間組織、元素共存邏輯），再用少量細數據適配“領域特殊規則”（如報紙的導語-正文-廣告布局、教科書的章節-公式-圖表布局）。兩階段的具體實現如下：

Stage 1：粗粒度學習-通用布局能力

這一階段的目的是讓模型掌握跨文檔類型的通用布局邏輯（如“標題通常在頁面頂部”“圖片常配說明文字”“文本塊避免重疊”）。

數據：OmniLayout-1M的粗粒度標簽數據：僅包含基礎元素類別（如TEXT、TITLE、IMAGE、TABLE、FORMULA），不區分細分類別（如TEXT不拆分為“段落”“導語”）；樣本量：構建9M個訓練樣本，覆蓋6種文檔類型，對應5種生成任務，任務比例為1:1:1:3:3（補全和修復任務占比更高，因更貼近實際場景）。

任務名稱	輸入條件（給模型的信息）	輸出目標（模型預測的信息）	應用場景舉例
U-Cond（無條件）	僅文檔類型、畫布大小、元素數量	完整布局（所有元素的c+x+y+w+h）	快速生成初始布局草稿
C→S+P	元素類別（c）+ 文檔元數據	元素的大小（w,h）+ 位置（x,y）	已知內容類型，自動排版
C+S→P	元素類別（c）+ 大小（w,h）+ 文檔元數據	元素的位置（x,y）	固定內容尺寸，優化位置避免重疊
Completion（補全）	部分元素（如10%）+ 文檔元數據	補全剩余元素，形成完整布局	文檔編輯時補充缺失內容布局
Refinement（修復）	被噪聲擾動的布局（如坐標加高斯噪聲）	恢復為合理的原始布局	修復掃描錯誤或手動調整后的布局

因此這一部分模型學習的重點可以歸納為如下幾點：

空間關系：元素的坐標（x,y）、大小（w,h）的合理分配；
元素共存：哪些元素（如標題+文本、圖片+ caption）常一起出現；
閱讀順序：元素序列與自然閱讀邏輯的一致性。

Stage 2：細粒度學習—適配特定領域

將Stage 1學到的通用能力，適配到具體復雜領域（如報紙、教科書）等場景。輸入數據為少量細粒度標注數據（如M?Doc中的報紙樣本）：該數據集將粗標簽拆分為領域特定細分類別，例如：粗標簽“TEXT”→報紙中拆分為“paragraph（正文）、lead（導語）、ordered_list（有序列表）等等。

模型和建模細節

將“文檔布局生成”轉化為LLM的序列生成任務，核心是“布局表示+生成任務設計+Prompt統一格式”，確保模型能處理多樣化場景和復雜約束。

布局表示如下：

大規模文檔版式分析數據集生成-OmniLayout-1M數據生成思路-AI.x社區

并通過以下方式序列化：

歸一化與量化：將坐標（x,y）和大小（w,h）歸一化到[0,1]，再量化到[0,999]的整數（離散化處理，適配LLM的token輸入）；
特殊標記包裹：每個元素的類別和邊界框用特殊token分隔，格式為：

<|cat_start|> [元素類別] <|cat_end|> <|box_start|> [x] [y] [w] [h] <|box_end|>

一頁的所有元素按“自然閱讀順序”拼接成一個完整序列，作為LLM的輸入/輸出。

實驗結果

大規模文檔版式分析數據集生成-OmniLayout-1M數據生成思路-AI.x社區

合成數據可視化

大規模文檔版式分析數據集生成-OmniLayout-1M數據生成思路-AI.x社區

參考文獻：OMNILAYOUT: ENABLING COARSE-TO-FINE LEARNING WITH LLMS FOR UNIVERSAL DOCUMENT LAYOUT GENERATION，https://arxiv.org/pdf/2510.26213

本文轉載自??大模型自然語言處理?? 作者：老余

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

大模型

已于2025-11-6 10:37:04修改

贊

回復

舉報

社區頭條

回復

相關推薦

Mol-Instructions: 面向大模型的大規模生物分子指令數據集

mb5f8eba9bdb0af ? 3665瀏覽 ? 0回復
AI生成存儲基座：自研超大規模向量數據庫 Dolphin VectorDB

jordana ? 4929瀏覽 ? 0回復
打破壁壘：生成式人工智能如何重塑數據分析場景

51CTO內容精選 ? 4035瀏覽 ? 0回復
HuggingFace放出規模最大、質量最高預訓練數據集

duhorse ? 4692瀏覽 ? 0回復
CVPR 2024 | 合成視頻數據集里只有單人數據？M3Act破解人群行為標注難題

輕薄滴假象 ? 3852瀏覽 ? 0回復
沒有標記數據集，如何做大模型指令微調？介紹一款有潛力的標記數據集生成模型

Syrupup ? 7645瀏覽 ? 0回復
Web2Code：適用于多模態大模型的大規模網頁轉代碼數據集與評估框架

sbf_2000 ? 6580瀏覽 ? 0回復
能訓出SOTA模型的優質數據集發布！復旦最新VidGen-1M: 文生視頻還得靠好數據

angel ? 4197瀏覽 ? 0回復
詳解大規模基礎模型中的幻覺問題（幻覺檢測、緩解、任務、數據集和評估指標）

angel ? 7398瀏覽 ? 0回復
PromptFix，新型擴散模型&大規模視覺指令數據集（羅切斯特大學&微軟）

angel ? 4840瀏覽 ? 0回復
3D場景大規模多模態情境推理數據集MSQA | BIGAI

angel ? 5268瀏覽 ? 0回復
詳解大規模基礎模型中的幻覺問題（幻覺檢測、緩解、任務、數據集和評估指標）

angel ? 7398瀏覽 ? 0回復
如何生成Function Calling微調數據？

ermulong ? 3711瀏覽 ? 0回復
LLM合集：港大利用GPT-4o生成QA對，打造大規模多模態視頻思維鏈（COT）數據集

AIPaperDaily ? 5076瀏覽 ? 0回復
從數據集到模型：視頻和音頻情緒分析的綜合研究

xuxiangda ? 7467瀏覽 ? 0回復
軟件開發賽道正大規模應用AI：Anthropic 400萬對話大數據研究的啟示

凝固的雨_1 ? 2680瀏覽 ? 0回復
ICML 2025 丨慕尼黑工業大學等基于 SD3 開發衛星圖像生成方法，構建當前最大規模遙感數據集

HyperAI超神經 ? 1935瀏覽 ? 0回復
多模態大模型統一布局生成方法微調數據集設計及模型架構統一訓練思路

大模型自然語言處理 ? 1937瀏覽 ? 0回復
高質量多模態訓練數據生成思路-SynthVLM

大模型自然語言處理 ? 2472瀏覽 ? 0回復

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

51CTO

51CTO博客

51CTO學堂

大規模文檔版式分析數據集生成-OmniLayout-1M數據生成思路原創

OmniLayout-1M 數據集