精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

復(fù)雜版式解析:騰訊POINTS無(wú)蒸餾3B秒殺Qwen72B

人工智能
騰訊開源的POINTS-Reader 框架,提出了一種全新的、無(wú)需蒸餾的兩階段框架,用于構(gòu)建高質(zhì)量文檔提取數(shù)據(jù)集和能夠處理多樣化文檔格式與布局的模型。

一、PDF文檔復(fù)雜版面解析發(fā)展的困境

  1. 版式復(fù)雜:多欄、表格跨行、公式嵌套、圖片浮動(dòng)。
  2. 標(biāo)注昂貴:一頁(yè)學(xué)術(shù) PDF 人工還原需 15-30 min,含 300+ 符號(hào)。
  3. 誤差級(jí)聯(lián):傳統(tǒng) Pipeline(檢測(cè)→OCR→結(jié)構(gòu)恢復(fù)→后處理)每一步誤差放大,最終 Word 誤差率>15%。

現(xiàn)有三大技術(shù)路線對(duì)比

路線

代表系統(tǒng)

優(yōu)點(diǎn)

關(guān)鍵缺陷

規(guī)則-流水線

MinerU, Marker

可解釋、可控

重人力、級(jí)聯(lián)誤差、難泛化

端到端蒸餾

olmOCR, Nougat

端到端、簡(jiǎn)潔

依賴教師(GPT-4o/72B)、算力黑洞、學(xué)生“學(xué)不像”

純合成數(shù)據(jù)

Kosmos-2.5

零人工

Markdown 表結(jié)構(gòu)受限、無(wú)真實(shí)分布校正

圖片圖片

騰訊開源的POINTS-Reader 框架,提出了一種全新的、無(wú)需蒸餾的兩階段框架,用于構(gòu)建高質(zhì)量文檔提取數(shù)據(jù)集和能夠處理多樣化文檔格式與布局的模型。

  • 第一階段是統(tǒng)一格式預(yù)熱階段(Uniform Format Warm-up Stage,UWS),通過(guò)生成大規(guī)模、多樣化的合成數(shù)據(jù),使模型能夠以統(tǒng)一格式提取關(guān)鍵元素并具備較強(qiáng)的初始性能。
  • 第二階段是迭代自改進(jìn)階段(Iterative Self-improvement Stage,ISS),通過(guò)一系列過(guò)濾策略驗(yàn)證標(biāo)注質(zhì)量,并在經(jīng)過(guò)驗(yàn)證的數(shù)據(jù)集上重新訓(xùn)練模型,迭代重復(fù)此過(guò)程,逐步提升模型的轉(zhuǎn)換能力和生成數(shù)據(jù)的質(zhì)量。

二、POINTS-Reader

圖片圖片

2.1. 階段一:統(tǒng)一格式預(yù)熱(UWS)

  • 需要解決的三大細(xì)節(jié)問(wèn)題

格式混亂:表有 Markdown/HTML/LaTeX 三種,模型“無(wú)所適從”。

合成數(shù)據(jù)“假”:純 LLM 生成文本,無(wú)真實(shí)版面。

規(guī)模可控:如何 24 h 內(nèi)生成百萬(wàn)級(jí)圖像-文本對(duì)?

利用已訓(xùn)練的模型對(duì)大規(guī)模真實(shí)文檔進(jìn)行標(biāo)注。

1)規(guī)范輸出

  • 純文本 → Markdown
  • 表格 → 僅保留 rowspan/colspan 的極簡(jiǎn) HTML
  • 公式 → LaTeX(KaTeX 子集)首次在文檔轉(zhuǎn)換領(lǐng)域提出“輸出原子化協(xié)議”,把結(jié)構(gòu)、樣式、語(yǔ)義解耦,降低 32% 序列長(zhǎng)度。

2)數(shù)據(jù)生成的策略

  • (1) 純文本 (2) 文本+公式 (3) 文本+表格 (4) 多欄+表格 每類 20 萬(wàn),共 80 萬(wàn)。技術(shù)關(guān)鍵:
  • LLM Prompt 工程 引入“隨機(jī)種子+風(fēng)格槽”,確保詞匯、句式、篇章多樣性。
  • 自動(dòng)渲染:用 Chrome Headless + PagedJS 把 HTML 轉(zhuǎn) 300 dpi 圖像,支持 1/2/3 欄版式。
  • 規(guī)則過(guò)濾:LaTeX 用正則檢查括號(hào);HTML 表用“行列數(shù)一致”驗(yàn)證。

3)長(zhǎng)寬比裁剪發(fā)現(xiàn) A4 比例(√2≈1.414)外樣本易含“長(zhǎng)條噪聲”,做 aspect-ratio ∈ [0.4, 2.5] 過(guò)濾,帶來(lái) 1.2 個(gè)點(diǎn)的編輯距離下降。

2.2. 階段二:迭代自改進(jìn)(ISS)

  • 需要解決的新問(wèn)題

合成版面“太干凈”:無(wú)噪點(diǎn)、無(wú)手寫批注、無(wú)掃描畸變。

直接拿 UWS 模型跑真實(shí)數(shù)據(jù),編輯距離比 Pipeline 差 40%。

若直接蒸餾 Qwen2.5-VL-72B,需 2×10^4 GPU·h,且教師偏差會(huì)傳入。

通過(guò)一系列過(guò)濾策略驗(yàn)證標(biāo)注質(zhì)量,并在經(jīng)過(guò)驗(yàn)證的數(shù)據(jù)集上重新訓(xùn)練模型,迭代重復(fù)此過(guò)程,逐步提升模型的轉(zhuǎn)換能力和生成數(shù)據(jù)的質(zhì)量。

  1. 純文本:OCR-F1 過(guò)濾
  • 用 PaddleOCR 得參考 T,模型輸出 P;計(jì)算字符級(jí) F1。
  • 閾值 0.90 時(shí)保留率 42%,編輯距離下降 0.092。
  • 創(chuàng)新:并非“硬匹配”,而采用 bag-of-words + 子串動(dòng)態(tài)規(guī)劃,對(duì)順序漂移魯棒。
  1. 表格:結(jié)構(gòu)一致性
  • 僅檢查每行單元格數(shù)是否等于列數(shù),以及 rowspan 合法。
  • 不依賴外部 Table-Structure 模型,避免二次誤差。
  • 過(guò)濾后表樣本保留率 55%,但后續(xù)迭代表錯(cuò)誤率仍持續(xù)下降(圖 10),證明“結(jié)構(gòu)正確?內(nèi)容逐步正確”。
  1. 公式:語(yǔ)法樹驗(yàn)證
  • 調(diào)用 KaTeX parser,捕獲 ParseError。
  • 保留率 68%,ISS 第 5 輪公式編輯距離再降 0.05。

使用經(jīng)過(guò)過(guò)濾的高質(zhì)量數(shù)據(jù)重新訓(xùn)練模型,并重復(fù)上述過(guò)程,逐步提升模型性能和數(shù)據(jù)質(zhì)量。

  • 迭代曲線與停止準(zhǔn)則

K=5 時(shí) OmniDocBench 編輯距離 0.259→0.176(文本)、0.383→0.274(公式)、0.335→0.228(表格)。

保留樣本量:第 1 輪 0.98 M → 第 5 輪 1.10 M,說(shuō)明“量↑質(zhì)↑”同步。

斜率趨緩,故作者設(shè) K=5;若繼續(xù)增大,需引入更難數(shù)據(jù)或主動(dòng)學(xué)習(xí)。

與蒸餾路線正面對(duì)比

圖片圖片

復(fù)現(xiàn)“Qwen2.5-VL-72B 教師→3B 學(xué)生”蒸餾實(shí)驗(yàn):

  • 教師 OmniDocBench 整體 ED=0.214,學(xué)生 0.302;
  • POINTS-Reader 無(wú)蒸餾 ED=0.259,顯著優(yōu)于學(xué)生,且訓(xùn)練 GPU·h 節(jié)省 65%。所以說(shuō),蒸餾并非唯一途徑,自改進(jìn)可在 3B 級(jí)別反超教師-學(xué)生范式。

圖片圖片


責(zé)任編輯:武曉燕 來(lái)源: CourseAI
相關(guān)推薦

2025-10-28 15:40:01

AI模型訓(xùn)練

2025-10-17 09:08:05

2024-10-17 18:52:41

2023-12-01 13:36:01

阿里云通義千問(wèn)

2024-09-19 14:00:00

模型開源代碼

2025-03-25 12:11:08

2012-08-31 09:26:10

360互聯(lián)網(wǎng)百度

2024-03-27 09:09:57

模型AI開源

2025-09-19 11:09:40

2025-11-17 09:15:37

2012-11-23 09:50:28

32nm龍芯龍芯3B 1500

2021-11-29 15:17:48

鴻蒙HarmonyOS應(yīng)用

2024-01-17 12:08:32

模型訓(xùn)練

2025-06-17 08:45:00

模型智能工具

2021-09-08 10:22:36

B端C端設(shè)計(jì)師

2025-05-14 13:22:08

Qwen3訓(xùn)練小模型

2024-12-18 07:10:00

2023-11-28 12:49:37

數(shù)據(jù)訓(xùn)練

2024-06-13 09:12:48

2025-09-24 08:50:30

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

2024最新电影免费在线观看| 亚洲天堂网在线观看视频| 国产精品tv| 欧美性极品xxxx做受| 日本一区二区三区四区高清视频 | 日韩欧美高清视频| 亚洲人久久久| 熟妇人妻中文av无码| 日本欧美在线观看| 欧美激情视频一区| www.99热| 国产毛片精品| 欧美日韩黄色影视| 亚洲熟妇av一区二区三区漫画| 91在线视频| 99久久久国产精品免费蜜臀| 国产精品视频在线播放| 精品无码一区二区三区电影桃花| 欧美精选视频在线观看| 亚洲成人激情在线| 欧美午夜aaaaaa免费视频| 暧暧视频在线免费观看| 国产精品不卡在线| 六月婷婷久久| 亚洲av无码国产综合专区| 视频精品一区二区| 97在线免费观看视频| 欧美另类videoxo高潮| 少妇精品久久久| 精品国产三级电影在线观看| 亚洲美女性囗交| 成人黄色免费短视频| 亚洲va天堂va国产va久| 国产欧美自拍视频| 在线免费看a| 国产亚洲精品福利| 韩国一区二区三区美女美女秀 | 美女视频一区二区| 555www成人网| 久草精品视频在线观看| 欧美~级网站不卡| 精品国内产的精品视频在线观看| 性欧美精品男男| 综合国产视频| 日韩精品在线免费播放| 理论片大全免费理伦片| 视频一区国产| 日韩欧美激情在线| 杨幂一区二区国产精品| 日韩亚洲国产免费| 欧美日韩小视频| 鲁一鲁一鲁一鲁一av| 日本一区二区三区视频在线| 色偷偷一区二区三区| 免费看又黄又无码的网站| 2020av在线| 亚洲午夜激情av| 精品成在人线av无码免费看| 日本在线观看大片免费视频| 亚洲精品免费在线观看| avove在线观看| caoporm免费视频在线| 成人免费在线视频| 在线观看成人免费| 美女网站视频在线| 性做久久久久久免费观看欧美| 国产成人艳妇aa视频在线 | 热草久综合在线| 亚洲国产成人精品女人久久| 久久一区精品| 国产精品xxxxx| 91国产免费视频| 免费成人av资源网| 91亚洲永久免费精品| 午夜精品久久久久久久99| 粉嫩在线一区二区三区视频| 国产麻豆日韩| 精品亚洲成a人片在线观看| 中文字幕欧美国产| 永久免费在线看片视频| 久久av色综合| 色一情一伦一子一伦一区| 538任你躁在线精品免费| 先锋影音网一区二区| 日韩午夜激情视频| 亚洲最大的黄色网| 久久99精品久久久久久园产越南| 在线观看国产成人av片| 欧美国产在线看| 亚洲欧美bt| 国产在线视频一区| 国产综合无码一区二区色蜜蜜| 久久久久久久电影| 黄色免费高清视频| 亚洲国产成人二区| 欧美疯狂性受xxxxx喷水图片| 亚洲图片欧美另类| 国产永久精品大片wwwapp| 久久精品成人欧美大片| 国产 欧美 日韩 在线| 免费国产亚洲视频| 国产日产精品一区二区三区四区 | 在线播放日韩av| 久久精品一级片| 日韩国产欧美在线观看| 99视频日韩| 97人人在线| 亚洲国产精品麻豆| 国产又黄又猛的视频| 校园春色另类视频| 成年人精品视频| 久久精品久久久久久久| 国产成a人无v码亚洲福利| 日韩欧美视频一区二区三区四区 | 国产精品第10页| 黄色片网站免费在线观看| 国产精品美女久久久久久久久| 91精品国产91久久久久麻豆 主演| 日本一区二区三区中文字幕| 亚洲精品少妇网址| 久久精品亚洲无码| 国产呦萝稀缺另类资源| 色一情一乱一伦一区二区三区| brazzers在线观看| 欧美一级欧美三级| 国产又黄又粗又猛又爽的| 性欧美暴力猛交另类hd| 国产中文一区二区| 不卡的av影片| 精品欧美乱码久久久久久| 自拍偷拍你懂的| 久久青草久久| 精品视频高清无人区区二区三区| 污网站在线免费看| 欧美一区二区三区在| 日本精品久久久久中文| 日日夜夜免费精品| 欧美精品中文字幕一区二区| 国产直播在线| 亚洲成人免费网站| 日本网站在线免费观看| 成人性生交大片免费看中文| www.69av| 999久久久久久久久6666| 欧美另类极品videosbestfree| 一区二区三区免费在线视频| 国产精品女同互慰在线看| 欧美v在线观看| 亚洲丝袜啪啪| 欧美在线日韩在线| 精品视频一二区| 91国产福利在线| 日本爱爱爱视频| 蜜桃视频第一区免费观看| 日韩精品久久久| jizzyou欧美16| 中文字幕视频在线免费欧美日韩综合在线看 | 国产精品视频久久久久| av在线第一页| 欧美日韩一区二区三区视频| 中文字幕精品亚洲| 黄页网站大全一区二区| 国产一二三四五| 91精品日本| 欧美又大又粗又长| 第三区美女视频在线| 欧美卡1卡2卡| 欧美日韩人妻精品一区二区三区| 国产成人啪午夜精品网站男同| 又大又硬又爽免费视频| 亚洲另类春色校园小说| 国产精品一区二区三区免费视频| 日本不卡三区| 精品伦理精品一区| 亚洲天堂一区在线观看| 国产欧美日韩中文久久| 色一情一区二区| 国内精品福利| 免费国产在线精品一区二区三区| 亚洲精品国产嫩草在线观看| 久久精品一本久久99精品| 蜜臀av午夜精品| 色哟哟一区二区三区| 免费成人深夜蜜桃视频| 成人久久18免费网站麻豆| 99精品视频在线看| 羞羞色午夜精品一区二区三区| 国产一区二区三区四区hd| 免费欧美电影| 欧美成在线视频| 嫩草精品影院| 91精品国产综合久久香蕉的特点| 日本a在线观看| 国产欧美日韩综合精品一区二区| 久久久久无码精品| 制服诱惑一区二区| 这里只有精品66| 老司机精品在线| 国产热re99久久6国产精品| 波多野结衣在线观看| 精品国产一区二区三区久久久| 日韩一级片免费看| 欧美精品自拍偷拍| 日本特级黄色片| 亚洲精品国产一区二区三区四区在线| 青青草视频成人| 国产在线视频精品一区| 久久综合久久色| 亚洲国产精品一区| 亚洲最新免费视频| 免费久久久久久久久| 99re6在线| 91丨精品丨国产| 91精品国产高清久久久久久91 | 欧美日韩第二页| 国产精品theporn| 一区二区三区观看| 台湾色综合娱乐中文网| www 成人av com| 亚洲成人毛片| 国产精品www| 都市激情综合| 国外视频精品毛片| 日本乱理伦在线| 久久久成人的性感天堂| 粉嫩av一区| 亚洲欧洲视频在线| 天天插天天干天天操| 日韩一区二区三区av| 一级特黄色大片| 欧美日韩综合一区| 日本精品入口免费视频| 精品久久久视频| 亚洲国产综合久久| 一区二区三区日韩在线观看| 亚洲欧美综合7777色婷婷| 国产日产欧美一区二区三区 | 国产成人一二片| 成人黄色免费片| 久久久久久一区二区三区四区别墅| 欧美资源在线观看| 妞干网免费在线视频| 国内精品一区二区三区| 91超碰在线免费| 韩国v欧美v日本v亚洲| 成人av影院在线观看| 欧美精品性视频| 天使と恶魔の榨精在线播放| 另类天堂视频在线观看| av网站大全在线| 欧美精品做受xxx性少妇| 最新日本在线观看| 欧美美女操人视频| 日韩精品分区| 8090成年在线看片午夜| 夜鲁夜鲁夜鲁视频在线播放| 日本成人在线视频网址| 456亚洲精品成人影院| 国产精品久久久久999| h1515四虎成人| 91网站在线看| 9l视频自拍蝌蚪9l视频成人| 国产精品免费一区二区三区四区| 91久久精品无嫩草影院| 精品一区二区三区日本| 欧美女王vk| 伊人久久大香线蕉精品| 一区二区电影在线观看| 亚洲国产精品无码av| 久久动漫亚洲| www.99r| 处破女av一区二区| 朝桐光av一区二区三区| 久久久高清一区二区三区| 天天干天天舔天天操| 亚洲视频在线观看一区| 国产香蕉在线视频| 色哟哟欧美精品| 国产老女人乱淫免费| 精品国产免费一区二区三区四区 | www.av88| 日韩欧美一卡二卡| 无码国精品一区二区免费蜜桃| 亚洲美女www午夜| 黄色在线免费| 97热在线精品视频在线观看| av一区在线| av一区和二区| 国产99亚洲| 国产日韩第一页| 中文亚洲欧美| 亚洲男人天堂av在线| www.在线欧美| 日韩精品久久久久久久的张开腿让| 一区二区成人在线| 亚洲成人av网址| 精品日韩成人av| yiren22综合网成人| 欧美国产精品日韩| 456成人影院在线观看| 国产精品二区在线观看| 精品国产乱码久久久| 国产成人艳妇aa视频在线| 免费看黄色91| 久久国产精品无码一级毛片| 国产精品久久久久久久浪潮网站| 国产乡下妇女做爰视频| 欧美狂野另类xxxxoooo| 青青久草在线| 欧美激情一级二级| 日韩欧美三区| 欧美一区二区三区四区五区六区| 欧美日本二区| av免费一区二区| 久久久久一区二区三区四区| 久久午夜鲁丝片午夜精品| 欧美老年两性高潮| 国产视频福利在线| 欧美中文在线观看| 9l视频自拍蝌蚪9l视频成人| 精品日韩在线播放| 蜜桃精品视频在线| 性高潮久久久久久久| 午夜精品久久一牛影视| 亚洲AV无码成人片在线观看 | 成人免费图片免费观看| 99久久精品无码一区二区毛片 | 欧美黑人在线观看| 久久激五月天综合精品| 摸摸摸bbb毛毛毛片| 欧美午夜精品在线| 五月婷婷综合久久| 久久久久久久久久久av| 欧洲精品99毛片免费高清观看| 夜夜爽99久久国产综合精品女不卡| 丝袜美腿高跟呻吟高潮一区| 在线天堂www在线国语对白| 一区二区国产视频| 99国产揄拍国产精品| 久久久精品美女| 亚洲色图图片| 一区二区三区四区在线视频| 秋霞午夜av一区二区三区| 国产美女免费无遮挡| 一本久道中文字幕精品亚洲嫩| 欧美婷婷久久五月精品三区| 91豆花精品一区| 亚洲毛片免费看| 欧美日韩大尺度| 国产三级一区二区| 中文字字幕在线中文乱码| 色噜噜狠狠狠综合曰曰曰| 九九久久国产| 在线看视频不卡| 国产做a爰片久久毛片| 无码黑人精品一区二区| 欧美一区二区三区四区在线观看 | 精品72久久久久中文字幕| 日韩亚洲在线视频| 国产精品视频一二| 96日本xxxxxⅹxxx17| 不卡av在线网站| 一区二区三区视频播放| 欧美成人三级在线视频| 久久久www成人免费毛片麻豆| 国产99免费视频| 日韩中文字幕网站| 日韩中文字幕无砖| 日韩日韩日韩日韩日韩| 久久网站热最新地址| 性高潮视频在线观看| 久久久国产精品亚洲一区| 都市激情亚洲| 无码无遮挡又大又爽又黄的视频| 国产精品无遮挡| 精品久久无码中文字幕| 2019av中文字幕| 色综合五月天| 欧美午夜精品一区二区| 欧美日韩国产在线看| 成年人在线看| 99在线影院| 久久精品亚洲| 青青草免费av| 亚洲美女精品成人在线视频| 欧美高清xxx| 波多野结衣综合网| 国产精品美女久久久久久| 超碰在线观看av| 日本成人在线视频网址| 亚洲综合色站| www.av欧美| 日韩美女一区二区三区| 成人影院入口| 91麻豆天美传媒在线| 久久久久久麻豆| www.色日本| 国产精品视频yy9099| 在线成人亚洲| 欧美肥妇bbwbbw|