精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

小紅書hi lab開源多語言文檔布局解析模型dots.ocr,1.7B小模型實現SOTA性能

人工智能
dots.ocr 是一款功能強大、支持多語言的文檔解析模型,它在單一的視覺語言模型中統一了布局檢測和內容識別,同時能保持良好的閱讀順序。

dots.ocr 是一款功能強大、支持多語言的文檔解析模型,它在單一的視覺語言模型中統一了布局檢測和內容識別,同時能保持良好的閱讀順序。盡管其基礎模型是一個17億參數的“小模型”,但它依然實現了業界領先(SOTA)的性能。dots.ocr對多語言識別的良好性能彌補了開源社區的空白,不錯的檢測、識別能力也為多模態和大模型社區提供了寶貴的基礎。

01、簡介

dots.ocr 是一款功能強大、支持多語言的文檔解析模型,它在單一的視覺語言模型中統一了布局檢測和內容識別,同時能保持良好的閱讀順序。盡管其基礎僅是一個17億參數的”小模型“,但依然在多個benchmark上獲得了匹配超大參數量閉源模型的業界領先(SOTA)性能。

  • 性能強大dots.ocr 在 OmniDocBench 基準測試上,針對文本、表格和閱讀順序三方面均取得了業界領先(SOTA)的性能,同時其公式識別效果可與豆包-1.5(Doubao-1.5)和 gemini2.5-pro 等更大規模的模型相媲美。
  • 多語言支持dots.ocr 在小語種上展現出強大的解析能力,在我們內部的多語言文檔基準測試中,無論是在布局檢測還是內容識別方面,都取得了顯著的優勢。
  • 統一且簡潔的架構:通過利用單一的視覺語言模型,dots.ocr 提供了一個比依賴復雜多模型流水線的方法更為精簡的架構。任務切換僅需通過更改輸入提示詞(prompt)即可完成,證明了視覺語言模型(VLM)同樣可以取得與 DocLayout-YOLO 等傳統檢測模型相媲美的檢測效果。
  • 高效與快速dots.ocr 基于一個17億參數的大語言模型構建,因此其推理速度優于多種更大規模的 VLM 方案。

github:

https://github.com/rednote-hilab/dots.ocr

hugginface:

https://huggingface.co/rednote-hilab/dots.ocr

demo:

https://dotsocr.xiaohongshu.com

多語種端到端識別性能對比

注:英文(EN)和中文(ZH)的指標是 OmniDocBench的端到端指標,多語言(Multilingual)的指標是dots.ocr-bench的端到端指標。

02、樣例展示

2.1 公式解析樣例

<左右滑動查看更多>

2.2 表格解析樣例

<左右滑動查看更多>

2.3 多語言解析樣例


<左右滑動查看更多>


<左右滑動查看更多>

2.4 閱讀順序樣例

2.5 局部解析樣例

03、評測指標

3.1 OmniDocBench

不同任務的端到端指標

9種PDF類型的文本識別指標

3.2 dots.ocr-bench

不同任務的端到端指標

Layout檢測指標

注: parse all和detection only分別使用“全量解析”和“檢測only”的prompt。

3.3 olmOCR-bench

04、方法

4.1 預訓練

我們通過一個三階段的訓練過程,開發了一個基座視覺語言模型(VLM):

  • 階段一:視覺編碼器預訓練
    我們基于一個規模龐大且內容豐富的圖文對數據集,從零開始訓練了一個12億參數的視覺編碼器。
  • 階段二:視覺編碼器持續預訓練
    我們采用NaViT動態分辨率架構支持高達1100萬像素的高分辨率輸入,同時加入了OCR、視頻、定位數據(grounding data)等額外的視覺數據,我們將該視覺編碼器與Qwen2.5-1.5B語言模型進行對齊,并在這些多樣的視覺數據上訓練,最終產出了我們的通用視覺編碼器 dots.vit。
  • 階段三:VLM訓練 
    我們使用純OCR數據集訓練。為提升訓練效率,我們首先在凍結VE參數的情況下,訓練一定量的tokens;隨后,我們放開全部參數繼續訓練了1/5的token量,最終產出了我們的OCR基座模型 dots.ocr.base。

4.2 監督微調

SFT階段采用了以下關鍵策略:

  • 多樣化的SFT數據集:我們構建了一個包含數十萬樣本的數據集,該數據集整合了我們內部的人工標注數據、合成數據(表格、公式、多語言OCR)以及開源數據集。
  • 迭代式數據飛輪:我們采用反饋循環機制,構建了一個包含1.5萬樣本的內部多語言結構化layout數據集。這個過程經過了三次迭代,包含以下步驟:
  1. 根據模型表現,篩選出“壞樣本”(bad cases)。
  2. 對這些樣本進行人工標注。
  3. 將它們重新加入訓練集。
  • 閱讀順序:我們采用“大模型排序 + 規則后驗”的方法修正了所有版面布局(layout)數據中元素框的順序。我們發現,在數據質量和多樣性足夠的情況下,將元素列表按閱讀順序排列后進行訓練,即可獲得出色的效果。
  • 質量與魯棒性:我們構建了一個多專家系統,用于數據清洗和蒸餾,并應用了數據增強(如縮放、旋轉、加噪聲)來提升模型的魯棒性。
  • 多任務訓練:我們利用單一的結構化布局數據源,構造不同提示詞(prompts)的SFT數據。這種方法使得模型能根據提供的特定提示詞,執行不同的任務,例如檢測和識別。

最終得到的 dots.ocr 模型,其性能可與參數量遠超于它的模型相媲美。

05、局限性和未來工作

雖然有不錯的性能,但模型仍存在一些局限性和未來可改進之處:

  • 復雜的文檔元素:

     a.表格與公式:對于高復雜度的表格和公式提取,dots.ocr 的表現尚不完美。

     b.圖片:目前模型還無法解析文檔中的圖片信息。

  • 解析失敗: 在特定條件下,模型可能會解析失敗:

     a.當字符與像素的比率過高時。建議嘗試放大圖片或提高PDF解析的DPI(推薦設置為200)。但請注意,模型在分辨率低于11,289,600像素的圖像上表現最佳。

     b.連續的特殊字符,如省略號(...)和下劃線(_),可能會導致預測輸出無限重復。在這種情況下,可以考慮使用其他提示詞,詳見github倉庫。

  • 性能瓶頸:

      a.盡管dots.ocr基于17億參數的LLM開發,但相對于PDF文件龐大的規模而言,它的效率仍然不夠高。

未來,我們將進一步提升模型對表格和公式解析能力,并增強模型在不同場景的泛化能力,打造一個更強大、更高效的模型。此外,我們正考慮基于單視覺語言模型(VLM)完成更通用和廣泛的感知任務,包括通用檢測、圖像描述和OCR任務等。解析文檔中圖片的內容也是我們未來工作的重點之一。

06、作者簡介

Contributors

簡米

小紅書hi lab團隊算法工程師,主要研究方向是多模態大模型

李雨萌

小紅書hi lab團隊算法實習生,現就讀于北京航空航天大學,主要研究方向為多模態理解和生成

王泊文

小紅書 hi lab團隊算法實習生,現就讀于美國賓夕法尼亞大學工程學院,主要研究方向為大語言模型對齊、多模態對齊

Project Leader

燕青

小紅書hi lab團隊算法工程師,主要研究方向是多模態大模型

Advisor

柯雄(colin zhang)

小紅書 hi lab 多模方向研發負責人

責任編輯:龐桂玉 來源: 小紅書技術REDtech
相關推薦

2025-08-07 02:00:00

2025-08-07 16:24:19

小紅書開源dots.vlm1

2025-06-10 03:30:00

2025-06-25 09:53:59

2024-10-12 10:57:39

2024-03-04 14:15:16

OpenAI語言嵌入模型

2024-09-29 13:10:08

2009-08-25 10:44:50

C#實現多語言

2011-08-05 17:54:33

Cocoa Touch 多語言

2012-04-19 11:40:21

Titanium

2025-06-10 05:00:00

2025-07-02 14:39:29

開源模型AI

2023-10-18 15:21:23

2021-06-29 21:48:32

開源語言架構

2025-06-06 14:32:20

阿里開源Qwen3

2025-06-09 09:41:25

2025-02-10 08:30:00

2025-11-20 08:35:59

2023-05-23 14:14:14

技術模型

2024-04-02 09:17:50

AI數據開源
點贊
收藏

51CTO技術棧公眾號

国产一级久久久久毛片精品| 福利网在线观看| 国产无人区码熟妇毛片多| 粉嫩久久久久久久极品| 亚洲va韩国va欧美va| 粉嫩高清一区二区三区精品视频 | avav在线播放| 日韩一级片免费| 1024日韩| 夜夜嗨av色综合久久久综合网| 奇米影音第四色| 毛片在线视频| 成人18精品视频| 国产精品福利在线| 久久成人在线观看| 亚洲第一福利社区| 精品视频一区二区不卡| 久久久久久久久网| 理论在线观看| 国产电影精品久久禁18| 茄子视频成人在线| 亚洲天堂一级片| 玖玖玖免费嫩草在线影院一区| 在线免费精品视频| 久艹在线免费观看| aⅴ在线视频男人的天堂 | 成人xxxx视频| 男人午夜免费视频| 精品国产一区二区三区香蕉沈先生| 91精品国产综合久久香蕉的特点| 日韩av高清在线看片| 一级毛片视频在线观看| 成人激情文学综合网| 国产精品入口免费视| 2025国产精品自拍| 国内亚洲精品| 亚洲韩国青草视频| 久久6免费视频| 天天免费亚洲黑人免费| 亚洲精品日日夜夜| 一本一本a久久| 欧洲视频在线免费观看| 高清不卡在线观看av| 国产日韩欧美中文| 精产国品一区二区| 亚洲国产日本| 欧美另类极品videosbestfree| 亚洲色成人网站www永久四虎 | 国产一区二区三区高清视频| 无码aⅴ精品一区二区三区| 国产综合自拍| 久久精品亚洲94久久精品| 91久久免费视频| 人体久久天天| 日韩av网站导航| 国产sm在线观看| 国产精品亚洲综合在线观看| 91成人免费电影| 人妻内射一区二区在线视频 | 欧美噜噜久久久xxx| 人妻无码一区二区三区免费| 国际精品欧美精品| 精品国精品自拍自在线| 色诱av手机版| 亚洲精品福利| 日韩精品中文字幕一区二区三区| 亚洲第一色av| 日韩午夜视频在线| 欧美日韩一本到| 欧洲熟妇精品视频| 国产极品久久久久久久久波多结野 | 在线视频免费在线观看一区二区| 欧美不卡视频一区发布| 国产67194| 欧美激情在线| 欧美精品一区二区免费| www.超碰在线观看| 国产精品观看| 久久琪琪电影院| 国产成人在线播放视频| 日韩视频中文| 国产91免费观看| 夜夜爽妓女8888视频免费观看 | 六月丁香婷婷激情| 免费成人直播| 欧美日本国产一区| 女教师高潮黄又色视频| 国产精品videossex| 日韩精品中文字幕视频在线| 麻豆av免费观看| 日本一二区不卡| 久久激情视频久久| 劲爆欧美第一页| 99国产精品自拍| 欧美有码在线视频| 久久久久久亚洲av无码专区| 久久国产麻豆精品| 2022国产精品| 天堂av网在线| 国产精品久久久久7777按摩| 超碰在线免费观看97| 麻豆最新免费在线视频| 一区二区三区高清| 国产午夜福利视频在线观看| 成人1区2区| 日韩欧美国产一二三区| 免费中文字幕av| 欧美猛男做受videos| 色系列之999| 久久久久香蕉视频| 久久精品日产第一区二区| 国产一区香蕉久久| 手机av在线免费观看| 日本一区二区三区dvd视频在线 | 色婷婷综合五月| 我看黄色一级片| 超碰在线亚洲| www.久久久久久.com| 日本一级一片免费视频| 蜜臀av性久久久久蜜臀aⅴ流畅| 91免费欧美精品| 日本1级在线| 亚洲另类在线一区| 国产精品少妇在线视频| 精品视频一二| 亚洲色图色老头| 日操夜操天天操| 久久综合综合久久综合| 精品一区二区三区国产| 黄页视频在线播放| 一本久久综合亚洲鲁鲁五月天| 夜夜爽久久精品91| 国产欧美一区二区三区精品观看| 九九热r在线视频精品| 免费黄色小视频在线观看| 国产成人午夜高潮毛片| 亚洲欧洲国产精品久久| 天堂中文在线播放| 亚洲成人1234| wwwav国产| 国产麻豆精品久久一二三| 亚洲精品成人久久久998| 91资源在线观看| 欧美一卡二卡三卡| 北条麻妃在线观看视频| 天堂va蜜桃一区二区三区漫画版| 国产精品久久久久av福利动漫| 免费av在线网址| 欧美午夜视频网站| www.中文字幕av| 亚洲专区一区二区三区| 91亚洲午夜在线| 永久免费av在线| 精品久久久一区| 先锋资源av在线| 激情视频一区| 国产精品日本一区二区 | 97精品视频在线观看| 亚洲精品国产精| 亚洲综合成人在线| 香蕉视频在线观看黄| 中文av一区| 2019国产精品视频| 欧美6一10sex性hd| 日韩欧美一级二级| 看片网站在线观看| 国产精品1区二区.| 麻豆视频传媒入口| 四虎永久精品在线| 久久精品青青大伊人av| 国产内射老熟女aaaa∵| 综合av第一页| 久久精品在线播放| 午夜精品久久久久久久99热浪潮| 欧美自拍偷拍一区| 能在线观看的av网站| 欧美18免费视频| 91精品国产高清久久久久久91 | 欧美日本一区| 国产欧美日韩专区发布| 黄色动漫在线观看| 日韩欧美www| 日韩手机在线观看| 国产清纯白嫩初高生在线观看91| 性刺激的欧美三级视频| 蜜桃成人av| 国产精品日日摸夜夜添夜夜av| 午夜在线播放| 精品国产一区二区国模嫣然| 在线观看黄网站| 久久久久久一级片| 青青青在线播放| 午夜精品视频一区二区三区在线看| 69174成人网| 精精国产xxxx视频在线野外| 亚洲天堂日韩电影| 国产视频一二三四区| 一区二区三区成人在线视频| 日本一区二区三区网站| 蜜桃视频在线观看一区| 9191国产视频| 性欧美xxxx免费岛国不卡电影| 国产黑人绿帽在线第一区| 婷婷成人激情| 亚洲成人在线视频播放| 波多野结衣视频网站| 国产精品美女久久久久久| 成人三级做爰av| 久久九九99| 亚洲色婷婷久久精品av蜜桃| 日韩三级毛片| 91精品久久久久| 国内激情视频在线观看| 丝袜美腿亚洲一区二区| 免费看黄色一级视频| 日韩欧美在线免费观看| 天天综合天天做| 国产午夜精品久久| 久草视频福利在线| 蜜桃91丨九色丨蝌蚪91桃色| a级黄色小视频| 久久久久久久久久久久久久久久久久 | 黄色美女网站在线观看| 精品视频在线视频| 日韩特黄一级片| 亚洲三级在线播放| 久久亚洲无码视频| 不卡的看片网站| 天堂网成人在线| 秋霞电影网一区二区| www在线观看免费| 中文在线日韩| 伊人狠狠色丁香综合尤物| 天堂99x99es久久精品免费| 亚洲va码欧洲m码| 成人免费一区| 国产成人综合久久| 女海盗2成人h版中文字幕| 欧美超级乱淫片喷水| av在线资源站| 亚洲免费一级电影| 四虎永久在线观看| 日韩一区二区免费在线电影| 亚洲中文字幕一区二区| 欧洲另类一二三四区| 免费观看成人毛片| 亚洲国产精品久久不卡毛片| 亚洲熟女www一区二区三区| 国产精品青草综合久久久久99| wwwwxxxx国产| 久久五月婷婷丁香社区| 免费的av网站| va亚洲va日韩不卡在线观看| 肉色超薄丝袜脚交| 久久99久久精品| 国产色视频在线播放| 日韩午夜av| 尤物av无码色av无码| 中文一区在线| 欧美在线一区视频| 欧美一级播放| 三级a三级三级三级a十八发禁止| 久久www免费人成看片高清| 国产又粗又长又爽又黄的视频| 国产精品自拍毛片| 日本不卡视频一区| 久久婷婷久久一区二区三区| 欧美a在线播放| 亚洲免费在线电影| 日韩欧美性视频| 色婷婷国产精品久久包臀| 波多野结衣影片| 欧美一区中文字幕| 涩涩视频免费看| 国产一区二区三区久久精品 | 国产精品久久三区| 外国一级黄色片| 欧美日韩午夜剧场| 在线视频欧美亚洲| 亚洲成人精品久久| www.亚洲免费| 国产做受69高潮| 亚洲第一会所001| 99re在线观看视频| 亚洲伊人春色| 粉嫩av一区二区三区天美传媒| 亚洲精品影视| 亚洲欧美国产中文| 99久久精品国产观看| 中文字幕第69页| 亚洲成a人片综合在线| 中文字幕人妻丝袜乱一区三区| 日韩欧美国产一区在线观看| 国内精品一区视频| 欧美激情精品久久久久久免费印度| www.精品| 国产成人精品自拍| 日本久久精品| 男女激情无遮挡| 国产米奇在线777精品观看| www.自拍偷拍| 亚洲伊人伊色伊影伊综合网| 中文天堂在线播放| 日韩美女一区二区三区| 国产在线一二三区| 97视频在线看| 国产精品一区三区在线观看| 日韩欧美精品在线不卡| 一区二区亚洲精品| 91丝袜超薄交口足| 国产精品亲子伦对白| 亚洲成熟少妇视频在线观看| 日韩亚洲欧美中文三级| av在线之家电影网站| 欧美又大粗又爽又黄大片视频| 99精品中文字幕在线不卡| 亚洲一区在线直播| 三级欧美韩日大片在线看| 亚洲蜜桃精久久久久久久久久久久| 亚洲免费观看高清完整版在线观看| 国产乱码77777777| 亚洲精品小视频在线观看| h片在线观看| av成人午夜| 欧美.日韩.国产.一区.二区| 日本人视频jizz页码69| 国产欧美一区二区三区网站| 西西44rtwww国产精品| 欧美精品一区二区在线播放| 91在线中文| 91视频免费网站| 五月天久久久| 国产精品自在自线| 亚洲欧洲成人自拍| 亚洲综合精品国产一区二区三区| 国产亚洲福利一区| 日韩国产网站| 日韩亚洲视频在线| 日韩激情av在线| 阿v天堂2014| 欧美视频你懂的| 欧美激情二区| 亚洲va久久久噜噜噜久久天堂| 亚洲人metart人体| 色婷婷激情视频| 亚洲欧美日韩国产一区二区三区| 91激情在线观看| 色悠悠国产精品| 国产95亚洲| 久久av综合网| 99这里只有精品| 五月天激情四射| 亚洲最新在线视频| 91精品福利观看| 青青草综合在线| 不卡欧美aaaaa| www.国产一区二区| 国产亚洲精品美女久久久久| 91成人抖音| 中文字幕中文字幕在线中心一区| 精品一区二区三区久久久| 中文字幕av久久爽av| 欧美va亚洲va国产综合| 麻豆mv在线看| 日韩中文字幕一区| 国产一区二区影院| 国产网站在线看| 国产亚洲欧洲高清| 一区二区三区日本视频| 久久久久久久久久伊人| 99视频国产精品| 国产精品sm调教免费专区| 精品久久久91| 欧美一区二区三区红桃小说| 国产一级不卡毛片| 亚洲欧美日韩电影| 视频污在线观看| 国产原创欧美精品| 亚洲经典在线| 夫妇露脸对白88av| 精品国产电影一区二区| 日韩精品影院| 99久久99久久精品| 久久精品视频在线看| 国产欧美一区二区三区视频在线观看| 久久久久久久久国产| 国产日产精品一区二区三区四区的观看方式 | 中国字幕a在线看韩国电影| 清纯唯美一区二区三区| 国产在线精品不卡| 国产成人在线视频观看| 俺去了亚洲欧美日韩| 日韩av字幕| 超碰在线免费av| 五月激情六月综合| 里番在线观看网站| 欧美精品免费观看二区| 国产剧情一区在线| 夜夜躁日日躁狠狠久久av| 欧美华人在线视频|