精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

We-Math 2.0:全新多模態數學推理數據集 × 首個綜合數學知識體系

人工智能 新聞
隨著 Vision-R1 、MM-Eureka 等工作將強化學習引入多模態推理,數學推理也得到了一定提升。然而,在邏輯性與知識系統性要求極高的數學任務中,模型仍然達不到像人類一樣進行嚴密推理的水平,這一問題仍然是開放性難題。

本文作者來自北京郵電大學、騰訊微信、清華大學。共同第一作者為北京郵電大學博士生喬潤祺與碩士生譚秋納,其共同完成的代表性工作 We-Math 于 ACL 2025 發表,并曾在 CVPR、ACL、ICLR、AAAI、ACM MM 等多個頂會中有論文發表。本文的通訊作者為博士生導師張洪剛與微信視覺技術中心李琛,We-Math 系列工作為喬潤祺在微信實習期間完成。

  • 論文標題:We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning
  • 論文鏈接:https://arxiv.org/abs/2508.10433
  • 主頁鏈接:https://we-math2.github.io/
  • 代碼鏈接:https://github.com/We-Math/We-Math2.0
  • 數據集鏈接:https://huggingface.co/datasets/We-Math/We-Math2.0-Standard

近期,多模態大模型在圖像問答與視覺理解等任務中進展迅速。隨著 Vision-R1 、MM-Eureka 等工作將強化學習引入多模態推理,數學推理也得到了一定提升。然而,在邏輯性與知識系統性要求極高的數學任務中,模型仍然達不到像人類一樣進行嚴密推理的水平,這一問題仍然是開放性難題。

對此,我們仍然認為理想的學習范式應該是讓模型先掌握所需的知識,再進一步提升泛化能力。基于這一思考,我們提出了 We-Math2.0:

1. MathBook Knowledge System:我們首先搭建了一個系統性、完整、相對正交的知識體系:包含 5 個層級,491 個知識點與 1819 個知識原理,覆蓋了小學、初中、高中以及部分大學及競賽的知識。

2. MathBook-Standard:基于知識體系,我們發現開源數據集存在無法完整覆蓋、知識無法完成解構等問題,對此我們選擇對每個知識體系進行手動構建題目、畫圖,并結合一題多圖、一圖多題兩種思想,實現每個知識原理對應包含多個問題。

3. MathBook-Pro:我們希望進一步構造一個以模型為中心的數據空間來提升泛化能力。基于 MathBook-Standard 與知識體系,我們通過題目所需知識點數量、視覺復雜度、場景復雜度等三個維度對題目難度進行延展,將一條訓練數據拓展為 8 個不同難度的樣本。

4. 訓練策略:基于所構建的數據集,我們首先通過 1000 條數據進行 SFT 冷啟動微調,旨在改變模型的輸出范式,進一步首先利用 MathBook-Standard 的數據,構建了均值獎勵,旨在通過以知識原理為單位對模型進行獎懲。在此基礎上,我們利用 MathBook-Pro 的數據,構建了動態調度訓練(知識調度與模態調度)從而提升模型的泛化能力。

5. MathBookEval: 為了進一步評測模型在全面知識與推理深度層面的能力,我們提出了包含 1000 條樣本的 MathBookEval

為了實現嚴謹、高質量、具備高復雜度的圖像數據,我們的全部數據均為手動利用 Geogebra 專業化軟件新渲染而成,我們希望先通過手動構造高精度的數據來驗證這一思想的可行性。

目前不僅在 X 上收獲了一定的關注度,并且榮登 Huggingface Paper 日榜第一名!

We-Math 2.0

知識體系(MathBook knowledge system)

我們按照「定義 — 定理 — 應用」的思想構建了包含 5 個層級、491 個知識點、1819 個知識原理的知識體系,確保數學概念之間的層次關系與邏輯關聯得到清晰呈現,知識點之間、知識原理之間盡可能相互獨立。

具體而言,每個知識點均對應若干條基本原理。例如,在「三角形的面積」這一知識點下,細分為「三角形面積的基本公式」、「海倫公式」、「三角函數法面積公式」等不同的知識原理。

做法層面:一方面由人類專家基于教材、維基百科和國家課程標準設計初始結構;另一方面,收集開源數據集通過 GPT-4o 進行初步打標,并通過層次聚類生成知識體系。最終,由專家對兩者進行融合與修改,形成高質量的知識體系。

可以在我們的網站當中看到可視化的知識體系。

MathBook-Standard:雙向數據擴展策略

MathBook-Standard 采用「一題多圖」和「一圖多題」的雙向數據擴展策略,每道題目都標注了對應的多層級知識點,并嚴格覆蓋所提出的 1819 個數學知識原理。

具體而言,「一題多圖」是為同一道題生成不同的視覺變式,例如,一個關于三角形的種子問題可以通過改變角度生成不同類型的三角形圖像(如銳角、直角、鈍角三角形),從而提升模型在同一知識原理下的泛化能力;「一圖多題」則由專家基于同一圖像設計多個針對不同知識原理的新問題,全面考察不同的數學知識。

  • 數據集:https://huggingface.co/datasets/We-Math/We-Math2.0-Standard

MathBook-Pro

聚焦以模型為中心的學習路徑,MathBook-Pro 首次實現了針對多模態數學題目的三維難度建模。具體來說,我們從以下三個維度對每個種子問題進行難度擴展:

  • 推理步驟復雜度:通過增加題目涵蓋的知識點數量(不少于 6 個),系統性提升題目的邏輯難度。
  • 視覺復雜度:在保持核心幾何結構不變的基礎上,利用 GeoGebra 增加輔助元素或調整幾何配置,逐步增強圖像的視覺難度。
  • 語境復雜度:將問題描述從簡明的數學敘述拓展到更為復雜的現實或抽象情境,提升模型對語義和語境的理解能力。

每道種子題目可在這三大維度內擴展為 7 個難度層級,為后續的動態調度和強化學習訓練提供堅實基礎,助力模型實現更穩健的泛化能力。

  • 數據集:https://huggingface.co/datasets/We-Math/We-Math2.0-Pro)

訓練策略

SFT 冷啟動

首先,我們精選了 1,000 條涵蓋全部知識原理的數據,通過監督微調(SFT)實現模型冷啟動,讓模型初步掌握知識導向的推理鏈,激發潛力。隨后,我們采用 GRPO 算法進行兩階段漸進式強化學習:

預對齊強化學習

基于 MathBook-Standard,在每組包含相同知識原理的問題中,采用均值獎勵計算。對于一組變體題目:

獎勵計算為:

具體而言,平均獎勵不僅聚焦于單個問題,還反映了模型對同一知識原理下所有問題掌握情況,從而提供更全面的評價。

動態調度學習

基于 MathBook-Pro,動態調度策略能夠根據模型的錯誤類型,智能地調整訓練數據。MathBook-Pro 為每個種子問題構建了一系列難度逐漸增加的變體,如下所示:

其中,s,v,c 分別表示在推理步驟、視覺和語境上的復雜度增量,這就為每個種子題目形成了一條從基礎推理到高級推理的漸進路徑,基于此展開的增量學習機制如下:

  • 知識增量調度:對于從 ,若模型在上表現不佳,那么會先在 上進行訓練,其中包含多個針對新增知識點所設計的單知識原理問題。
  • 模態增量調度:當從 或  時,如果模型無法解決后者,則調度學習對應的  或 ,該集合包含專門聚焦新增視覺復雜或語境抽象部分的訓練樣本。

實驗結果

主要結果

  • 較 Baseline 有穩定提升:我們基于 Qwen2.5-VL-7B 開發了 MathBook-7B,并在四個主流數學推理測試集(MathVista、MathVision、MathVerse、We-Math)上進行了評估。結果顯示,MathBook-7B 的平均性能較 Qwen2.5-VL-7B 提升超過 5%。
  • 優異的知識泛化能力:在 MathVista 和 We-Math 測試集上,MathBook-7B 展現出優異的知識泛化能力,能夠高效解決多領域的復雜多步問題及其子問題,性能超過了其他強化學習方法的基線模型。
  • 用相對較少的數據解鎖較大的潛力:MathBook-7B 最終用 10K 左右的數據量訓練即達到與大規模數據集同等效果,充分凸顯了高質量數據與結構化知識體系的高效性。

消融實驗分析

  • 每個模塊均有性能提升,預對齊強化學習最有效:冷啟動微調與兩階段強化學習策略均提升了模型性能。特別是預對齊強化學習后的模型在 MathVista 和 We-Math 中取得了令人印象深刻的結果,這凸顯了知識學習在增強數學推理能力方面的關鍵作用。
  • SFT 帶來的性能提升有限,但對于釋放強化學習的潛力至關重要:SFT 有效改變了模型推理范式,為后續 RL 優化提供了基礎,從而顯著提升了整體性能。(可以從后續的案例分析中看到變化)
  • SFT 人類自然的語言形式優于結構化形式:通過對 SFT 數據范式與規模進行分析,我們發現,采用自然語言形式的 CoT(Chain-of-Thought)作為 SFT 數據優于結構化推理鏈,更能激發模型靈活推理能力的提升。
  • SFT 少量數據足以釋放強化學習的潛力:擴大 SFT 數據規模并非總能帶來更好的性能 —— 在少量精心挑選的 SFT 數據上訓練的模型,其表現可與大規模數據集模型媲美,甚至更優。

實例分析

我們在附錄中提供了具體的回答案例。對比表明,通過在 SFT 階段改變了輸出范式,MathBook-7B 能夠提供更簡潔、更精準的推理過程。例如,在 MathVision 測試集上,MathBook-7B 的回答更加簡潔,平均響應長度減少,但仍保留了所有必要的知識推理步驟,解決了基線模型「過度思考」的問題。我們認為這種思路可以與構建自我思考、自我反饋的方法結合,旨在讓模型在正向推理過程中高效有效地利用知識推理。

MathBookEval 中的實驗結果

  • 知識點數量影響顯著:模型準確率與題目知識點數量呈負相關,尤其在涉及 7-10 個知識點時,大多數模型準確率低于 50%,凸顯多步推理的挑戰性,驗證了知識點數量作為難度指標的有效性。
  • 代數與幾何表現差異明顯:模型在代數題上表現較好,準確率普遍超過 50%;但在幾何題上表現較差,反映出空間推理能力的不足。

We-Math 系列工作

我們希望通過 We-Math 系列工作,以長期且持續系統性的努力,推動多模態數學推理的發展。其愿景希望讓模型像人類一樣可以依據知識解決問題,同樣也能在未來成為人類的學習助手。

具體而言,We-Math (ACL 2025) 聚焦于模型的評測,2.0 版本更加聚焦于模型的訓練,現階段我們通過手動構建高精度的知識體系與題目驗證了這一思路的有效性。

從數據集的角度看,2.0 版本更希望凸顯 MathBook-Standard 的高質量與知識覆蓋全面性而 MathBook-Pro 則更多的是傳達一個有更多可能性的思路,后續我們也會進一步依照知識體系與三維空間探索大規模自動構建的可能性。

此外,2.0 版本我們也會將全部的圖像數據與 GGB 源文件開源,我們認為這不僅會對多模態推理有所貢獻,也會對 AI for Education 有著一定的貢獻,相信在未來,知識學習會是很重要的基石。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2017-03-27 08:36:08

2023-12-05 13:28:00

AI模型

2012-07-27 09:25:40

2021-01-06 15:29:54

數據科學數學知識數學工具

2018-05-11 09:43:55

2024-12-02 08:30:00

2025-03-19 08:30:00

AI模型數據

2015-07-28 17:52:36

IOS知識體系

2018-03-22 19:48:47

前端HTML5數學知識

2017-08-15 17:06:55

前端HTML5手勢原理

2024-11-07 13:19:03

2021-07-27 15:40:13

計算機奧運 技術

2017-06-22 13:07:21

2012-03-08 11:13:23

企業架構

2023-12-12 13:51:00

AI訓練

2017-02-27 16:42:23

Spark識體系

2017-04-03 15:35:13

知識體系架構

2025-02-27 10:08:19

2022-10-31 09:36:47

深度學習數據集
點贊
收藏

51CTO技術棧公眾號

国产欧美视频一区二区| 亚洲va在线| 欧美综合色免费| 亚洲人成77777| 午夜精品无码一区二区三区| 亚洲一区久久| www亚洲欧美| 中文字幕人妻一区二区三区| 91精品店在线| 亚洲第一在线综合网站| 亚洲春色综合另类校园电影| 成人午夜免费福利| 美女视频黄免费的久久| 久久久久亚洲精品| 91久久久久久久久久久久久久| 白白在线精品| 欧美日韩aaa| 男人揉女人奶房视频60分| 菠萝蜜视频国产在线播放| 91在线国产观看| 亚洲a区在线视频| 久久久精品毛片| 伊人成人在线视频| www国产亚洲精品久久网站| 9.1成人看片免费版| 午夜电影一区| 51午夜精品国产| 无人在线观看的免费高清视频| 男插女视频久久久| 中文字幕亚洲欧美在线不卡| 欧美日韩亚洲免费| 91精品国产自产| 最新中文字幕在线观看视频| 欧美视频四区| 久久精视频免费在线久久完整在线看| 久久国产精品无码一级毛片 | 久久99影视| 亚洲成人精品视频在线观看| 性一交一黄一片| 欧美一区=区三区| 91久久线看在观草草青青| 成人黄色av片| xxxcom在线观看| 夜色激情一区二区| 4444亚洲人成无码网在线观看| 黄色网在线免费观看| 中文字幕av免费专区久久| 欧美一区免费视频| 九色视频网站在线观看| 久久影院午夜论| 鲁鲁视频www一区二区| 欧美视频久久久| av福利精品导航| 狠狠色综合色区| 日本精品999| 99久久久免费精品国产一区二区| 国产伦视频一区二区三区| 亚洲不卡免费视频| 懂色一区二区三区免费观看 | 性一交一乱一乱一视频| 国产精品一级黄| 高清视频一区| 亚洲av片一区二区三区| 91在线国产福利| 免费久久久一本精品久久区| 欧美人体大胆444www| 久久久久久久久99精品| 日本在线成人一区二区| a天堂中文在线88| 国产精品国产a| 国产av不卡一区二区| av毛片在线看| 午夜精品福利一区二区三区av| 国产成人精品免费视频网站| 婷婷成人av| 综合国产视频| 精品国产一区二区三区忘忧草| 日韩一二在线观看| 亚洲欧美一区二区三区极速播放 | 尤物在线网址| 欧美精品导航| 亚洲成人免费在线视频| yy1111111| 蜜桃精品噜噜噜成人av| 在线视频精品一| 中文字幕美女视频| 欧美性久久久| 清纯唯美日韩制服另类| 中文在线观看av| 国产麻豆91精品| 国产视频一区二区三区四区| 国产永久av在线| 一区二区在线视频观看| 日本精品视频一区二区三区| 伊人国产在线视频| 豆花视频一区二区| 在线成人免费网站| 男女羞羞免费视频| 日韩激情在线观看| 99re在线观看| 高清av电影在线观看| 一区二区三区精品在线观看| 欧美激情国产精品日韩| 国产午夜久久av| 亚洲男人av在线| 青娱乐国产在线视频| 另类图片国产| 99re在线视频上| 成人亚洲性情网站www在线观看| 亚洲精品国产高清久久伦理二区| 无码人妻h动漫| 国产一区二区av在线| 亚洲欧洲自拍偷拍| 国产在线视频二区| 久久99精品久久久久| 久久精品99久久| av毛片在线播放| 欧美日韩在线亚洲一区蜜芽| 日本黄色动态图| 亚洲最大黄网| 国产精品日韩专区| 青青草娱乐在线| 一区二区三区四区乱视频| av五月天在线| 久草成人在线| 91av在线免费观看| 亚洲女人18毛片水真多| 亚洲女人的天堂| 狠狠操狠狠干视频| 日本一区二区免费高清| 日本久久久久久久久久久| 丰满大乳国产精品| 一区二区三区国产| 男人操女人下面视频| 999国产精品| 91精品久久久久久久久青青| 超碰国产在线观看| 色天天综合色天天久久| 少妇光屁股影院| 国产精品视频久久一区| 好吊妞www.84com只有这里才有精品 | 精品一区二区在线看| 视频一区视频二区视频三区视频四区国产| 欧美少妇网站| 亚洲精品久久久久国产| 日韩成人高清视频| 不卡的av网站| 蜜桃传媒一区二区三区| 黑人久久a级毛片免费观看| 九色精品美女在线| 波多野结衣视频在线看| 久久久国产精华液| 欧美一区二区三区激情| 成人黄页毛片网站| 欧美精品一区二区性色a+v| 欧美日韩视频免费看| 中文字幕亚洲无线码a| 五月天中文字幕| 日本一区二区不卡视频| 一级片视频免费观看| 人人狠狠综合久久亚洲婷| 国产精品久久久久久av下载红粉| 国自产拍在线网站网址视频| 在线精品视频免费播放| 日本免费www| 久久99精品视频| 青青在线视频免费观看| 欧美1区二区| 日韩av免费看| 亚洲免费视频一区二区三区| 欧美一区二区三区免费视频 | 亚洲爆乳无码一区二区三区| 亚洲.国产.中文慕字在线| 亚洲天堂成人av| 日韩中文字幕av电影| 日韩在线电影一区| 疯狂欧洲av久久成人av电影| 久久久久久一区二区三区| 五月激情婷婷综合| 欧美中文字幕一区| 天天综合天天做| 99久久免费精品| 中文字幕av不卡在线| 欧美精品成人| 欧美一区二区三区精美影视| 日韩精品第二页| 久久久在线免费观看| 九色视频网站在线观看| 欧美一区二区在线免费观看| 日本天堂网在线观看| 国产亚洲人成网站| 涩多多在线观看| 国产亚洲精品自拍| 热这里只有精品| 色橹橹欧美在线观看视频高清| 国产精品永久免费观看| 欧洲中文在线| 尤物九九久久国产精品的分类| 99国产精品一区二区三区| 欧美日韩免费一区| 欧美爱爱免费视频| 99久久伊人精品| 成人av毛片在线观看| 国产一区二区高清| 亚洲免费视频播放| 国产伦精品一区二区三区千人斩 | 午夜精品一二三区| 在线观看一区日韩| 国产在线视频你懂的| 国产精品素人视频| 影音先锋黄色资源| 国产成人综合亚洲91猫咪| 成人在线观看a| 亚洲国产综合在线看不卡| 亚洲亚洲精品三区日韩精品在线视频| 都市激情亚洲| 91在线观看免费| jizz久久久久久| 亚洲97在线观看| 一二三四区在线观看| 中国日韩欧美久久久久久久久| 手机看片国产1024| 日韩欧美国产一区二区三区| 伊人网站在线观看| 色诱视频网站一区| 国产亚洲无码精品| 国产大学生自拍| 亚洲私拍视频| 亚洲人成毛片在线播放| 北条麻妃一二三区| 3atv一区二区三区| 男人的天堂日韩| 99久久综合狠狠综合久久aⅴ| 久久影院理伦片| 国产欧美自拍一区| 成人免费看片网址| 国产美女精品视频免费播放软件| 国产精品美女在线观看| 日韩精品专区| 国产福利成人在线| 韩国成人漫画| 热久久视久久精品18亚洲精品| www欧美com| 秋霞电影一区二区| 黄色一级大片在线观看| 激情五月***国产精品| 老司机激情视频| 国产精品久久| 无码 制服 丝袜 国产 另类| 亚洲网址在线| 国产免费一区二区视频| 激情五月***国产精品| 精品国产av无码一区二区三区| 国产精品草草| 阿v天堂2017| 亚洲一区自拍| 日本999视频| 麻豆精品国产传媒mv男同 | 麻豆精品视频在线观看免费| 欧美日韩一区二区三区69堂| 国模一区二区三区白浆| 992tv人人草| 丁香天五香天堂综合| 成人在线电影网站| 91在线云播放| 欧美激情亚洲色图| 中文字幕一区二区视频| 久久国产高清视频| 亚洲综合区在线| 精品午夜福利在线观看| 欧美日韩一区免费| 国产乡下妇女三片| 欧美一区二区三区免费视频| 日韩中文字幕免费在线观看| 精品一区二区三区电影| 成人免费一区二区三区视频网站| 在线亚洲国产精品网| 超碰公开在线| 97超碰国产精品女人人人爽 | 成人免费看片| 97国产成人精品视频| 怡红院成人在线| 91久久伊人青青碰碰婷婷| 欧美激情极品| 夜夜爽99久久国产综合精品女不卡| 91精品国产麻豆国产在线观看| 国产夫妻自拍一区| 日韩精品乱码免费| 日韩欧美中文在线视频| 91麻豆国产福利在线观看| 性少妇xx生活| 亚洲午夜成aⅴ人片| 中文字幕在线天堂| 91精品黄色片免费大全| 天堂а√在线8种子蜜桃视频| 中文字幕不卡在线视频极品| 免费看电影在线| 国产精品久久久久久婷婷天堂| 亚洲视频三区| 亚洲欧美日韩精品在线| 雨宫琴音一区二区在线| 污色网站在线观看| av在线一区二区| 亚洲人做受高潮| 欧美性感美女h网站在线观看免费| 国产乱码久久久| 精品亚洲夜色av98在线观看| 超碰在线网址| 国产精品99久久久久久人| eeuss鲁片一区二区三区| 日韩资源av在线| 影音先锋亚洲精品| 亚洲欧美手机在线| 久久久久久亚洲综合| 久久久久久久中文字幕| 欧美日韩国产一级片| 欧美午夜黄色| 久久久这里只有精品视频| 精品国产鲁一鲁****| 日韩三级电影| 亚洲欧美日韩国产| 国产大学生视频| 亚洲黄色片在线观看| 亚洲天堂网在线视频| 亚洲欧洲xxxx| 成人美女视频| 精品一区二区久久久久久久网站| 欧美激情1区2区3区| 日韩在线一区视频| 亚洲国产经典视频| 99re这里只有精品在线| 日韩国产中文字幕| 草美女在线观看| av噜噜色噜噜久久| 综合视频在线| 在线视频日韩欧美| 亚洲欧美成aⅴ人在线观看| 一级特黄色大片| 色琪琪综合男人的天堂aⅴ视频| 日韩久久一区二区三区| 久久一区免费| 欧美专区一区二区三区| 粉嫩av懂色av蜜臀av分享| 亚洲成人免费视| 色噜噜一区二区三区| 韩国福利视频一区| 成人性生交大片免费看96| 99在线免费视频观看| 懂色av一区二区三区免费看| 久久婷婷国产麻豆91| 精品国产1区2区3区| 成人性生交大片免费看网站| 成人av中文| 精品福利av| 一起草在线视频| 日韩欧美在线网址| 岛国最新视频免费在线观看| 国产精品久久久久aaaa九色| 日韩国产综合| 久久久久久综合网| 亚洲综合色婷婷| 五月婷婷免费视频| 国产999精品| 久久视频在线| 国产老头和老头xxxx×| 亚洲高清久久久| 日韩偷拍自拍| 国产精品视频免费在线| 66视频精品| 在线看黄色的网站| 色综合视频在线观看| 成年人视频在线看| 91免费欧美精品| 亚洲第一毛片| www久久久久久久| 日韩一区二区三区在线观看 | 亚洲国产精品影院| 天堂а在线中文在线无限看推荐| 国产精品久久久久久久久影视 | 国产丰满果冻videossex| 欧美丰满老妇厨房牲生活 | 成人在线综合网| 久久国产视频一区| 色香阁99久久精品久久久| 无人区乱码一区二区三区| 久久久久狠狠高潮亚洲精品| 成人欧美一区二区三区黑人麻豆| 天天干天天摸天天操| 国产精品入口福利| 99国产精品视频免费观看一公开| 亚洲区自拍偷拍| 日韩写真欧美这视频| 色老太综合网| 国产91在线亚洲| 久久精品这里都是精品| 国产高清第一页| 国产精品久久久91| 黄色在线成人| 91无套直看片红桃在线观看| 亚洲国产精品久久|