精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ICLR 2024 Spotlight | 無懼中間步驟,MUSTARD可生成高質量數學推理數據

發布于 2024-5-6 08:56
瀏覽
0收藏

近年來,大型語言模型(LLM)在數學應用題和數學定理證明等任務中取得了長足的進步。數學推理需要嚴格的、形式化的多步推理過程,因此是 LLMs 推理能力進步的關鍵里程碑, 但仍然面臨著重要的挑戰。


以往的研究工作,如思維鏈(CoT),揭示了中間步驟引導的有效性。然而,人工地去標注這樣的中間步驟需要花費大量人力和時間成本,而自動合成的數據也容易在正確性人類易讀性上面出現問題。


本文中,來自香港城市大學、中山大學、華為諾亞方舟實驗室等機構的研究人員提出了一個統一的數學推理數據合成框架 MUSTARD,能夠生成大量的、正確的且人類可讀可理解的高質量數學推理數據。


ICLR 2024 Spotlight | 無懼中間步驟,MUSTARD可生成高質量數學推理數據-AI.x社區


  • 論文題目:MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data
  • 論文鏈接:https://openreview.net/forum?id=8xliOUg9EW
  • 代碼鏈接:https://github.com/Eleanor-H/MUSTARD
  • 數據集鏈接:https://drive.google.com/file/d/1yIVAVqpkC2Op7LhisG6BJJ_-MavAMr1B/view
  • 作者主頁:https://eleanor-h.github.io/


利用形式化證明器的高質量數據合成框架


MUSTARD 框架由三階段組成:


第一階段,概念采集:首先定義并建立了一個數學概念庫,涵蓋小學、初中、高中和高等教育四個教育階段的概念,每個教育階段有 5 至 9 個數學領域,涵蓋代數和幾何等不同類型的數學問題。每個領域都包含細分的數學概念,如多項式運算或因式分解。隨后從數學概念庫當中抽取一個或多個數學概念作為種子,規定所生成的問題類別。


第二階段,數據生成:根據數學概念提示大型語言模型生成數學問題和多步的求解過程。具體來說,MUSTARD 利用大型語言模型生成自然語言和代碼的能力,提示大型語言模型完成三項任務:(T1)生成與給定概念相關的數學問題;(T2)用自然語言給出問題的求解;(T3)自動形式化,將自然語言求解轉化為 Lean 3 的形式化求解。


第三階段,形式化驗證:使用交互式的形式化定理證明器的驗證篩選出準確的求解過程。MUSTARD 將 Lean 3 的形式化求解輸送給 Lean 形式化驗證器后,如果定理證明器沒有返回錯誤信息,則相應的數據會被收集到有效集合中。否則,MUSTARD 會從定理證明器那里收集錯誤信息,并提示語言模型修改形式化求解。MUSTARD 會進行多輪驗證和自我糾正,直到獲得有效的形式化求解。


ICLR 2024 Spotlight | 無懼中間步驟,MUSTARD可生成高質量數學推理數據-AI.x社區

MUSTARD 框架由概念采集、數據生成、形式化驗證三階段組成。


數據質量的人工評價


為了探究 MUSTARD 生成數據的質量,研究團隊請掌握數學和 Lean 3 語言專業人士對數據進行了質量檢查。他們從生成的數據中隨機抽取 200 條,其中 100 條通過 Lean 定理證明器的驗證(有效組),100 條沒有通過驗證(無效組)。質量檢查涵蓋每條數據的四個部分(即自然語言問題描述、自然語言求解、形式化問題描述和形式化求解),包括了正確性和一致性的檢查。具體來說,高質量的數據應該有正確的自然語言問題描述 (D1) 和正確的問題求解 (D4)。形式化問題描述和求解應該與自然語言的問題描述和求解保持一致(D5、D6)。此外,數據應該符合指定的數學概念 (D2) 和問題類型 (D3)。表 3 展示了這六個檢查維度及要求。如果數據符合要求,則在維度中得 1 分,否則得 0 分。


ICLR 2024 Spotlight | 無懼中間步驟,MUSTARD可生成高質量數學推理數據-AI.x社區


表 3 顯示了有效組和無效組在每個維度上的準確率和相應的 p 值。(D1)和(D4)的顯著差異性說明了 MUSTARD 生成的問題和答案的正確性。(D6)的顯著差異性表明了所生成的數據的自然語言描述和形式化描述的高度一致性。


數據對模型數學推理能力的有效性


為了評估 MUSTARDSAUCE 對提高數學推理能力的影響,研究團隊利用這些數據對較小規模的語言模型進行了微調,并在數學應用題(MWP)和自動定理證明(ATP)上對其進行了評估。本文對比了 MUSTARDSAUCE 數據集的以下組合數據的有效性:


  • MUSTARDSAUCE-valid:經過了 Lean 形式化證明器驗證的 5866 條數據;
  • MUSTARDSAUCE-invalid:未能通過 Lean 形式化證明器驗證的 5866 條數據;
  • MUSTARDSAUCE-random:隨機的 5866 條數據;
  • MUSTARDSAUCE-tt:MUSTARD 生成的所有 28316 條數據。


研究團隊采用 LoRA [1] 在每個組合數據上微調開源 GPT2-large [2]、Llama 2-7B 和 Llama 2-70B [3]。對于數學應用題任務,他們使用 GSM8K [4] 和 MATH [5][6] 數據集進行評估。在評估自動定理證明時,研究團隊使用了 Mathlib [8]和 miniF2F [7] 基準。此外,他們也在 MUSTARDSAUCE-test 上進行了評估。



總的來說,在 MUSTARDSAUCE 上對模型進行微調提高了模型的數學推理能力。在自動定理證明(下表 5)和數學應用題求解(下表 4),使用 MUSTARDSAUCE-valid 進行微調與使用 MUSTARDSAUCE-random 進行微調相比,平均相對性能提高了 18.15%(下表 5)和 11.01%(下表 4)。


對于自動定理證明,經過微調的 Llama 2-7B 平均性能提升 15.41%,經過微調的 GPT 2-large 平均性能提升 20.89%。


ICLR 2024 Spotlight | 無懼中間步驟,MUSTARD可生成高質量數學推理數據-AI.x社區


對于數學應用題求解,經過微調的 Llama 2-7B 平均性能提升 8.18%,經過微調的 GPT 2-large 平均性能提升 15.41%。此外,經過 MUSTARDSAUCE-tt 微調的模型雖在微調數據量上有絕對優勢,但其性能不及經過 MUSTARDSAUCE-valid 微調的模型性能。


ICLR 2024 Spotlight | 無懼中間步驟,MUSTARD可生成高質量數學推理數據-AI.x社區


Llama 2-70B 的更多結果。在微調更大的語言模型時,MUSTARDSAUCE 數據仍然有效。


ICLR 2024 Spotlight | 無懼中間步驟,MUSTARD可生成高質量數學推理數據-AI.x社區


MUSTARDSAUCE 數據集


本文開源了 MUSTARDSAUCE 數據集。其中每一個數據都包含了自然語言的問題描述和多步求解,以及對偶的形式化語言 Lean 3 的問題描述和多步求解。MUSTARDSAUCE 的數據包括了數學應用題和定理證明題,涵蓋了從小學到高等教育階段的難度分級。題目的推理步數隨著題目難度的增長而增長。最難的題目需要 30 步左右的求解步驟,約 20 個 Lean 3 tactics。


數據集下載:https://drive.google.com/file/d/1yIVAVqpkC2Op7LhisG6BJJ_-MavAMr1B/view


ICLR 2024 Spotlight | 無懼中間步驟,MUSTARD可生成高質量數學推理數據-AI.x社區


自動形式化 / 非形式化挑戰賽


研究團隊還基于 MUSTARDSAUCE 數據集的自然語言和 Lean 形式語言的對偶數據,開放了一個自動形式化(autoformalization)和一個自動非形式化(auto-informalization)的挑戰賽。此外,研究團隊還同步開放了自動定理生成和證明(automated theorem generation and proving)和代碼輔助的運籌優化問題自動求解(automated optimization problem-solving with code)等兩個挑戰賽賽道。比賽時間為 2024 年 4 月 3 日 – 5 月 27 日。優勝隊伍將有機會參加 7 月 26 日于奧地利維也納舉辦的 ICML 2024 AI for Math 研討會。


  • 賽道 1-1 (自動形式化):https://www.codabench.org/competitions/2436/
  • 賽道 1-2 (自動非形式化):https://www.codabench.org/competitions/2484/
  • 賽道 2 (自動定理生成和證明):https://www.codabench.org/competitions/2437/
  • 賽道 3 (代碼輔助的運籌優化問題自動求解):https://www.codabench.org/competitions/2438/


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/-mVe7ztpAmT71Gf8iDAYhA??

收藏
回復
舉報
回復
相關推薦
欧美资源在线观看| 日韩欧美中文字幕在线视频| 99国产精品久久久久| 欧美亚洲免费电影| 夫妇露脸对白88av| 日本中文字幕一区二区| 免费观看一级特黄欧美大片| 亚洲精品视频久久| 97人人爽人人| 成人福利电影| 99re8在线精品视频免费播放| 国产精品91久久| 国产精品一区二区亚洲| 国产精品qvod| 欧美欧美欧美欧美| 国产有色视频色综合| а天堂中文在线资源| 91精品尤物| 精品视频免费看| 久在线观看视频| 久久久久久国产精品免费无遮挡 | 亚洲精品8mav| 亚洲AV无码乱码国产精品牛牛| 五月国产精品| 国产精品麻豆视频| 国产亚洲欧美视频| 亚洲制服在线观看| 日日夜夜天天综合| 亚洲一区视频在线观看视频| 丝袜美腿玉足3d专区一区| 国产精品久久欧美久久一区| 老司机亚洲精品| 欧美激情中文字幕乱码免费| 免费观看a级片| 久久久久久久久成人| 91搞黄在线观看| 亚洲熟妇国产熟妇肥婆| a篇片在线观看网站| 国产亚洲欧洲一区高清在线观看| 欧美日本黄视频| 国产三级在线观看完整版| 视频精品二区| 欧美性xxxx极品高清hd直播| 亚洲激情一区二区三区| 美丽的姑娘在线观看免费动漫| 粉嫩高潮美女一区二区三区| 亚洲影院色在线观看免费| 亚洲黄色小说图片| 99精品视频精品精品视频| 亚洲一区在线观看网站| 亚洲成人免费网站| 26uuu亚洲国产精品| 男人操女人的视频网站| 成人久久一区| 777国产偷窥盗摄精品视频| 国产高清精品一区| 国产一区二区视频免费观看| 自拍日韩欧美| 久久精品亚洲一区| 美女视频久久久| 清纯唯美综合亚洲| 亚洲精品少妇网址| 美女洗澡无遮挡| 免费久久精品| 亚洲精品自拍视频| 日本免费福利视频| 一区二区三区四区在线看| 日韩大陆欧美高清视频区| 色欲无码人妻久久精品| 一区二区在线视频观看| 欧美成人高清电影在线| 亚洲伊人婷婷| 99久久亚洲精品日本无码 | 丁香亚洲综合激情啪啪综合| 在线精品视频免费播放| www亚洲欧美| 人妻大战黑人白浆狂泄| 国产欧美高清视频在线| 这里只有精品视频| 免费成人深夜天涯网站| 欧美肉体xxxx裸体137大胆| 中文字幕日韩高清| 免费黄色国产视频| 无需播放器亚洲| 欧美激情精品久久久久久蜜臀 | 日韩精品乱码免费| 伊人激情综合网| 老司机精品免费视频| 91九色精品| 欧美福利小视频| 欧美黄色免费在线观看| 99视频精品| 69视频在线免费观看| 日本视频免费在线| 夜夜嗨网站十八久久| 国产精品久久久久久久9999| 国产情侣一区二区| 国产成人亚洲综合a∨婷婷| 精品欧美一区二区久久久伦| 国产伦子伦对白视频| 日产国产高清一区二区三区| 91精品在线影院| 五十路在线观看| 国产精品嫩草影院com| 人妻av无码专区| 国产成人毛片| 一区二区三区国产| 国产三区在线视频| 丁香影院在线| 欧美艳星brazzers| 国产人成视频在线观看| 欧美一区二区三区高清视频| 久久成人av网站| 蜜臀99久久精品久久久久小说| 国产精品综合激情| 国产不卡精品在线| 亚洲美女av黄| xxxx 国产| 免费久久99精品国产| 精品一区二区三区国产| 精品176二区| 91官网在线免费观看| 亚洲麻豆一区二区三区| 日韩大片在线| 日本精品中文字幕| 超碰人人人人人人| 麻豆国产一区二区| 久久久精彩视频| 米奇精品一区二区三区| 久久婷婷国产综合精品青草 | 欧美在线高清| 国产精品一区二区三区久久久| 欧美在线 | 亚洲| 亚洲免费观看在线视频| 亚洲色图 在线视频| 毛片无码国产| 亚洲国产欧美一区二区三区同亚洲 | 免费网站在线高清观看| 亚洲免费播放| 不卡日韩av| 综合图区亚洲| 欧美日本一道本| 性欧美一区二区| 老司机久久99久久精品播放免费 | 伊人成综合网伊人222| 欧美激情精品久久久久久黑人| 国产情侣av在线| 亚洲素人一区二区| aaa一级黄色片| 国内精品久久久久久99蜜桃| 日本精品久久久久久久| 日本在线视频1区| 精品久久久久久中文字幕| 香蕉视频网站入口| 在线成人动漫av| 18性欧美xxxⅹ性满足| 少妇精品视频一区二区| 午夜精彩视频在线观看不卡| 欧美熟妇精品一区二区蜜桃视频| 激情欧美亚洲| 久久国产精品高清| xxxxxx欧美| 宅男66日本亚洲欧美视频| 亚洲视频一区在线播放| 麻豆国产精品官网| 亚洲欧美日韩不卡一区二区三区| 成人午夜毛片| 日韩综合中文字幕| 亚洲一卡二卡在线观看| 综合欧美一区二区三区| 永久av免费在线观看| 国内精品美女在线观看 | 老熟妇高潮一区二区高清视频| 亚洲一区二区三区视频在线| 69亚洲乱人伦| 亚洲精品日本| 青青草原成人| 欧美videos另类精品| 亚洲精品一区在线观看| 成人在线观看免费高清| 久久精品国产亚洲高清剧情介绍| 做爰高潮hd色即是空| 国产激情在线播放| 日韩黄在线观看| 人妻中文字幕一区二区三区| 国产精品久久午夜| 亚洲欧美激情一区二区三区| 在线午夜精品| 鲁丝一区二区三区免费| 97人人做人人爽香蕉精品| 久久亚洲欧美日韩精品专区| 91丨九色丨蝌蚪丨对白| 亚洲国产精品久久艾草纯爱| 色综合久久五月| 青草国产精品久久久久久| 99re99热| 久草在线成人| 91中文字幕在线观看| 三妻四妾完整版在线观看电视剧 | 亚洲最大福利视频| 欧美裸体视频| 久久久精品久久久| 日韩精品系列| 日韩欧美国产小视频| 少妇高潮av久久久久久| 国产精品成人午夜| 一本加勒比波多野结衣| 国产欧美日韩在线观看视频| 成人精品福利视频| 国产精品xx| 综合网中文字幕| 国产乱码久久久| 色综合天天在线| 久久久久久久9999| 日本一区二区在线不卡| 四虎永久免费观看| 国产精品v亚洲精品v日韩精品 | 国产精品欧美久久久| 外国精品视频在线观看 | 欧美男男gaygay1069| 777精品视频| 欧洲精品二区| 日韩在线视频观看| 日本高清视频www| 欧美一级专区免费大片| 日韩精选在线观看| 偷拍一区二区三区四区| 欧美性猛交xxxxx少妇| 中文欧美字幕免费| 国产成人无码一区二区在线观看| 国产精品资源在线| 亚洲成人av免费看| 亚欧美中日韩视频| 91超碰在线电影| 9999精品| 91久久精品国产| 全球中文成人在线| 欧美精品一区二区免费| 成人性爱视频在线观看| 亚洲精品自在久久| 好吊色一区二区| 欧美成人a视频| 国产成人精品免费看视频| 欧美夫妻性生活| 亚洲综合一区中| 91九色02白丝porn| 男操女视频网站| 精品国产91乱高清在线观看| 日韩三级一区二区三区| 亚洲超碰精品一区二区| 国产精品成人aaaa在线| 亚洲成人手机在线| 国产精品7777777| 一区二区三区欧美视频| 永久久久久久久| 亚洲一区二区三区四区五区黄| 久久这里只有精品国产| 婷婷国产在线综合| 欧美bbbbbbbbbbbb精品| 色天天综合色天天久久| 一区二区三区在线免费观看视频 | 欧美国产视频日韩| av电影在线地址| 亚洲国产精品人人爽夜夜爽| 亚洲AV午夜精品| 亚洲福利视频二区| 色婷婷视频在线| 亚洲码在线观看| aaa在线观看| 日韩亚洲综合在线| 在线观看h网| 91地址最新发布| yiren22亚洲综合| 91大片在线观看| 欧美电影在线观看完整版| 欧美精品一区在线| 成人污版视频| 成人在线视频网站| 2020国产精品极品色在线观看| 精品国产一区二区三| jiujiure精品视频播放| 亚洲一区二区在线看| 国产一区二区三区四区三区四 | 亚洲成人三级在线| 无码精品视频一区二区三区| 在线电影中文日韩| huan性巨大欧美| 97成人精品区在线播放| 成人亚洲欧美| 97久久夜色精品国产九色| 加勒比中文字幕精品| 日韩精品一区二区三区外面| 亚洲成人免费| xxxx18hd亚洲hd捆绑| 美女高潮久久久| 韩国黄色一级片| 精品一区二区综合| 国产人妖在线观看| 99re这里只有精品首页| 中文字幕美女视频| 午夜视频一区在线观看| 一级特黄免费视频| 91精品国产综合久久精品麻豆| 欧美综合视频在线| 亚洲精品一区二区三区福利| 91精品专区| 久久久久久久久久久免费 | 亚洲乱妇老熟女爽到高潮的片| 久久综合色综合88| 国精产品一区一区| 黄色91在线观看| 国产精品亚洲欧美在线播放| 亚洲色图综合久久| 激情影院在线| 青青青国产精品一区二区| 91精品啪在线观看国产爱臀| 欧美中日韩免费视频| 一区二区三区四区在线观看国产日韩| 国产美女无遮挡网站| 国产久卡久卡久卡久卡视频精品| 美国黄色特级片| 午夜精品福利一区二区三区av | 久久久久久久久久久久久久免费看 | 亚洲一卡久久| 午夜激情视频网| 国产亚洲欧洲一区高清在线观看| 久久久香蕉视频| 91精品婷婷国产综合久久性色| 日本大臀精品| 68精品久久久久久欧美| 日韩一级淫片| 亚洲免费久久| 国产精品久久777777毛茸茸 | 97成人在线| 四虎永久免费网站| 亚洲欧美日韩综合国产aⅴ| 99re久久精品国产| 一区二区免费在线播放| 国产精品一二三四五区| 尤物99国产成人精品视频| 蜜桃av在线| 精品在线不卡| 99成人在线| 男女黄床上色视频| 久久久9色精品国产一区二区三区| 91国偷自产一区二区三区的观看方式| 91麻豆精品国产91久久久更新资源速度超快| 国产一区不卡在线观看| 色999国产精品| 色乱码一区二区三区在线| 久久久久亚洲蜜桃| 日本免费一二三区| 91在线视频在线| 男女男精品视频网站| 在线看一区二区| h网站视频在线观看| 国产精品成人免费电影| 欧美一区二区性| 久久婷五月综合| 中文字幕亚洲一区二区va在线| 91麻豆国产在线| 久久视频在线视频| 最新国产精品精品视频| www插插插无码免费视频网站| 国产精品99久久久久| 国产网址在线观看| 欧美精品一区在线观看| 性欧美freesex顶级少妇| 久久久久高清| 美女精品在线观看| 69精品无码成人久久久久久| 欧美婷婷六月丁香综合色| 欧美jizz18性欧美| 成人春色激情网| 精品二区久久| 日本japanese极品少妇| 欧美性videosxxxxx| 久久久久久久久亚洲精品| 97视频在线播放| 国产一区二区区别| 日本 片 成人 在线| 亚洲一区视频在线观看视频| 日本免费不卡视频| 国产精品免费一区| 一个色综合网| 91国模少妇一区二区三区| 欧美少妇一区二区| 日本在线视频站| 国产视频99| 日日摸夜夜添夜夜添亚洲女人| 欧美肥妇bbwbbw| 日韩欧美电影一区| 综合日韩av| 天天做天天爱天天高潮| 国产一区亚洲一区| 亚洲婷婷综合网| 久久精品国产欧美亚洲人人爽| 欧美顶级毛片在线播放| 第四色婷婷基地| 大荫蒂欧美视频另类xxxx|