精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

MetaMath:新數(shù)學(xué)推理語言模型,訓(xùn)練大模型的逆向思維

人工智能 新聞
為了提升模型的正向和逆向推理能力,劍橋、港科大、華為的研究者基于兩個常用的數(shù)學(xué)數(shù)據(jù)集(GSM8K 和 MATH)提出了 MetaMathQA 數(shù)據(jù)集:一個覆蓋面廣、質(zhì)量高的數(shù)學(xué)推理數(shù)據(jù)集。MetaMathQA 由 395K 個大語言模型生成的正向逆向數(shù)學(xué)問答對組成。

復(fù)雜數(shù)學(xué)推理是評價大語言模型推理能力的重要指標(biāo),目前常用的數(shù)學(xué)推理數(shù)據(jù)集樣本量有限且問題多樣性不足,導(dǎo)致大語言模型存在 [逆轉(zhuǎn)詛咒] 的現(xiàn)象,即一個訓(xùn)練于「A 是 B」的語言模型無法推廣到「B 是 A」[1]。此現(xiàn)象在數(shù)學(xué)推理任務(wù)中的具體形式是:即給定一個數(shù)學(xué)問題,語言模型擅于用正向推理解答問題但缺乏逆向推理解決問題的能力。逆向推理在數(shù)學(xué)問題中十分常見,如下 2 個例子。

1. 經(jīng)典問題 - 雞兔同籠

  • 正向推理:籠子里有 23 只雞和 12 只兔,問籠子里有多少個頭和多少只腳?
  • 逆向推理:有若干只雞兔同在一個籠子里,從上面數(shù),有 35 個頭,從下面數(shù),有 94 只腳。問籠中各有多少只雞和兔?

2. GSM8K 問題

  • 正向推理: James buys 5 packs of beef that are 4 pounds each. The price of beef is $5.50 per pound. How much did he pay?
  • 逆向推理: James buys x packs of beef that are 4 pounds each. The price of beef is $5.50 per pound. How much did he pay? If we know the answer to the above question is 110, what is the value of unknown variable x?

為了提升模型的正向和逆向推理能力,劍橋、港科大、華為的研究者基于兩個常用的數(shù)學(xué)數(shù)據(jù)集(GSM8K 和 MATH)提出了 MetaMathQA 數(shù)據(jù)集:一個覆蓋面廣、質(zhì)量高的數(shù)學(xué)推理數(shù)據(jù)集。MetaMathQA 由 395K 個大語言模型生成的正向逆向數(shù)學(xué)問答對組成。他們在 MetaMathQA 數(shù)據(jù)集上基于 LLaMA-2 微調(diào)得到專注于數(shù)學(xué)推理 (正向和逆向) 的大語言模型 MetaMath,在數(shù)學(xué)推理數(shù)據(jù)集上達(dá)到了 SOTA。MetaMathQA 數(shù)據(jù)集和不同規(guī)模的 MetaMath 模型已開源供研究人員使用。

圖片

  • 項(xiàng)目地址:https://meta-math.github.io/
  • 論文地址:https://arxiv.org/abs/2309.12284
  • 數(shù)據(jù)地址:https://huggingface.co/datasets/meta-math/MetaMathQA
  • 模型地址:https://huggingface.co/meta-math
  • 代碼地址:https://github.com/meta-math/MetaMath

本文中構(gòu)造了一個逆向推理數(shù)據(jù)集 GSM8K-Backward。實(shí)驗(yàn)結(jié)果表明,目前的方法(e.g., SFT、RFT、WizardMath)在逆向推理問題中表現(xiàn)遠(yuǎn)差于正向推理。相較而言,MetaMath 模型在正向和反向推理上都取得了優(yōu)越的性能。

圖片

方法

圖片

MetaMathQA 包含四種數(shù)據(jù)增強(qiáng)的方法:

1. Answer Augmentation (答案增強(qiáng)):給定問題,通過大語言模型生成能得到正確結(jié)果的思維鏈作為數(shù)據(jù)增廣。

  • Question: James buys 5 packs of beef that are 4 pounds each. The price of beef is $5.50 per pound. How much did he pay?
  • Answer: James buys 5 packs of beef that are 4 pounds each, so he buys a total of 5 * 4 = 20 pounds of beef. The price of beef is $5.50 per pound, so he pays 20 * $5.50 = $110. The answer is: 110.

2. Rephrasing Question (問題改寫增強(qiáng)):給定元問題,通過大語言模型重寫問題并生成得到正確結(jié)果的思維鏈作為數(shù)據(jù)增廣。

  • Question: What is the total amount that James paid when he purchased 5 packs of beef, each weighing 4 pounds, at a price of $5.50 per pound?
  • Answer: Each pack of beef weighs 4 pounds, so 5 packs weigh 4 * 5 = 20 pounds in total. The price per pound of beef is $5.50, so the total cost for 20 pounds is 20 * $5.50 = $110. Therefore, James paid a total of $110. The answer is: 110.

3. FOBAR Question (FOBAR 逆向問題增強(qiáng)):給定元問題,通過掩碼條件中的數(shù)字為 x,給定原有答案并反推 x 來產(chǎn)生逆向問題,并基于該逆向問題生成正確的思維鏈過程來進(jìn)行數(shù)據(jù)增廣(反推樣例:“If we know the answer to the above question is 110, what is the value of unknown variable x?”)。

  • Question: James buys x packs of beef that are 4 pounds each. The price of beef is $5.50 per pound. How much did he pay? If we know the answer to the above question is 110, what is the value of unknown variable x?
  • Answer: James buys x packs of beef that are 4 pounds each, so he buys a total of 4x pounds of beef. The price of beef is $5.50 per pound, so the total cost of the beef is 5.50 * 4x = 22x. We are given that the total cost is $110, so we can write: 22x = 110. Dividing both sides by 22, we get: x = 5. The value of x is 5.

4. Self-Verification Question (Self-Verification 逆向問題增強(qiáng)):在 FOBAR 的基礎(chǔ)上,通過大語言模型改寫逆向問題部分為陳述的語句來進(jìn)行數(shù)據(jù)增廣(改寫樣例:“How much did he pay?” (with the answer 110) 被改寫成 “He paid 110”)。

  • Question: James buys x packs of beef that are 4 pounds each. The price of beef is $5.50 per pound. He paid 110. What is the value of unknown variable x?
  • Answer: To solve this problem, we need to determine the value of x, which represents the number of packs of beef that James bought. Each pack of beef weighs 4 pounds and costs $5.50 per pound. The total amount James paid is $110. We can set up the equation as follows: Number of packs of beef * Weight per pack * Price per pound = Total amount paid; x * 4 * $5.50 = $110; Let's simplify and solve for x: 4x * $5.50 = $110; 22x = $110; To isolate x, we divide both sides of the equation by 22: 22x / 22 = $110 / 22; x = $5; The value of x is 5.

實(shí)驗(yàn)結(jié)果

圖片

在兩個常見數(shù)學(xué)推理數(shù)據(jù)集(GSM8K 和 MATH)的實(shí)驗(yàn)結(jié)果表明,在不借助外部工具(e.g., code interpreter), MetaMath 在性能上顯著優(yōu)于已有開源 LLM 模型。其中,我們的 MetaMath-7B 模型在 GSM8K 上達(dá)到了 66.5% 的準(zhǔn)確率,在 MATH 上達(dá)到了 19.8% 的準(zhǔn)確率,超過了相同規(guī)模的最先進(jìn)模型分別 11.6% 和 9.1%。特別地,MetaMath-70B 在 GSM8K 上達(dá)到了 82.3% 的準(zhǔn)確率,超過 GPT-3.5-Turbo。

根據(jù) Superficial Alignment Hypothesis [2],大語言模型的能力源于預(yù)訓(xùn)練,而來自下游任務(wù)的數(shù)據(jù)則激活了預(yù)訓(xùn)練期間學(xué)習(xí)到的語言模型的固有能力。由此產(chǎn)生了兩個重要問題:(i)什么類型的數(shù)據(jù)可以最有效地激活潛在知識,以及(ii)為什么一個數(shù)據(jù)集在這種激活中比另一個數(shù)據(jù)集更好?

為什么 MetaMathQA 有用?提高了思維鏈數(shù)據(jù)的質(zhì)量 (Perplexity)

圖片

如上圖所示,研究者們計算了 LLaMA-2-7B 模型在僅答案數(shù)據(jù)、GSM8K CoT 以及 MetaMathQA 數(shù)據(jù)的各部分上的 perplexity。MetaMathQA 各部分的 perplexity 顯著低于其他兩個數(shù)據(jù)集,這突顯了它固有的易學(xué)性,可能更有助于引導(dǎo)出模型的潛在知識。

為什么 MetaMathQA 有用?增加了思維鏈數(shù)據(jù)的多樣性 (Diversity)

通過比較數(shù)據(jù)的多樣性增益和模型的準(zhǔn)確率增益,他們發(fā)現(xiàn) Rephrasing、FOBAR 和 SV 添加相同數(shù)量的增廣數(shù)據(jù)帶來了明顯的多樣性增益,顯著提升了模型準(zhǔn)確率。相比之下,簡單地使用答案增強(qiáng)會導(dǎo)致明顯的準(zhǔn)確率飽和。在準(zhǔn)確率飽和之后,增加 AnsAug 數(shù)據(jù)只會帶來有限的性能提升。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-10-10 01:25:00

大模型訓(xùn)練數(shù)據(jù)OpenAI

2023-01-05 09:33:37

視覺模型訓(xùn)練

2025-06-26 09:06:59

2024-04-11 11:35:03

大語言模型LLMs

2025-04-30 16:48:07

2025-03-06 09:46:00

AI模型代碼

2025-08-11 08:00:00

2025-06-09 09:32:35

2025-08-14 09:00:00

模型訓(xùn)練數(shù)據(jù)

2025-01-10 10:30:00

大模型統(tǒng)計評估

2023-06-24 19:59:40

2025-04-16 02:30:00

2023-05-05 13:29:04

模型推理

2024-09-09 08:31:15

2023-08-18 14:34:00

研究模型

2025-11-04 01:43:00

循環(huán)語言模型架構(gòu)

2023-05-15 15:38:59

AI模型

2025-02-08 17:00:11

2023-06-09 07:29:03

模型文本document

2025-07-08 03:11:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

奇米四色中文综合久久| 亚洲成人1234| 成人毛片100部免费看| 黄色小视频免费观看| 亚洲一区成人| 日韩中文av在线| 亚洲av成人无码一二三在线观看| av亚洲一区二区三区| 一区二区三区四区高清精品免费观看 | free性欧美| 国产精品污网站| 精品无码久久久久国产| 国产精品一区二区人人爽| 国产精品亚洲综合色区韩国| 久久久999成人| www.av欧美| ccyy激情综合| 欧美日本韩国一区| 成人免费无码av| 国产三级电影在线播放| ...中文天堂在线一区| 久久99久久99精品蜜柚传媒| 国产精品久久久久久久久久久久久久久久久久 | 国产丝袜精品第一页| 色播五月激情五月| 美女在线视频免费| 亚洲免费毛片网站| 日韩不卡av| 六月丁香色婷婷| 精品一区二区三区久久久| 69影院欧美专区视频| 日韩欧美国产成人精品免费| 综合亚洲自拍| 欧美精品久久久久久久多人混战| 大桥未久一区二区三区| 欧洲成人av| 国产一区欧美二区| 国产精品久久久久久久久免费看| 久草国产精品视频| 欧美成人嫩草网站| 日韩在线播放一区| 蜜桃久久精品成人无码av| 精品女人视频| 精品精品国产高清a毛片牛牛| 青青草久久伊人| 欧美日韩精品免费观看视欧美高清免费大片 | 制服丝袜亚洲色图| 男女爽爽爽视频| 伊人色综合一区二区三区影院视频| 亚洲六月丁香色婷婷综合久久| 色一情一乱一伦一区二区三区丨 | 国产成人精品aa毛片| 国产精品入口福利| 国产九色91回来了| 肉丝袜脚交视频一区二区| 欧美黑人xxx| 午夜69成人做爰视频| 久久久久国产| 久久综合久久八八| 麻豆明星ai换脸视频| 欧美oldwomenvideos| 日韩高清中文字幕| 国产精品毛片一区二区| 国产影视精品一区二区三区| 精品伊人久久97| 在线免费看黄视频| 欧美日韩一二三四| 亚洲成人激情在线| 大桥未久恸哭の女教师| 美女av一区| 日韩电视剧在线观看免费网站| 加勒比精品视频| 校花撩起jk露出白色内裤国产精品| 精品国产露脸精彩对白| 精品久久久久久无码人妻| 中文字幕一区图| 精品国产91乱码一区二区三区| 中国特级黄色片| 最新国产精品精品视频| 亚洲第一av网站| 少妇饥渴放荡91麻豆| 啪啪国产精品| 亚洲欧美一区二区激情| 人妻一区二区视频| 99久久99视频只有精品| 欧美精品情趣视频| 日本视频免费在线| 天堂在线亚洲视频| 国产欧美久久一区二区| 精品国产av 无码一区二区三区| 国产成人精品影院| 久久精品欧美| 成年人在线免费观看| 亚洲欧美自拍偷拍色图| 男女激烈动态图| 91九色国产在线播放| 欧美日韩免费观看中文| 99免费视频观看| 亚洲欧洲二区| 亚洲电影免费观看高清完整版在线观看 | 欧美97人人模人人爽人人喊视频| 91精品国产综合久久久蜜臀粉嫩| 色诱av手机版| 天堂99x99es久久精品免费| 日韩电影中文字幕在线观看| 在线免费观看成年人视频| 国产亚洲电影| 久久成人18免费网站| 三级视频在线观看| 国产在线视视频有精品| 久久精品日产第一区二区三区乱码| 国产精品四虎| 亚洲国产视频网站| 午夜免费福利在线| 69精品国产久热在线观看| 亚洲日韩欧美视频一区| 国产性生活大片| 亚洲一区欧美二区| 91黄在线观看| jizz在线免费观看| 亚洲电影第三页| 国内国产精品天干天干| 卡一精品卡二卡三网站乱码| 国产午夜精品美女视频明星a级| 免费三级在线观看| 免费观看在线综合色| 精品伦精品一区二区三区视频| 免费在线毛片网站| 色婷婷av一区二区三区大白胸| 在线观看免费看片| 欧美xxxxx视频| 人人澡人人澡人人看欧美| 国产免费一区二区三区免费视频| 99国产精品一区| 三年中文高清在线观看第6集| 天堂资源在线| 欧美tickling挠脚心丨vk| 日本理论中文字幕| 久久精选视频| 久久久久高清| 波多野结依一区| 日韩一区二区免费在线观看| 天天操天天干天天操天天干| 99国产精品久久久久久久成人热 | 成人污版视频| 中文字幕日韩欧美在线| www.国产com| 91一区在线观看| 国产日韩欧美精品在线观看| 精品亚洲二区| 久久香蕉国产线看观看网| 亚洲最大成人av| 国产欧美日韩视频在线观看| 妺妺窝人体色www在线小说| 成人黄色av网址| 久久久久久久久爱| 黄频网站在线观看| 亚洲欧美日韩成人高清在线一区| 亚洲免费av一区| 国产电影一区二区在线观看| 国产97在线|亚洲| 免费国产在线视频| 日韩欧美在线免费| 人妻无码中文久久久久专区| 欧美特黄一级| 久久久99国产精品免费| 91av亚洲| 中文字幕视频一区二区在线有码| 中文字幕在线视频第一页| 国产精品视频免费看| 国产精品人人爽人人爽| 日韩精品诱惑一区?区三区| 国产精品亚洲美女av网站| 日本在线观看免费| 在线播放中文一区| 久久久久久福利| 成人不卡免费av| 日韩avxxx| 亚洲婷婷丁香| 国产欧美va欧美va香蕉在线| 成年午夜在线| 欧美久久久久中文字幕| 亚洲区一区二区三| 丁香网亚洲国际| www.四虎成人| 日本a级不卡| 91精品久久久久久蜜桃| 国产乱码在线| 亚洲视频777| 国产老妇伦国产熟女老妇视频| 亚洲精品免费电影| 亚洲国产精品成人综合久久久| 日韩在线一二三区| 精品少妇人妻av一区二区| 国产精品x8x8一区二区| 国产精品成人av性教育| 国内精品不卡| 精品视频www| 懂色av蜜臀av粉嫩av喷吹| 日韩毛片一二三区| 一起草在线视频| 美女爽到高潮91| 国产免费裸体视频| 激情综合网站| 粉嫩精品一区二区三区在线观看| 色多多在线观看| 色视频www在线播放国产成人| 亚洲精品久久久狠狠狠爱| 一道本成人在线| 国产av 一区二区三区| xf在线a精品一区二区视频网站| 高清av免费看| 亚洲主播在线| 成人在线观看毛片| 国产精品密蕾丝视频下载| 国产精品日韩久久久久| 青青在线视频| 日韩性xxxx爱| 裸体xxxx视频在线| 精品日韩成人av| 亚洲天堂777| 欧美丝袜第一区| 久久久久久久久精| 国产精品无圣光一区二区| 国产精品久久久久久久无码| 久久99久久99小草精品免视看| 日本福利视频在线| 欧美国产另类| 永久久久久久| 欧美影院三区| 黑人巨大精品欧美一区二区小视频 | 97碰在线观看| 性欧美video高清bbw| 日日噜噜噜夜夜爽亚洲精品| 青青九九免费视频在线| 精品美女一区二区三区| 一卡二卡在线视频| 在线亚洲精品福利网址导航| 日韩三级免费看| 亚洲一区在线观看网站| 四虎地址8848| 国产精品免费看片| 免费看91的网站| 久久蜜桃一区二区| 国产精品边吃奶边做爽| 成人av免费在线播放| 亚洲女人在线观看| 国产在线播放一区| 一级做a爱视频| 精品一区二区久久| 九九九在线观看视频| 日韩黄色片在线观看| 国产日产欧美视频| 亚洲免费影视| 热久久精品国产| 99av国产精品欲麻豆| 国产一区二区视频播放| 日韩视频中文| 狠狠97人人婷婷五月| 99国内精品| 免费在线a视频| 亚洲欧美视频一区二区三区| 春日野结衣av| 日韩精品一区第一页| 欧洲av无码放荡人妇网站| 亚洲欧美久久| 国产偷人视频免费| 蜜桃av一区二区三区| 日本中文字幕精品—区二区| 久久se这里有精品| 午夜免费福利网站| 激情小说亚洲一区| 美国黄色一级视频| 久久影院视频免费| 日本猛少妇色xxxxx免费网站| 中国色在线观看另类| 乱老熟女一区二区三区| 亚洲美女一区二区三区| 久久免费播放视频| 狠狠色噜噜狠狠狠狠97| 亚洲 日本 欧美 中文幕| 欧美三级中文字幕| 国产乱人乱偷精品视频| 91精品婷婷国产综合久久性色| 国内老熟妇对白hdxxxx| 日韩国产精品视频| 超碰免费在线| 久久99久久99精品免观看粉嫩| 蜜桃视频动漫在线播放| 国产盗摄xxxx视频xxx69| 日韩国产大片| 国产伦精品一区二区三区免费视频 | 欧美性猛交xxxx乱大交极品| av手机天堂网| 欧美一区二区性放荡片| 黄色一级大片在线免费看国产一| 亚洲欧洲午夜一线一品| 国产精品久久麻豆| 97精品视频在线播放| 成人免费无遮挡| 国产专区欧美专区| 国产成人手机高清在线观看网站| 手机成人av在线| 亚洲一区日本| 97超碰人人看| 久久久久亚洲综合| 日本少妇高清视频| 在线看不卡av| www.黄色片| 在线精品国产欧美| 狠狠操一区二区三区| 成人av在线亚洲| 亲子伦视频一区二区三区| 亚洲美女自拍偷拍| 久久精品卡一| 日本50路肥熟bbw| 国产精品福利一区二区| 九九热在线免费观看| 日韩一区二区在线播放| 男男激情在线| 97在线视频免费| 婷婷综合国产| 亚洲va韩国va欧美va精四季| 亚洲韩日在线| 国产在线视频三区| 久久精品一区二区三区四区| 国产成人亚洲欧洲在线| 欧美福利一区二区| h视频在线播放| 欧洲精品久久久| 国产成人夜色高潮福利影视| 永久域名在线精品| 日本不卡一区二区| 全黄一级裸体片| 欧美日韩国产精品专区 | 2001个疯子在线观看| av一区二区三区四区电影| 91日韩欧美| 欧美伦理片在线观看| 91麻豆国产福利精品| 日韩黄色a级片| 亚洲成人999| 毛片网站在线看| 亚洲自拍另类欧美丝袜| 999久久久免费精品国产| 欧美精品成人网| 久久久久久久一区| 中文字幕精品三级久久久 | 国产普通话bbwbbwbbw| 亚洲天堂av女优| 99九九久久| 亚洲 国产 欧美一区| 免费在线看成人av| 2019男人天堂| 欧美日韩久久久一区| p色视频免费在线观看| 国产精品三级在线| 成人在线免费观看网站| 99热手机在线| 国产精品乱人伦| 国产精品怡红院| 久久亚洲精品网站| 一区二区三区国产好| 黄色一级片黄色| 99久久婷婷国产综合精品| 免费在线不卡视频| 亚洲欧美日韩成人| 日产精品一区| 亚洲一区二区三区午夜| 精品在线播放午夜| 国产精品九九九九九九| 欧美精品一区二区三| 松下纱荣子在线观看| 国产91精品入口17c| 欧美视频成人| 黄色三级生活片| 在线成人av网站| 超碰97免费在线| 欧美一区二区三区在线播放 | 日本成人在线网站| 91.com在线| 国产亚洲一区二区三区四区 | 丁香高清在线观看完整电影视频| 精品国产乱码久久久久久蜜柚| 欧美亚洲一级| 亚洲图片第一页| 精品久久人人做人人爽| 亚洲精品中文字幕| 亚洲一二区在线| 懂色av一区二区三区免费看| 成人在线免费看视频| 在线观看国产欧美| 我要色综合中文字幕| 国产真人做爰毛片视频直播| 久久这里只有精品视频网| 国产精品羞羞答答在线| 韩国精品久久久999| 欧美一级精品| 亚洲成a人无码| 精品视频999|