精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

進能形式邏輯,退能四則運算,MAmmoT讓LLM成為數學通才

人工智能 新聞
一個新數據集外加思維鏈和思維程序兩種方法之長,竟能讓開源 LLM 的數學推理追上 GPT-4 等閉源大模型。

數學推理是現代大型語言模型(LLM)的一項關鍵能力。盡管這一領域近來進展不錯,但閉源和開源 LLM 之間仍然存在明顯的差距——GPT-4、PaLM-2 和 Claude 2 等閉源模型主宰了 GSM8K 和 MATH 等常用數學推理基準,而 Llama、Falcon 和 OPT 等開源模型在所有基準上都大幅落后。

為了解決這一問題,研究界正在兩個方向進行努力:

(1)Galactica 和 MINERVA 等持續型預訓練方法,其能在超過千億 token 的數學相關網絡數據上對 LLM 進行持續訓練。這一方法能提升模型的一般科學推理能力,但代價是高計算成本。

(2)拒絕采樣微調(RFT)和 WizardMath 等針對特定數據集進行微調的方法,即使用特定數據集的監督數據對 LLM 進行微調。盡管這些方法能提升在具體領域內的性能,但無法泛化到微調數據之外的更廣范圍的數學推理任務。舉個例子,RFT 和 WizardMath 可將在 GSM8K(這是微調數據集之一)上的準確度提升 30% 以上,但卻有損在 MMLU-Math 和 AQuA 等領域外數據集上的準確度——使之降低多達 10%。

近日,來自滑鐵盧大學和俄亥俄州立大學等機構的研究團隊提出了一種輕量級卻又可泛化的數學指令微調方法,可用于增強 LLM 的一般性(即不限于微調任務)數學推理能力。

之前已有的方法關注的重點是思維鏈(CoT)方法,即通過一步步的自然語言描述來解決數學問題。這種方法的通用性很強,可覆蓋大多數數學科目,但卻在計算精度和復雜的數學或算法推理過程(例如求解二次方程根和計算矩陣特征值)方面存在困難。

相比之下,像思維程序(PoT)和 PAL 這樣的代碼格式 prompt 設計方法則是利用外部工具(即 Python 解釋器)來大幅簡化數學求解過程。這種方法是將計算過程卸載到外部 Python 解釋器來求解復雜的數學和算法推理(例如使用 sympy 求解二次方程或使用 numpy 計算矩陣特征值)。但是,PoT 難以應對更抽象的推理場景,比如常識推理、形式邏輯和抽象代數,尤其是沒有內置的 API 時。

為了取 CoT 和 PoT 兩種方法之長,該團隊引入了一個新的數學混合指令微調數據集 MathInstruct,其有兩大主要特性:(1) 廣泛涵蓋不同的數學領域和復雜程度,(2) 將 CoT 和 PoT 原理組合到了一起。

MathInstruct 基于七個現有的數學原理數據集和六個新整理出的數據集。他們使用 MathInstruct 微調了不同大小(從 7B 到 70B)的 Llama 模型。他們將所得到的模型稱為 MAmmoTH 模型,結果發現 MAmmoTH 的能力是前所未有的,就像是一個數學通才。

圖片

為了評估 MAmmoTH,該團隊使用了一系列評估數據集,包括領域內的測試集(GSM8K、MATH、AQuA-RAT、NumGLUE)和領域外的測試集(SVAMP、SAT、MMLU-Math、Mathematics、SimulEq)。

結果發現,相比于之前的方法,MAmmoTH 模型能更好地泛化用于領域外數據集,并能大幅提升開源 LLM 的數學推理能力。

值得注意的是,在常用的競賽級 MATH 數據集上,7B 版本的 MAmmoTH 模型能以 3.5 倍的優勢(35.2% vs 10.7%)擊敗 WizardMath(這是 MATH 上之前最佳的開源模型),而 34B MAmmoTH-Coder(在 Code Llama 上進行過微調)甚至可以勝過使用 CoT 的 GPT-4。

這項研究的貢獻可以總結成兩個方面:(1) 從數據工程方面看,他們提出了一個高質量的數學指令微調數據集,其中包含多種不同的數學問題和混合原理。(2) 從建模方面講,他們訓練和評估了大小從 7B 到 70B 的 50 多個不同的新模型和基準模型,以此探究了不同數據源和輸入-輸出格式的影響。

結果發現,MAmmoTH 和 MAmmoTH-Coder 等新模型在準確度方面都顯著優于之前的開源模型。

圖片

  • 論文:https://arxiv.org/pdf/2309.05653.pdf
  • 代碼:https://github.com/TIGER-AI-Lab/MAmmoTH
  • 數據集與模型:https://huggingface.co/datasets/TIGER-Lab/MathInstruct

該團隊已經發布了他們整理得到的數據集,并開源了新方法的代碼,也在 Hugging Face 發布了訓練好的不同大小的模型。

新提出的方法

整理一個多樣化的混合指令微調數據集

該團隊的目標是編制一份列表,其中包含高質量且多樣化的數學指令微調數據集,其應具有兩個主要特征:(1) 廣泛涵蓋不同的數學領域和復雜程度,(2) 將 CoT 和 PoT 原理組合到一起。

對于第一個特征,他們首先選出了一些使用廣泛并且涉及不同數學領域和復雜程度的高質量數據集,比如 GSM8K、MATH、AQuA、Camel 和 TheoremQA。然后他們注意到現有數據集沒有大學水平的數學知識,比如抽象代數和形式邏輯。針對這個問題,他們借助于網上找到的少量種子示例,使用 GPT-4 為 TheoremQA 中的問題合成 CoT 原理并通過 Self-Instruct 創建「問題-CoT」配對。

對于第二個特征,將 CoT 和 PoT 原理組合到一起可以提升數據集的多功能性,使其訓練的模型有能力解決不同類型的數學問題。但是,大多數現有數據集提供的程序原理有限,導致 CoT 和 PoT 原理之間不平衡。為此,該團隊又用到了 GPT-4,來為所選數據集補充 PoT 原理,包括 MATH、AQuA、 GSM8K 和 TheoremQA。然后再對這些 GPT-4 合成的程序進行過濾,做法是將它們的執行結果與人類標注的基本真值進行比較,這能確保所添加的都是高質量的原理。

遵循這些準則,他們創建了一個新的數據集 MathInstruct,詳見下表 1。

其中包含 26 萬對 (指令,響應),覆蓋廣泛的核心數學領域(算術、代數、概率學、微積分和幾何等),包含混合的 CoT 和 PoT 原理,并有不同的語言和難度。

訓練設置

MathInstruct 的所有子集都統一成了類似 Alpaca 的指令數據集的結構。這種標準化操作可確保微調得到的模型能夠一致地處理數據,無論原始數據集格式如何。

在基礎模型方面,該團隊的選擇是 Llama-2 和 Code Llama。

通過在 MathInstruct 上進行微調,他們得到了 7B、13B、34B 和 70B 等大小不同的模型。

實驗

評估數據集

為了評估模型的數學推理能力,該團隊選擇了一些評估數據集,見下表 2,其中包含許多不同領域內和領域外樣本,涉及多個不同數學領域。

圖片

這個評估數據集也包含不同的難度等級,包括小學、中學和大學水平。某些數據集甚至包括形式邏輯和常識推理。

所選擇的評估數據集既有開放式問題,也有多項選擇題。

對于開放式問題(如 GSM8K 和 MATH),研究者采用了 PoT 解碼,因為大多數這類問題可以通過程序求解。、

對于多項選擇題(如 AQuA 和 MMLU),研究者采用了 CoT 解碼,因為這個數據集中的大部分問題都可以通過 CoT 更好地處理。

CoT 解碼不需要任何觸發詞,而 PoT 解碼需要一個觸發語:「Let’s write a program to solve the problem」。

主要結果

下表 3 和表 4 分別報告了在領域內外數據上的結果。

總體而言,在不同的模型大小上,MAmmoTH 和 MAmmoTH-Coder 都優于之前最佳的模型。新模型在領域外數據集上取得的性能增長多于在領域內數據集上所獲增長。這些結果表明新模型確實有成為數學通才的潛力。MAmmoTH-Coder-34B 和 MAmmoTH-70B 在一些數據集上的表現甚至超過了閉源 LLM。

研究者也比較了使用不同基礎模型的情況。具體來說,他們實驗了 Llama-2 和 Code-Llama 這兩種基礎模型。從上面兩張表可以看出,Code-Llama 整體上要優于 Llama-2,尤其是在領域外數據集上。MAmmoTH 和 MAmmoTH-Coder 之間的差距甚至可達 5%。

在數據源上的消融研究

他們通過消融研究探索了性能增益的來源。為了更好地理解 MAmmoTH 相對于已有基準模型的優勢的來源,研究者進行了一系列對照實驗,結果如下圖 2 所示。

總結起來,MAmmoTH 的顯著性能優勢可以歸功于:1) 涵蓋不同的數學領域和復雜程度的多樣化數據源,2) CoT 和 PoT 指令微調的混合策略。

他們也研究了主要子集的影響。對于用于訓練 MAmmoTH 的 MathInstruct 的多樣化來源,理解各個來源對模型整體性能的貢獻程度也很重要。他們關注的重點是四個主要子集:GSM8K、MATH、 Camel 和 AQuA。他們進行了一項實驗:逐漸將每個數據集添加到訓練中,并將性能與在整個 MathInstruct 上微調的模型進行比較。

圖片

從表 5 的結果可以看到,如果一開始訓練的數據集不夠多樣化(比如只有 GSM8K 時),整體的泛化能力非常差:模型只擬合了分布內的數據,難以解答 GSM 問題之外的問題。

這些結果凸顯了多樣化數據源對 MAmmoTH 的重要影響,它們是讓 MAmmoTH 成為數學通才的核心關鍵。這些結果也貢獻了寶貴的見解,能為我們未來的數據整理收集工作提供指導比如我們應該總是收集多樣化的數據,避免只收集特定類型的數據。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-07-12 08:19:16

XJSON四則運算場景

2022-07-04 08:16:43

JSONJSON庫對象

2009-10-20 13:58:00

CCIE學習筆記

2011-08-18 14:05:12

NoSQL

2025-05-27 01:27:00

LLM大模型數學推理

2021-07-27 05:04:12

python初等函數

2022-10-27 10:06:16

Presto SQLAntlr大數據

2025-06-24 08:52:54

2017-09-13 10:58:51

JavaScript轉換規則

2021-02-06 23:00:39

機器學習工程人工智能

2016-12-12 13:41:37

iOS簡易加法開發

2011-12-08 09:52:37

2024-11-25 14:10:00

2017-10-16 10:42:27

前端JavaScript浮點數

2012-02-01 10:37:36

中小企業惠普惠商四則運算

2017-09-05 16:17:35

JavaScript運算轉換

2012-03-13 15:50:12

2012-03-09 15:07:35

2021-03-29 14:53:01

大數據人工智能司法
點贊
收藏

51CTO技術棧公眾號

中文字幕在线视频第一页| 成人做爰69片免网站| 中文一区一区三区高中清不卡免费| av午夜一区麻豆| 日韩暖暖在线视频| 欧美做爰爽爽爽爽爽爽| 女仆av观看一区| 欧美日韩亚洲另类| 青青青青在线视频| 成人av电影观看| 国产成人av资源| 国产精品欧美一区二区三区奶水 | 国产亚洲一区字幕| 96国产粉嫩美女| 无码人妻熟妇av又粗又大| 亚洲九九在线| 在线观看91久久久久久| 日本在线不卡一区二区| 精品久久在线| 欧美午夜久久久| 免费极品av一视觉盛宴| 91短视频版在线观看www免费| 成人18精品视频| 亚洲精品欧美日韩| 国产三级理论片| 国产精品亚洲产品| 欧美激情精品在线| 国产天堂av在线| 欧洲激情视频| 亚洲另类图片色| 国产午夜在线一区二区三区| av日韩久久| 欧美亚洲国产一卡| 一本大道熟女人妻中文字幕在线| av片在线观看| 最新日韩在线视频| 午夜欧美性电影| 国产在线视频网址| 91免费国产在线| 黄色国产精品一区二区三区| www精品国产| 国产揄拍国内精品对白| 成人免费观看网址| 一本大道伊人av久久综合| 日韩影院在线观看| 国产脚交av在线一区二区| 国产毛片aaa| 国产一级久久| 9.1国产丝袜在线观看| 日本中文字幕免费| 亚洲精品三级| 91超碰中文字幕久久精品| 日本在线观看视频网站| 一区二区国产在线观看| 97色伦亚洲国产| 国产区在线观看视频| 99精品久久| 18一19gay欧美视频网站| 久久久久99精品成人片三人毛片| 99热免费精品| 青青草一区二区| 国产日韩久久久| 久久国产精品色| 91在线视频免费| www男人的天堂| 99久久精品免费看国产| 久久精品国产一区二区三区日韩| 欧美色图另类| 中文字幕中文字幕中文字幕亚洲无线| 最新精品视频| 婷婷av在线| 亚洲成人黄色影院| 久久久久狠狠高潮亚洲精品| 亚洲www免费| 欧美日韩久久久一区| 国产精品嫩草影视| 国产精品xxxav免费视频| 日韩精品丝袜在线| avhd101老司机| 91精品秘密在线观看| 欧美激情一区二区三区成人| 免费在线不卡视频| 久久精品国产99国产| 成人欧美一区二区三区黑人免费| 人人妻人人澡人人爽人人欧美一区| 97久久人人超碰| 伊人av成人| www.综合| 欧美另类一区二区三区| 久久久久久久久久久久国产精品| 天天躁日日躁成人字幕aⅴ| 中文字幕日韩在线视频| 欧美黄色免费看| 久久一区亚洲| 成人做爰66片免费看网站| 久久久久久女乱国产| 日韩美女啊v在线免费观看| 国产真人做爰毛片视频直播| 另类中文字幕国产精品| 日韩欧美激情在线| 69视频在线观看免费| 国产精品黄色| 国产精品视频播放| 少妇高潮一区二区三区69| 亚洲欧洲日韩一区二区三区| 男女超爽视频免费播放| 2020国产精品小视频| 日韩国产精品亚洲а∨天堂免| 激情高潮到大叫狂喷水| 亚洲欧洲日本一区二区三区| 国产精品一区二区久久精品| 手机看片1024日韩| 亚洲视频一区在线观看| 欧美 日韩 国产 激情| 91麻豆精品国产91久久久久推荐资源| 在线a欧美视频| 日韩免费观看一区二区| 国产综合色在线视频区| 日韩欧美在线一区二区| 高清精品在线| 欧美xxxx在线观看| 国产一区二区播放| 美女视频第一区二区三区免费观看网站| 国产嫩草一区二区三区在线观看| 色欧美激情视频在线| 在线一区二区视频| 特级西西人体wwwww| 亚洲无线视频| 亚洲自拍小视频免费观看| 在线免费看黄| 欧美色涩在线第一页| 成人网站免费观看| 亚洲视频一区| 国产精品 日韩| a视频在线播放| 欧美日韩国产免费一区二区| 男人的天堂官网| 久久精品麻豆| 欧美日韩电影一区二区三区| 欧美一级鲁丝片| 亚洲国内精品在线| 国产精品成人免费一区二区视频| 国产福利一区在线| 国产精品igao激情视频 | 精品视频色一区| 中文字幕网站在线观看| 丝袜a∨在线一区二区三区不卡| 麻豆av一区二区| 345成人影院| 亚洲午夜av久久乱码| 免费观看日批视频| 国产日韩欧美精品在线| 国产精品视频分类| 日本一区二区免费高清| 91精品美女在线| 91蜜桃在线视频| 精品国产免费一区二区三区四区 | 欧美性猛交xxxx久久久| 波多野结衣a v在线| 三级久久三级久久久| 深田咏美在线x99av| av成人在线播放| yellow中文字幕久久| 国产三级小视频| 伊人色综合久久天天人手人婷| 亚洲av毛片在线观看| 欧美日韩国产高清| 精品一区国产| 精品亚洲美女网站| www.国产精品一二区| 国产偷拍一区二区| 午夜久久久久久| 国产精品天天干| 国产一区二区毛片| 国产精品自拍片| 成人在线丰满少妇av| 亚洲综合中文字幕在线| 岛国av免费在线观看| 尤物99国产成人精品视频| 国内精品久久久久久久久久久| 亚洲高清一区二区三区| 大黑人交xxx极品hd| 麻豆91在线播放免费| 国产乱子伦精品无码专区| 西野翔中文久久精品字幕| 国产视频观看一区| www在线看| 永久免费毛片在线播放不卡| 亚洲国产精品欧美久久| 色综合视频在线观看| 91九色丨porny丨极品女神| 99久久综合色| 最新免费av网址| 久久精品人人做人人爽电影蜜月| 亚洲自拍的二区三区| 精品少妇一区| 成人激情在线播放| 爱情电影社保片一区| 久久伊人精品天天| 久久久久久久久亚洲精品| 欧美一区二区三区在| 亚洲乱码国产乱码精品| 一区二区三区精密机械公司| 欧美三级视频网站| 99视频超级精品| 丰满饥渴老女人hd| 蜜桃免费网站一区二区三区| 九一国产精品视频| 91成人免费| 日韩欧美一区二区三区四区| 牛牛影视一区二区三区免费看| 成人精品在线视频| 视频在线日韩| 青青久久av北条麻妃海外网| 青春草视频在线观看| 俺也去精品视频在线观看| 国产日产精品久久久久久婷婷| 亚洲精品一区二区三区蜜桃下载| 国产美女明星三级做爰| 欧美日韩精品三区| 日韩欧美国产另类| 黑人狂躁日本妞一区二区三区 | 亚洲最大福利视频网| 99re66热这里只有精品4| 91高清视频免费观看| gogo久久| 久久久中文字幕| 色婷婷在线播放| 欧美精品日韩www.p站| 成年人在线视频| 亚洲女人天堂网| 深爱五月激情五月| 精品国产凹凸成av人网站| 999免费视频| 欧美精品v国产精品v日韩精品| 免费精品一区二区| 日本二三区不卡| 午夜精品免费观看| 一本到不卡免费一区二区| 国产www在线| 色狠狠av一区二区三区| 超碰中文字幕在线| 欧美午夜影院在线视频| 日韩人妻精品中文字幕| 色欧美片视频在线观看| 亚洲精品成人在线视频| 色综合久久天天| 亚洲GV成人无码久久精品 | 久久久国产视频91| 免费大片在线观看www| 日韩在线免费高清视频| 欧洲不卡视频| 久久国产精品久久久| 高清全集视频免费在线| 欧美日韩国产91| 国产精品探花在线| 91高清视频在线免费观看| 亚洲精品88| 国产精品极品美女在线观看免费| 日韩一区精品| 亚洲一区二区三区毛片| 亚洲精品不卡在线观看| 精品在线视频一区二区| 欧美人妖在线| 特级毛片在线免费观看| 欧美日韩亚洲一区三区| 日日摸日日碰夜夜爽无码| 午夜影院日韩| 极品粉嫩美女露脸啪啪| 国产成人av电影在线| 在线免费观看污视频| 国产亚洲1区2区3区| 二区三区四区视频| 亚洲国产欧美一区二区三区丁香婷| 国产精品午夜影院| 欧美写真视频网站| 性欧美8khd高清极品| 日韩精品在线视频观看| 午夜免费福利在线观看| 久久久久久久999| 国产精品亚洲一区二区三区在线观看| 国产精品一区二区久久久久| 99国产精品久久一区二区三区| 久久本道综合色狠狠五月| 成人国产精品一级毛片视频| 久久久久久久久影视| 校园激情久久| 精品亚洲视频在线| 久久综合狠狠综合| 中文字幕五月天| 欧美性xxxx在线播放| 一级片免费观看视频| 亚洲大胆美女视频| 五月香视频在线观看| 国内精品久久久久伊人av| 国产精品毛片久久久久久久久久99999999| 成人在线免费观看视视频| 欧美一区 二区| 超碰成人在线免费观看| 久久精品动漫| 中国xxxx性xxxx产国| 中文字幕制服丝袜成人av | 99精品中文字幕| 精品国产成人av| 99草在线视频| 在线观看日韩欧美| 国产精品yjizz视频网| 91九色单男在线观看| 久久综合欧美| 少妇av一区二区三区无码| 国产一区二区影院| 免费黄色片网站| 欧美日韩综合视频| 亚洲精品综合网| 欧美成人午夜剧场免费观看| 欧洲av一区二区| 久草精品电影| 在线 亚洲欧美在线综合一区| 制服丝袜中文字幕第一页 | 亚洲视频一区二区三区| 波多野结依一区| 91传媒视频在线观看| 99久久亚洲精品蜜臀| 中文字幕一区二区三区四区在线视频| 99久久精品国产观看| 日本在线视频中文字幕| 精品成人佐山爱一区二区| caoporn免费在线视频| 成人性生交xxxxx网站| 欧美h版在线| 一级黄色特级片| 中文文精品字幕一区二区| 久久久黄色大片| 亚洲一二三在线| 国产成人免费9x9x人网站视频 | 国产区在线视频| 日本精品在线视频 | 黄色污污在线观看| 久久国产精品色婷婷| 久久久久久久久久97| 在线91免费看| dy888亚洲精品一区二区三区| 亚洲一区二区三区乱码aⅴ蜜桃女| 91精品国产91久久久久久密臀 | 国产精品久久久久久久久久久免费看| 国产乱码77777777| 中文字幕亚洲欧美| 日韩成人在线一区| 在线不卡视频一区二区| 国产专区欧美精品| 性欧美videos| 亚洲成人a级网| 亚洲最新无码中文字幕久久| 麻豆亚洲一区| 日本成人中文字幕| 亚洲一区电影在线观看| 欧美一区二区在线看| 日韩特级毛片| 国产精品一区视频网站| 销魂美女一区二区三区视频在线| www.黄色在线| 91精选在线观看| 第一中文字幕在线| 你懂的网址一区二区三区| 美女国产一区二区| 欧美三级 欧美一级| 亚洲第一区中文字幕| 老司机2019福利精品视频导航| 亚洲三区视频| 福利一区二区在线| 三级视频在线观看| 久久精品91久久久久久再现| 精品午夜av| 国产极品粉嫩福利姬萌白酱| 国产蜜臀av在线一区二区三区| 91精品国产乱码久久久久| 欧美激情高清视频| 精品香蕉视频| wwwww在线观看| 色婷婷av一区二区三区软件| 久久亚洲天堂| 久久人人九九| 国内国产精品久久| 久久久久亚洲av成人毛片韩| 久久精品国产99国产精品澳门| 国产96在线亚洲| 色婷婷成人在线| 亚洲va中文字幕| 在线播放毛片| 久久精品人人做人人爽电影| 韩国成人在线视频| wwwxxx亚洲| 欧美另类交人妖| 国产精品一在线观看| 人妻精油按摩bd高清中文字幕| 色婷婷亚洲综合| 1024在线看片你懂得| 永久久久久久| 国产免费久久精品| 亚州男人的天堂|