精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

34B參數(shù)量超越GPT-4!「數(shù)學通用大模型」MAmmoTH開源:平均準確率最高提升29%

人工智能 新聞
數(shù)學通才「猛犸」模型給開源語言模型帶來了「推理春天」,面對GPT-4都有一戰(zhàn)之力!

數(shù)學推理問題是語言模型繞不過的痛點,在各種黑科技的加持下,開源模型的推理性能依然不夠看。

最近,滑鐵盧大學、俄亥俄州立大學、香港科技大學、愛丁堡大學的研究人員聯(lián)合開源了一個專為「通用數(shù)學問題」定制的大模型MAmmoTH和一個指令調(diào)優(yōu)數(shù)據(jù)集MathInstruct.

論文鏈接:https://arxiv.org/pdf/2309.05653.pdf

項目鏈接:https://tiger-ai-lab.github.io/MAmmoTH/

MathInstruct由13個具有中間原理的數(shù)學數(shù)據(jù)集編譯而成,其中6個為新數(shù)據(jù)集,混合了思想鏈(CoT)和思想程序(PoT),并確保覆蓋了廣泛的數(shù)學領域。

CoT和PoT的混合不僅可以釋放工具使用的潛力,而且還允許模型針對不同的數(shù)學問題進行不同的思維過程。

因此,MAmmoTH系列在所有尺度上的9個數(shù)學推理數(shù)據(jù)集上的表現(xiàn)大大優(yōu)于現(xiàn)有的開源模型,平均準確率提高了12%至29%。

其中MAmmoTH-7B模型在MATH(競賽級數(shù)據(jù)集)上的準確率達到了35%,超過了最好的開源7B模型(WizardMath)25%,MAmmoTH-34B模型在MATH上的準確率達到了46%,甚至超過了GPT-4的CoT結(jié)果。

數(shù)學推理領域新王:MAmmoTH

在數(shù)學推理任務上,開源和閉源的大型語言模型(LLM)之間存在巨大的性能差距,目前基準數(shù)據(jù)集上的sota仍然是GPT-4,PaLM-2和Claude等閉源模型,其他開源模型如Llama,F(xiàn)alcon和OPT等仍然遠遠落后。

為了彌補性能差距,主要的研究方法有兩類:

1. 如Galactica,MINERVA等模型,繼續(xù)使用數(shù)學相關(guān)的網(wǎng)絡數(shù)據(jù)對語言模型進行訓練,可以提高模型的通用科學推理能力,但計算成本會更高;

2. 如拒絕采樣微調(diào)(RFT)和WizardMath等,使用特定領域數(shù)據(jù)集對模型進行微調(diào),雖然可以提高領域內(nèi)性能,但無法適用于更廣泛的數(shù)學推理任務。

在解決數(shù)學問題時,現(xiàn)有方法通常會采用思維鏈(CoT)方法引導語言模型循序漸進地用自然語言描述來解決數(shù)學問題。

雖然在大多數(shù)數(shù)學主題下表現(xiàn)出很好的通用性,但在需要精確或復雜的數(shù)學計算、算法推理的問題下(如求解二次方程根,計算矩陣特征值)表現(xiàn)不佳。

相比之下,思維程序(PoT, Program-of-Thought)方法和PAL利用外部工具(即Python解釋器)大大簡化了數(shù)學求解過程,將計算過程卸載到外部Python解釋器,以解決復雜的數(shù)學和算法推理過程(例如,用sympy求解二次方程或用numpy計算矩陣特征值)。

然而,PoT在處理更抽象的推理場景方面有所欠缺,尤其是在沒有內(nèi)置API的情況下,常識推理、形式邏輯和抽象代數(shù)的推理能力會更差。

方法概述

研究人員的目標是編制一個高質(zhì)量、多樣化的數(shù)學指令調(diào)整(instruction-tuning)數(shù)據(jù)集列表。

1. 覆蓋不同數(shù)學領域和復雜度

更全面的數(shù)據(jù)集可以讓模型接觸到多樣化的數(shù)學知識,提升模型的多功能性。

研究人員將選擇范圍縮小到幾個被廣泛采用的高質(zhì)量數(shù)據(jù)集,包括GSM8K、math、AQuA、Camel和TheoremQA.

還可以注意到,現(xiàn)有的數(shù)據(jù)集缺乏對大學水平的數(shù)學知識的覆蓋,如抽象代數(shù)和形式邏輯,所以研究人員選擇使用GPT-4來合成TheoremQA問題中的思維鏈(CoT)原理,利用網(wǎng)絡上找到的數(shù)個種子樣例,通過自我指導(self-instruct)創(chuàng)建問題和CoT的數(shù)據(jù)對。

圖片

2. 混合CoT和PoT

現(xiàn)有的研究方法大多只關(guān)注CoT,并且數(shù)據(jù)集中也只包含有限的解題思路,導致CoT和PoT的數(shù)據(jù)量十分不均衡。

為了解決該問題,研究人員利用GPT-4來補充選定數(shù)據(jù)集的PoT解題思路,通過對比合成程序的執(zhí)行結(jié)果以及人工標注的答案進行過濾,確保生成數(shù)據(jù)的高質(zhì)量。

遵循上述方法,最后得到了26萬條指令、回復數(shù)據(jù)對,涵蓋了廣泛的核心數(shù)學領域,如算術(shù)、代數(shù)、概率、微積分和幾何等,混合了CoT和PoT基本原理,并提供多種語言、多個難度級別的數(shù)據(jù),足以證明數(shù)據(jù)集的高品質(zhì)和獨特性。

訓練步驟

研究人員統(tǒng)一了MathInstruct中的所有子集,將指令數(shù)據(jù)集的結(jié)構(gòu)標準化為Alpaca模型的格式,使得模型無需考慮原始數(shù)據(jù)集的格式,在微調(diào)階段統(tǒng)一處理數(shù)據(jù)即可。

研究人員選擇開源模型Llama-2和Code Llama作為基礎模型,在7B、13B、34B和70B尺寸的模型上進行微調(diào)。

實驗部分

評估數(shù)據(jù)集

研究人員選擇了不同數(shù)學領域下的樣本,對模型的通用數(shù)學推理能力進行評估:

領域內(nèi)數(shù)據(jù)集包括GSM8K,MATH,AQuA-RAT,NumGLUE;領域外數(shù)據(jù)集包括SVAMP,Mathematics,SimulEq,SAT-Math和SimulEq,涵蓋了小學、高中和大學水平的數(shù)學問題,部分數(shù)據(jù)集甚至包括形式邏輯和常識推理。

問題類型為開放式問題和多選題,其中開放式問題(如GSM8K、數(shù)學)采用PoT解碼,因為大多數(shù)問題都可以由程序解決;多項選擇題(如AQuA、MMLU)采用CoT解碼。

CoT解碼不需要觸發(fā)詞,PoT需要觸發(fā)短語「讓我們寫個程序來解決這個問題」(Let’s write a program to solve the problem)。

實驗結(jié)果

總的來說,MAmmoTH和MAmmoTH-Coder在不同的模型尺寸上均優(yōu)于SoTA模型,并且在領域外(OOD)數(shù)據(jù)集上的增益要顯著優(yōu)于領域內(nèi)(IND)數(shù)據(jù)集,展現(xiàn)出了該模型作為數(shù)學通才模型的潛力,甚至在幾個數(shù)據(jù)集上,MAmmoTH-Coder-34B和MAmmoTH-70B甚至超過了閉源模型。

圖片

在領域內(nèi)數(shù)據(jù)的評估,MAmmoTH模型的主要競爭對手是WizardMath和Platypus,其中WizardMath的訓練深度依賴于GSM8K和MATH數(shù)據(jù)集,Platypus在更廣泛的文本和數(shù)學推理數(shù)據(jù)集上對LLM進行微調(diào)。

相比之下,MAmmoTH實現(xiàn)了全面的改進,并且更擅長解決復雜數(shù)學問題,相比WizardMath(MATH數(shù)據(jù)的sota)的增益最高超過了25%

圖片

在領域外數(shù)據(jù)評估中,主要競爭模型依然是Platypus,不過MAmmoTH可以實現(xiàn)比領域內(nèi)數(shù)據(jù)更高的性能提升,展現(xiàn)出對未知數(shù)學問題的通用能力。

值得注意的是,MAmmoTH-7B還將WizardMath-7B在MMLU-Math上的CoT性能大幅提高了9%,其中包含大量沒有在訓練數(shù)據(jù)集中涵蓋的主題。

不同基礎模型之間的對比

可以發(fā)現(xiàn),Code-Llama作為基礎模型時的效果始終優(yōu)于Llama-2,尤其是在領域外數(shù)據(jù)集上,二者之間的性能差異甚至達到了5%,其中MAmmoTH-Coder(34B)在領域外數(shù)據(jù)集上的平均性能實際上高于MAmmoTH(70B)

研究人員認為,MAmmoTH-Coder從Code-Llama的持續(xù)代碼訓練中受益匪淺,不僅增強了PoT能力,還提高了Llama的通用推理技能。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-10-14 17:24:49

2023-10-14 13:09:53

谷歌模型

2023-11-20 21:56:04

AI推理

2023-09-19 09:20:16

2023-12-11 12:46:42

GPT-4LLaMA2模型

2024-01-30 21:18:57

模型智能CMMLU

2023-09-11 15:57:16

人工智能模型GPT-4

2023-08-27 14:08:17

開源代碼Meta大模型

2025-05-30 07:40:56

2024-01-03 13:37:00

模型數(shù)據(jù)

2024-02-07 12:39:00

AI數(shù)據(jù)

2024-01-19 12:51:00

AI數(shù)據(jù)

2025-05-26 08:33:00

2023-10-08 13:11:00

訓練數(shù)據(jù)

2023-09-01 14:06:00

模型AI

2023-11-17 23:05:18

數(shù)據(jù)模型

2025-01-21 08:00:00

2023-08-24 13:59:57

模型數(shù)據(jù)

2023-11-13 19:35:12

訓練數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號

台湾佬综合网| 欧美hdxxxxx| 青青草成人在线观看| 一本大道久久加勒比香蕉| www.国产福利| 三妻四妾的电影电视剧在线观看| 国产欧美日韩精品在线| 91传媒视频在线观看| 国内自拍视频在线播放| 亚欧美无遮挡hd高清在线视频| 欧美精品一区二区三区蜜桃视频| 精品久久久久久久无码 | 久久国内精品| 亚洲第一福利一区| 亚洲亚洲精品三区日韩精品在线视频| www.桃色av嫩草.com| 国产污视频在线播放| 欧美xxxbbb| www.欧美.com| 成人免费看片视频| 国产亚洲欧美在线精品| 欧美日韩综合| 久久精品一区中文字幕| 亚欧洲乱码视频| 91精品日本| 欧美精品高清视频| 成人一级片网站| 牛牛在线精品视频| 亚洲欧美中日韩| 欧美一区二区综合| 无码国产精品高潮久久99| 韩国av一区二区三区| 日本精品免费一区二区三区| 久久精品免费在线| 综合激情在线| 久久精品91久久香蕉加勒比| 懂色av蜜桃av| 羞羞色国产精品网站| 欧美www视频| 四虎国产精品永久免费观看视频| 免费日韩电影| 欧美性猛交xxxx乱大交极品| 国产一区二区三区乱码| fc2ppv国产精品久久| 中文字幕+乱码+中文字幕一区| 蜜桃久久精品乱码一区二区| 日韩一区二区三区不卡| 国产成人日日夜夜| 91gao视频| 国产成人精品一区二区无码呦| 蜜桃视频在线观看一区| 国产精品女主播| 亚洲男人天堂网址| 天使萌一区二区三区免费观看| 欧美理论片在线观看| www.99re7| 你懂的网址国产 欧美| 久久中文字幕在线视频| 免费在线观看h片| 欧美福利网址| 九九久久综合网站| 精品国产网站在线观看| 欧美在线观看www| 乱人伦视频在线| 欧美日韩国产专区| 国产美女三级视频| 欧美va在线观看| 欧美日韩国产综合一区二区| 污视频网址在线观看| 玖玖精品一区| 亚洲国产精久久久久久| 黄色片视频免费观看| 天天久久夜夜| 在线观看日韩欧美| 26uuu成人网| 亚洲精品美女91| 国产成人精品在线观看| 日本一区二区三区久久| 国产真实乱子伦精品视频| 99电影在线观看| 三级理论午夜在线观看| 亚洲国产精品成人综合色在线婷婷 | 强开小嫩苞一区二区三区网站 | 亚洲一区影音先锋| 日日碰狠狠添天天爽超碰97| 台湾成人免费视频| 91精品国产日韩91久久久久久| 亚洲女则毛耸耸bbw| 亚洲精品无吗| 久久久精品国产网站| 久久这里只有精品国产| 久久久一二三| 99一区二区| 国产最新视频在线观看| 日韩美女久久久| 久久国产精品视频在线观看| av在线播放一区| 精品久久国产老人久久综合| 久久精品—区二区三区舞蹈| 亚洲精品99| 国产成人精品电影| 亚洲国产视频一区二区三区| 久久久久久久综合日本| 精品亚洲一区二区三区在线播放| 久久综合入口| 久做在线视频免费观看| 精品国产老师黑色丝袜高跟鞋| 激情视频免费网站| 一区二区中文字幕在线观看| 一个人www欧美| 国产成人无码精品久久久久| 久久91精品久久久久久秒播| 久久涩涩网站| 欧美aaaxxxx做受视频| 欧美亚洲高清一区二区三区不卡| 折磨小男生性器羞耻的故事| 91免费精品| 国产aaa精品| 蜜臀av在线观看| 成人欧美一区二区三区在线播放| 欧美污视频网站| 草草视频在线一区二区| 色婷婷av一区二区三区久久| 天天综合网久久综合网| 高清国产一区二区| 亚洲在线色站| 国产精品久久久久久妇女| 亚洲精品99999| 久艹视频在线观看| 黄网站免费久久| 亚洲区一区二区三区| 午夜影院在线播放| 亚洲国产精品推荐| 玖玖爱免费视频| 国产精品一区二区三区四区| 99re99热| 日韩欧美三区| 日韩中文字幕网站| 九九热最新视频| 国产日韩欧美精品一区| 北条麻妃在线观看| 日韩aaa久久蜜桃av| 国内自拍欧美激情| 手机看片1024国产| 亚洲va天堂va国产va久| 一区二区三区四区影院| 国产一区二区三区四区三区四| 91亚洲va在线va天堂va国| 黄色一级片在线观看| 欧美美女网站色| 天天操天天操天天操天天操天天操| 久久精品国产精品青草| 国产福利片一区二区| 亚洲人成777| 久久av.com| wwwav网站| 亚洲成av人片在线观看无码| 日韩欧美在线影院| 国产艳妇疯狂做爰视频| 亚洲性图久久| 蜜桃麻豆91| yiren22亚洲综合| 最近2019年手机中文字幕| 中文字幕制服诱惑| 亚洲精品一二三四区| 野花视频免费在线观看| 亚洲黄色大片| 日韩久久久久久久| 亚洲日日夜夜| 久久久久久尹人网香蕉| 青青草观看免费视频在线| 91久久精品国产91性色tv | 国产精品乱码久久久| 亚洲婷婷国产精品电影人久久| 小明看看成人免费视频| 午夜精品网站| 久久人人九九| 日日夜夜亚洲精品| 欧美激情综合色| 国产原创av在线| 4438成人网| 一级片免费网址| 国产精品色婷婷| 亚洲欧洲日韩综合| 欧美亚洲三级| 看一级黄色录像| 香蕉视频一区| 亚洲free性xxxx护士hd| 精精国产xxxx视频在线野外| 在线精品国产成人综合| 国产高潮在线观看| 欧美性xxxx在线播放| 国产精品丝袜一区二区| 91性感美女视频| 亚洲黄色片免费| 久久精品卡一| 欧美黑人在线观看| 成人久久电影| 激情小说综合区| 国产欧美日韩电影| 国产成人精品一区二区在线| 羞羞视频在线免费国产| 一区二区欧美日韩视频| 亚洲精品无遮挡| 欧美日韩卡一卡二| 天天操天天爽天天干| 亚洲男同性恋视频| 色欲狠狠躁天天躁无码中文字幕| 丁香五精品蜜臀久久久久99网站| 人人干人人干人人| 五月激情丁香婷婷| 久久se这里有精品| 日本中文字幕网址| 亚洲二区三区不卡| 日本一区二区高清视频| av不卡一区| 91成人理论电影| www久久久| 国产精品成人品| 伊人久久视频| 97在线精品国自产拍中文| 国产精品剧情一区二区在线观看| 亚洲女同精品视频| 五月婷婷激情在线| 精品日本一线二线三线不卡| 国产精品久久久久久无人区| 欧美在线观看视频一区二区三区| 日韩成人一区二区三区| 亚洲精品一二三| 91香蕉视频网| 亚洲国产高清在线观看视频| 中文字幕一区二区人妻在线不卡| 成人h动漫精品一区二| 国产精品中文久久久久久| 久久国产成人午夜av影院| 久久午夜夜伦鲁鲁一区二区| 久久精品人人做人人爽电影蜜月| 国产免费黄色小视频| 伊人久久大香线蕉av超碰演员| 50度灰在线观看| 欧美~级网站不卡| 成人在线免费观看网址| 亚洲女同另类| 色一情一乱一乱一区91| 欧美激情91| www.国产在线视频| 一区在线免费观看| 国产男女免费视频| 激情欧美国产欧美| 欧日韩免费视频| 亚洲一区区二区| 久章草在线视频| 日韩精品一二区| 中文字幕天天干| 另类欧美日韩国产在线| 天天影视色综合| 国产乱码精品一区二区三区av| 亚洲av无码久久精品色欲| 国产精品亚洲专一区二区三区| 久草福利在线观看| 成人国产精品免费网站| 国产中文字幕一区二区| 久久尤物电影视频在线观看| 久久久视频6r| 亚洲人成影院在线观看| 欧美国产在线看| 亚洲成人午夜电影| 国偷自拍第113页| 欧美伊人久久久久久久久影院| 中文字幕激情视频| 久久亚洲精品人成综合网| 欧美成人午夜视频| 九色91在线| 国产成人福利网站| 四虎精品在线观看| 高清视频一区| 精品久久综合| 蜜桃网站在线观看| 99精品国产99久久久久久福利| 久久精品午夜福利| 国内精品免费**视频| 大尺度做爰床戏呻吟舒畅| 国产亚洲福利社区一区| xxxx日本少妇| 色综合视频在线观看| 国产精品毛片一区视频播 | 欧美 日韩 国产 一区| 成人毛片一区二区| 日本成人在线电影网| 国偷自产av一区二区三区麻豆| 91看片淫黄大片一级在线观看| 波多野结衣喷潮| 欧美午夜精品久久久久久浪潮 | 国产综合色在线| 一级特级黄色片| 中文字幕在线不卡视频| 日韩精品一区二区三| 欧美日韩综合色| 天天干视频在线| 久久亚洲精品毛片| 欧洲一区精品| 99久久精品免费看国产一区二区三区| 国产日产精品_国产精品毛片| 日韩视频 中文字幕| 日韩激情中文字幕| 欧洲熟妇的性久久久久久| 国产精品三级在线观看| 欧美 日韩 精品| 欧美videofree性高清杂交| av在线播放网| 国产91精品久久久| 视频成人永久免费视频| 亚洲欧洲精品在线| 久久亚洲精选| 艳妇乳肉亭妇荡乳av| 一区二区高清免费观看影视大全| 最新中文字幕免费| 日韩精品视频在线播放| 性xxxxfjsxxxxx欧美| 国产欧美精品一区二区三区-老狼| 欧洲在线一区| 97中文字幕在线| 国产精品一卡二| 国产午夜精品理论片在线| 在线视频你懂得一区| 欧美一区二区视频| 午夜精品免费视频| 一本色道69色精品综合久久| 国产成年人在线观看| 免费的国产精品| 黄色片在线观看免费| 色噜噜久久综合| 在线观看免费视频黄| 激情婷婷欧美| 久久久久无码国产精品一区李宗瑞| 成人免费一区二区三区视频| 日本欧美www| 亚洲最新在线视频| 91精品韩国| 日韩免费电影一区二区三区| 日韩专区中文字幕一区二区| 国产高清一区二区三区四区| 色婷婷一区二区三区四区| 亚洲日本香蕉视频| 欧美在线播放视频| 神马久久一区二区三区| 欧美日韩在线成人| 中文字幕av一区二区三区| 中文字幕av片| www国产精品视频| 亚洲精品乱码日韩| 艳母动漫在线免费观看| 国产精品一二三四五| 精品一区二区三区四| 亚洲精品在线免费观看视频| 黄色污网站在线观看| 热re99久久精品国产99热| 天堂影院一区二区| 蜜桃av免费观看| 欧美一区日韩一区| 欧美videos另类精品| 精品高清视频| 日韩vs国产vs欧美| 国产在线综合视频| 91精品免费观看| 国产丝袜在线播放| 欧美精品与人动性物交免费看| 日本最新不卡在线| 91嫩草丨国产丨精品| 亚洲福利视频网| 肉色欧美久久久久久久免费看| 亚洲国产欧美日韩| 国产福利不卡视频| 国内精品福利视频| 中文字幕亚洲综合| 日本在线成人| 国产偷人视频免费| 亚洲人成网站在线| 天堂在线资源库| 国产精品最新在线观看| 国产精品a久久久久| 一级性生活大片| 91精品国产综合久久精品图片| 蜜臀av在线| 亚洲国产日韩美| 成人av资源网站| 中国老头性行为xxxx| 欧美国产日韩一区二区| 国产成人1区| 免费啪视频在线观看| 在线一区二区三区四区五区| 在线黄色网页| 欧美日韩成人一区二区三区| 国内精品久久久久影院一蜜桃| 日韩久久精品视频| 最近中文字幕mv在线一区二区三区四区 | 国产美女视频一区二区三区 | 视频精品在线观看| 潘金莲一级淫片aaaaa| 欧美色图片你懂的|