精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率

發布于 2024-4-29 13:16
瀏覽
0收藏

對于小型語言模型(SLM)來說,數學應用題求解是一項很復雜的任務。


比如之前有研究結果顯示,在GSM 8K基準測試中實現80%以上準確度所需的最小模型尺寸為340億個參數。


為了在較小的模型上達到這種性能水平,研究人員經常訓練SLM來生成Python代碼或使用外部工具作為輔助,以避免計算錯誤。


或是基于集成(ensembling)技術,將100多個模型生成的輸出組合在一起,以獲得更準確的結果,最終結果的選擇需要通過共識、多數表決或與SLM結合使用的單獨的驗證器模型來完成,可以顯著提升準確率(Phi-GSM使用top-48將性能從68.2提升到81.5),不過代價是由于多次調用模型導致的成本顯著增加。


最近,微軟的研究人員提出了一個基于Mistral-7B、70億參數量的小型語言模型Orca-Math,它在GSM 8 k上實現了86.81%,不需要調用多個模型進行集成或使用驗證器、代碼執行或任何其他外部工具。


「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區

論文鏈接:??https://arxiv.org/abs/2402.14830??


Orca-Math的關鍵特性為:


1. 使用多個智能體(agent)創建出20萬個數學問題的高質量合成數據集,其中智能體合作創建數據;


2. 迭代學習技術,使SLM能夠練習解決問題,接收對其解決方案的反饋,并從包含SLM解決方案和反饋的偏好數據中學習。


當單獨使用有監督微調訓練時,Orca-Math在GSM 8 k pass@1指標上達到81.50%。通過迭代偏好學習,Orca-Math實現了86.81%的pass@1


Orca-Math超越了LLAMA-2- 70B,WizardMath-70B,Gemini-Pro,ChatGPT-3.5等更大型號的性能,在使用小得多的數據(數十萬對數百萬問題)時也顯著優于其他較小的模型。

數據集構造

種子集合

首先從現有的開源數據集中收集數學單詞問題樣本,即NumGLUE、AddSub、ALGES、ASDiv、DRAW、GSM8k、MATHQA、MultiArith、SingeOP、SingleEQ和SVAMP。


研究人員從Lila的訓練和驗證分裂中收集問題,以構建種子集,總共收集了36217個問題。


智能體 - ask me anything


通過從種子集中的問題創建多個單詞問題來擴展種子集,利用后續提示來創建問題。


「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區


智能體總共生成了120445個新問題,但所有生成的問題都表現出與種子詞問題相似的敘述方式,具體解決方案是使用GPT4-Trubo生成的。


智能體 - Suggester & Editor


通過解決具有挑戰性的問題進一步擴大種子集合。


為了實現這一點,研究人員引入了兩個新的智能體,即Suggester和Editor,可以協同工作以創建一個面向預定義目標的數據集:修改現有問題以增加其難度。


Suggester研究一個特定的問題,并提出了幾種在不產生實際問題的情況下提高其復雜性的方法。


Editor采用原始單詞問題和Suggester的建議,生成一個更新的、更具挑戰性的問題,迭代過程可以發生在多個回合中,每一回合都會進一步增加先前生成的問題的復雜性。


眼人員利用AutoGen框架來實現多智能體工作流。


「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區


對每個問題進行兩輪迭代,并過濾GPT4-Turbo生成的答案超過1800個字符的問題,最終收集了37157個問題。

訓練

有監督微調實驗(第一次迭代)

在Orca-Math-200K數據集上對Mistral-7B進行了微調,沒有使用packing,下面為具體的指令格式。


「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區

損失函數只基于答案token來計算。


正負信號的迭代學習


數據集構建(第二次迭代)


為了為每個問題生成額外的正樣本和負樣本,研究人員從第一次迭代的SFT調優模型中采樣四個回復。


具體來說,使用top_p=0.95和溫度=0.7,過程產生了一個數據集,其中200000個問題中的每個問題都有一個GPT4-Turbo生成的解決方案和四個學生生成的解決方法。


使用基于GPT4的精確匹配中定義的提示來評估教師(GPT4-Turbo)的答案和學生的答案之間的一致性。


對于學生生成的答案與老師的答案不匹配的所有解決方案,將其標記為負樣本。


數據集構建(第三次迭代)


為了從正反饋和負反饋中學習,研究人員評估了兩種算法的性能:直接偏好優化(DPO)和Kahneman-Tversky優化(KTO),還探索了KTO的功能,其區別在于只需要二進制「是」或「否」的回復來評估輸出的質量。

評估方法

研究人員使用精確匹配作為評估指標。


給定一個模型生成的答案,提示GPT-4來提取最終的簡短答案,并將其與金標準中的簡短答案進行匹配,即基于GPT4的精確匹配(GPT4-based-Exact-Match)。


「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區


「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區

實驗結果


研究人員測試了模型在包含1319個單詞問題的GSM8k測試集上幾個訓練過程的性能,對Mistral-7B模型進行了三次迭代的微調


「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區


在第一次迭代中,使用有監督微調來獲得M1;


第二次迭代中,對比了SFT、DPO和KTO,其中KTO訓練的模型在這一組中表現更好,獲得M2后,并使用M2生成迭代#3的數據集;


第三次迭代中,對比了DPO和KTO方法,使用M2作為模型起點。


研究人員還將這些模型與Orca-Math-200K數據集上經過三個epoch的SFT訓練進行了對比。

消融實驗

Model Generated Positives


通過將

「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區

限制為僅包含教師生成的解決方案來研究影響模型生成的正向因素(positives),換言之,研究人員移除在為迭代#2創建數據集時模型生成的所有

「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區

「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區


結果顯示,不管訓練算法如何,都會看到顯著的性能下降。


Synthetic Negatives


數據集的創建包括在M1或M2生成的所有四個回復都是positive的情況下的合成負樣本(negative creation)。


「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區


通過忽略問題qi來研究這些合成負樣本的影響,結果將第二次迭代的問題數量減少了約80k,將第三次迭代的問題數量增加了約104k


除GSM8k外的數學基準

研究人員還使用Orca Math其他幾個單詞問題數據集上進行了實驗,并且為了便于評估,最終選擇了問題答案都是單個數字的數據集。


「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區


評估指標為基于GPT4的精確匹配度量,并使用貪婪解碼生成模型回復。


沾染檢查(Contamination Check)


為了確保實驗的公正性,研究人員在文中表示:在訓練過程中,從未使用GSM8K或任何其他數據集的測試分割集,也從未將其用作合成問題生成的種子。


盡管如此,研究人員還是采用以下方法來檢測任何潛在的文本沾染(text contamination)問題:


1. 對文本進行預處理,包括將所有字符轉換為小寫、刪除標點符號、對文本進行分詞,以及刪除常見的英語停止詞,以確保數據的一致性。


2. 使用逆文檔頻率(TF-IDF)方法對文本語料庫進行矢量化,并確定測試集和訓練集之間的余弦相似性,從中為每個測試查詢選擇前k個(k=10)最相似的問題。


3. 通過計算在預設閾值0.5以上具有最高n-gram重疊的試題數量及其相應的訓練集匹配來評估文本污染的程度。


研究人員使用Jaccard相似度來計算文本對之間的n-gram重疊,并且為了進行嚴格的污染檢查,n設置為1。


需要注意的是,當使用Jaccard相似性測量時,n-gram重疊是n的非遞增函數。


4. 在執行算法時,確定表現出顯著的n-gram重疊的試題數量為8,因此根據定義的閾值,表明測試集中的文本污染可以忽略不計。


當將訓練集限制為僅包含種子問題時,表現出顯著n-gram重疊的測試問題的數量為7;并且在n≥2的情況下,表現出顯著的n-gram重疊的試題數為零。


本文轉自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/dr-Ab0G9hizCDgLNZ_o6_Q??

收藏
回復
舉報
回復
相關推薦
免费在线看电影| 久久久精品毛片| 久久免费视频66| 色综合久久久久久久久久久| 亚洲人成影视在线观看| 性一交一乱一色一视频麻豆| 亚洲制服av| 久久资源免费视频| 在哪里可以看毛片| 视频一区日韩| 五月天婷婷在线视频| 欧美va天堂| 亚洲色图17p| 好吊操视频这里只有精品| 日韩电影免费观| 亚洲自拍偷拍综合| 伊人久久大香线蕉精品| 桃花色综合影院| 国内成人自拍视频| 国产精品久久久精品| 国产无遮挡又黄又爽| 久久福利影院| 亚洲欧美制服丝袜| 无码人妻精品一区二区三区99不卡| 日韩网站中文字幕| 动漫精品一区二区| 免费视频爱爱太爽了| 日本福利在线| 久久久五月婷婷| 国产一区二区三区无遮挡| 91theporn国产在线观看| 久久精品伊人| 午夜精品美女自拍福到在线| 538精品在线观看| 国产精品国产三级国产在线观看 | 欧美大尺度做爰床戏| 精精国产xxx在线视频app| 亚洲一区二区三区四区在线| 美国av在线播放| √天堂资源地址在线官网| 久久亚洲综合av| 精品久久一区二区三区蜜桃| 内射无码专区久久亚洲| 国产91在线观看丝袜| 产国精品偷在线| 亚洲第一成人av| 国产成人av电影在线观看| 亚洲一区二区三区视频| 国产老妇伦国产熟女老妇视频| 免费日本视频一区| 国产精品爽爽爽爽爽爽在线观看| 无码日韩精品一区二区| 巨乳诱惑日韩免费av| 国产精品成人a在线观看| 日韩一区二区免费视频| 黄色片子免费看| 日韩一区二区三区色| 日韩欧美www| 国产乱国产乱老熟300部视频| 欧美一级片网址| 91精品国产麻豆| 中文字幕第10页| 超碰成人免费| 日韩av最新在线观看| 国产精品jizz| 成人午夜av| 久久久精品免费| 黄色一级片在线| 国产精品毛片一区二区三区| 日韩av电影手机在线观看| 亚洲av无码乱码国产精品fc2| 日韩av网站在线观看| 国产欧美精品在线播放| av无码精品一区二区三区宅噜噜| 国产91精品久久久久久久网曝门| 国产日韩在线一区二区三区| 青青操在线视频| 中文字幕欧美国产| 亚洲啊啊啊啊啊| 国产剧情av在线播放| 欧美综合在线视频| 天堂网成人在线| 免费看久久久| 欲色天天网综合久久| 美女的奶胸大爽爽大片| 免费欧美在线| 91免费人成网站在线观看18| 韩国av免费在线| 国产欧美一区二区精品性色| www.-级毛片线天内射视视| 福利写真视频网站在线| 欧美性淫爽ww久久久久无| 亚洲妇女无套内射精| 制服丝袜日韩| 久久国产精品久久国产精品| 久久国产视频播放| 狠狠色丁香婷婷综合久久片| 国产一区二区三区四区hd| av黄色在线观看| 亚洲福利视频一区二区| 亚洲综合一区二区| 欧美成人dvd在线视频| 欧美18hd| 大伊人狠狠躁夜夜躁av一区| 中文字幕丰满乱码| 天堂俺去俺来也www久久婷婷| 日韩在线高清视频| 可以免费在线观看的av| 国产精品123区| 亚洲欧美国产一区二区| 色黄视频在线观看| 精品少妇一区二区| 东京热无码av男人的天堂| 日韩视频免费| av成人在线电影| 日本高清视频在线播放| 在线中文字幕一区二区| 亚洲av成人精品一区二区三区 | www.日本久久久久com.| 亚洲免费在线观看av| 国产乱码字幕精品高清av| 日本一区视频在线观看免费| av资源中文在线| 欧美一区二区三区视频在线| 国产乱子轮xxx农村| 久久资源在线| 久久精品日产第一区二区三区乱码 | 中文字幕在线播| www.欧美.com| 成人性生活视频免费看| 中文字幕久久精品一区二区 | 亚洲激情久久久| 永久免费看黄网站| 国内精品久久久久影院色| 亚洲欧美在线网| 国产精品蜜月aⅴ在线| 国产亚洲精品久久久久动| aaa在线视频| 国产丝袜美腿一区二区三区| 四虎永久在线精品无码视频| 亚州国产精品| 情事1991在线| 麻豆app在线观看| 色综合婷婷久久| 亚洲黄色有码视频| 一二三四在线观看视频| 日本美女一区二区| 亚洲国产精品一区二区第四页av| 亚洲第一影院| 正在播放国产一区| 一区不卡在线观看| 亚洲欧美视频在线观看视频| 亚洲精品乱码久久久久久动漫| 国产精品久久久久蜜臀| 91色精品视频在线| 亚洲小说区图片| 欧美成人艳星乳罩| 日本中文字幕网| 99久久国产综合色|国产精品| 日韩av综合在线观看| 亚洲免费福利一区| 国产精品久久久久久久久免费看| 成人影院免费观看| 欧美美女网站色| 男人与禽猛交狂配| 欧美精品久久久久久久久25p| 国产精品不卡| 国产精品久久国产精品| 三级中文字幕在线观看| 在线观看久久av| 99久久精品日本一区二区免费| 怡红院av一区二区三区| 欧美大喷水吹潮合集在线观看| 99成人精品| 日本一区二区精品视频| 亚洲欧美一级| 久久久综合免费视频| 欧美91精品久久久久国产性生爱| 欧美四级电影在线观看| 无码人妻精品一区二区三区夜夜嗨| 国产 欧美在线| 亚洲中文字幕无码不卡电影| 99久久99久久精品国产片桃花| 99re视频在线观看| 亚洲黄色网址| 久久久国产影院| 亚洲欧美综合一区二区| 欧美视频在线观看一区二区| 九九热精彩视频| 久久综合九色综合欧美亚洲| 911福利视频| 一区在线免费| 中文字幕久精品免| 五月天亚洲一区| 亚洲v日韩v综合v精品v| 热色播在线视频| 美日韩在线视频| 黄上黄在线观看| 男女在线视频| 日韩免费在线观看| 波多野结衣电车| 亚洲一区二区三区精品在线| av男人的天堂av| 成人中文字幕在线| www.精品在线| 欧美亚洲专区| 日本福利视频一区| 国产精品久久久久蜜臀| 欧美在线一二三区| 成人激情自拍| 7777精品久久久大香线蕉小说| 丁香六月综合| 欧美激情手机在线视频| 浪潮av一区| 亚洲无限av看| 日韩一二三四| 亚洲成人精品久久久| 国产精品久久久久久免费免熟 | 伊人久久大香线蕉综合网站| 国产 高清 精品 在线 a | 欧美精品在欧美一区二区少妇| 国产精品午夜影院| 午夜精品久久久久| 国产在线观看成人| 亚洲在线中文字幕| 国产三级国产精品国产国在线观看| 久久久国产精品不卡| 性欧美成人播放77777| 成人免费毛片aaaaa**| 日韩欧美中文视频| 极品少妇xxxx精品少妇偷拍| 日本特黄a级片| 日韩中文字幕亚洲一区二区va在线 | 91精品国产一区二区三区动漫| 亚洲一区二区av| 国产一区二区在线播放| 久久精品日产第一区二区三区乱码 | 天堂…中文在线最新版在线| 亚洲一级免费在线观看| 日韩国产精品久久久| 成年人小视频网站| 欧洲亚洲精品| 国产日本欧洲亚洲| 国产精品日日摸夜夜爽| 国产福利视频一区二区三区| 先锋资源在线视频| 国产成人av电影| 欧美极品jizzhd欧美仙踪林| 不卡的看片网站| 国产又粗又猛又色| 26uuu国产电影一区二区| 成人无码www在线看免费| 99re热视频这里只精品| 草草地址线路①屁屁影院成人| 久久综合狠狠综合久久综合88| 亚洲中文字幕无码一区| 26uuu久久天堂性欧美| www.色多多| 国产精品青草综合久久久久99| 少妇高潮在线观看| 一区二区三区四区在线| 国产五月天婷婷| 色呦呦一区二区三区| 夜夜躁很很躁日日躁麻豆| 在线播放国产精品二区一二区四区| 国产成人精品免费看视频| 亚洲成人a**站| 国内三级在线观看| x99av成人免费| 另类视频在线| 国产精品大片wwwwww| 国产午夜亚洲精品一级在线| 国产综合色一区二区三区| 在线看成人短视频| 可以免费看的黄色网址| 亚洲国内自拍| 国产视频手机在线播放| 国产精品影视网| 亚洲国产欧美视频| 亚洲同性同志一二三专区| 国产无套在线观看| 欧美午夜精品一区| 亚洲av无码一区二区三区dv| 亚洲男人av在线| 成人日批视频| 2019中文在线观看| 国产精品久久久久久av公交车| 国产一级精品aaaaa看| 日韩精品dvd| 欧美激情视频免费看| 老色鬼精品视频在线观看播放| 美女搡bbb又爽又猛又黄www| 国产精品伦一区| 九九精品免费视频| 日韩欧美亚洲另类制服综合在线| 欧洲亚洲在线| 欧美国产视频一区二区| 成人国产激情| 国产综合动作在线观看| 中文字幕免费精品| 污污视频网站免费观看| 成人激情小说乱人伦| 国精产品一区一区二区三区mba| 欧美日韩国产一区在线| 国产色片在线观看| 亚洲精品视频在线| 精品国偷自产一区二区三区| 蘑菇福利视频一区播放| 中文字幕在线观看视频www| 国产亚洲女人久久久久毛片| 国产91av视频| 日韩精品一区二区三区视频在线观看| 国产剧情在线观看| 8x海外华人永久免费日韩内陆视频| 国产一区一区| 亚洲一区二区三区欧美| 午夜影院日韩| 国产真实乱人偷精品| 一区二区免费视频| 国产日韩欧美一区二区东京热 | 国精品无码人妻一区二区三区| 亚洲精品videosex极品| 亚洲中文字幕在线一区| 亚洲天堂一区二区三区| 亚洲黄色中文字幕| 精品久久久久久亚洲| 黄色精品网站| 色诱av手机版| 一区二区久久久久| www.日日夜夜| 欧美精品中文字幕一区| 91麻豆精品| 正在播放91九色| 蜜桃久久久久久| 欧美a在线播放| 欧美日韩一区二区三区视频| 国产午夜精品一区理论片| 国产999精品| 国产欧美日韩精品一区二区免费| 欧美视频免费播放| 久久天天做天天爱综合色| 五月婷婷亚洲综合| 亚洲伦理中文字幕| 电影一区二区三| 手机成人在线| 九九精品视频在线看| 亚洲黄色网址大全| 欧美精品少妇一区二区三区| 男人和女人做事情在线视频网站免费观看| 日韩男女性生活视频| 成人激情在线| 午夜剧场在线免费观看| 亚洲色欲色欲www在线观看| av网站在线观看免费| 国产做受高潮69| 日韩三级av| 久久综合伊人77777麻豆最新章节| 日本一区二区三区国色天香 | 狠狠色狠狠色合久久伊人| 成年人一级黄色片| 精品福利一二区| 忘忧草在线影院两性视频| 日韩不卡av| 韩国成人福利片在线播放| 欧美成人一二三区| 亚洲精品动漫久久久久| 久久夜夜操妹子| 亚洲免费视频播放| 99久久er热在这里只有精品66| 黄色av一级片| 久久精品电影一区二区| 综合欧美亚洲| 日韩精品无码一区二区三区免费| 国产精品国产a| 国内爆初菊对白视频| 国产成人综合一区二区三区| 亚洲一区二区视频在线播放| 亚洲第一av网站| 国产精品高清乱码在线观看| 中文字幕日韩精品一区二区| 丁香啪啪综合成人亚洲小说 | 日韩av一区二区在线影视| 国产日韩欧美在线观看视频| 亚洲国产小视频在线观看| 国产极品久久久久久久久波多结野| 精品日韩在线播放| 26uuu另类欧美亚洲曰本| 国产农村妇女毛片精品久久| 68精品久久久久久欧美| 久久影视一区| 一二三不卡视频| 日韩一区二区三区在线| 日本免费久久| 国产日韩亚洲欧美在线| 国产精品私人影院| 天天干天天色天天| 亚洲综合日韩在线| 日韩电影网1区2区| 91在线看视频| 色综合久久精品亚洲国产|