精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

超越Claude 3.5和o1!8B模型靠「分層投票+測試時訓練」逆襲

人工智能 新聞
小時候完成月考測試后,老師會通過講解考試卷中吃錯題讓同學們在未來取得好成績。近日MIT的研究者,發現測試時訓練在大模型應對復雜推理問題時,能通過將任務分解,大幅提升回答的準確率。拿到題目后模型開始訓練,效果意外的好!

測試時訓練(test-time training)是一種通用的訓練方法。

該方法將單個未標記的測試實例轉化為自監督學習問題,在對測試樣本進行預測之前更新模型參數。

而對于大模型訓練,通常會使用一種稱為情境學習的技術來提高其模型在新任務上的性能。

該方法通過將新任務的幾個示例作為文本提示輸入模型,從而指導模型的輸出。

但情境學習并不總是適用于需要邏輯和推理的問題。  因為邏輯和推理問題是環環相扣的,需要先做好對問題的拆解,才能夠解決對應的問題。

只是給出例子,而不教會大模型推理方法,相當于只是給學生幾道例題和答案,卻不教解題思路,對成績的提升于事無補。

圖片

圖1:大模型測試時學習的框架

測試時訓練的第一步,是數據重構,即通過留一法,將K個示例拆分為K個偽任務,每個任務用K-1個樣本作訓練,留1個作測試。  

同時修改訓練優化的損失函數,涵蓋所有的示例,讓模型不僅學到訓練集,還能擴展到測試集上。  

測試時訓練涉及使用少量特定于當前任務的新數據來更新某些模型參數——即模型用于進行預測的內部變量。

圖片

下面的圖2,對應的是在抽象推理數據集(ARC)和BBH兩個基準測試集應用測試時訓練后,成功給出回答的示例。

圖片

圖2:使用測試時訓練解決抽象推理問題的示例

測試中使用的模型,其參數量不過是8B的lemma3,而其性能提升相當顯著,對于ARC數據集,準確性翻了近兩倍,從17.5%提高到45%;在BBH數據集上,也從50.5%提升到57.8%。

圖片

圖3:在80個隨機選擇的ARC驗證任務子集上和全部BBH任務上的準確性

讓大模型的思考邏輯問題如人類專家

為了擴展測試時給出數據集的大小,研究者還通過略微改變示例中的問題和解決方案來創建新的數據,例如通過水平翻轉一些輸入數據。

他們發現,在新增的數據集上訓練模型可以使得模型獲得最佳性能。

在使用留一法和可逆幾何變換后,可通過測使用分層投票策略,對訓練后的模型預測進行聚合:首先,在每個變換內部進行投票,然后從每個變換中選出的頂級候選者進行全局投票以產生最終的前兩個預測。

圖片

圖4:分層投票策略示例

使用分層投票和測試時訓練后,即使是1B參數的模型,其在抽象推理問題上的性能提升也相當顯著,性能與8B模型相近,如圖5所示。

圖片

圖5 1B 3B和8B參數量模型面對抽象推理問題的回答準確率對比

經過了微調并使用測試時訓練的8B模型,其在抽象推理任務上的準確率高達62.8,已經超過了人類的均值60.2%,對比主流的Claude3.5,Deepseek R1,openAI o1更是遙遙領先。

圖片

相比在提示詞中給出示例,測試時訓練這一策略模仿了人類的思維方式,將大任務分解為數個小目標,每一步都包含可管理的邏輯步驟。

不僅適用于抽象推理問題,對于很多涉及多步驟推理的問題,都會帶來顯著的性能提升。

例如物體計數問題,即跟蹤打亂順序的五個物體, 跟蹤打亂順序后的物體順序,或是電影推薦,即選擇滿足多個條件的電影。

在Big-Bench hard數據集的10類任務中,通過消融分析,也可對比使用了測試訓練及分層投票策略所帶來的性能提升(圖6)。

這意味著測試時訓練解決了大模型應用的一個核心痛點,即它們能生成流暢的文本,但在需要嚴密邏輯鏈條的復雜推理任務中,往往會走捷徑或產生邏輯謬誤。

例如雖然會計公司的大模型可能擅長總結財務報告,但如果要求該模型預測市場趨勢或識別欺詐交易,它可能會意外地失敗。

圖片

圖7:在Big-Bench hard數據集上,的特定任務進行消融實驗的完整結果

而測試時訓練的引入,讓大模型的思考方式變得類似人類專家,能夠讓大模型學習如何將一個大問題分解成多個子問題,然后按計劃、有條不紊地解決,并在得出最終答案前對中間步驟進行自我審視和驗證。

其意義不僅在于提升了模型的測試分數,更重要的是,它為構建更值得信賴的AI系統提供了可能。

一個能夠清晰展示其推理步驟并進行自我糾錯的AI,將在科學發現、醫療診斷、法律分析等高風險領域具有更廣闊的應用前景。

這些說明測試時訓練在處理新型推理任務方面的潛力,表明其在推動下一代語言模型的發展方面具有巨大前景。

然而,該研究一作Akyürek指出,即使采取了低秩適配的技術,只更新少量模型參數,從而提升測試時訓練的部署效率,由于使用該策略意味著大模型每回答一個問題,都要重新進行訓練。

這會導致一個通常在不到一分鐘內回答查詢的模型,在測試時訓練下可能需要五到十分鐘來提供答案。

因此Akyürek并不希望對所有用戶查詢都這樣做,但如果您有一個非常困難的任務,希望模型能夠很好地解決,那么測試是就是有用的。

而另一些任務,不需要使用該方法,上下文情境學習就夠用了。

而研究者的長期目標是建立一個能持續學習的大模型,可根據查詢自動判斷是否需要使用測試時訓練來更新參數,或者是否可以使用情境學習來完成任務,然后無需人工干預即可實施最佳測試時訓練策略。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-01-02 12:48:36

2024-12-26 17:13:17

AI模型訓練

2025-02-03 14:17:27

2024-11-25 12:50:14

2024-12-09 08:00:00

AI大模型人工智能

2025-02-19 15:40:00

OpenAI編程模型

2025-01-02 11:00:34

2025-01-10 12:58:37

2024-12-16 09:00:00

AI架構訓練

2024-10-23 09:20:00

2024-09-24 11:01:03

2025-02-06 08:45:22

2025-04-15 09:19:00

模型AI數據

2025-02-19 13:50:00

明星編程軟件

2024-10-30 14:25:00

GitHub模型

2024-09-19 17:44:04

2025-02-13 09:10:00

2025-09-28 15:35:32

AI模型強化學習

2025-03-05 10:21:04

DeepSeekLVLM

2025-10-10 01:00:00

8B模型GPT-4oAgent
點贊
收藏

51CTO技術棧公眾號

午夜影院日韩| 亚洲一区网址| 亚洲视频 欧洲视频| 7777奇米亚洲综合久久| 日本在线小视频| 欧洲激情综合| 精品国产乱码久久久久久久| 黄在线观看网站| 成人av免费| 91香蕉视频污| 97人人模人人爽人人少妇| 亚洲第一网站在线观看| 牛牛国产精品| 中文字幕亚洲欧美日韩高清| 极品人妻一区二区| 国产a亚洲精品| 亚洲成av人片在www色猫咪| 日韩亚洲一区在线播放| 人妻丰满熟妇av无码区hd| 日本vs亚洲vs韩国一区三区二区| 色综合久久88| 亚洲毛片亚洲毛片亚洲毛片| 看全色黄大色大片免费久久久| 欧美日韩亚州综合| 日韩 欧美 高清| 爱情岛亚洲播放路线| 国产精品欧美一级免费| 久久综合婷婷综合| 国产成人手机在线| 久久99久久99精品免视看婷婷| 91禁外国网站| 国产在线欧美在线| 婷婷激情图片久久| 自拍偷拍亚洲一区| 美女洗澡无遮挡| 欧亚精品一区| 亚洲黄色有码视频| 女人扒开腿免费视频app| 青草综合视频| 欧美亚洲国产一区二区三区va| 日日摸日日碰夜夜爽无码| a黄色片在线观看| 国产精品美女久久久久久| 日韩电影免费观看在| 亚洲欧洲视频在线观看| 成人一区二区三区视频在线观看| 亚洲最大的网站| 国产精品热久久| 狠狠网亚洲精品| 国产啪精品视频| 在线视频1卡二卡三卡| 日本v片在线高清不卡在线观看| 青青a在线精品免费观看| 国产系列精品av| 亚洲欧洲另类| 97色伦亚洲国产| 日韩av一二三区| 91久久夜色精品国产九色| 午夜精品福利在线观看| 日韩精品一区二区av| 亚洲日本国产| 欧美一区二区视频97| 国产性猛交╳xxx乱大交| 亚洲精品乱码久久久久久蜜桃麻豆| 欧美高清电影在线看| 国产亚洲色婷婷久久99精品| 亚洲精品乱码| 国产成+人+综合+亚洲欧美丁香花| 成人毛片18女人毛片| 久久大逼视频| 国产精品久久电影观看| 亚洲一区在线观| 国产精品99精品久久免费| av免费观看久久| 国产综合无码一区二区色蜜蜜| 成人性视频免费网站| 激情久久av| 国产剧情在线观看| 亚洲图片激情小说| 丰满少妇大力进入| 不卡av播放| 777色狠狠一区二区三区| 日韩不卡的av| 日韩精品福利一区二区三区| 亚洲香蕉在线观看| 色欲人妻综合网| 99国产精品自拍| 国产精品爽爽爽爽爽爽在线观看| 精品国产伦一区二区三| 91免费在线视频观看| 亚洲精品在线视频观看| a级网站在线播放| 色综合久久中文综合久久牛| 黄大色黄女片18第一次| 中文字幕一区二区三区日韩精品 | 亚洲性生活大片| 国产高清精品在线| 欧美日韩国产一二| 中文字幕在线观看播放| 日本精品一区二区三区四区的功能| 九九热99视频| 天堂99x99es久久精品免费| 久久精品99久久久香蕉| 日韩高清免费av| 久久国产成人午夜av影院| 国产欧美一区二区三区不卡高清| 国产51人人成人人人人爽色哟哟 | 国产精品21p| 国内成+人亚洲+欧美+综合在线| 精品国产一区二区三区免费| 日本网站在线免费观看视频| 欧美日韩性生活视频| 中文字幕第10页| 日韩国产欧美| 日本亚洲欧洲色| 成人久久久精品国产乱码一区二区| 日本一区二区成人| 六月激情综合网| 91精品导航| 久久手机免费视频| 亚洲中文无码av在线| 成人av第一页| 国产一级做a爰片久久毛片男| 国产91精品在线| 亚洲视频自拍偷拍| 欧美日韩精品区| 国产成人在线视频免费播放| 中文字幕精品一区日韩| 国产精品99久久久久久董美香| 日韩电影中文字幕| 精品在线视频观看| 国产传媒一区在线| 国产三级中文字幕| 99久久这里有精品| 日韩有码在线电影| 中文字幕在线观看视频一区| 久久久久久麻豆| 欧美成人xxxxx| 欧洲精品一区| 欧美一级在线亚洲天堂| 色欲久久久天天天综合网| 亚洲一区二区三区四区在线| 免费观看黄网站| 自产国语精品视频| 91一区二区三区| 黄网av在线| 精品美女一区二区| 日韩免费不卡视频| 成人av网址在线| 国产精品无码av在线播放| 精品亚洲免a| 2019日本中文字幕| 深夜福利在线视频| 91久久精品网| 99热6这里只有精品| 精一区二区三区| 手机看片日韩国产| 日韩欧美中文在线观看| 欧美精品aaa| 天堂v在线观看| 欧美体内谢she精2性欧美| 少妇精品一区二区三区| 快she精品国产999| 亚洲精品一品区二品区三品区| 玖玖精品在线| 久久国产精品亚洲| 亚洲经典一区二区| 疯狂欧美牲乱大交777| 国产精品一区二区入口九绯色| 免费日韩av片| 亚洲五月六月| 日韩一区免费| 欧美亚洲国产日韩2020| 国产香蕉视频在线看| 欧美日韩国产一二三| 欧美成人精品欧美一级| 99国产精品国产精品久久| 美女网站免费观看视频| 小说区亚洲自拍另类图片专区| 97人人香蕉| 亚洲最大网站| 色婷婷综合成人av| 国产香蕉在线观看| 欧美在线看片a免费观看| 91制片厂在线| 92精品国产成人观看免费| 在线看的黄色网址| 在线看片一区| 天堂资源在线亚洲视频| 91精品短视频| 国产精品丝袜高跟| av剧情在线观看| 深夜福利一区二区| 蜜桃久久一区二区三区| 欧美最新大片在线看| 免费在线观看国产精品| 国产亚洲综合性久久久影院| 91视频福利网| 青椒成人免费视频| 国产3p露脸普通话对白| 日韩毛片视频| 免费国产一区二区| 免费观看在线一区二区三区| 日韩av免费在线观看| 久久不射影院| 久久夜色精品亚洲噜噜国产mv| 水中色av综合| 精品成人a区在线观看| 一级黄色a毛片| 狠狠躁夜夜躁人人躁婷婷91 | 国产精品入口免费视频一| 久久电影网站| 美日韩精品免费观看视频| 国产女人在线视频| 日韩大片在线观看视频| 精品人妻一区二区三区麻豆91| 91成人网在线| 日韩黄色在线播放| 午夜久久福利影院| 欧美成人三级在线观看| 亚洲欧洲日韩在线| 天堂av网手机版| 久久一区二区三区国产精品| 日本不卡视频一区| 粉嫩欧美一区二区三区高清影视| 国产精品视频中文字幕| 日产国产高清一区二区三区 | 韩国美女久久| 91精品国产91久久久久| 伦理av在线| 欧美国产日韩一区二区| 高清全集视频免费在线| 色噜噜国产精品视频一区二区 | 熟女少妇在线视频播放| 欧美日韩蜜桃| 国产一级大片免费看| 中文字幕一区二区av| 26uuu成人| 久久精品国内一区二区三区水蜜桃| 日韩精品久久一区二区三区| 国产乱码精品一区二区三区四区 | 在线成人激情| 性做爰过程免费播放| 亚洲一本二本| 亚洲成人动漫在线| 中文字幕日韩一区二区不卡 | 中日韩高清电影网| 久久综合免费视频影院| 国产调教视频在线观看| 欧美成年人网站| √天堂8在线网| 久久777国产线看观看精品| 日本色护士高潮视频在线观看 | 欧亚av在线| 国产91精品高潮白浆喷水| 亚洲福利影院| 国产成人精品久久久| 欧美影视资讯| 国产欧美日韩高清| 国产精品xnxxcom| av电影成人| 欧美亚洲国产日韩| 日本一区二区三区视频在线播放| 精品久久电影| 中文字幕欧美人与畜| 黄色亚洲精品| 美女福利视频在线| 久久国产精品99久久久久久老狼| 国产在线视频三区| av中文字幕一区| 日韩中文字幕有码| 亚洲免费av在线| 国产乡下妇女做爰视频| 日本精品视频一区二区| 亚洲天天综合网| 亚洲成av人乱码色午夜| 国产三级视频在线播放线观看| 久久久国产精品x99av| 岛国片av在线| 国产成人精品综合| 欧美欧美在线| 欧美精品欧美精品系列c| 99久久亚洲精品| 久久国产精品网| 秋霞电影网一区二区| 精品人妻无码中文字幕18禁| 91麻豆国产香蕉久久精品| 国产麻豆a毛片| 香蕉久久一区二区不卡无毒影院| 潘金莲一级淫片aaaaaa播放| 欧美一区二区女人| 国产一区二区三区不卡在线| 欧美老女人在线视频| 欧美色999| 91视频免费进入| 精品产国自在拍| 国产freexxxx性播放麻豆| 噜噜噜久久亚洲精品国产品小说| 91香蕉视频免费看| 国产喷白浆一区二区三区| 国产一级一片免费播放放a| 欧美日韩一区二区欧美激情| 深爱五月激情五月| 大胆人体色综合| 在线成人视屏| 久精品国产欧美| 欧美日韩岛国| 91日韩视频在线观看| av欧美精品.com| a在线视频播放观看免费观看| 色老汉av一区二区三区| 欧美一级一区二区三区| 久久久精品欧美| ww久久综合久中文字幕| 麻豆精品传媒视频| 1000部精品久久久久久久久| 99精品视频国产| 国产精品全国免费观看高清| 久久久久久久久久久影院| 精品国产青草久久久久福利| av香蕉成人| 91久久久久久久久久| 精品久久一区| 九色porny91| 久久网站最新地址| 可以免费在线观看的av| 欧美精品一区二区三区蜜桃 | 亚洲va欧美va人人爽| 国产哺乳奶水91在线播放| 久久久极品av| 国产精品久久免费视频| 一区不卡字幕| 久久机这里只有精品| 91导航在线观看| 欧美日韩黄视频| 调教视频免费在线观看| 国产精品伦子伦免费视频| 国产一区二区三区探花| 日韩av资源在线| 久久久久久久久久久久久久久99| 91九色丨porny丨肉丝| 日韩麻豆第一页| 黄色综合网址| 欧美一二三区| 日韩电影在线免费看| 久久精品无码一区| 在线国产电影不卡| 欧美被日视频| 91免费电影网站| 欧美日韩国产探花| 韩国三级hd两男一女| 午夜精品一区二区三区三上悠亚 | 深夜成人在线观看| crdy在线观看欧美| 日韩一二区视频| 成人av在线影院| 狠狠人妻久久久久久综合| 亚洲视频在线观看| 视频91a欧美| 久久亚洲a v| 99视频精品免费视频| 国产免费一级视频| 久久国内精品一国内精品| 日韩精品一区二区三区免费视频| 极品粉嫩国产18尤物| 久久精品一区二区三区不卡牛牛| 中日韩av在线| 插插插亚洲综合网| 欧美国产极品| 日本在线观看免费视频| 亚洲精品视频免费观看| 国产91免费看| 国产精品h在线观看| 亚洲91久久| 中文字幕在线播放视频| 欧美性受xxxx| 色老头在线观看| 久久综合一区| 国产一区二区在线电影| 91精品国产乱码久久久张津瑜| 亚洲三级 欧美三级| avtt久久| aaa毛片在线观看| 亚洲黄色尤物视频| 欧美女v视频| 97超碰在线播放| 日本不卡视频一二三区| 久久午夜无码鲁丝片| 亚洲四色影视在线观看| 日本99精品| 无码人妻丰满熟妇区毛片| 亚洲美女偷拍久久| 清纯唯美亚洲色图| 91免费版黄色| 日韩不卡一二三区| 青草草在线视频| 中文字幕国产日韩| 老牛国内精品亚洲成av人片| 午夜啪啪小视频| 91久久国产最好的精华液|