精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

清華&通院推出"絕對零"訓練法,零外部數據大模型自我博弈解鎖推理能力

人工智能
不用引入外部數據,通過自我博弈(Self-play)就能讓預訓練大模型學會推理?來自清華、北京通用人工智能研究院和賓夕法尼亞州立大學的研究人員,提出了一種名為“絕對零”(Absolute Zero)的訓練方式。

不用引入外部數據,通過自我博弈(Self-play)就能讓預訓練大模型學會推理?

來自清華、北京通用人工智能研究院和賓夕法尼亞州立大學的研究人員,提出了一種名為“絕對零”(Absolute Zero)的訓練方式。

這種方法通過讓大模型根據推理目標,自己生成并解決任務,便可以獲得推理能力。

測試中,用“絕對零”訓練出的模型,表現已經超過了用專家標注樣本訓練的模型。

并且“絕對零”方法只需在代碼環境中訓練,但可以讓模型在數學推理上也取得顯著進步。

這項研究也在Reddit上引發了討論,開帖轉載的網友驚嘆:會自我進化的AI已經被解鎖了?

在出題-做題中自我學習

“絕對零”采用了一種自我博弈的學習范式。在這個范式下,一個統一的語言模型扮演Proposer和Solver兩個角色。

Proposer負責生成新的推理任務,Solver負責解決這些任務。通過兩個角色的交替和協同,模型可以自主地構建學習任務分布,并在求解任務的過程中不斷提升推理能力。

“絕對零”將所有的推理任務統一表示為(p,i,o)(即程序,輸入,輸出)的三元組形式。

這里的程序是一段可執行的代碼,輸入是該程序的輸入數據,輸出是程序在給定輸入下的輸出結果。

通過這種形式化的表示,原本抽象的推理任務被轉化為了一個個具體的程序設計問題,語言模型可以通過生成和操作代碼來完成任務的生成和求解。

根據p、i、o是否已知,“絕對零”將推理任務劃分為三種基本類型——溯因(Abduction)、演繹(Deduction)和歸納(Induction):

  • 溯因任務:已知p和對應的o,求可能的i。這類任務考察模型根據結果反推條件、理解代碼語義的能力;
  • 演繹任務:已知p和i,求o。這類任務考察模型運行和理解代碼邏輯的能力;
  • 歸納任務:已知一組i-o樣例,求一個統一p。這類任務考察模型歸納總結規律、生成代碼的能力。

在自我博弈的訓練開始前,“絕對零”需要一個初始的任務集合作為種子(如果基礎模型足夠強也可以不用)。這個種子集合通過基礎語言模型生成一些有效的代碼(p,i,o)得到。

當種子集合為空時,“絕對零”會使用一個預定義的“zero triplet”作為起點,實際上就是一個簡單的恒等函數:

在每一輪迭代中,Proposer首先根據當前已有的任務集合和給定的任務類型,生成一個新的推理任務。

具體來說,它會先從歷史任務中采樣一些相關的例子作為參考,然后利用語言模型的生成能力,產生一個新的(p,i,o)三元組。

  • 對于abduction任務,需要生成p和o,但不生成i;
  • 對于deduction任務,需要生成p和i,但不生成o;
  • 對于induction任務,需要生成一組輸入輸出對(i,o),但不生成p。

另外對于induction任務,Proposer還會從歷史的abduction和deduction任務中采樣一個程序p,然后生成與之匹配的N個輸入輸出對(i,o),以及一段自然語言描述。

這種做法可以為induction任務提供更豐富的上下文信息,幫助Solver更好地理解和求解任務。

在生成過程中,Proposer會嘗試控制新任務的難度和新穎度,以確保生成的任務對于當前的Solver來說既有意義又具備挑戰性。

具體來說,“絕對零”引入了一個“可學習性”(learnability)的概念,用于估計一個任務對于當前的Solver模型來說有多大的學習價值。

它的計算方法是讓Solver試著解決這個任務并統計其成功的概率。如果任務太簡單或太難,那么這個任務的可學習性就會很低。Proposer的目標就是生成可學習性適中的任務。

生成出的新任務將被送到一個獨立的代碼執行器中進行驗證,執行器會實際運行Proposer生成的程序,檢查其是否滿足以下條件:

  • 語法正確性:程序能夠在Python解釋器中正常執行,沒有語法錯誤;
  • 安全性:程序沒有使用任何不安全的操作或庫,如文件讀寫、系統調用等;
  • 確定性:程序在相同的輸入下,總是產生相同的輸出,沒有隨機性或不確定性。

通過這三個條件的檢查,執行器可以濾除絕大部分無效或有害的任務。

對于通過驗證的任務,執行器還會計算“可學習性獎勵”,作為對Proposer行為的反饋。

最后,所有通過驗證的任務會被存入一個任務buffer池中,供后續的訓練使用。

在篩選完推理任務后,“絕對零”會轉換為Solver的角色,開始解決這些任務,具體方式同樣會根據任務的類型而有所不同:

  • 對于abduction任務,Solver要根據給定的p和o推斷可能的i。這個過程類似于“反向執行”程序;
  • 對于deduction任務,Solver要根據給定的p和i推斷出o。Solver需要模擬程序的執行過程,得出最終的輸出結果;
  • 對于induction任務,Solver要根據輸入輸出對(i,o),推斷可能的程序p。Solver需要從有限的樣本中總結出一般性的規律。

在求解任務的過程中,Solver可以利用語言模型已有的知識(如常見的算法模式、編程慣例等)來輔助任務的求解。

Solver生成的解會再次通過代碼執行器進行驗證。執行器會檢查Solver給出的輸入、輸出或程序是否真的滿足任務的要求。

如果滿足,則視為Solver成功解決了任務,并給予相應的獎勵;否則視為Solver失敗,不給予獎勵或給予懲罰。

這個獎勵信號會作為Solver行為的反饋,幫助Solver學習如何更好地解決各種類型的推理任務。

同時,Solver的解決方案也會被記錄下來,作為未來生成和求解類似任務的參考。

在每一輪迭代結束時,“絕對零”都會使用Proposer和Solver收集到的反饋信號,對整個模型進行聯合優化和更新,使得Proposer生成的任務更有利于學習,Solver解決任務的能力也越來越強。

經過多輪迭代,“絕對零”最終可以收斂到一個很好的均衡點,在這個點上,Proposer生成的任務恰好匹配Solver的能力,Solver又能夠從這些任務中學到足夠多的知識。

數學代碼任務性能雙提升

在編程任務上,研究者使用了HumanEval+、MBPP+和LCB三個數據集。

與未經“絕對零”訓練的版本相比,“絕對零”將Qwen-2.5-7B-Coder的HumanEval+通過率從80.5%提高到了83.5%,將MBPP+的通過率從69.3%提高到了69.6%,將LCB的通過率從19.9%提高到了31.7%。

在數學推理任務上,研究者選取了6個具有代表性的數據集進行評測,包括AME’24、AME’25、AMC’23、MATH500、Minerva和Olypiad。

“絕對零”在這6個數據集上的平均準確率達到了39.1%,比未經“絕對零”訓練的baseline高出了15.2個百分點。

其中,在MATH500數據集上,“絕對零”的準確率達到了72.6%,超出baseline 22.6個百分點;在AMC’23數據集上,“絕對零”的準確率為57.5%,超出baseline 17.5個百分點。

除了Qwen-2.5-7B-Coder,研究者還在其他幾個預訓練語言模型上測試了“絕對零”的性能:

  • Qwen-2.5-3B-Coder:應用“絕對零”后編程任務平均通過率從51.2%提高到了54.9%,在數學任務上的平均準確率從18.8%提高到了26.5%;
  • Qwen-2.5-14B-Coder:應用“絕對零”后,在編程任務上的平均通過率從60.0%提高到了63.6%,在數學任務上的平均準確率從20.2%提高到了43.0%;
  • Llama-3.1-8B:應用“絕對零”后在編程任務上的平均通過率從28.5%提高到了31.6%,在數學任務上的平均準確率從3.4%提高到了6.8%。

通過對不同規模和類型的語言模型的測試,研究者還發現“絕對零”的性能提升與模型規模呈正相關——參數越多的模型,訓練后的性能提升也越大。

例如在數學任務上,30億參數的Qwen-2.5-3B-Coder模型提升了7.7個百分點,而140億參數的Qwen-2.5-14B-Coder模型則提升了22.8個百分點。

這表明“絕對零”能夠有效地利用大模型的能力,實現更高的推理性能提升。

論文地址:
https://arxiv.org/abs/2505.03335
參考鏈接:
https://www.reddit.com/r/singularity/comments/1kgr5h3/selfimproving_ai_unlocked/

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-08-14 09:00:00

模型訓練數據

2023-11-07 14:07:51

GPT-4大語言模型

2023-11-15 14:17:23

微軟語言模型AI 模型

2025-04-11 09:35:34

2023-01-05 09:33:37

視覺模型訓練

2024-02-23 11:27:00

數據技術

2025-10-11 13:51:21

2023-06-05 10:01:18

模型測評

2025-07-31 08:40:00

AI模型智能體

2023-06-20 13:44:49

清華推理

2025-05-12 14:23:42

AI算法訓練

2025-05-08 09:10:30

2024-01-29 06:50:00

3D模型

2025-06-03 09:05:00

2025-08-11 08:00:00

2025-08-08 03:00:00

AI大型語言模型LLM

2025-10-10 01:25:00

大模型訓練數據OpenAI

2023-05-05 13:29:04

模型推理

2024-07-31 08:14:17

點贊
收藏

51CTO技術棧公眾號

欧美精品1区2区3区| 久久久午夜精品理论片中文字幕| 美日韩精品免费观看视频| 免费欧美一级片| 黄色漫画在线免费看| 日本一区二区不卡视频| 99re在线观看视频| 无码人妻精品一区二区50| 亚洲成av人片乱码色午夜| 亚洲国产精品字幕| 国产无遮挡猛进猛出免费软件| 91极品在线| 国产午夜精品久久| 国产亚洲精品久久飘花| 国产有码在线观看| 久久香蕉精品| 亚洲欧美在线另类| 成人在线看片| 中文字幕在线观看91| 美女国产在线| 后入内射无码人妻一区| 理论不卡电影大全神| 亚洲视频免费在线观看| 茄子视频成人在线观看| 亚洲成人777777| 久久成人免费网| 国产精品扒开腿爽爽爽视频| 日干夜干天天干| 影音先锋日韩精品| 日韩在线视频二区| 级毛片内射视频| 美女午夜精品| 亚洲精品在线观| 九色91porny| 96视频在线观看欧美| 欧美主播一区二区三区| 久草青青在线观看| 日本午夜大片a在线观看| 亚洲一区二区欧美激情| 国产乱子伦精品视频| 国产在线观看91| 国产精品拍天天在线| 日韩av一级大片| 噜噜噜在线观看播放视频| 国产aⅴ综合色| 成人激情直播| 亚洲国产成人一区二区| 国产精品自拍网站| 亚洲曰本av电影| 精品国产av 无码一区二区三区| 久久99精品国产| 国产精品视频一区二区三区四| 亚洲 日本 欧美 中文幕| 亚洲一区黄色| 日韩av免费看网站| 欧美国产一级片| 麻豆国产精品一区二区三区| 国产欧美日韩最新| 国产又黄又粗又长| 国产福利精品导航| 国产一区二区三区高清视频| 色婷婷视频在线| 久久人人97超碰com| 欧美日韩一区在线视频| 粉嫩av一区| 国产精品久久午夜| avove在线观看| a在线视频v视频| 色综合久久久久久久久久久| 美女喷白浆视频| 9999精品| 日韩国产精品一区| 国产精品久久久久久久av| 婷婷综合社区| 久久久久久久久久久av| 久久国产视频精品| 美国一区二区三区在线播放| 成人精品久久一区二区三区| 国产成人久久精品77777综合 | 国产精品一二三区视频| 国产精品水嫩水嫩| 日韩一区二区高清视频| 日韩激情电影免费看| 在线视频国产一区| 国产农村妇女精品久久| 欧美调教视频| 日韩在线观看免费全集电视剧网站 | 黄色在线视频网址| 男人的j进女人的j一区| 成人欧美一区二区三区在线观看| 污污视频在线免费看| 国产免费成人在线视频| 中文字幕精品在线播放| 手机在线理论片| 91精品国产欧美一区二区| 亚洲精品国产成人av在线| 成人一区二区| 国模吧一区二区| 伊人精品一区二区三区| 成人免费看黄yyy456| 午夜精品美女久久久久av福利| 国产在线二区| 一本色道久久综合精品竹菊| 国产不卡的av| 精品欧美激情在线观看| 欧美激情一区二区三区在线视频观看| 亚洲图片欧美日韩| 成人午夜免费av| 亚洲一区3d动漫同人无遮挡 | 无码任你躁久久久久久老妇| 国产一区二区三区91| 国模极品一区二区三区| 国产日韩在线观看一区| 日本一区二区三级电影在线观看| av 日韩 人妻 黑人 综合 无码| 午夜av成人| 精品视频一区在线视频| 麻豆一区二区三区精品视频| 激情伊人五月天久久综合| 欧美午夜精品久久久久免费视| 天堂成人av| 欧美夫妻性生活| 内射毛片内射国产夫妻| 亚洲一区二区三区四区五区午夜 | 亚洲猫色日本管| 男人插女人下面免费视频| 天天躁日日躁成人字幕aⅴ| 欧美大片免费观看| 91亚洲国产成人精品一区| 国产欧美一区二区精品久导航| 国产日韩av网站| 亚洲精品国产九九九| 久久国内精品一国内精品| 成人黄色片在线观看| 国产亚洲欧美一区在线观看| 欧美视频在线播放一区| 国产精品xxx在线观看| 欧美第一页在线| www.香蕉视频| 一区二区三区不卡在线观看 | 日韩在线观看一区二区三区| 日韩三级影视基地| 91麻豆视频在线观看| 中文字幕日本不卡| 波多野结衣免费观看| 图片小说视频色综合| 91久久精品国产91久久| 国产在线看片| 日韩女优视频免费观看| 国产在线欧美在线| 丁香婷婷综合激情五月色| 六月婷婷激情综合| 精品三级在线观看视频| 欧美诱惑福利视频| 国产视频网站在线| 欧美日韩精品一区二区三区| 亚洲欧洲综合网| 国产乱码精品1区2区3区| 今天免费高清在线观看国语| 91国内精品白嫩初高生| 5566日本婷婷色中文字幕97| 青青草在线免费视频| 色综合久久久久综合99| 日韩不卡av在线| 韩国av一区二区三区| 国产91沈先生在线播放| 日韩伦理一区二区三区| 国产精品成人久久久久| 久久亚洲天堂| 亚洲精品av在线| 中国一级片黄色一级片黄| 日韩理论片网站| 国产精品一级无码| 国产一区二区你懂的| 色涩成人影视在线播放| 爱情电影网av一区二区| 国内偷自视频区视频综合| 国产精品毛片一区二区三区四区| 欧美日韩精品系列| 国产一级性生活| 国产中文字幕在线| 一区二区三区久久| 醉酒壮男gay强迫野外xx| 日本不卡高清视频| 欧美视频在线第一页| 最近国产精品视频| 91九色国产社区在线观看| 国产免费拔擦拔擦8x在线播放| 亚洲人成伊人成综合网久久久| 国产又大又黄的视频| 亚洲成人一区二区| 国产无遮挡在线观看| 成人午夜视频在线观看| 国产免费又粗又猛又爽| 亚洲一级影院| 亚洲精品一区二区三| 97青娱国产盛宴精品视频| 国产精品成人久久久久| av在线播放资源| www.欧美三级电影.com| 天天综合网在线| 欧美精品99久久久**| 精品不卡一区二区| 亚洲激情在线激情| 99久久久无码国产精品不卡| 91丨porny丨在线| 手机在线播放av| 老司机一区二区| 国产男女在线观看| 韩国av一区| 中国人体摄影一区二区三区| 视频一区在线观看| 国产精品免费一区二区| 先锋影音网一区二区| 欧美在线观看网站| 成人一级福利| 欧美多人爱爱视频网站| 久草免费在线观看| 在线播放国产一区中文字幕剧情欧美| 无码精品一区二区三区在线 | 国产亚洲色婷婷久久| 欧美在线综合| 国产精品自拍合集| 日韩电影二区| 99久久99久久| 麻豆久久一区| 国产一区在线播放| 日韩精品免费观看视频| 国产成人欧美在线观看| 欧美aaaaa性bbbbb小妇| 午夜精品在线观看| 9765激情中文在线| 欧美黑人性猛交| 日本在线观看高清完整版| 日韩欧美中文字幕在线观看| 亚洲成人动漫在线| 久久99视频| 欧美一级二级三级| 美女毛片一区二区三区四区最新中文字幕亚洲 | www.久久久久久久久| 少妇熟女视频一区二区三区 | 日韩免费视频一区| 精品国产无码AV| 日韩一区二区视频| 国产伦一区二区| 91精品黄色片免费大全| 国产乱淫a∨片免费观看| 欧美精品自拍偷拍| 国产乱叫456在线| 日韩欧美激情四射| 亚洲成人第一区| 欧美精品一区男女天堂| 日韩一级免费视频| 日韩精品日韩在线观看| 天堂av电影在线观看| 亚洲男人天堂2019| 福利视频在线看| 久久中文字幕一区| 欧美巨大xxxx做受沙滩| 午夜精品在线视频| 欧美gay视频| 国产精品一区二区久久久 | 激情视频在线观看一区二区三区| 国产精品对白| 欧美日韩免费高清| 天堂美国久久| 日韩精品视频在线观看视频| 国产视频一区免费看| 亚洲中文字幕久久精品无码喷水| 日本欧美韩国一区三区| 在线看免费毛片| 粉嫩aⅴ一区二区三区四区五区| 国产精品久久久久久久无码| 久久综合久久综合九色| 国产精品无码无卡无需播放器| 亚洲三级理论片| 久久精品99久久久久久| 黄色成人av在线| 在线免费观看日韩视频| 欧美一区二区成人| 亚洲区小说区图片区| 中文字幕免费精品一区高清| 中中文字幕av在线| 欧洲美女免费图片一区| 99久久999| 久久久久久一区| 五月精品视频| 大陆极品少妇内射aaaaa| 另类综合日韩欧美亚洲| 无码成人精品区在线观看| 国产精品你懂的| 国产精品黄色大片| 8x福利精品第一导航| 亚洲毛片欧洲毛片国产一品色| 亚洲色图25p| 欧美野外wwwxxx| 国产精品青草久久久久福利99| 综合激情五月婷婷| 亚洲人成影视在线观看| 在线观看的日韩av| 国产福利在线免费| 久久午夜国产精品| 精品无码m3u8在线观看| 欧美日韩亚洲综合一区二区三区| 蜜臀久久精品久久久久| 北条麻妃一区二区三区中文字幕| 蜜桃av在线播放| 亚洲www视频| 成人精品中文字幕| aa在线免费观看| 国产成人精品影视| 午夜成人亚洲理伦片在线观看| 欧美日韩免费在线| 亚洲成熟女性毛茸茸| 日韩中文在线中文网三级| 中文字幕资源网在线观看免费| 亚洲一区二区三区视频| 成人久久一区| 人妻有码中文字幕| 97久久精品人人做人人爽| 中文字幕av久久爽av| 一本到不卡精品视频在线观看| 六月婷婷综合网| 欧美高清视频免费观看| 在线不卡一区| 亚洲成人一区二区三区| 午夜在线视频一区二区区别 | 国产一区二区在线视频你懂的| 国产高清免费在线| 免费在线欧美视频| 性猛交娇小69hd| 色综合色狠狠综合色| 四虎永久在线精品免费网址| 久久久久久中文| 91成人午夜| 国产成人永久免费视频| 国产成人av影院| 欧美日韩免费做爰视频| 日韩午夜三级在线| 日韩三级免费| 国产成人精品福利一区二区三区| 欧美激情1区| 国产伦精品一区二区三区妓女下载 | 在线电影欧美成精品| 免费看美女视频在线网站| 国产精品一区二区三区毛片淫片 | 在线中文字幕网站| 日韩在线资源网| 成人亚洲精品| 国产一二三四区在线观看| 国产福利精品导航| 日韩av在线播放观看| 亚洲国产精品va在线看黑人动漫| 日本免费在线播放| 久久亚洲二区三区| 日本在线观看视频网站| 亚洲精品成人久久久| 高清av不卡| 亚洲国产成人不卡| 国产乱码精品一区二区三区av| 久草资源在线视频| 亚洲精品久久久久中文字幕欢迎你| 中文字幕在线视频网站| 视频一区二区三区在线观看| 看电视剧不卡顿的网站| 青娱乐国产精品| 亚洲精品国产suv| 小黄鸭精品aⅴ导航网站入口| 亚洲va韩国va欧美va精四季| 久草这里只有精品视频| 青娱乐国产在线视频| 亚洲精品之草原avav久久| 久久电影天堂| 18黄暴禁片在线观看| 久久久久国产成人精品亚洲午夜| 中国黄色一级视频| 欧美美女18p| 中国av一区| 亚洲第一区第二区第三区| 亚洲韩国精品一区| av亚洲在线| 99国产超薄肉色丝袜交足的后果| 国产精品久久久久久久久久妞妞| www.黄色在线| 日韩美女一区二区三区四区| 一区二区三区四区日本视频| 亚洲一区二区三区色| 波多野结衣中文字幕一区二区三区| 91在线视频免费播放| 欧美成人自拍视频| 久久99精品久久久久久园产越南| 色综合五月婷婷| 都市激情亚洲色图| 国产美女在线观看| 欧美日韩综合另类| 国产69精品久久久久777| 日韩黄色一级视频| 久久久视频在线| 国产精品麻豆久久| 免费视频91蜜桃|