再見,數據標注!騰訊發布R-Zero框架,讓AI自己訓練自己
一個不再依賴人類數據標注的大模型訓練框架,它來了!
由騰訊AI Lab與美國圣路易斯華盛頓大學聯合開發的新框架“R-Zero”,成功展示出大語言模型(LLM)如何靠自己訓練自己,不再需要人類提供任務或答案。
圖片
論文地址:https://www.arxiv.org/pdf/2508.05004
這個突破的核心,是徹底擺脫人類標注數據的依賴,靠模型之間的博弈,自動生成、篩選和吸收新的訓練內容。
他們用強化學習的方法,讓兩個AI模型互相挑戰、不斷進化,從零開始構建出一個高質量的訓練體系。
圖片
R-Zero采用的結構,是將一個基礎模型一分為二,分別扮演“挑戰者”和“解答者”兩個角色,分別訓練,但共同進化。
挑戰者的目標是設計剛好夠難的問題,逼迫解答者必須進步;而解答者在解決這些問題中獲得獎勵和提升。
“不是找到答案難,而是提出好問題難?!?/span> 顯然,真正稀缺的是“好老師”,而不是“好學生”。
R-Zero就是通過自動化產生“老師”,讓模型不斷面對新的、更難的考題,從而不斷突破原有水平。
1. R-Zero的實驗結果
R-Zero的實驗效果遠超預期,尤其是在推理能力方面,不同規模的開源大模型均出現明顯性能躍升。
圖片
騰訊測試了多個模型家族,包括Qwen3系列和OctoThinker,在基礎模型上僅通過R-Zero訓練,就讓推理能力顯著提升。
例如,Qwen3-4B-Base在數學推理測試中得分平均提升+6.49分;Qwen3-8B-Base在三輪訓練后得分也提升了+5.51分。
更重要的是,這種通過數學任務訓練得到的推理能力,可以成功遷移到通用推理任務上。
在MMLU-Pro和SuperGPQA等通用領域測試中,Qwen3-4B-Base同樣表現出+7.54分的躍升,說明R-Zero訓練的不只是技巧,而是底層能力。
甚至在后續再用傳統標注數據微調時,經過R-Zero預訓練的模型也能表現得更好。
對企業而言,R-Zero的“從零數據”方式尤其具有吸引力,因為許多垂直行業領域,壓根沒有高質量的大規模數據集可供使用。
圖片
騰訊的這項研究直接繞開了數據收集、人工標注這些最昂貴、最耗時的流程,變相打破了AI發展的最大天花板:人類知識和數據的邊界。
2.但問題同樣存在
盡管R-Zero在性能上令人振奮,但它也暴露出自我進化AI的核心風險:數據質量的失控。
研究者發現,隨著挑戰者不斷提出更復雜的問題,解答者給出的“多數票答案”正確率開始下降。

第一輪訓練中,自動生成數據的準確率為79%,而到第三輪下降至63%。
相比之下,一個“強大而理想”的大模型如GPT-4,可以保持更高的正確率,這種落差說明自我進化的過程可能存在精度塌陷的風險。這是這個新范式面臨的最大瓶頸。
目前論文成果只是概念驗證,要真正做到持續穩定進化,不出現性能平臺期,是接下來整個研究社區要攻克的難關。
此外,R-Zero目前僅適用于“答案可驗證”的任務,如數學推理、科學問答等,其優勢來自于能夠清晰判斷“對”與“錯”。
那在沒有“標準答案”的領域怎么辦?比如營銷文案、情感寫作、摘要生成?
騰訊提出了未來的一種可能方向:引入第三個模型角色“驗證者”或“評論員”。
驗證者將不再判斷對錯,而是評價內容的質量,從多個維度給予評分。
如此一來,挑戰者繼續生成題目,解答者負責作答,而驗證者則提供反饋。三方協同進化,形成更復雜、更全面的智能結構。
或許會推動AI從“邏輯能力”邁向“主觀判斷”,不僅懂計算,更懂人類世界的模糊與語境。


































