精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

微軟原WizardLM團隊:代碼大模型WarriorCoder,性能新SOTA

人工智能 新聞
一些方法設計了各種數據飛輪來生成 instruction 數據,如 Self-Instruct,Evol-Instruct 等。這些方法通過多種數據增強手段來構建 instruction 數據,在這些數據上進行訓練可以有效提升模型的代碼生成能力。

  • 論文標題:WarriorCoder: Learning from Expert Battles to Augment Code Large Language Models
  • 論文鏈接:https://arxiv.org/pdf/2412.17395

01 背景

近年來,大型語言模型(LLMs)在代碼相關的任務上展現了驚人的表現,各種代碼大模型層出不窮。這些成功的案例表明,在大規模代碼數據上進行預訓練可以顯著提升模型的核心編程能力。除了預訓練外,一些通過 instruction 數據對 LLM 進行 post-training 的方法,也使得模型在對指令的理解和回答的質量等方面取得了顯著提高。然而,post-training 的效果在很大程度上依賴于可用的高質量數據,但是數據的收集和注釋存在著不小的挑戰。

為了解決上述挑戰,一些方法設計了各種數據飛輪來生成 instruction 數據,如 Self-Instruct,Evol-Instruct 等。這些方法通過多種數據增強手段來構建 instruction 數據,在這些數據上進行訓練可以有效提升模型的代碼生成能力。然而,如圖 1 所示,這些方法仍然依賴于對現存數據集進行擴展并需要調用私有 LLM(如 GPT-3.5、GPT-4 等),使得數據收集成本較高。此外,有限的數據來源和用于注釋的 LLM 也限制了數據的多樣性,并繼承了有限的私有 LLM 本身固有的系統偏見。

圖 1

本文提出了 WarriorCoder,一種全新的代碼大模型的數據飛輪訓練范式,模型通過學習專家對抗的方式來集成各個代碼專家大模型的優點。如圖 1 所示,各個代碼專家大模型兩兩對戰,攻擊者在其自身的專業領域內挑戰對手,目標模型則向這些對戰中的勝者學習。與之前的方法不同,之前的方法大多都依賴現有開源數據集,將這些數據集做為種子數據去合成和增強,而 warriorCoder 是從 0 到 1 的生成數據不需要種子數據,并且該方法可以融合多個代碼專家大模型的優勢,而不是僅僅蒸餾個別模型的優勢。此外,本文提出的方法消除了在數據收集過程中對人工參與和私有 LLM 的依賴,可以以極低成本收集高質量、多樣化的訓練數據。實驗結果表明,warriorCoder 不僅僅是在代碼生成任務中達到了當前的 SOTA,還在 code reasoning 和 libraries using 等 benchmark 上也取得了卓越的成績,可謂是代碼六邊形戰士。

02 方法

本文構建了一個代碼大模型的競技場。在這里,最先進的代碼專家大模型相互對抗,每個模型利用其已經掌握的知識挑戰其他模型,而其余模型則擔任裁判評估對抗結果。目標模型隨后從這些對抗中的勝者學習,逐步整合所有競爭者的優勢。本文將參賽者(代碼專家大模型)視為一個組,通過組內相對優勢答案來優化模型,這一點與 GRPO 有著異曲同工之妙。

圖 2

2.1 Competitors Setting

參賽者的能力決定了 WarriorCoder 的最終表現。理論上,從更大、更強的參賽者池中獲得的訓練數據多樣性更強、質量更高,最終訓練出來的模型的性能也就越好。在每一輪競技場中,只有一對代碼專家被選為競爭者,其他的則作為裁判。本文從 BigCodeBench 排行榜中選取了五個 75B 以內的先進大模型 ——Athene-V2-Chat、DeepSeek-Coder-V2-Lite-Instruct、Llama-3.3-70B-Instruct、Qwen2.5-72B-Instruct 和 QwQ-32B-Preview。值得注意的是,這五個大模型均為開源大模型,WarriorCoder 僅基于這些開源大模型的對抗就得到了優異的性能。當然,WarriorCoder 也能夠從強大的私有大模型中學習。

2.2 Instruction Mining from Scratch

對于一對對手 ——A 和 B(其中 A 為攻擊者,B 為防守者),對抗的第一步是在 A 擅長的領域挑戰 B,這就需要了解 A 在訓練過程中學到了什么。然而,幾乎當前所有的開源大模型都未公布其核心訓練數據,這使得攻擊者擅長的知識變得極為困難。受 Magpie 的啟發,本文設計了一種基于對話補全的方式來挖掘大模型已掌握的能力。以 Qwen2.5 為例,如果要其生成一個快速排序算法,則完整的 prompt 格式如圖 3 所示。Prompt 應包括 system content、user content 以及與格式有關的特殊 token,如 “<|im_start|>”、“<|im_end|>” 等。

圖 3

而如果僅將前綴部分(本身無任何具體意義,如圖 4 所示)輸入模型,利用模型的補全能力就可以得到用戶指令(user content)。

圖 4

通過這種方式,在不同的生成參數配置下(例如不同的溫度值和 top-p 值)就可以收集到模型已經學習到的 instruction 數據。與傳統的數據合成不同,本文收集的 instruction 數據不是由模型合成的,而是直接從模型的分布中進行采樣得到的,這避免了模式過擬合、輸出分布偏移等問題。然而,這些指令可能會重復、有歧義、不清晰或過于簡單。為了解決這些問題,我們對數據進行去重,并采用裁判模型來評估其難度。本文將難度分為四個等級:Excellent、Good、Average、Poor。最終僅使用 Excellent 和 Good 兩個等級的指令,并使用 KcenterGreedy 算法對 instruction 數據進行進一步的壓縮。

2.3 Win-Loss Decision

挑戰者和防御者都要根據 instruction 數據生成回答,并由裁判(剩余的模型)投票決定輸贏:

然而,僅依賴于 \textit {局部得分} 來選擇獲勝者可能會帶來偶然性問題。由于投票會受到隨機性或評審者偏見等因素的影響,在某些指令下較弱的模型可能會比較強的模型獲得更多的投票,即便其回答并沒有真正比較強的模型更好。

為了解決這一問題,本文在決策過程中同時考慮局部偶然性和全局一致性。本文引入了全局得分的概念 ——Elo 評級。它能更全面地反映模型相對表現的變化,涵蓋不同時間和多次評估中的表現。通過引入 Elo 評級,可以在評估過程中同時考慮模型在單場比賽中的局部表現和在多輪比賽中的全局表現,從而提供一個更為穩健和準確的模型綜合能力度量,這有助于降低較弱模型由于偶然的、不具代表性的投票而獲勝的風險。

最后的 response 分數由 Elo 評級和裁判投票加權得到:

每一個 response 都要和所有對手的 response 比較,因此該分數代表了當前 response 的組內相對優勢。

2.4 Final Training

本文得到的數據格式為 instruction、來自于各個參賽者的 response、各 response 對應的分數。這種數據格式可以支持多種 post-training 方法,比如 SFT、DPO、KTO 等等。本文采用 SFT,將組內分數最高的 response 作為 gold output,使得 WarriorCoder 在訓練中可以融合各個參賽者的優勢,集百家之長。

03 實驗

3.1 主要結果

表 1 顯示了 WarriorCoder 在 code generation benchmark 上的表現。與同類工作相比,WarriorCoder 在 HumanEval、HumanEval+、MBPP 和 MBPP + 上取得了 SOTA。值得注意的是,WarriorCoder 完全不需要私有大模型(如 GPT-4 等)就取得了驚艷的效果。

表 1

此外在 code reasoning benchmark 和 libraries using benchmark 上,WarriorCoder 也取得了卓越的成績。如表 2 和表 3 所示,WarriorCoder 在絕大多數指標上表現最優,甚至超越了 15B 和 34B 等更大量級的模型。這也證明了本文提出的方法具有良好的泛化性,可以讓模型從多個代碼專家大模型處獲得多種不同的能力。

表 2

表 3

3.2 數據分析

本文還對所構造的訓練數據進行了分析,從 Dependence、Diversity、Difficulty 三個角度進行研究。

Dependence

此前的工作往往會基于一些現有的代碼數據集(如)進行擴展、數據增強,而本文則是完全從零開始構造全新的數據。如圖 5 所示,作者計算了訓練數據與兩個常用代碼數據集的重疊程度(rouge 指標),絕大多數指令與 codealpaca 和 codeultrafeedback 的 ROUGE 得分低于 0.3,表明它們與現有數據集中的指令在內容上存在較大差異。值得注意的是,挖掘出的指令中沒有任何一項 ROUGE 指標超過 0.6,這進一步證明了這些指令來源于專家大模型的內部分布,而非現有訓練數據的簡單復制或擴展。因此,這些指令更新穎、具有更高的獨立性,這對于訓練尤為寶貴。

圖 5

Diversity

表 4 展示了訓練數據的構成,涵蓋了 7 種不同的 code 任務,這也是為什么 WarriorCoder 能夠在多個 benchmark 上表現優異的原因。值得注意的是 code reasoning 僅占比 2.9% 就使得 WarriorCoder 在相關 benchmark 上具有驚人表現,這說明了本文提出的方法具有很大潛力,如果針對模型的弱點定向挖掘數據可以讓模型能力更上一層樓。此外,圖 6 的熱力圖也展示了參賽者對抗結果,即便是再強的模型也終究有表現不好的時候,而 WarriorCoder 僅向當前指令下分數最高的 winner response 學習。

表 4

圖 6

Difficulty

圖 7 展示了不同模型產生的指令的難度比例。大多數指令的難度處于 good 等級,得分在 6 到 8 之間。被評為 excellent(得分 9-10)的指令僅占數據集的一小部分,表明高度復雜或高級的任務相對較為稀少。作者將得分低于 6 的指令被排除在訓練集之外,因為它們往往要么過于簡單,要么過于模糊,這樣的指令會對訓練階段有害,甚至可能削弱模型的性能和泛化能力。

圖 7

04 相關資源

雖然作者當前并未開源模型,但是我們發現已經有人復現了作者的工作,地址如下:

項目鏈接:https://huggingface.co/HuggingMicah/warriorcoder_reproduce

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-09-08 09:02:00

2024-04-11 07:10:59

大語言模型AI人工智能

2023-07-27 13:58:19

2024-08-19 08:45:00

開源模型

2024-03-25 12:40:19

訓練模型

2025-09-01 08:54:00

2025-08-05 09:02:00

2021-08-30 15:41:23

代碼開源微軟

2023-09-27 14:04:42

2025-05-27 15:35:02

大模型技術AI

2024-04-02 09:17:50

AI數據開源

2024-11-25 07:10:00

NumPro視頻大模型AI

2024-04-23 13:37:00

數據訓練

2024-06-04 14:09:00

2025-01-22 10:15:00

2023-05-11 15:24:41

代碼模型

2025-01-26 11:00:00

2025-04-16 09:20:00

虛擬模型數字

2023-11-20 22:02:54

開源模型
點贊
收藏

51CTO技術棧公眾號

欧美精品国产| 亚洲无线观看| 国产精品国产三级国产aⅴ中文 | 久久久亚洲综合网站| 国产无精乱码一区二区三区| 国产一区在线电影| 欧美性生活大片免费观看网址| 日韩精品一区二区三区丰满| 亚洲影院一区二区三区| 中文视频一区| 日韩电影第一页| 青青草久久伊人| 男插女视频久久久| 26uuuu精品一区二区| 欧美一级淫片丝袜脚交| 成人在线观看免费高清| 秋霞午夜一区二区三区视频| 欧美性生活大片免费观看网址 | 视频国产一区| 欧美一区二区网站| 日韩精品视频久久| 国产原创在线观看| 91视频在线观看免费| 国产精品中文在线| 久久网中文字幕| 不卡中文字幕| 亚洲精品www| 亚洲 欧美 另类人妖| 俄罗斯一级**毛片在线播放| 欧美国产丝袜视频| 国内精品视频免费| av网站免费播放| 七七婷婷婷婷精品国产| 亚州国产精品久久久| 网站永久看片免费| 视频小说一区二区| 日韩三级精品电影久久久| 亚洲成熟丰满熟妇高潮xxxxx| www国产在线观看| 久久综合九色综合欧美亚洲| av免费观看久久| 中文字幕视频免费观看| 老鸭窝毛片一区二区三区| 欧美激情视频在线观看| 久久精品色妇熟妇丰满人妻| 台湾亚洲精品一区二区tv| 精品国产三级电影在线观看| 中文av字幕在线观看| 625成人欧美午夜电影| 亚洲一区在线观看免费观看电影高清 | 男人天堂2024| 一区在线播放| 裸体女人亚洲精品一区| 影音先锋男人资源在线观看| 女人av一区| 日韩毛片中文字幕| 国产+高潮+白浆+无码| 日韩精品一级| 欧美一区二区精品在线| 天天插天天操天天射| 亚洲国产福利| 调教+趴+乳夹+国产+精品| 日韩精品一区二区免费| www.在线视频| 亚洲精品少妇30p| 自拍偷拍99| 黄色免费在线观看网站| 国产精品久久久久久久久果冻传媒| 农村寡妇一区二区三区| 婷婷伊人综合中文字幕| 不卡视频一二三四| 国产区日韩欧美| 人妻少妇一区二区三区| 91丨九色丨国产丨porny| 91精品在线观| 99久久久久久久| 国产suv精品一区二区6| 99在线免费观看视频| 成人av一区二区三区在线观看| 精品一区二区久久| 亚洲qvod图片区电影| 国产精品久久久久久久免费| 国内精品在线播放| 91国产在线免费观看| www.日韩在线观看| 99视频精品全部免费在线| 精品国产乱码久久久久软件| 天天操天天干天天插| av一区二区久久| 欧美精品成人一区二区在线观看| 水莓100在线视频| 国产视频亚洲色图| 中文字幕免费在线不卡| 97caopron在线视频| 亚洲一区二区三区不卡国产欧美| 麻豆映画在线观看| 成入视频在线观看| 色av成人天堂桃色av| 一起操在线视频| 在线视频亚洲欧美中文| 亚洲精品有码在线| 日本午夜精品视频| 国内精品久久久久久久97牛牛 | 蜜桃视频无码区在线观看| 久久这里只有精品一区二区| 亚洲午夜小视频| 精品爆乳一区二区三区无码av| 国产亚洲激情| 日本一欧美一欧美一亚洲视频| 亚洲网站免费观看| 岛国精品一区二区| 日韩精品av一区二区三区| 成人黄视频在线观看| 欧美日韩国产一区在线| 日本肉体xxxx裸体xxx免费| 国产精品视屏| 色狠狠久久aa北条麻妃| 黄色激情视频在线观看| 日韩精品一级二级| 97久久人人超碰caoprom欧美| 日本中文字幕电影在线观看| 亚洲私人影院在线观看| 日韩网址在线观看| 18国产精品| 色婷婷综合成人| av大片在线免费观看| 国内精品久久久久影院色| 欧美激情第六页| 91精品国产黑色瑜伽裤| 欧美嫩在线观看| 五级黄高潮片90分钟视频| 99热精品久久| 国产精品第100页| 少妇喷水在线观看| 亚洲色图欧洲色图婷婷| 中文字幕国产传媒| 久久夜色电影| 久久久久久久一| 国产男男gay体育生网站| 国产女人18毛片水真多成人如厕| 国产一区二区四区| 国产专区精品| 日韩一区二区三区xxxx| 国偷自拍第113页| 高清国产一区二区| 午夜久久久久久久久久久| 亚洲成人不卡| 亚洲美女视频网站| 99热只有这里有精品| 国精品**一区二区三区在线蜜桃| 日韩精品一区二区三区外面 | 日韩夫妻性生活xx| 国产成人免费av| 免费在线超碰| 一区二区三区加勒比av| www.桃色.com| 你懂的网址国产 欧美| 国产精品爽黄69| 成人在线观看黄色| 欧洲精品中文字幕| 五月天精品视频| 免费在线欧美黄色| 欧美日韩亚洲在线| 校园春色亚洲色图| 国产亚洲aⅴaaaaaa毛片| 男人天堂av在线播放| 91网站黄www| 激情五月开心婷婷| 国产欧美日韩精品一区二区三区| 日本免费在线精品| 久草在线青青草| 欧美在线免费观看视频| av黄色免费网站| 日韩激情一二三区| 亚洲一区三区电影在线观看| 电影在线观看一区二区| 综合国产在线视频| 国产精品无码天天爽视频| 亚洲天堂精品在线观看| 两女双腿交缠激烈磨豆腐| 欧美精品一线| 精品国产乱码久久久久| 英国三级经典在线观看| 在线播放日韩专区| 国产视频在线观看免费| 夜夜嗨av一区二区三区中文字幕| 日韩无码精品一区二区| 国产精品久久久久久久免费软件 | 欧美亚洲视频一区二区| 国内在线免费高清视频| 欧美高清视频在线高清观看mv色露露十八| 久艹在线观看视频| 国产成人亚洲综合a∨婷婷图片| 欧美激情亚洲天堂| 久久91精品| 亚洲在线观看视频| 深夜成人在线| 亚洲人成在线观看网站高清| 亚洲天堂网在线观看视频| 亚洲欧美日韩久久精品| 一级特黄a大片免费| 日本不卡中文字幕| 国产精品一二三在线观看| 色婷婷综合久久久久久| 91天堂在线视频| 一区二区三区四区日本视频| 精品国偷自产在线视频| 无码精品人妻一区二区| 欧美日韩午夜在线视频| 国产精彩视频在线| 国产精品久久三| 国产偷人妻精品一区| 久久av老司机精品网站导航| 久久久久久久久久久99| 久久性感美女视频| 国产一区二区无遮挡 | 26uuu另类亚洲欧美日本一 | 日本超碰一区二区| 国产a∨精品一区二区三区不卡| 黄色网址在线免费| 亚洲午夜女主播在线直播| 亚洲乱码在线观看| 欧美亚洲精品一区| 一级片免费网址| 亚洲女人****多毛耸耸8| 91中文字幕永久在线| 国产美女精品在线| av网站在线不卡| 久久精品人人| 青青艹视频在线| 欧美视频二区| 韩国黄色一级大片| 超碰成人久久| 欧美精品二区三区四区免费看视频 | 伊人久久大香线蕉综合网蜜芽| 99在线看视频| vam成人资源在线观看| 国产成人久久久| 最近在线中文字幕| 97视频色精品| 日本色护士高潮视频在线观看| 日韩网站免费观看高清| 成人亚洲性情网站www在线观看| 亚洲精品成人久久电影| 午夜精品一二三区| 日韩欧美一级二级三级| 一道本在线视频| 在线国产电影不卡| 国产成人精品777777| 天天综合色天天综合色h| 久久久久人妻一区精品色欧美| 亚洲三级在线看| 性猛交娇小69hd| 国产欧美一区二区精品性色| 精品夜夜澡人妻无码av| 91丝袜美腿高跟国产极品老师 | 可以免费看不卡的av网站| 91专区在线观看| 999国产精品永久免费视频app| 日韩av一区二区三区美女毛片| 欧美日韩精品在线一区| 亚洲欧洲日本国产| 亚洲精品2区| 国产va亚洲va在线va| 国产一区二区精品| 五月婷婷之综合激情| 久草精品在线观看| 色综合久久久无码中文字幕波多| 豆国产96在线|亚洲| 中文在线一区二区三区| 欧美极品aⅴ影院| 欧美三级黄色大片| 亚洲午夜激情网站| 中文字幕高清在线免费播放| 欧美人与禽zozo性伦| 亚洲黄色在线播放| 亚洲精品视频在线播放| 在线激情免费视频| 欧美疯狂性受xxxxx另类| 涩涩涩视频在线观看| 国产噜噜噜噜噜久久久久久久久| 久久免费精品| 你懂的网址一区二区三区| 97人人精品| 亚洲不卡中文字幕无码| 免费在线观看精品| bl动漫在线观看| 国产精品高潮久久久久无| 国产一级大片在线观看| 色先锋aa成人| 精品人妻一区二区三区三区四区| 亚洲精品视频免费在线观看| 黄色成年人视频在线观看| 97久久精品国产| 在线观看亚洲精品福利片| 精品国产二区在线| 91精品电影| 日韩一级片播放| av不卡一区二区三区| 色婷婷粉嫩av| 色欧美片视频在线观看| 亚洲美女综合网| 精品久久久91| 欧美性xxx| 国产一区再线| 欧美激情日韩| 视色视频在线观看| 26uuu另类欧美| 18精品爽视频在线观看| 欧美日韩精品一区视频| 久久av少妇| 97视频在线观看播放| 天堂va在线高清一区| 一区二区三区在线视频看| 亚欧美中日韩视频| 色哟哟视频在线| 一区二区三区毛片| 国产免费高清视频| 日韩视频一区在线| 成人国产精品入口免费视频| 久久天天狠狠| 亚洲黄色在线| 精品人妻一区二区免费| 亚洲精品视频观看| 国产精品久久久久久久久久久久久久久久久久 | 国产一区二区三区的电影| 岛国av免费观看| 依依成人精品视频| 国产高清免费av| 久久国产天堂福利天堂| 欧美男男gaygay1069| 日本视频一区在线观看| 免费永久网站黄欧美| 黄色正能量网站| 日韩欧美高清在线视频| 三级做a全过程在线观看| 97免费视频在线| 麻豆一区二区| 国产精品一区二区免费在线观看| 成人激情黄色小说| 日产欧产va高清| 亚洲精品国精品久久99热一| 日韩脚交footjobhdboots| 久久99导航| 老司机精品福利视频| 亚洲成人黄色av| 欧美日韩一卡二卡| 麻豆视频免费在线观看| 91嫩草在线视频| 欧美日韩综合| 私密视频在线观看| 欧美性猛交xxxx黑人| 成人精品一区二区三区校园激情| 国产精品99免视看9| 久久国产亚洲精品| 中文av字幕在线观看| 亚洲一区二区中文在线| 欧美一级免费片| 欧美一区二区三区免费视| 国产精品一线天粉嫩av| 中文字幕天天干| 亚洲女人****多毛耸耸8| 国模人体一区二区| 欧美一区在线直播| 日韩激情免费| 四虎国产精品永久免费观看视频| 亚洲狠狠爱一区二区三区| 欧美视频免费一区二区三区| 国产精品久久久久久久久久三级 | 欧美精品做受xxx性少妇| 成人台湾亚洲精品一区二区 | 一区二区三区久久网| 国产成人8x视频一区二区| 国产性xxxx高清| 在线观看久久久久久| 久久亚洲精精品中文字幕| 131美女爱做视频| 国产精品视频免费看| 国产成人精品a视频| 啪一啪鲁一鲁2019在线视频| 成人婷婷网色偷偷亚洲男人的天堂| 老女人性生活视频| 色乱码一区二区三区88| 蜜桃视频在线观看www社区| 国产福利久久精品| 日本亚洲免费观看| 久久精品女人毛片国产| 亚洲视频第一页| 亚洲精品a区| 国产主播中文字幕| 亚洲国产综合色| 永久免费av片在线观看全网站| 国产在线精品一区二区中文| 另类欧美日韩国产在线| 亚洲黄色三级视频| 久久影视免费观看| 国产伦精品一区二区三区视频| 久久久久亚洲av无码麻豆| 色婷婷综合激情| www欧美xxxx|