精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

人工智能 新聞
研究人員對比了“反思策略(Reflection)”和“N次推斷策略(BoN)”兩種策略。在Reflection策略中,通過利用SandboxFusion的反饋上下文對答案進行N次精煉,復現了自我精煉策略 [Madaan et al., 2024]。而在BoN策略中,僅進行N次推斷以獲得結果。

豆包代碼大模型,不小心給曝光了!

在字節開源的代碼大模型評估基準FullStack Bench里面,出現了此前字節未披露過的Doubao-Coder。

不過目前還只是Preview版,還并沒有上線。

它在多種編程語言上的性能表現如下,可以看到在閉源模型中排名第五。

圖片

今年6月,字節還發布了AI編程助手豆包MarsCode。據傳即由Doubao-Coder模型支撐。

目前,豆包MarsCode每月為用戶貢獻百萬量級代碼。

而回到這個評估基準,據介紹FullStack Bench是目前最全面的代碼評估數據集。

團隊還同步開源了可隨時測評代碼大模型的沙盒執行環境SandBox Fusion,單服務器即可部署,也可直接在線體驗

全新代碼大模型評估基準FullStack Bench

既然如此,那就先來了解一下這個最新評估基準。

有一說一,現在代碼大模型越來越卷,評估AI編程水平的“考卷”也被迫升級~

代碼評估基準可以幫助代碼大模型不斷優化。不過,當前的主流基準越來越難以反映代碼大模型的真實水平了。

主要體現在題目類型相對單調,覆蓋的應用領域和編程語言少,模型即便在考試中拿了高分,現實中可能還是難以應對復雜的編程問題。

為了更真實地評估AI編程水平,字節豆包大模型團隊聯合M-A-P社區,開源了全新代碼大模型評估基準FullStack Bench

圖片

這是一個專注于全棧編程和多語言編程的代碼評估數據集,它首次囊括了編程全棧技術中超過11類真實場景,覆蓋16種編程語言,包含3374個問題。

FullStack Bench的應用領域抽取自全球最大的程序員技術問答社區Stack Overflow,相比HumanEval等基準覆蓋的編程領域擴大了一倍以上。

此前業界基準難以反映真實世界代碼開發的多樣性和復雜性。

例如,HumanEval和MBPP中近80%數據只聚焦于基礎編程和高級編程問題;DS-1000中超過95%數據集中于數據分析和機器學習,且僅對Python語言進行評測;xCodeEval雖覆蓋多項任務,但基本局限于高級編程和數學領域;McEval和MDEval擴展了支持的編程語言,但應用領域仍局限于基礎編程和高級編程,未涉及更廣泛的場景。

為模擬全棧開發的實際應用場景,字節豆包大模型和M-A-P研究團隊分析了全球最大的程序員技術問答社區Stack Overflow上的問題分布,從中提煉出常見的真實編程應用領域。

團隊從Stack Overflow上隨機抽取了50萬個問題,并使用大模型為每個問題標注應用領域類型。

研究團隊篩選出占總問題數前88.1%的主要應用領域,其余領域歸類為“其他”。再通過對領域分布做適當調整來保證魯棒性,最終形成了FullStack Bench關注的超過11種應用場景及分布比例。

圖片

FullStack Bench包含3374個問題(中文及英文問題各占一半),每個問題均包括題目描述、參考解決方案、單元測試用例及標簽,總計15168個單元測試。

為保證評估準確性,每個問題內容均由相關領域的編程專家設計,并經AI和人工驗證進行質量復核。例如,數據分析相關問題,由數據工程專家提出并把關配套內容。

圖片

在初始數據集構建后,團隊根據主流代碼大模型測試結果,按問題難度、模糊性和可解性對數據質量進行了交叉評估和進一步完善。

FullStack Bench數據構成情況如下圖所示。

圖片

為方便開發者對大模型代碼能力進行系統性測試,豆包大模型團隊還開源了一款高效的代碼沙盒執行工具——SandboxFusion,用于評估來自不同語言的不同編程任務。

除了FullStack Bench,SandboxFusion還兼容超過10種廣泛使用的代碼評估數據集,支持23種編程語言。開發者在單服務器上即可輕松部署SandboxFusion,也可直接在GitHub上進行體驗。

圖片

評測結果:解決難題,閉源模型仍優于開源模型

發布評測基準及沙盒的同時,研究團隊也基于FullStack Bench測評了全球20余款代碼大模型及語言大模型的編程表現。

模型包括Qwen2.5-Coder、DeepSeek-Coder-v2、CodeLlama等開源模型,以及GPT-4o、OpenAI-o1、Doubao-Coder-Preview等閉源模型。對于開源模型,根據模型大小,分為五個組別:1B+、6B+、13B+、20B+和70B+。

跨領域表現:數學編程領域差異最大

得益于強大的推理能力,OpenAI o1-preview不出所料地領先。

不過,一些開源模型也有不錯的表現。如DeepSeekCoderv2-Instruct,在AP(高級編程)、OS(操作系統)和其他類別中得到高分,拉開了與其他開源模型的差距。

OpenCoder-1.5B-Instruct、Qwen2.5-Coder-7B-Instruct、Qwen2.5-Coder-14B-Instruct在其各自開源組別中拔得頭籌,并超越了一些更高參數級別的模型。

圖片

為了全面評估現有大語言模型在不同場景下的表現,研究團隊可視化了模型在FullStack Bench各領域的表現。

在BP(基礎編程)、AP(高級編程)、MA(數學編程)、ML(機器學習)和MM(多媒體)等領域中,模型表現差異顯著,其中以MA領域的差距最大

MA最佳表現者為OpenAI o1-preview(得分80.42),而最差的是CodeLlama-34B-Instruct(得分14.34)。數學編程要求模型同時具備數學和編程能力,那些在高度專業化代碼語料庫上訓練的模型,在MA領域往往表現較差。

這一結果進一步證明,FullStack Bench能夠更全面地評估模型的綜合編程能力。

圖片

跨語言表現:C++、C和Ruby上存較大差異

研究團隊對不同模型在多種編程語言上的性能表現進行了分析。

大多數模型在Bash編程任務中表現良好。然而,在C++、C和Ruby的表現上存在較大差異,這表明模型設計者可能在訓練語料庫中對這些語言進行了選擇性采樣。部分1B+的小型模型在D、R和Scala語言上的表現較差,其通過率低于10%,這表明它們的多語言處理能力都較弱。

圖片

由于SandboxFusion提供了來自編譯器的反饋,研究人員評估了模型在部分編程語言上的編譯通過率。實驗結果表明,編譯通過率與測試通過率之間存在正相關關系,但編譯通過并不意味著測試一定通過。同時,研究還探討了中英文表達對模型性能的影響。

解決難題,閉源模型普遍優于開源模型

不同模型在不同難度問題上的表現存在明顯差異??傮w而言,1B+模型和CodeLlama系列在所有難度級別上的表現均不盡如人意。其余模型在解決簡單問題時表現相似,但在中等難度問題上存在一定差距。對于難度較大的問題,閉源模型普遍優于開源模型。

圖片

使用SandboxFusion,可提升模型表現

研究人員對比了“反思策略(Reflection)”和“N次推斷策略(BoN)”兩種策略。在Reflection策略中,通過利用SandboxFusion的反饋上下文對答案進行N次精煉,復現了自我精煉策略 [Madaan et al., 2024]。而在BoN策略中,僅進行N次推斷以獲得結果。

結果如圖所示,“Reflection”策略明顯優于“BoN”,這表明SandboxFusion提供的反饋上下文具有較高的有效性。

圖片

了解這篇研究的詳情,可見文內Arxiv鏈接,或關注「豆包大模型團隊」公眾號,查閱更詳細解讀。

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-12-05 15:22:19

2013-07-31 16:56:08

系統級編程語言語言性能語言

2025-02-19 13:50:00

明星編程軟件

2011-05-05 10:58:13

應用商店App StoreBlackBerry

2012-11-23 13:09:38

PHP性能

2025-01-22 16:57:32

字節跳動豆包大模型

2025-04-10 14:30:12

2024-10-17 14:05:34

2024-02-27 13:38:16

微軟OpenAI模型

2023-05-16 20:47:38

2025-03-05 08:40:00

2014-03-21 10:45:33

FacebookHack

2025-08-12 09:14:00

2024-04-19 07:55:57

Llama 3模型人工智能開源

2023-09-19 13:48:31

AI數據

2025-03-13 06:34:49

2024-04-08 13:29:52

2024-05-15 10:59:40

火山引擎豆包扣子

2023-06-19 19:26:54

模型開源
點贊
收藏

51CTO技術棧公眾號

欧美丝袜激情| 亚洲AV无码精品自拍| 国产精品最新| 欧美日韩亚洲综合在线| 26uuu成人| 人妻无码中文字幕| 奇米色一区二区| 欧美国产亚洲精品久久久8v| 亚洲a v网站| 激情视频亚洲| 色婷婷久久综合| 久久久久久久综合日本| 欧美精品一区二区三区视频| 免费看a级黄色片| 日本一本在线免费福利| 国产亚洲精品bt天堂精选| 91老司机精品视频| 国产精品21p| 在线中文一区| 亚洲午夜精品久久久久久久久久久久| 亚洲一区日韩精品| 免费成人在线电影| 亚洲美女区一区| 日本成人三级电影网站| 男人天堂综合网| 蜜桃视频一区二区三区| 69久久夜色精品国产69| 蜜臀av午夜精品久久| 亚洲国产精品嫩草影院久久av| 欧美一级片在线| 中文字幕欧美人妻精品一区| freexxx性亚洲精品| 国产精品电影一区二区三区| 蜜桃精品久久久久久久免费影院 | 韩国无码一区二区三区精品| 视频欧美精品| 欧洲一区二区三区在线| 免费毛片网站在线观看| 在线观看午夜av| 中文字幕在线观看不卡视频| 日韩高清国产一区在线观看| 亚洲 美腿 欧美 偷拍| 国产免费观看av| 蜜臀91精品国产高清在线观看| 精品久久久久久最新网址| 五月天婷婷影视| 青青草国产一区二区三区| 91久久精品一区二区| 成年人视频观看| 国产直播在线| 亚洲午夜精品一区二区三区他趣| 欧美 国产 精品| 黄色av网站在线播放| 中文字幕一区二区视频| 亚洲精品久久久久久一区二区| 国产一二三在线观看| 2020国产精品| 欧美黑人3p| 黄色片在线播放| 国产欧美日韩亚州综合| 亚洲国产精品123| 亚洲图片88| 国产精品国产三级国产aⅴ无密码| 亚洲mv在线看| 黄在线免费观看| 亚洲靠逼com| 欧美中文字幕在线观看视频| 好久没做在线观看| 五月激情丁香一区二区三区| 午夜精品久久久久久久无码| 欧美黑人疯狂性受xxxxx野外| 日本韩国欧美在线| 色综合色综合色综合色综合| 爱情电影网av一区二区| 欧美一级精品大片| 欧美xxxxx精品| 国产va免费精品观看精品视频 | 国产在线视频91| 国产美女无遮挡永久免费| 国产传媒久久文化传媒| 国产一区二区精品在线| 久久精品蜜桃| 中文字幕亚洲一区二区av在线| 日韩人妻一区二区三区蜜桃视频| 菠萝蜜视频在线观看www入口| 91美女在线视频| 免费成人av| 九色综合狠狠综合久久| 国产欧美在线看| 国产v片在线观看| 人人视频精品| 亚洲综合在线五月| 免费欧美一级视频| 成人国产精品一区二区免费麻豆| 日韩一区二区免费在线观看| jizz日本免费| 久久国产小视频| 久久久久久伊人| 国产成人麻豆免费观看| 福利电影一区二区三区| 欧美日韩国产综合在线| 成人福利网站| 99热99re6国产在线播放| www.久久99| 日韩一级欧美一级| 国精品无码人妻一区二区三区| 久久精品国产99久久| 欧美激情久久久久| 欧美超碰在线观看| 国产不卡在线播放| 日本免费一区二区三区视频观看| 亚洲视频第二页| 日韩视频在线直播| 亚洲欧美视频在线| 欧美精品成人久久| 美国av一区二区| 免费h精品视频在线播放| 成a人片在线观看| 日韩欧美在线第一页| 亚洲美女高潮久久久| 日韩影院二区| 热99精品只有里视频精品| www.看毛片| 国产精品高潮久久久久无| 女人和拘做爰正片视频| y111111国产精品久久久| 中文字幕亚洲无线码在线一区| 好吊妞视频一区二区三区| 国产成人av一区二区| 亚洲图色在线| 欧美色网在线| 亚洲欧美变态国产另类| 国产精品第一页在线观看| 国产在线视频一区二区| 亚洲国产午夜伦理片大全在线观看网站| 岛国av在线网站| 日韩免费电影网站| 欧美成人777| 精品一区二区三区免费| 视频在线精品一区| 成在在线免费视频| 怡红院男人天堂| 色呦呦一区二区| 亚洲国产午夜精品| 亚洲熟妇av一区二区三区| 影音先锋男人的网站| 亚洲精品久久区二区三区蜜桃臀| 国产亚洲字幕| 精品91久久| www..com久久爱| 亚洲天堂第一区| 精品国产三区在线| 久久久国产精品免费| 在线观看国产精品入口男同| 欧美国产日本韩| 色综合手机在线| 日韩精品免费一区二区三区| 国产精品永久免费在线| 中文字幕在线免费| 欧美日韩激情一区二区三区| 免费看的av网站| av在线中文| 欧美三片在线视频观看| 亚洲色图日韩精品| 精品一区二区三区免费毛片爱| 香蕉视频在线网址| 国产情侣一区在线| 欧美激情一区二区三区高清视频| 蜜桃91麻豆精品一二三区| 亚洲成人av一区| 18深夜在线观看免费视频| 中文字幕无码毛片免费看| 日本久久久久久久久久久久| 美女网站在线看| 日韩第一页在线| 色一情一乱一伦| 国产精品卡一卡二卡三| 午夜免费视频网站| 99国产精品私拍| 久久久久久久久电影| 久久久免费看片| 国产综合久久久久久鬼色| 菠萝蜜视频在线观看入口| 欧美一级三级| 国产精品久久91| 羞羞视频在线观看免费| 亚洲电影免费观看高清完整版在线观看 | 看片的网站亚洲| 精品久久久无码人妻字幂| 日韩有码一区| 成人激情av在线| 爱情岛论坛亚洲品质自拍视频网站| 亚洲欧美激情精品一区二区| 国产精品久久无码一三区| 性欧美疯狂xxxxbbbb| av永久免费观看| 成人午夜激情片| 国产精品无码av无码| 欧美激情aⅴ一区二区三区| 欧美国产视频在线观看| 日韩精品一区二区三区中文 | 国产亚洲欧洲高清一区| 精品国产999久久久免费| 欧美午夜片在线免费观看| 人妻少妇精品一区二区三区| 久久人人97超碰com| 国产传媒免费观看| 亚洲综合精品四区| 女女百合国产免费网站| 国产尤物久久久| 国产a一区二区| 青青国产精品| 国产精品va在线| 国产传媒在线观看| 久久久精品视频成人| 国产原创av在线| 日韩av在线播放资源| av一区二区三| 欧美日韩国产系列| 香蕉影院在线观看| 午夜视黄欧洲亚洲| 亚洲国产精品免费在线观看| 日本一区二区在线不卡| 欧美无人区码suv| 国产成人综合网站| 国产欧美精品一二三| 秋霞电影网一区二区| 丰满人妻中伦妇伦精品app| 国产综合激情| 超碰10000| 999精品色在线播放| 日韩精品一线二线三线| 亚洲国产欧美日韩在线观看第一区 | youjizz.com在线观看| 欧美激情欧美| 亚洲欧美国产不卡| 精品国产1区| 精品日本一区二区| 久久中文字幕导航| 国产一区二区不卡视频在线观看| 亚洲日本视频在线| 99re在线观看| 麻豆精品久久| 91青青草免费在线看| 日本一区影院| 2022国产精品| 日韩三级网址| 不卡一区二区三区四区五区| 在线综合色站| 国产精品视频免费一区| 北条麻妃在线一区二区免费播放 | 国语自产精品视频在免费| 色黄网站在线观看| 欧美极品少妇xxxxⅹ免费视频 | 国产成人高潮免费观看精品| 一级毛片久久久| 青青草国产精品一区二区| 欧美美女日韩| 国产精品网站视频| 国产免费区一区二区三视频免费 | 欧美激情网友自拍| 高潮在线视频| 日韩av电影国产| 欧美在线va视频| 国产精品偷伦免费视频观看的| 91精品美女| 日韩影院精彩在线| 亚洲一区二区三区成人在线视频精品 | 亚洲精品18| 精品视频一区二区| 国产一区二区区别| 一区二区视频在线观看| 99久久国产综合精品成人影院| 男女爱爱视频网站| 亚洲精选一区| 午夜欧美福利视频| 国内成人精品2018免费看| 最新中文字幕日本| 久久一日本道色综合| 欧美视频一区二区在线| 一区二区不卡在线播放 | 欧美6一10sex性hd| 91sa在线看| 国产精品伦一区二区| 国产日产欧美a一级在线| 日韩中文字幕无砖| 欧美下载看逼逼| 国产精品久久久久久久| 日本一区午夜艳熟免费| 首页国产欧美久久| 香蕉视频xxxx| 久久亚洲二区三区| caoporn91| 欧美日韩中文在线| 99re只有精品| 亚洲欧美日韩网| 成人影院在线看| 欧美专区日韩视频| 精品午夜视频| 热re99久久精品国99热蜜月| 亚洲精品成人| 国产l精品国产亚洲区久久| 韩国精品免费视频| 性色av蜜臀av色欲av| 亚洲蜜桃精久久久久久久| 国产成人精品777777| 欧美r级电影在线观看| 国产精品视频一区二区久久| 欧美黑人狂野猛交老妇| 高清av一区二区三区| 国内成+人亚洲| 亚洲精品二区三区| 一本岛在线视频| 成年人午夜久久久| 精品国产视频在线观看| 欧美性一区二区| 四虎精品在线| 久久久久在线观看| 麻豆精品国产| 中文字幕制服丝袜在线| 日韩精品乱码免费| 菠萝菠萝蜜网站| 亚洲一区二区三区视频在线播放| 一本一道精品欧美中文字幕| 亚洲美女性视频| 黄色污网站在线观看| 成人女人免费毛片| 天天射综合网视频| www.精品在线| 国产欧美日韩亚州综合| 国产免费av一区| 亚洲精品成人久久电影| 国产理论在线观看| 国产有码一区二区| 日韩亚洲一区在线| 欧美成人福利在线观看| 国产欧美一区二区精品婷婷 | 中文字幕在线看高清电影| 亚洲成a人片综合在线| 午夜精品久久久久久久99热黄桃 | 中文字幕一区久| 精品欧美国产| 国产精品婷婷| 中文字幕av网址| 日韩欧美成人区| 久草福利在线视频| 国产成人综合精品| 欧美日韩中文字幕一区二区三区| 色婷婷综合久久久久中文字幕| 久久影院午夜片一区| 五月婷婷激情视频| 亚洲视频专区在线| 成人在线高清| 中文有码久久| 国产剧情av麻豆香蕉精品| 欧美偷拍第一页| 日韩免费成人网| 黄色aa久久| 欧美黑人3p| 久久精品国产99| 美国黄色小视频| 欧美xxxxx牲另类人与| а√在线天堂官网| 麻豆亚洲一区| 卡一卡二国产精品| 免费中文字幕在线| 精品电影一区二区| 手机在线观看av| 日产精品久久久一区二区| 久久精品国产亚洲aⅴ| www.xxxx日本| 亚洲国产日韩欧美在线图片| 欧美黑人疯狂性受xxxxx野外| 亚洲精品中文字幕在线| 国内精品国产成人| 中文字幕一区二区三区手机版| 亚洲男人的天堂在线播放| 精品国产黄a∨片高清在线| 91精品国产吴梦梦| 久久国产精品久久久久久电车| 一本大道久久加勒比香蕉| 一出一进一爽一粗一大视频| 亚洲欧美激情小说另类| 亚洲黄色一级大片| 秋霞av国产精品一区| 国产大片一区| 国产又粗又猛又色| 欧美午夜一区二区三区免费大片| 在线看女人毛片| 快播日韩欧美| 国产一区二区三区精品欧美日韩一区二区三区 | 一区二区三区四区欧美日韩| 国产一区二区不卡| 91九色丨porny丨肉丝| 日韩在线视频网站| 日本一区福利在线| 国产不卡的av| 色婷婷精品大在线视频| 亚洲国产精品精华素| 欧美日韩国产精品一区二区|