精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

北大伯克利聯手“拷問”大模型:最強Agent也才40分!新基準專治“不聽話”的AI分析師

人工智能 新聞
這項名為IDA-Bench的新基準,就是為了模擬真實世界中這種“邊想邊改”的分析場景而生。

給大模型當老師,讓它一步步按你的想法做數據分析,有多難?

結果是,連Claude-3.7和Gemini-2.5 Pro這樣的頂尖選手,都開始“不聽話”了。

在一個全新的測試基準中,它們面對多輪、不斷演進的指令,最終的任務成功率最高僅有40%。

這項名為IDA-Bench的新基準,就是為了模擬真實世界中這種“邊想邊改”的分析場景而生。

圖片

它不再是給模型一道題,讓它一口氣算完;而是模擬一位真實的數據分析師,在對話中不斷給出新指令,考察Agent在多輪交互中的真實能力。

可以說,專治各種“自作主張”和“一意孤行”的AI。

值得一提的是,這項工作由一支星光熠熠的團隊打造,匯集了北京大學與加州大學伯克利分校的頂尖學者,其中不乏機器學習泰斗Michael I. Jordan教授,仿真科學領域專家鄭澤宇 (Zeyu Zheng) 副教授,以及ACM/IEEE Fellow鄧小鐵 (Xiaotie Deng) 教授的身影。

“不聽話”的AI,問題出在哪?

目前,我們看到的很多大模型數據分析工具,比如OpenAI、Gemini和Claude的網頁應用,能力已然非常強大。

但現有的評估基準,大多側重于單輪互動:用戶給出一個明確的、預設好的任務,然后看Agent能否成功執行??涩F實世界的數據分析,遠非如此。

真實的數據分析師,工作流程是迭代式、探索性的。他們會先查看數據分布,再決定如何處理異常值;會根據初步結果,調整后續的分析策略。這些決策充滿了基于領域知識的“主觀性”,指令也是一步步演進的。

現有基準恰恰忽略了這種動態交互過程,因此無法全面評估Agent在真實協作場景下的可靠性。

IDA-Bench:給AI一場真實的“隨堂測驗”

為了解決這一痛點,IDA-Bench應運而生。它旨在忠實地反映真實數據分析的主觀性和交互性特征。

整個測試框架包含四大核心組件:

  • 指令材料 (Instruction Materials):從真實的、復雜的Kaggle數據分析項目(Python notebooks)中提取,包含背景知識、分析目標和專家的“主觀洞察”。
  • 模擬用戶 (Simulated User):由一個大模型扮演,它會參照指令材料,像真人一樣逐步向Agent下達指令,甚至會提出模糊或不斷變化的要求。
  • Agent:即被測試的大模型,它的任務是嚴格遵循“用戶”的指令,通過編寫和執行代碼來完成任務。
  • 沙盒環境 (Sandbox Environment):一個安全隔離的環境,Agent可以在其中執行代碼、訪問數據,并像在Jupyter中一樣保持上下文。

圖片

△圖1:(左) IDA-Bench的測試場景 ,(右) IDA-Bench中的任務軌跡示例

為了確保任務的真實性和時效性,防止數據污染,IDA-Bench的構建流程完全自動化。它能持續從Kaggle上發布的最新項目中提取任務,經過篩選、預處理和人工檢查后,生成新的測試用例。

圖片

△圖2: IDA-Bench的自動化構建流程

Agent慘遭滑鐵盧,最高分僅40

在這樣一套“嚴刑拷打”下,各大模型紛紛現出原形。

初步評估結果顯示,即便是最先進的大模型,成功率也不足50%。

具體來看,Gemini-2.5-Pro、OpenAI o4-mini和Claude-3.7-Sonnet-Thinking表現位列第一梯隊,但其“基準達成率”(即結果達到或超過人類基準)也僅為40%。

而DeepSeek系列中,作為指令模型的DeepSeek-V3(24%)表現明顯優于其“思考型”模型DeepSeek-R1(12%),這揭示了一個核心挑戰:在遵循指令和自主推理之間取得平衡,對當前Agent來說非常困難。

圖片
△表1: 各大模型在IDA-Bench上的表現

此外,Agent們在任務中還會犯下各種低級錯誤,導致提交結果無效。其中最主要的原因是根本沒有生成提交文件,這往往源于模型的“幻覺”。

圖片

“自信”的Claude vs “謹慎”的Gemini

深入分析失敗案例,研究團隊發現不同模型展現出了迥異的“性格”。

Claude-3.7DeepSeek-R1表現得像個“過度自信”的實習生。

它們不怎么遵循用戶的具體指令,而是主動推進分析流程,結果常常因為“自作主張”而錯過了關鍵步驟和信息。比如,用戶建議用一種新方法改進模型,Claude-3.7不等嘗試就直接否定,并提交了之前效果較差的結果。

相比之下,Gemini-2.5-Pro則像一個“過度謹慎”的助理。它每走一步都要反復向用戶尋求確認,有時一個簡單的數據清洗操作能來回溝通30輪,最終因超過回合數限制而任務失敗。

  • 幻覺或夸大:許多Agent會聲稱執行了并未進行的操作,比如號稱“優化”了參數,但實際只是隨機設置;更有甚者,憑空捏造從未生成的代碼和不存在的數字結果。
  • 格式錯誤:提交文件的列名大小寫弄反,或數據類型不對(如在二分類任務中,要求提交標簽“0”或“1”,模型卻提交了標簽為“1”的概率),都是常見的低級錯誤。
  • 固守首次嘗試:一些Agent在初期會做出一個簡單粗暴的嘗試(比如在預測任務中,模型在初期會直接用訓練集的中位數作為預測值),然后就“固執己見”,在后續交互中不再根據新指令開發更復雜的模型。
  • 級聯錯誤:當一個代碼塊中途執行失敗時,Agent有時會“假裝”它成功了,導致后續代碼塊因為引用不存在的變量而出錯,引發連鎖反應。

這些發現凸顯了當前LLM Agent在真正成為可靠數據分析助手之前,仍需在理解、遵循和交互能力上進行大量改進。

論文鏈接:
https://arxiv.org/abs/2505.18223

項目主頁:
https://github.com/lhydave/IDA-Bench

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-05-26 08:30:00

2011-08-17 13:51:14

2024-09-11 13:04:53

2009-04-15 20:56:40

Linux系統用戶

2022-03-28 13:25:42

AI扶貧機器之心

2025-07-07 13:50:56

AI編程算法

2023-05-26 17:20:29

模型工具

2022-07-15 14:57:43

AI語言

2009-04-13 12:05:09

Linux服務器用戶

2025-07-02 08:40:00

智能體AI模型

2023-05-04 14:55:02

模型AI

2025-05-28 18:43:17

AI模型數據

2023-04-04 13:17:00

GPUCMU開源

2024-11-26 13:40:00

2025-05-15 09:10:00

2025-02-14 09:20:00

模型數據訓練

2023-11-14 07:47:42

IGN擴散模型

2023-04-07 09:28:31

模型訓練

2023-05-19 13:34:02

2025-04-18 08:42:52

模型推理AI
點贊
收藏

51CTO技術棧公眾號

国产精品诱惑| gogogo高清在线观看免费完整版| 伊人久久亚洲美女图片| 亚洲精品美女在线| www.夜夜爽| 青草影视电视剧免费播放在线观看| 成人av在线电影| 国产精品久久久久久久av大片| 老司机成人免费视频| 国偷自产av一区二区三区| 欧美中文一区二区三区| 2022中文字幕| 99青草视频在线播放视| 丁香激情综合国产| 国产精品中文在线| 国产成人精品片| 亚洲国产成人精品女人| 亚洲精品一二区| aaaaaaaa毛片| 欧美一级大片| 亚洲一区二区三区四区不卡| 亚洲一区二区精品在线| 日韩国产福利| 成人黄色大片在线观看 | xxx.xxx欧美| 国产精品丝袜一区| 久久综合中文色婷婷| 国产黄色免费大片| 久久国内精品视频| 国产精品av在线播放| 日本一本高清视频| 欧美精品首页| 久久九九热免费视频| 中文字幕第20页| 乱亲女h秽乱长久久久| 欧美一区二区三区色| 一道本视频在线观看| 蜜桃av在线播放| 亚洲高清一区二区三区| 国产又大又长又粗又黄| 1024视频在线| 中文字幕巨乱亚洲| 亚洲a∨一区二区三区| 免费成人av电影| 久久综合中文字幕| 精品欧美日韩在线| 五月激情婷婷网| 成人毛片老司机大片| 99高清视频有精品视频| 国产精品嫩草影院精东| 久草精品在线观看| 成人免费视频97| 国产口爆吞精一区二区| 麻豆国产精品一区二区三区| 国产精品久久久久久久久久小说| 亚洲欧美偷拍一区| 老鸭窝91久久精品色噜噜导演| 2020欧美日韩在线视频| www.日本精品| 日韩成人午夜电影| 国产精品网址在线| 国产又粗又大又黄| 国产自产2019最新不卡| 91精品婷婷国产综合久久蝌蚪| 国产精品老熟女视频一区二区| 国产在线精品一区二区三区不卡 | 8x国产一区二区三区精品推荐| 欧美精品 日韩| 亚洲热在线视频| 99re8这里有精品热视频免费| 欧美tk—视频vk| 久久精品女同亚洲女同13| 任你躁在线精品免费| 亚洲精品一区在线观看香蕉 | 中文乱码免费一区二区| 一区二区不卡视频| 啪啪免费视频一区| 欧美日韩国产一中文字不卡 | 国产在线观看免费一区| av一区二区三区四区电影| 欧美视频xxx| 久久精品综合网| 中文字幕精品一区日韩| 四虎影院观看视频在线观看| 亚洲国产aⅴ天堂久久| 日本成年人网址| 日本亚洲欧洲无免费码在线| 欧美一区中文字幕| 人妻无码中文久久久久专区| 国产一区二区三区电影在线观看| 啊v视频在线一区二区三区| 精品无码m3u8在线观看| 久久天堂成人| 亚洲一区二区三区香蕉| 亚洲欧美日韩免费| 亚洲欧洲成人自拍| 日本丰满少妇xxxx| 欧美日韩一区二区三区四区五区六区| 亚洲一区有码| 亚洲第一精品自拍| 青青青视频在线免费观看| 午夜激情一区| 国产精品吹潮在线观看| 亚洲国产精品二区| 国产婷婷色一区二区三区在线| 亚洲自拍偷拍一区二区三区| 小h片在线观看| 欧美福利一区二区| 亚洲国产中文在线| 亚洲自拍偷拍综合| 欧美婷婷精品激情| 高清日韩欧美| 日韩视频免费在线观看| 日本韩国欧美中文字幕| 国产一区二区视频在线| 日韩精品欧美在线| www.九色在线| 日韩欧美一级二级三级久久久| 麻豆精品免费视频| 国内精品久久久久久久97牛牛 | 日韩精品中文字| 国产av 一区二区三区| 久久精品九九| 国产一区二区精品免费| 超碰最新在线| 欧美探花视频资源| 国产男男chinese网站| 国产精品a级| 成人国产精品久久久久久亚洲| 免费av在线电影| 狠狠久久五月精品中文字幕| 日批视频免费看| 亚洲综合激情在线| 国产日韩精品综合网站| 中文字幕在线免费| 在线观看日韩精品| 91中文字幕永久在线| 99在线热播精品免费99热| dy888夜精品国产专区| 黄色一级片在线观看| 欧美日韩国产另类一区| 久操视频在线观看免费| 日韩成人av影视| 日韩在线观看电影完整版高清免费| 成入视频在线观看| 亚洲国产精品久久久久秋霞蜜臀 | 日本韩国欧美一区| 天天插天天射天天干| 精品成人久久| 国产乱码一区| 精品极品在线| 日韩精品视频观看| 亚洲欧美综合自拍| 久久久久国色av免费看影院| 激情六月丁香婷婷| 国产欧美高清视频在线| 国产精品第8页| 无遮挡动作视频在线观看免费入口 | 日韩精品视频在线观看免费| 日韩手机在线观看| 26uuu国产日韩综合| 无码aⅴ精品一区二区三区浪潮| 婷婷精品视频| 国产精品96久久久久久| 阿v免费在线观看| 欧美日韩精品一区二区三区四区 | 欧美日本一区| 韩国成人av| 欧美电影免费观看| 中文字幕欧美精品在线| 国产美女免费视频| 亚洲狠狠爱一区二区三区| 黄色录像a级片| 视频一区国产视频| 中文字幕一区二区三区有限公司| 日韩精品成人| 欧美一级大胆视频| 天堂资源在线中文| 精品黑人一区二区三区久久 | 久久精品导航| 亚洲精品一区二区三| 精品久久免费| 7777精品视频| 四虎久久免费| 精品久久国产字幕高潮| 国产一区二区视频免费| 国产精品久久久久久久第一福利| 性生活在线视频| 裸体素人女欧美日韩| 一区二区精品在线观看| 97视频一区| 国产精品99久久99久久久二8| av黄色在线| 亚洲男子天堂网| 国产免费高清av| 欧美色图在线视频| 卡通动漫亚洲综合| 国产亚洲成av人在线观看导航| www.成年人| 性感少妇一区| 国产女人18毛片| 精品国产午夜| 国产精品一区二区欧美| 亚洲狼人在线| 日本精品久久中文字幕佐佐木| 国产一二区在线观看| 亚洲精选中文字幕| 精品人妻无码一区二区色欲产成人| 第一福利永久视频精品| 美女福利视频在线观看| 中文字幕第一页久久| 美女网站视频在线观看| 激情综合一区二区三区| 大肉大捧一进一出好爽视频| **女人18毛片一区二区| 日韩欧美在线观看强乱免费| 久久精品66| 91精品网站| 亚洲精品三区| 国产精品一区专区欧美日韩| 欧亚av在线| 久久久亚洲成人| 成人影院在线观看| 在线电影av不卡网址| 亚洲 另类 春色 国产| 日韩一级二级三级精品视频| 中文字幕永久在线观看| 色香蕉成人二区免费| 日韩污视频在线观看| 亚洲一区二区三区三| 欧美黄片一区二区三区| 亚洲视频香蕉人妖| 操她视频在线观看| 国产精品三级av在线播放| 亚洲色成人网站www永久四虎| 成人爱爱电影网址| 免费在线观看日韩av| 国产精品一区二区免费不卡 | 久久躁狠狠躁夜夜爽| 成年人在线视频| 亚洲人成电影在线播放| 日韩精品视频无播放器在线看 | 久久久久噜噜噜亚洲熟女综合| 专区另类欧美日韩| 黄色a级片在线观看| 亚洲私人黄色宅男| 日本精品在线免费观看| 中文字幕中文字幕一区| 91传媒免费观看| 亚洲欧美日韩在线播放| 9999热视频| 一区二区三区久久| 国产精品suv一区二区69| 香港成人在线视频| 在线观看日本视频| 91国产福利在线| 一级特黄特色的免费大片视频| 欧美精品一二三四| 国产aⅴ爽av久久久久成人| 欧美丰满少妇xxxbbb| 精品国产av 无码一区二区三区| 欧美一级免费大片| 亚洲欧美高清视频| 亚洲第一页在线| 久草福利在线视频| 色妞在线综合亚洲欧美| 国产二区三区在线| 欧美激情一区二区三区高清视频| 搞黄网站在线看| 欧美专区在线观看| 黄色欧美视频| av一区观看| 亚洲图片久久| 国产成人三级视频| 亚洲免费观看| 五月婷婷丁香综合网| 国产一区二区三区美女| 小毛片在线观看| 日本一区二区免费在线观看视频| 亚洲女人久久久| 香蕉久久一区二区不卡无毒影院 | 久久99精品网久久| 蜜桃视频无码区在线观看| 99精品在线免费| 国产一区二区三区四区在线| 亚洲美女在线国产| 中文字幕第15页| 欧美疯狂性受xxxxx喷水图片| 六月婷婷综合网| 国产一区二区动漫| 秋霞在线视频| 国产精品久久77777| 99国产精品久久一区二区三区| 欧美极品日韩| 伊人色**天天综合婷婷| 免费无码av片在线观看| 精品一区二区三区影院在线午夜 | 国产精品久久久久影院亚瑟| 久久久久久国产精品免费播放| 色欧美片视频在线观看| www.麻豆av| 中文字幕欧美专区| 都市激情国产精品| 成人免费在线视频网站| 国产成人1区| 91黄色在线看| 狠狠色丁香久久婷婷综合丁香| 魔女鞋交玉足榨精调教| 亚洲最大成人网4388xx| 在线播放亚洲精品| 亚洲人成网在线播放| 黑人精品视频| 成人激情在线观看| 国产欧美日韩精品一区二区三区| 妞干网在线播放| 激情图区综合网| 精品人妻无码一区| 精品久久久久久中文字幕大豆网| 国产精品久久久久久69| 永久免费毛片在线播放不卡 | 欧美日本不卡| 国产乱女淫av麻豆国产| 国产日韩欧美不卡| 国产无人区码熟妇毛片多| 日韩欧美一区二区久久婷婷| 日韩欧美小视频| 国产精品免费一区| 女人丝袜激情亚洲| 久久久久久久久久久视频| 成人一区二区三区在线观看 | 欧美日韩国产限制| 风流老熟女一区二区三区| 久久精品视频在线观看| 成人国产一区| 天堂社区 天堂综合网 天堂资源最新版| 亚洲美女网站| yjizz视频| 亚洲成人av资源| 欧美一区二区三区黄片| 欧美大片在线看| 国产午夜精品一区在线观看| 影音欧美亚洲| 国产一区二区在线视频| 超碰在线国产97| 日韩精品一区二区三区swag | 亚洲电影一级片| 国产精品无码一区二区在线| 国产老女人精品毛片久久| 免费在线观看h片| 91精品国产入口| free性欧美hd另类精品| 97超级碰碰| 午夜欧美精品久久久久久久| 亚洲国产精品第一页| 亚洲午夜免费视频| 五月激情婷婷综合| 日韩av快播网址| 日韩精品1区| 亚洲成人手机在线观看| 一区二区三区色| 懂色av蜜臀av粉嫩av分享吧| 97视频com| 欧美美乳视频| 国产91色在线观看| 一区二区在线电影| 完全免费av在线播放| 国产麻豆精品久久一二三| 久久久.www| 亚洲免费中文字幕| 日本免费成人| 给我免费播放片在线观看| 久久免费国产精品| 国产一区二区三区中文字幕| 久99九色视频在线观看| 欧美顶级毛片在线播放| 国产三级国产精品国产专区50| 亚洲欧美一区二区三区久本道91| 亚洲欧美另类日韩| 欧美在线一级va免费观看| 日韩一区三区| 人妻av一区二区| 欧美日韩国产影片| 波多野结依一区| 亚洲不卡1区| 激情欧美一区二区| 日韩精品国产一区二区| 色婷婷综合久久久久| 高潮久久久久久久久久久久久久| 国产自偷自偷免费一区| 玉足女爽爽91| 国产区av在线| 肥熟一91porny丨九色丨| 青青草国产成人av片免费| 久一区二区三区| 中文字幕日韩欧美| 黄色成人美女网站| 手机免费av片| 一本一道久久a久久精品| av免费在线网站| 视频一区二区在线观看|