精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

再看GAIA Benchamrk:他是如何推動Agent系統的發展的?

發布于 2025-9-24 07:01
瀏覽
0收藏

大家好,我是HxShine。今天再來看看GAIA Benchmark的細節,來看看GAIA如何成為Agent領域最經典的BenchMark之一。它由Meta FAIR、Hugging Face、AutoGPT等機構聯合發布。Title: GAIA: A Benchmark for General Al Assistants(GAIA:一個面向通用人工智能助手的基準測試)。

GAIA旨在評估通用AI助手的能力。與當前主流AI評測基MMLU等追求“對人類也困難”的任務不同,GAIA的理念是提出一系列對普通人來說概念上簡單,但對當今最先進的AI來說卻極具挑戰性的真實世界問題。這些問題需要模型具備推理、多模態處理、網絡瀏覽和工具使用等一系列基礎能力。

實驗結果揭示了驚人的差距:人類在GAIA上的準確率高達92%,而配備了插件的GPT-4得分僅為15%。這表明,盡管LLM在許多專業任務上已經超越人類,但在成為一個像普通人一樣穩健可靠的通用助手方面,還有很長的路要走。GAIA為衡量邁向通用人工智能(AGI)的真實進展提供了一個全新的、更腳踏實地的視角。

一、概述

? Title: GAIA: A Benchmark for General Al Assistants

? URL:?? https://arxiv.org/abs/2311.12983??

? Authors: Grégoire Mialon, Clémentine Fourrier, Craig Swift, Thomas Wolf, Yann LeCun, Thomas Scialom

? Institutions: FAIR, Meta, HuggingFace, AutoGPT, GenAI, Meta

? Code:?? https://huggingface.co/gaia-benchmark??

1 Motivation

? 現有基準如MMLU逐漸被刷飽和并存在數據污染風險: 許多現有的大語言模型(LLM)基準(如MMLU, GSM8k)正在被迅速“攻克”,性能接近飽和。這使得我們難以區分更先進模型的能力。此外,這些基準大多是靜態的,容易受到數據污染(即訓練數據中包含了測試題)的影響。

? 當前一些評測任務太難了,可能對人類專家都比較難,無法評估模型的真正水平: 當前的評測趨勢是尋找對人類專家也越來越難的任務(例如,高難度的STEM或法律問題)。然而,作者認為,一個真正的通用AI助手應該能夠穩健地完成普通人認為“簡單”但需要多個步驟和工具才能完成的任務。現有模型在這方面的能力是缺失的。

? 當前一些benchmark評估比較困難: 對于開放式生成任務,評估非常困難。自動評估難以衡量質量,人工評估成本高昂且難以擴展,而基于模型的評估(Model-based Evaluation)又會引入評估器本身的偏見。因此,需要一種能夠進行簡單、快速、可復現且客觀評估的方法。

2 Methods

GAIA的核心方法是人工精心設計一套問題,這些問題具備以下特點:1)對人類來說概念簡單;2)對AI來說需要復雜的、多步驟的操作才能解決;3)答案是唯一的、事實性的、簡短的,從而可以實現自動化、精確的評估。它通過對比人類和AI的巨大性能差異,來衡量AI助手的真實通用能力。例如下面展示了GAIA三個不同難度等級的示例問題。

? Level 1 要求從NIH網站查找一項臨床試驗的注冊人數,主要考察基礎的網絡搜索和信息定位能力。

? Level 2 給出了一張冰淇淋的營養成分表圖片,要求結合維基百科上關于美國聯邦黃油脂肪含量的標準進行計算,考察了多模態(OCR)、信息檢索和計算能力。

? Level 3 則是一個更復雜的任務,需要結合NASA的每日天文圖片、宇航員團隊信息和個人太空飛行記錄,進行多步查詢和篩選,才能找到最終答案。

再看GAIA Benchamrk:他是如何推動Agent系統的發展的?-AI.x社區

詳細方法和步驟:

GAIA的構建和評估方法主要包含以下幾個關鍵步驟:

1)核心設計原則:

? 真實世界與挑戰性 (Real-world and challenging): 問題要求模型與開放且動態的互聯網交互、處理多模態信息(如圖片、表格文件)、并在多個步驟上進行推理,而非局限于封閉的、純文本的環境。

? 易于解釋 (Easy interpretability): 由于任務對人類來說概念簡單,所以人類評估者可以輕松地理解和驗證模型的推理路徑是否正確。

? 不可欺騙性 (Non-gameability): 問題的答案被精心設計,無法通過簡單的網絡搜索直接在純文本中找到。這迫使模型必須真正地“解決”問題,而不是依賴記憶或數據污染。

? 使用簡單 (Simplicity of use): 問題以零樣本(zero-shot)的方式提出,答案是事實性的、簡潔且無歧義的(如一個數字、一個名字),這使得評估可以快速、自動化地通過“準完全匹配”進行。

2)問題構建與驗證流程:

? 問題創建 (Crafting): 由人類標注員基于真實場景創建問題。這些問題通常需要結合多個信息源(如一個指定的網站和一份附加的文檔)才能得出答案。

? 問題驗證 (Validating): 為了確保問題的無歧義性,每個問題都會交給另外兩名獨立的標注員來解答。只有當創建者和兩名驗證者都得出完全相同的答案時,該問題才被認為是有效的。這個嚴格的流程保證了評估的客觀性。

? 難度分級 (Increasing difficulty): 問題根據解決它所需的操作步驟數和工具種類,被分為三個難度等級(Level 1, 2, 3)。Level 1通常只需要很少的步驟和工具,而Level 3則需要任意長的動作序列和多種工具的組合。

3)能力覆蓋范圍:

? GAIA問題覆蓋了通用AI助手的多種核心能力,主要包括:網絡瀏覽 (Web browsing)、多模態理解 (Multi-modality)、代碼執行 (Coding) 和 多種文件類型讀取 (Diverse filetype reading)。

再看GAIA Benchamrk:他是如何推動Agent系統的發展的?-AI.x社區

4)評估執行:

? 論文中主要評估了GPT-4(帶插件和不帶插件)、AutoGPT等當時最先進的系統,并與人類標注員的得分和耗時以及簡單的搜索引擎基線進行對比。

通過這一套完整的方法論,GAIA構建了一個高質量的評測集,旨在為通用AI助手的發展提供一個可靠的“標尺”。

3 Conclusion

? 揭示了巨大能力差距: GAIA成功地證明了,盡管LLM在許多方面表現出色,但它們與人類在執行需要與現實世界交互的通用任務方面存在巨大的鴻溝(人類92% vs. GPT-4帶插件 15%)。

再看GAIA Benchamrk:他是如何推動Agent系統的發展的?-AI.x社區

? 提出了新的評測范式: GAIA的理念——關注對人簡單但對AI復雜的任務——為評估通用智能提供了一個新的、更實際的方向,強調系統的魯棒性和通用性,而不是在狹窄專業領域的能力。

? 構建了一個高質量、抗污染的基準: 通過嚴格的人工創建和驗證流程,GAIA提供了一個難以“應試”或被數據污染的基準測試,能夠更真實地反映AI助手的實際問題解決能力。

4 Limitation

? 缺乏對推理過程的評估: 目前GAIA只評估最終答案的正確性,而沒有評估模型得出答案的推理路徑(trace)。一個正確的答案可能來自錯誤的推理,評估推理過程是未來需要解決的問題。

? 高昂的構建成本: 設計并驗證一個高質量、無歧義的GAIA問題需要大約2個小時的人工時間,這使得大規模擴展該基準變得非常昂貴和耗時。

? 缺乏語言和文化多樣性: 當前的GAIA完全基于英語,且問題源主要來自英文網頁。這無法衡量AI助手在非英語環境下的表現,也限制了其全球適用性。

? 對模型和工具的依賴: 評估主要集中在有強大工具使用能力的閉源模型(如GPT-4),因為其他模型在這些任務上得分過低。未來需要更多具備工具調用能力的開源模型加入評測。

二、詳細內容

1 Example: GPT-4如何使用代碼解釋器來回答一個需要處理Excel表格的問題?

再看GAIA Benchamrk:他是如何推動Agent系統的發展的?-AI.x社區

2 GAIA問題中有許多附加文件,如xlsx, png, pdf等。

再看GAIA Benchamrk:他是如何推動Agent系統的發展的?-AI.x社區

3 一個完整的示例:提供了詳細的實驗數據,包括問題標注示例、驗證階段的統計數據以及最終的精確數值。

再看GAIA Benchamrk:他是如何推動Agent系統的發展的?-AI.x社區

三、總結

亮點1: 重新定義了AI評測的“難點”,從“智力難題”轉向“通用魯棒性”。 GAIA最大的創新在于,它沒有追求讓AI解決連人類專家都頭疼的問題,而是考察AI是否具備普通人那種、能可靠地完成一系列雖然繁瑣但邏輯清晰的日常任務的能力。這為AGI的研究提供了一個更加務實和關鍵的評估維度。

亮點2: 用無可辯駁的數據揭示了當前AI助手的“脆弱性”。 92% vs 15%的巨大差距,有力地說明了當前最頂尖的AI系統在面對開放、動態的真實世界任務時,其規劃、推理和工具使用的能力仍然非常不可靠。這給當前火熱的Agent領域潑了一盆“冷水”,也指明了未來最需要突破的方向。

亮點3: 提供了一套高質量、可信且難以“刷分”的評測框架。 GAIA通過嚴格的 人工設計和多重驗證,確保了問題的質量和無歧義性,同時其設計理念也使得它天然地抵抗數據污染。 這對于追求真實能力進步而非在排行榜上“刷分”的研究社區來說,具有極高的價值。

產業應用價值: 對于致力于開發AI助手和Agent應用的團隊來說,GAIA是一個絕佳的“試金石”和“導航圖”。它不再讓團隊滿足于在MMLU等學術基準上提升幾個百分點,而是直接暴露了產品在實際應用中可能遇到的核心短板,例如“模型無法穩定調用工具”、“在多步任務中丟失目標”、“無法從網頁或文件中準確提取信息”等。使用GAIA或其理念來構建內部的評測集,可以幫助團隊更準確地定位問題、指導研發方向,從而打造出真正可靠、有用的下一代AI助手,也推動了Agent的發展。

本文轉載自??NLP PaperWeekly??,作者:NLP PaperWeekly

已于2025-9-24 10:33:40修改
收藏
回復
舉報
回復
相關推薦
深田咏美中文字幕| 免费观看黄色大片| 亚洲一级特黄毛片| 在线中文字幕亚洲| 亚洲护士老师的毛茸茸最新章节| 国产精品视频一区二区三区四区五区 | 亚洲乱码在线观看| 久久久久久色| 久久6免费高清热精品| 在哪里可以看毛片| 亚洲精品在线国产| 欧美在线免费观看视频| 久久综合久久久久| 免费在线视频欧美| www成人在线观看| 91亚洲午夜在线| 亚洲婷婷综合网| 国产精品s色| 中文字幕精品久久久久| 成人免费无码大片a毛片| 国产成人免费av一区二区午夜| 精品女同一区二区三区在线播放| 欧美爱爱视频网站| 第九色区av在线| 97国产一区二区| 91精品免费| 91精东传媒理伦片在线观看| 午夜一区不卡| 国模私拍视频一区| 激情五月婷婷小说| 91精品一区二区三区综合在线爱| 亚洲欧美中文日韩在线v日本| 免费看91视频| 精品一区视频| 911国产精品| 亚洲最大综合网| 成人亚洲欧美| 欧美性猛交xxxx黑人猛交| 国产成人永久免费视频| 怡红院在线观看| 亚洲色图另类专区| 国产又爽又黄ai换脸| 波多野结衣在线网站| 国产午夜亚洲精品不卡| 欧美二区三区| 秋霞av在线| 久久人人爽爽爽人久久久| 久久免费99精品久久久久久| 人妻va精品va欧美va| 成人精品视频一区二区三区| 亚洲自拍高清视频网站| 99re只有精品| 国产精品亚洲а∨天堂免在线| 91精品久久久久久| 国产精品无码白浆高潮| 黑人巨大精品欧美一区| 成人两性免费视频| 99这里有精品视频| 国产精品一级黄| 成人三级在线| 日韩精品系列| 国产亚洲一区字幕| 色综合久久av| 成人黄色在线电影| 一卡二卡三卡日韩欧美| av女优在线播放| 免费在线小视频| 色呦呦国产精品| 免费涩涩18网站入口| 亚洲国产91视频| 日韩女优毛片在线| 人妻体内射精一区二区三区| 神马香蕉久久| 一区二区三区www| 神马久久精品综合| 黄色国产精品| 人人爽久久涩噜噜噜网站| 中文字幕在线播放不卡| 国产精品综合网| 精品乱码一区二区三区| 国产区视频在线播放| 国产精品蜜臀在线观看| 日韩一级片一区二区| cao在线视频| 欧美亚洲精品一区| 中国男女全黄大片| 精品黄色一级片| 欧美成人午夜激情视频| 国产又黄又粗又爽| 久久电影网站中文字幕| 国产精品免费一区二区三区在线观看 | 久久se精品一区精品二区| a级国产乱理论片在线观看99| 五十路在线视频| 中文字幕在线观看一区| 免费拍拍拍网站| av一区在线播放| 欧美va在线播放| 丁香六月激情综合| 伊人久久大香线蕉av超碰演员| 国产激情综合五月久久| 亚洲产国偷v产偷v自拍涩爱| 国产亚洲人成网站| 成人一级生活片| 国产原创一区| 亚洲国产精品系列| 天天天天天天天天操| 香蕉成人久久| 国产精品久久精品国产 | 亚欧激情乱码久久久久久久久| 日韩欧美另类中文字幕| 亚洲色图第一页| 国产精品成人国产乱| 六月丁香婷婷色狠狠久久| 精品无人乱码一区二区三区的优势 | 国产精品日韩精品欧美在线| 2021狠狠干| 亚洲高清黄色| 精品国产免费人成在线观看| 林心如三级全黄裸体| 亚洲综合社区| 成人免费视频观看视频| 性开放的欧美大片| 色偷偷久久人人79超碰人人澡 | 精品成人18| 一区二区三区久久精品| 日韩成人一区二区三区| 国产剧情在线观看一区二区| 日韩美女一区| 免费亚洲电影| 国产视频亚洲精品| 99热只有这里有精品| 国产成人午夜精品影院观看视频| 久久精品国产第一区二区三区| 欧美高清在线视频观看不卡| 中文字幕观看视频| 国产亚洲一区二区三区| 午夜精品久久久久久久无码| 超碰97久久国产精品牛牛| 久久精品久久久久久国产 免费| 国产一级片免费视频| 久久蜜桃av一区二区天堂| 日本毛片在线免费观看| 日本欧美高清| 欧美又大又粗又长| 日本私人网站在线观看| 欧美色图在线视频| aaaaa级少妇高潮大片免费看| 亚洲视频播放| 久久草.com| 亚洲同志男男gay1069网站| 亚洲精品动漫100p| 美日韩一二三区| 久久久国产精品不卡| 免费日韩中文字幕| 精品久久一区| 国产自摸综合网| 超碰porn在线| 亚洲第一区在线| 久久国产视频播放| 国产三级一区二区三区| 91香蕉视频导航| 性欧美欧美巨大69| 成人欧美一区二区三区黑人免费| xxxcom在线观看| 精品一区二区三区四区在线| www.久久久久久久| 中文字幕欧美一区| 国产精九九网站漫画| 一本色道精品久久一区二区三区| 老牛影视免费一区二区| 69堂精品视频在线播放| 操91在线视频| 天天操天天射天天舔| 日韩欧美成人区| 国产成+人+综合+亚洲欧洲 | 久久riav二区三区| 欧美日韩尤物久久| 日韩在线资源网| 性做久久久久久久久久| 精品国产31久久久久久| 日韩av片在线| 国产成人精品免费| 激情综合网婷婷| 在线成人超碰| 麻豆传媒一区| 99精品美女视频在线观看热舞| 欧美精品激情视频| 国产精品一区二区婷婷| 日韩视频在线你懂得| 中文字幕视频网站| 亚洲靠逼com| 人妻体内射精一区二区| 国产精品资源在线看| 国产乱子夫妻xx黑人xyx真爽| 久久精品国产大片免费观看| 91在线视频导航| 欧美香蕉视频| 久久久久久久久久亚洲| av电影在线播放高清免费观看| 日韩精品一区二区三区蜜臀| 波多野结衣av无码| 亚洲大尺度视频在线观看| 性欧美精品男男| 波多野洁衣一区| 中文字幕66页| 久久一二三四| 国产手机免费视频| 亚洲a在线视频| 日本日本精品二区免费| 成人爽a毛片| 成人激情电影一区二区| 奇米777日韩| 97在线视频一区| av网站在线免费看推荐| 一本色道久久88综合日韩精品| 高h放荡受浪受bl| 欧美精品 日韩| 国产情侣免费视频| 欧美性猛交xxx| 91国产丝袜播放在线| 亚洲乱码中文字幕| 成人精品一二三区| 欧美国产日韩亚洲一区| 人妻少妇精品视频一区二区三区| 国产美女精品在线| 久国产精品视频| 老司机免费视频一区二区三区| 热久久精品国产| 成年人av电影| 国产主播一区二区三区| 69久久久久久| 日本免费在线视频不卡一不卡二| 日本精品一区在线观看| 在线观看视频免费一区二区三区| 视色,视色影院,视色影库,视色网 日韩精品福利片午夜免费观看 | 日韩高清dvd碟片| 中文字幕不卡在线播放| 国产精品扒开腿做爽爽| 26uuu精品一区二区在线观看| 中国特级黄色大片| 波多野结衣在线aⅴ中文字幕不卡| 美女又黄又免费的视频| 免费高清视频精品| 亚洲性图一区二区| 久久爱另类一区二区小说| www.超碰97.com| 激情综合网av| 亚洲色图欧美自拍| 国产在线日韩欧美| 性色av浪潮av| 国产mv日韩mv欧美| 国产xxxx视频| 91视频一区二区三区| asian性开放少妇pics| 久久综合精品国产一区二区三区 | 青青草原一区二区| 欧美成人精品一区二区男人小说| 欧美一性一乱一交一视频| 黄色成人免费网| 国产精品日日做人人爱| 国产a亚洲精品| 日本一区二区三区国色天香 | 久久不射影院| 久久人人爽人人爽人人片av高请 | 草美女在线观看| 57pao成人国产永久免费| 三级成人黄色影院| 国产色婷婷国产综合在线理论片a| 96sao精品免费视频观看| 99热在线国产| 亚洲大片精品免费| 在线看成人av电影| 一区久久精品| 欧美 日韩 国产 激情| 国内精品在线播放| 亚洲图片综合网| 中文字幕精品一区| 成年人av电影| 日本韩国精品在线| 国产三级在线观看视频| 亚洲精品久久久久久久久久久久久| 九色网友自拍视频手机在线| 久久久国产一区二区| 川上优av中文字幕一区二区| 国产99视频在线观看| 久久99精品久久久野外观看| 国产一区精品视频| 日韩在线看片| 国自产拍偷拍精品啪啪一区二区 | www.久久com| 91毛片在线观看| 国产在线免费看| 欧美日韩午夜激情| 国产精品无码一区二区桃花视频 | 久久人妻少妇嫩草av无码专区| 国产三级精品三级| 久久久久免费看| 欧美日韩一区三区| 深夜福利在线看| 欧美尺度大的性做爰视频| 国产精品专区免费| 国产激情一区二区三区在线观看| 狠狠操综合网| 国产美女主播在线播放| 国产真实乱偷精品视频免| 在线小视频你懂的| 亚洲国产日韩a在线播放性色| 做爰无遮挡三级| 亚洲精品视频网上网址在线观看| 永久免费网站在线| 成人黄色短视频在线观看| 女人av一区| 奇米精品一区二区三区| 国产精品69久久久久水密桃| 黄色片网站免费| 欧美日韩国产综合视频在线观看中文| 国产乱淫av免费| 中文字幕在线亚洲| 日韩成人影音| 老牛影视免费一区二区| 亚洲黄页一区| 亚洲女则毛耸耸bbw| 亚洲三级在线免费观看| 亚洲一区 中文字幕| 亚洲色图综合网| 亚洲精品动漫| 久久久99国产精品免费| 亚洲免费成人| 大桥未久恸哭の女教师| 一区二区视频免费在线观看| 一级黄色大毛片| 在线观看国产精品91| 日本在线中文字幕一区二区三区 | 裸体xxxx视频在线| 欧美在线观看一区二区三区| 久久a爱视频| 欧美一级欧美一级| 成人精品在线视频观看| 国产一级片免费观看| 日韩精品中文字幕一区| 91最新在线视频| 懂色av一区二区三区在线播放| 牛牛国产精品| 国产成人精品一区二区在线小狼| 亚洲欧美另类久久久精品2019| 92久久精品一区二区| 久久视频在线看| 日韩精品三级| 亚洲国产精品无码av| 成人免费的视频| 性无码专区无码| 亚洲日本成人网| 小明成人免费视频一区| 亚洲精品一区二区毛豆| 美国毛片一区二区三区| av激情在线观看| 欧美精品一区二区三区四区 | 欧美不卡高清| 国产免费无码一区二区| 偷拍日韩校园综合在线| 欧美18xxxxx| 国产免费亚洲高清| 欧美区日韩区| 免费中文字幕av| 91官网在线观看| 久久亚洲天堂| 精品国产综合久久| 免费成人你懂的| 欧美日韩一级在线观看| 日韩精品电影网| 色猫猫成人app| 日韩a级黄色片| 91在线视频免费91| 中文字幕在线观看精品| 九九精品视频在线| 一本久久青青| 中文国产在线观看| 欧美色播在线播放| 国产在线观看av| 精品国产免费久久久久久尖叫| 日韩在线a电影| 久久久国产精品人人片| 亚洲欧美一区二区三区情侣bbw| 欧美电影在线观看网站| 免费人成自慰网站| 日本一区二区动态图| 亚洲第一视频在线播放| 国产精品 欧美在线| 午夜精品偷拍| 蜜臀久久99精品久久久久久| 日韩三级视频在线看| 456亚洲精品成人影院| 青青青在线观看视频| 亚洲国产高清在线| 无码国产伦一区二区三区视频| 91精品一区二区| 丝袜亚洲另类丝袜在线| 国语对白一区二区| 日韩在线一区二区三区免费视频|