再看GAIA Benchamrk:他是如何推動Agent系統的發展的?
大家好,我是HxShine。今天再來看看GAIA Benchmark的細節,來看看GAIA如何成為Agent領域最經典的BenchMark之一。它由Meta FAIR、Hugging Face、AutoGPT等機構聯合發布。Title: GAIA: A Benchmark for General Al Assistants(GAIA:一個面向通用人工智能助手的基準測試)。
GAIA旨在評估通用AI助手的能力。與當前主流AI評測基MMLU等追求“對人類也困難”的任務不同,GAIA的理念是提出一系列對普通人來說概念上簡單,但對當今最先進的AI來說卻極具挑戰性的真實世界問題。這些問題需要模型具備推理、多模態處理、網絡瀏覽和工具使用等一系列基礎能力。
實驗結果揭示了驚人的差距:人類在GAIA上的準確率高達92%,而配備了插件的GPT-4得分僅為15%。這表明,盡管LLM在許多專業任務上已經超越人類,但在成為一個像普通人一樣穩健可靠的通用助手方面,還有很長的路要走。GAIA為衡量邁向通用人工智能(AGI)的真實進展提供了一個全新的、更腳踏實地的視角。
一、概述
? Title: GAIA: A Benchmark for General Al Assistants
? URL:?? https://arxiv.org/abs/2311.12983??
? Authors: Grégoire Mialon, Clémentine Fourrier, Craig Swift, Thomas Wolf, Yann LeCun, Thomas Scialom
? Institutions: FAIR, Meta, HuggingFace, AutoGPT, GenAI, Meta
? Code:?? https://huggingface.co/gaia-benchmark??
1 Motivation
? 現有基準如MMLU逐漸被刷飽和并存在數據污染風險: 許多現有的大語言模型(LLM)基準(如MMLU, GSM8k)正在被迅速“攻克”,性能接近飽和。這使得我們難以區分更先進模型的能力。此外,這些基準大多是靜態的,容易受到數據污染(即訓練數據中包含了測試題)的影響。
? 當前一些評測任務太難了,可能對人類專家都比較難,無法評估模型的真正水平: 當前的評測趨勢是尋找對人類專家也越來越難的任務(例如,高難度的STEM或法律問題)。然而,作者認為,一個真正的通用AI助手應該能夠穩健地完成普通人認為“簡單”但需要多個步驟和工具才能完成的任務。現有模型在這方面的能力是缺失的。
? 當前一些benchmark評估比較困難: 對于開放式生成任務,評估非常困難。自動評估難以衡量質量,人工評估成本高昂且難以擴展,而基于模型的評估(Model-based Evaluation)又會引入評估器本身的偏見。因此,需要一種能夠進行簡單、快速、可復現且客觀評估的方法。
2 Methods
GAIA的核心方法是人工精心設計一套問題,這些問題具備以下特點:1)對人類來說概念簡單;2)對AI來說需要復雜的、多步驟的操作才能解決;3)答案是唯一的、事實性的、簡短的,從而可以實現自動化、精確的評估。它通過對比人類和AI的巨大性能差異,來衡量AI助手的真實通用能力。例如下面展示了GAIA三個不同難度等級的示例問題。
? Level 1 要求從NIH網站查找一項臨床試驗的注冊人數,主要考察基礎的網絡搜索和信息定位能力。
? Level 2 給出了一張冰淇淋的營養成分表圖片,要求結合維基百科上關于美國聯邦黃油脂肪含量的標準進行計算,考察了多模態(OCR)、信息檢索和計算能力。
? Level 3 則是一個更復雜的任務,需要結合NASA的每日天文圖片、宇航員團隊信息和個人太空飛行記錄,進行多步查詢和篩選,才能找到最終答案。

詳細方法和步驟:
GAIA的構建和評估方法主要包含以下幾個關鍵步驟:
1)核心設計原則:
? 真實世界與挑戰性 (Real-world and challenging): 問題要求模型與開放且動態的互聯網交互、處理多模態信息(如圖片、表格文件)、并在多個步驟上進行推理,而非局限于封閉的、純文本的環境。
? 易于解釋 (Easy interpretability): 由于任務對人類來說概念簡單,所以人類評估者可以輕松地理解和驗證模型的推理路徑是否正確。
? 不可欺騙性 (Non-gameability): 問題的答案被精心設計,無法通過簡單的網絡搜索直接在純文本中找到。這迫使模型必須真正地“解決”問題,而不是依賴記憶或數據污染。
? 使用簡單 (Simplicity of use): 問題以零樣本(zero-shot)的方式提出,答案是事實性的、簡潔且無歧義的(如一個數字、一個名字),這使得評估可以快速、自動化地通過“準完全匹配”進行。
2)問題構建與驗證流程:
? 問題創建 (Crafting): 由人類標注員基于真實場景創建問題。這些問題通常需要結合多個信息源(如一個指定的網站和一份附加的文檔)才能得出答案。
? 問題驗證 (Validating): 為了確保問題的無歧義性,每個問題都會交給另外兩名獨立的標注員來解答。只有當創建者和兩名驗證者都得出完全相同的答案時,該問題才被認為是有效的。這個嚴格的流程保證了評估的客觀性。
? 難度分級 (Increasing difficulty): 問題根據解決它所需的操作步驟數和工具種類,被分為三個難度等級(Level 1, 2, 3)。Level 1通常只需要很少的步驟和工具,而Level 3則需要任意長的動作序列和多種工具的組合。
3)能力覆蓋范圍:
? GAIA問題覆蓋了通用AI助手的多種核心能力,主要包括:網絡瀏覽 (Web browsing)、多模態理解 (Multi-modality)、代碼執行 (Coding) 和 多種文件類型讀取 (Diverse filetype reading)。

4)評估執行:
? 論文中主要評估了GPT-4(帶插件和不帶插件)、AutoGPT等當時最先進的系統,并與人類標注員的得分和耗時以及簡單的搜索引擎基線進行對比。
通過這一套完整的方法論,GAIA構建了一個高質量的評測集,旨在為通用AI助手的發展提供一個可靠的“標尺”。
3 Conclusion
? 揭示了巨大能力差距: GAIA成功地證明了,盡管LLM在許多方面表現出色,但它們與人類在執行需要與現實世界交互的通用任務方面存在巨大的鴻溝(人類92% vs. GPT-4帶插件 15%)。

? 提出了新的評測范式: GAIA的理念——關注對人簡單但對AI復雜的任務——為評估通用智能提供了一個新的、更實際的方向,強調系統的魯棒性和通用性,而不是在狹窄專業領域的能力。
? 構建了一個高質量、抗污染的基準: 通過嚴格的人工創建和驗證流程,GAIA提供了一個難以“應試”或被數據污染的基準測試,能夠更真實地反映AI助手的實際問題解決能力。
4 Limitation
? 缺乏對推理過程的評估: 目前GAIA只評估最終答案的正確性,而沒有評估模型得出答案的推理路徑(trace)。一個正確的答案可能來自錯誤的推理,評估推理過程是未來需要解決的問題。
? 高昂的構建成本: 設計并驗證一個高質量、無歧義的GAIA問題需要大約2個小時的人工時間,這使得大規模擴展該基準變得非常昂貴和耗時。
? 缺乏語言和文化多樣性: 當前的GAIA完全基于英語,且問題源主要來自英文網頁。這無法衡量AI助手在非英語環境下的表現,也限制了其全球適用性。
? 對模型和工具的依賴: 評估主要集中在有強大工具使用能力的閉源模型(如GPT-4),因為其他模型在這些任務上得分過低。未來需要更多具備工具調用能力的開源模型加入評測。
二、詳細內容
1 Example: GPT-4如何使用代碼解釋器來回答一個需要處理Excel表格的問題?

2 GAIA問題中有許多附加文件,如xlsx, png, pdf等。

3 一個完整的示例:提供了詳細的實驗數據,包括問題標注示例、驗證階段的統計數據以及最終的精確數值。

三、總結
亮點1: 重新定義了AI評測的“難點”,從“智力難題”轉向“通用魯棒性”。 GAIA最大的創新在于,它沒有追求讓AI解決連人類專家都頭疼的問題,而是考察AI是否具備普通人那種、能可靠地完成一系列雖然繁瑣但邏輯清晰的日常任務的能力。這為AGI的研究提供了一個更加務實和關鍵的評估維度。
亮點2: 用無可辯駁的數據揭示了當前AI助手的“脆弱性”。 92% vs 15%的巨大差距,有力地說明了當前最頂尖的AI系統在面對開放、動態的真實世界任務時,其規劃、推理和工具使用的能力仍然非常不可靠。這給當前火熱的Agent領域潑了一盆“冷水”,也指明了未來最需要突破的方向。
亮點3: 提供了一套高質量、可信且難以“刷分”的評測框架。 GAIA通過嚴格的 人工設計和多重驗證,確保了問題的質量和無歧義性,同時其設計理念也使得它天然地抵抗數據污染。 這對于追求真實能力進步而非在排行榜上“刷分”的研究社區來說,具有極高的價值。
產業應用價值: 對于致力于開發AI助手和Agent應用的團隊來說,GAIA是一個絕佳的“試金石”和“導航圖”。它不再讓團隊滿足于在MMLU等學術基準上提升幾個百分點,而是直接暴露了產品在實際應用中可能遇到的核心短板,例如“模型無法穩定調用工具”、“在多步任務中丟失目標”、“無法從網頁或文件中準確提取信息”等。使用GAIA或其理念來構建內部的評測集,可以幫助團隊更準確地定位問題、指導研發方向,從而打造出真正可靠、有用的下一代AI助手,也推動了Agent的發展。
本文轉載自??NLP PaperWeekly??,作者:NLP PaperWeekly

















