卷起來！讓智能體評估智能體，Meta發(fā)布Agent-as-a-Judge

作者：機器之心 2024-10-18 15:20:00

微軟發(fā)布了 Copilot，Apple 將 Apple Intelligence 接入了 OpenAI 以增強 Siri。多智能體也是 OpenAI 未來重要的研究方向之一，這家公司的最新成果 ——Swarm，一個實驗性質(zhì)的多智能體編排框架在開源后引起了熱烈討論，有網(wǎng)友表示這能幫助簡化許多潛在多智能體用例的工作流程。

本論文作者主要包括德國計算機科學(xué)家、LSTM 之父 Jürgen Schmidhuber；Meta AI 研究團隊（FAIR）研究科學(xué)家總監(jiān)田淵棟，他負(fù)責(zé)領(lǐng)導(dǎo)大語言模型（LLMs）在推理、規(guī)劃和決策方面的研究團隊，主導(dǎo)了 OpenGo、StreamingLLM 和 GaLore 項目，專注于提升大模型的訓(xùn)練和推理效率；Vikas Chandra，Meta Reality Lab AI 負(fù)責(zé)人；諸葛鳴晨，Meta 研究科學(xué)家實習(xí)生，同時在沙特阿卜杜拉國王科技大學(xué)（KAUST）攻讀博士三年級，師從Jürgen Schmidhuber，GPTSwarm 第一作者，MetaGPT 共同第一作者；Zechun Li，Meta Reality Lab 研究科學(xué)家，MobileLLM 的第一作者；Yunyang Xiong，Meta Reality Lab 高級研究科學(xué)家，EfficientSAM 第一作者。

如果說去年大廠的競爭焦點是 LLM，那么今年，各大科技公司紛紛推出了各自的智能體應(yīng)用。

扎克伯格更是斷言：「AI 智能體的數(shù)量可能會達到數(shù)十億，最終甚至超過人類。」在 Meta Connect 2024大會上，Meta 推出了接入 Llama 3.2 的智能眼鏡 Orion 和升級版 Quest 3S，顯示出智能體正在迅速滲透進 Meta 的各個應(yīng)用領(lǐng)域。

近日，Meta 提出了 Agent-as-a-Judge 的概念，被視為智能體優(yōu)化方面的又一重要成果。傳統(tǒng)的智能體評估方式往往只關(guān)注最終結(jié)果，忽略了執(zhí)行過程中的關(guān)鍵細節(jié)，或依賴大量人力進行評估。為了解決這一痛點，Meta 推出了用智能體評估智能體的新方法，使評估過程更加靈活且自動化。

該框架在 LLM-as-a-Judge 的基礎(chǔ)上進行了升級，增加了中間反饋功能，確保任務(wù)的每個環(huán)節(jié)都能得到精準(zhǔn)評估與優(yōu)化，同時還能有效模擬并接近人類反饋。

論文標(biāo)題：Agent-as-a-Judge: Evaluate Agents with Agents
論文地址：https://arxiv.org/pdf/2410.10934
項目地址：https://github.com/metauto-ai/agent-as-a-judge

為了克服現(xiàn)有基準(zhǔn)存在的問題，并為 Agent-as-a-Judge 提供一個概念驗證測試平臺，研究者還提出了 DevAI，一個包含 55 項現(xiàn)實自動人工智能開發(fā)任務(wù)的新基準(zhǔn)。它包括豐富的手動注釋，如總共 365 個分層用戶需求。

Agent-as-a-Judge：智能體評估智能體

Agent-as-a-Judge 框架最大的亮點在于其與人類評估者的高度一致性。在實驗中，該框架的評估結(jié)果與人類專家的對齊率高達 90.44%，遠超 LLM-as-a-Judge 的 70.76%。這一結(jié)果表明，智能體在處理復(fù)雜任務(wù)時，能夠像人類一樣精確地判斷并修復(fù)問題，極大地減少了對人工評估的依賴，同時顯著提高了效率。

顯著的效率提升。實驗表明，Agent-as-a-Judge 在效率上也具有明顯優(yōu)勢。與人類評估者耗費 86.5 小時相比，Agent-as-a-Judge 僅需 118.43 分鐘就能完成相同任務(wù)，大幅節(jié)省了時間和成本。評估 55 個任務(wù)的總成本僅為 30.58 美元，平均每個任務(wù)的評估費用僅為 0.55 美元，顯示了極高的性價比和工作效率。

填補評估中的反饋空白。當(dāng)前，智能體評估方法普遍缺乏中間反饋機制，只關(guān)注最終結(jié)果，忽視了任務(wù)執(zhí)行中的關(guān)鍵步驟。智能體在解決復(fù)雜問題時，通常像人類一樣，逐步思考并解決問題。因此，評估不僅應(yīng)該關(guān)注結(jié)果，還需考察每個步驟的思維過程和行為軌跡。Agent-as-a-Judge 通過提供中間反饋，填補了這一空白，標(biāo)志著智能體評估進入了一個新的階段。

數(shù)據(jù)集挑戰(zhàn)與系統(tǒng)表現(xiàn)。實驗還揭示，即使是表現(xiàn)較好的智能體系統(tǒng)（如 GPT-Pilot 和 OpenHands）也僅能滿足 DevAI 數(shù)據(jù)集中約 29% 的任務(wù)需求，任務(wù)完成率有限，凸顯了該數(shù)據(jù)集的挑戰(zhàn)性。在與人類專家評估的對比中，Agent-as-a-Judge 表現(xiàn)出色，達到了 90% 的對齊率，而 LLM-as-a-Judge 僅為 70%。更值得注意的是，Agent-as-a-Judge 的表現(xiàn)甚至優(yōu)于單個專家評估者，意味著在某些情況下，該框架不僅能夠替代人類評估，還可能更加有效。

高性價比與潛力。通過節(jié)省 97.72% 的時間和 97.64% 的成本，Agent-as-a-Judge 展示了其在 AI 評估中的巨大潛力。它為智能體技術(shù)的發(fā)展提供了強有力的支持，標(biāo)志著 AI 評估工具邁向了更高效和低成本的新紀(jì)元。

行業(yè)趨勢與 Cognition AI。值得注意的是，近期獲得融資的 Cognition AI 也采取了類似思路，即使用智能體來評估智能體，這顯示出這一概念正在成為業(yè)界的一個重要趨勢（更多信息請參見：https://www.cognition.ai/blog/evaluating-coding-agents）。

綜上，Agent-as-a-Judge 的提出有如下價值：

（1）智能體自我改進的中間反饋機制

Agent-as-a-Judge 的一個核心優(yōu)勢在于其提供的中間反饋，這對于實現(xiàn)智能體的高效優(yōu)化至關(guān)重要。盡管在本研究中這一潛力尚未被充分發(fā)掘，但它的作用已經(jīng)初見端倪。通過學(xué)習(xí)輔助獎勵函數(shù)，能夠解決強化學(xué)習(xí)中的稀疏獎勵問題，提供關(guān)鍵的中間反饋。Agent-as-a-Judge 框架的亮點在于，它使智能體在處理復(fù)雜、多階段問題時，能夠?qū)崟r發(fā)現(xiàn)并修復(fù)解決方案中的問題，而傳統(tǒng)的延遲反饋機制難以做到這一點。引入 Agent-as-a-Judge 后，為構(gòu)建智能體版本的過程監(jiān)督獎勵模型（PRM）打開了大門，從而進一步提升智能體的優(yōu)化效率。

（2）由 Agent-as-a-Judge 驅(qū)動的飛輪效應(yīng)

Agent-as-a-Judge 和被評估智能體之間的相互改進，通過不斷的迭代反饋逐步演進，這一循環(huán)展示了廣闊的發(fā)展前景。通過將 Agent-as-a-Judge 作為核心機制，或許能夠催生出一種智能體自我博弈系統(tǒng)。隨著 Agent-as-a-Judge 與被評估智能體的持續(xù)交互，這種過程可能會產(chǎn)生飛輪效應(yīng) —— 每次改進相互強化，從而不斷推動性能的提升。這種迭代不僅能增強智能體系統(tǒng)的能力，還可能成為 LLM 推理數(shù)據(jù)的重要補充，有助于將智能體的能力更好地嵌入基礎(chǔ)模型中，進一步拓展智能體系統(tǒng)的潛力。

DevAI：從用戶角度出發(fā)的 AI 自動化數(shù)據(jù)集

過去一年中，LLM 智能體系統(tǒng)的能力顯著提升，從解決簡單的「玩具問題」逐步擴展到處理復(fù)雜的實際任務(wù)。然而，大多數(shù)現(xiàn)有的評估方法和數(shù)據(jù)集仍然基于為基礎(chǔ)模型設(shè)計的標(biāo)準(zhǔn)，難以全面反映智能體在現(xiàn)實任務(wù)中的表現(xiàn)和挑戰(zhàn)。以 HumanEval 和 MBPP 等數(shù)據(jù)集為例，盡管它們在評估基礎(chǔ)模型的算法能力方面有效，但在代碼生成等領(lǐng)域，現(xiàn)有方法過于依賴最終結(jié)果，無法捕捉開發(fā)者在現(xiàn)實任務(wù)中遇到的復(fù)雜性和動態(tài)過程。

盡管 SWE-Bench 嘗試引入更接近現(xiàn)實的評估標(biāo)準(zhǔn)，但它依然主要依賴「解決率」（resolve rate），這一指標(biāo)未能提供開發(fā)過程中每個階段的具體反饋，也難以捕捉智能體系統(tǒng)的動態(tài)表現(xiàn)。因此，這類評估標(biāo)準(zhǔn)無法準(zhǔn)確反映智能體在實際任務(wù)中的真實能力。

相關(guān)研究甚至表明，即使不具備智能體特性，模型也能達到 27% 的解決率。此外，激烈的競爭還引發(fā)了對 SWE-Bench 得分真實性的擔(dān)憂，許多高分可能通過對獨立任務(wù)的過擬合獲得，無法真實反映智能體的實際能力。

鑒于此，迫切需要新的評估方法來彌補這些不足。為此，Meta 推出了專門為智能體系統(tǒng)設(shè)計的 DevAI 數(shù)據(jù)集。DevAI 涵蓋了 55 個 AI 開發(fā)任務(wù)，涉及監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)、計算機視覺和自然語言處理等領(lǐng)域。每個任務(wù)包含用戶查詢、365 個任務(wù)需求和 125 個偏好標(biāo)準(zhǔn)。

與傳統(tǒng)評估方法不同，DevAI 不僅關(guān)注任務(wù)的最終結(jié)果，還跟蹤并評估任務(wù)執(zhí)行過程中的每個階段，從而提供更全面的反饋（圖 4 所示）。雖然這些任務(wù)規(guī)模相對較小，但它們真實反映了開發(fā)中的實際問題，且計算成本較低，適合廣泛應(yīng)用。值得注意的是，DevAI 不關(guān)注「玩具」數(shù)據(jù)集（如 FashionMNIST）上的高分表現(xiàn)，而更注重智能體在處理現(xiàn)實任務(wù)中的能力。此外，DevAI 采用有向無環(huán)圖（DAG）結(jié)構(gòu)排列任務(wù)需求，確保評估具備層次性，不再依賴簡單的成功或失敗判斷，而是要求智能體具備更深入的解決問題能力。未來，代碼生成領(lǐng)域的標(biāo)準(zhǔn)評估方法可能會采用類似 DevAI 這樣的數(shù)據(jù)集，提供中間反饋，以模塊化提升智能體的能力；在能力提升后，使用 OpenAI 的 MLE-Bench 進一步評估智能體解決復(fù)雜問題的能力。

收集人類專家評估

人類評估設(shè)置

在完成基線執(zhí)行結(jié)果和基本統(tǒng)計分析后，研究團隊邀請了三位具備 5 年以上 AI 開發(fā)經(jīng)驗人類專家評估員（匿名為 231a、38bb 和 cn90）對 AI 開發(fā)者的基線輸出進行審查，評估每項需求是否得到了滿足。評估分為兩輪。為了盡量捕捉人類評估中常見的偏差（模擬實際部署場景），在第一輪中，評估員討論了基本標(biāo)準(zhǔn)。雖然允許評估員帶有個人偏好，但評估過程需基于統(tǒng)一的標(biāo)準(zhǔn)進行。在第一輪評估完成后（總計約 58 小時），評估員再次進行討論，進一步修正和達成一致意見，確保評估結(jié)果更加統(tǒng)一和一致。這一過程共耗時 28.5 小時，最終的共識作為每種方法的最終人類評估結(jié)果。

性能分析。實驗結(jié)果顯示（如表 2），表現(xiàn)最好的兩種方法 ——GPT-Pilot 和 OpenHands—— 僅能滿足約 29% 的需求（忽略前提條件后為 44%），且僅在一個任務(wù)中滿足了所有要求。這表明 DevAI 為當(dāng)前及未來的智能體方法設(shè)定了較高的挑戰(zhàn)性。此外，正如第 2 節(jié)所討論的，DevAI 不僅揭示了任務(wù)最終結(jié)果，還通過反饋揭示了智能體在任務(wù)過程中出現(xiàn)的問題，為評估提供了更豐富的層次。

錯誤分析。在實驗中，評估員在初步評估后進行了深入辯論，直到他們對每個任務(wù)的需求達成一致意見。共識評估（consensus）通過這種方式模擬實際情況，減少了個體評估中的偏差。在 Human-as-a-Judge 框架下，評估員可以通過討論和證據(jù)修正自己的判斷，從而調(diào)整評估結(jié)果。這種方式也用來近似估計個體的錯誤率。理論上，集體討論達成的共識應(yīng)比任何個體評估更接近真實結(jié)果。

雖然共識評估可能并不完美（某些錯誤仍然存在），但相較于個體評估，理論上共識評估應(yīng)更接近真實結(jié)果。如圖 5 所示，實驗結(jié)果證實了這一假設(shè)。盡管評估員之間的錯誤率有所不同，但多數(shù)投票有效地修正了大部分錯誤。例如，評估員 cn90 在評估 GPT-Pilot 時犯下了最多的錯誤（錯誤率達 23.77%）。然而，通過多數(shù)投票（majority vote），三位評估員的整體錯誤率降低至 6.01%，顯示了多數(shù)投票在減少評估偏差方面的優(yōu)勢。

結(jié)論。人類評估中的錯誤是不可避免的。為減少這些錯誤，研究提出了兩種策略。第一，像本研究一樣，在每次評估后引入討論環(huán)節(jié)，評估員可以根據(jù)新的證據(jù)調(diào)整他們的判斷。這一方法在評估員數(shù)量較少時尤其有效，因為小組評估中的多數(shù)投票仍可能產(chǎn)生一定誤差（如圖 5 所示，相比共識評估大約有 5% 的錯誤率）。第二，組建更大的專家團隊來提高評估的準(zhǔn)確性。研究表明，當(dāng)評估員人數(shù)超過 5 人時，評估準(zhǔn)確性有望超過 50%。然而，由于動員更多專家的成本較高，實踐中這種方法并不總是可行。因此，本研究更傾向于通過討論和共識投票來減少評估中的偏差。

使用

目前，作者已在 GitHub 上提供了開源代碼，支持對任意工作區(qū)（workspace）進行提問，并通過 Agent-as-a-Judge 功能在 DevAI 數(shù)據(jù)集上進行自動評估。未來的開源智能體評估將進一步改進，首先利用 DevAI 對中間過程進行判斷和優(yōu)化，最終通過類似 MLE-Bench 的工具測試智能體的整體性能。

責(zé)任編輯：張燕妮來源：機器之心

微軟智能體