AI模型的奧運會：誰將在OlympicArena中奪冠？精華

發布于 2024-6-26 16:16

瀏覽

0收藏

AI模型的奧運會：誰將在OlympicArena中奪冠？-AI.x社區

引言：AI模型的奧林匹克級評測

評估和比較不同AI模型的性能始終是一個核心話題。隨著技術的不斷進步，這些模型在處理復雜任務的能力上有了顯著的提升。為了更精確地衡量這些先進模型的能力，Huang等人在2024年引入了一個全新的、類似奧林匹克的多學科、多模態評測平臺——OlympicArena。這一平臺設計了包括11,163個雙語問題，涵蓋文本和圖像交錯的模態，跨越七個常見學科和62個國際奧林匹克競賽，嚴格檢查數據泄露問題，旨在推動AI在認知推理方面的極限。

在這一背景下，本文將探討最新發布的AI模型——包括“Claude-3.5-Sonnet (Anthropic, 2024a)”、“Gemini-1.5-Pro (Reid et al., 2024)”和“GPT-4o”——在OlympicArena上的表現。通過引入奧林匹克獎牌榜的方式，我們不僅比較了這些模型在不同學科的表現，還通過細粒度的分析揭示了它們在不同類型的邏輯和視覺推理能力上的優勢和不足。

這種全面而深入的評測方法為研究人員和開發者提供了一個清晰且具有競爭性的框架，幫助他們更好地理解不同模型的強項和弱點。通過這樣的奧林匹克級評測，我們可以更準確地識別出在各個學術領域中表現最為出色的AI模型，從而推動人工智能技術在更廣泛領域的應用和發展。

OlympicArena基準介紹

OlympicArena是由Huang等人在2024年提出的一個全新的、具有挑戰性的人工智能評測基準。這一基準測試旨在通過模擬奧林匹克級別的多學科、多模態競賽環境，推動人工智能在認知推理能力上的極限。OlympicArena包含了11,163個雙語問題，這些問題涵蓋了文本只讀和文本-圖像交錯的模態，覆蓋了七個常見學科和62個國際奧林匹克競賽項目。

1. 數據集的設計與挑戰

OlympicArena的設計嚴格檢查了數據泄露問題，確保了測試的公正性和有效性。這個基準測試不僅要求模型在多種類型的問題上表現出高水平的理解和推理能力，還要求模型能夠處理復雜的、多模態的輸入信息。

2. 測試的設置

在OlympicArena的測試設置中，使用了測試數據集的分割（test split），并且沒有公開答案，以防止數據泄露。所有的評估都可以通過規則匹配來執行，不需要基于模型的評估。此外，為了保持問題的原始結構，測試時直接使用文本輸入，不使用圖像標題作為圖像的文本表達。

3. 競爭者和評估方法

OlympicArena評估了多種開源和專有的大型多模態模型（LMMs）和大型語言模型（LLMs）。這些模型包括但不限于OpenAI的GPT系列、Anthropic的Claude系列以及其他一些團隊開發的模型。評估方法包括精確度評估非編程任務和無偏pass@k評估編程任務。

4. 獎牌表和細粒度分析

OlympicArena還創新性地引入了奧林匹克獎牌表（OlympicArena Medal Table），這是一種類似于奧運會的獎牌系統，用于評估AI模型在各個學科領域的表現。模型根據在任何給定學科中獲得的前三高分獲得獎牌。此外，還進行了關于不同學科、不同推理類型、不同語言和不同模態的細粒度分析，以深入理解各模型的能力和局限性。

通過這些詳盡的測試和評估，OlympicArena旨在提供一個全面、競爭性的框架，幫助研究人員和開發者更好地理解不同模型的強項和弱點，從而推動人工智能技術的發展和應用。

AI模型的奧運會：誰將在OlympicArena中奪冠？-AI.x社區

模型比較與評估方法

在這個章節中，我們將探討如何比較和評估不同的人工智能模型。我們將特別關注最近發布的模型：“Claude-3.5- Sonnet (Anthropic, 2024a),” “Gemini-1.5-Pro (Reid et al., 2024),” 和 “GPT-4o”。為了進行全面的性能評估，我們將使用OlympicArena（Huang et al., 2024）提出的奧運會獎牌表方法，這是一種創新的排名機制，專門設計用來評估AI模型在各個學科領域的表現。

1. 評估指標

所有問題都可以使用基于規則的匹配進行評估，因此我們使用準確性作為非編程任務的評估指標，對于編程任務，我們使用無偏的pass@k作為評估指標，其中k = 1，n = 5，c表示通過所有測試用例的正確樣本數。

2. OlympicArena獎牌表

OlympicArena獎牌表類似于奧運會中使用的獎牌系統，它是一種專門設計用來評估AI模型在各個學科領域表現的排名機制。該表為在任何給定學科中取得前三名成績的模型頒發獎牌，從而提供了一個清晰而有競爭力的框架來比較不同的模型。具體來說，我們首先根據金牌數量對AI模型進行排名，如果金牌數量相同，則根據總分進行排名。這提供了一種直觀的方式來識別在不同學科領域中的領先模型，使研究人員和開發人員更容易理解不同模型的優點和缺點。

3. 細粒度評估

我們根據不同的學科、模態、語言以及不同類型的邏輯和視覺推理能力進行細粒度評估。

4. 結果和分析

我們發現，新發布的Claude-3.5-Sonnet非常強大，其表現幾乎與GPT-4o相當。同時，新發布的Gemini-1.5-Pro也展示出了相當的實力，超過了GPT-4V。此外，根據OlympicArena獎牌表，我們可以觀察到GPT-4o, Claude-3.5-Sonnet, 和Gemini-1.5-Pro是排名前三的模型。

5. 細粒度分析

我們對各個模型在不同學科、推理類型、語言類型和模態下的表現進行了細粒度分析。例如，GPT-4o在傳統的演繹和歸納推理任務，特別是數學和計算機科學方面，表現出優越的能力，超過了Claude-3.5-Sonnet 5%以上的數學和3%的計算機科學。另一方面，Claude-3.5-Sonnet在物理、化學和生物學等科目中表現出色，尤其是在生物學方面，它超過了GPT-4o 3%。

這些觀察結果表明，即使是目前最強大的模型，在文本任務上的準確性也高于多模態任務。雖然差距不大，但這表明模型在利用多模態信息處理復雜推理問題方面還有很大的改進空間。

細粒度分析

在本章節中，我們將深入探討最新的AI模型在多個維度上的性能表現，包括學科細分、推理類型、視覺推理能力、語言類型以及模態分析。通過這一細粒度分析，我們旨在揭示不同模型在處理復雜問題時的優勢和局限性。

1. 學科細分

在學科細分方面，我們比較了GPT-4o、Claude-3.5-Sonnet和Gemini-1.5-Pro三個模型在數學、計算機科學、物理、化學和生物學等領域的表現。GPT-4o在數學和計算機科學領域展現出了卓越的能力，尤其是在數學領域，其性能超過了Claude-3.5-Sonnet超過5%，在計算機科學領域也超過了3%。相反，Claude-3.5-Sonnet在物理、化學和生物學等領域表現更為出色，特別是在生物學領域，它超過了GPT-4o 3%的表現。

2. 推理類型

在推理類型方面，GPT系列模型在傳統的數學推理和編程能力方面表現突出，這表明GPT模型經過了嚴格的訓練，以處理需要強大演繹推理和算法思維的任務。而在需要知識與推理結合的學科，如物理、化學和生物學方面，Claude-3.5-Sonnet和Gemini-1.5-Pro展現出了競爭性或更優的性能。

3. 視覺推理能力

在視覺推理能力方面，Claude-3.5-Sonnet在模式識別和圖表解讀方面領先于GPT-4o，顯示出其在識別模式和解釋圖表方面的強大能力。兩個模型在符號解釋方面表現相當，表明它們在理解和處理符號信息方面具有可比的能力。然而，GPT-4o在空間推理和比較可視化方面的表現優于Claude-3.5-Sonnet，展示了其在理解空間關系和比較視覺數據方面的優勢。

4. 語言類型

在語言類型方面，盡管模型主要訓練在英語數據上，但包括一些中文數據并具有跨語言泛化能力。中文問題的難度比英語問題更具挑戰性，尤其是在物理和化學等學科中，中文奧林匹克問題更為困難。然而，一些在中國開發或在支持中文的基礎模型上進行微調的模型在中文場景中的表現優于英文場景。

5. 模態分析

在模態分析方面，GPT-4o在文本和多模態任務中均表現優異，特別是在文本任務中表現更為突出。這表明，盡管目前最強大的模型在處理復雜推理問題時能夠利用多模態信息，但在文本任務中的準確性更高，表明在提高模型利用多模態信息的能力方面仍有很大的改進空間。

通過這一細粒度分析，我們不僅能夠更深入地理解不同AI模型在各個領域的性能，還能夠揭示它們在處理復雜問題時的優勢和局限性。這為未來模型的開發和優化提供了寶貴的見解。

模型性能的主要發現與討論

在本章節中，我們將詳細討論最新的AI模型在OlympicArena基準測試中的表現。我們將重點關注最新發布的模型：“Claude-3.5- Sonnet (Anthropic, 2024a),” “Gemini-1.5-Pro (Reid et al., 2024),” 和 “GPT-4o。” 我們將使用奧運會獎牌表的方法來對AI模型進行排名，這種方法基于模型在各個學科中的綜合表現。

1. 總體表現

根據實驗結果，新發布的Claude-3.5-Sonnet表現強大，幾乎與GPT-4o相當。同時，新發布的Gemini-1.5-Pro也展示了相當的實力，超過了GPT-4V。根據OlympicArena獎牌表（見表1），如果一個模型在任何學科中取得前三名的成績，它就會獲得一枚獎牌。我們可以觀察到GPT-4o，Claude-3.5-Sonnet，和Gemini-1.5-Pro是排名前三的模型。

AI模型的奧運會：誰將在OlympicArena中奪冠？-AI.x社區

2. 針對學科的細粒度分析

雖然GPT-4o和Claude-3.5-Sonnet在各學科的總體表現相似，但每個模型都有其特定的優勢。GPT-4o在傳統的演繹和歸納推理任務中表現出優越的能力，特別是在數學和計算機科學方面，超過Claude-3.5-Sonnet超過5%和3%。另一方面，Claude-3.5-Sonnet在物理，化學和生物學等科目中表現出色，特別是在生物學方面，它超過了GPT-4o 3%。

3. 針對推理類型的細粒度分析

OpenAI的GPT系列在傳統的數學推理和編碼能力方面表現出色。這種在這兩個學科的優越表現表明，GPT模型已經經過嚴格的訓練，以處理需要強大的演繹推理和算法思維的任務。相反，當涉及到需要知識與推理的整合的學科，如物理，化學和生物學，其他模型如Claude-3.5-Sonnet和Gemini-1.5-Pro表現出有競爭力或優越的表現。

AI模型的奧運會：誰將在OlympicArena中奪冠？-AI.x社區

4. 針對語言類型的細粒度分析

我們發現，這些強大的模型在英語問題上的表現仍然優于中文問題，并且在多模態能力方面還有很大的改進空間。然而，我們也發現，一些在中國開發或在支持中文的基礎模型上進行微調的模型在中文場景中的表現優于英文場景。這表明，優化模型以適應中文數據，以及全球更多的語言，仍然需要大量的關注。

AI模型的奧運會：誰將在OlympicArena中奪冠？-AI.x社區

5. 針對模態的細粒度分析

如表6所示，GPT-4o在文本只讀和多模態任務中都優于Claude-3.5-Sonnet，特別是在文本只讀問題中表現出色。這些觀察結果表明，即使是目前最強大的模型，也在文本只讀任務中比多模態任務中的準確率更高。雖然差距不大，但這表明模型在利用多模態信息處理復雜推理問題方面還有很大的改進空間。

通過理解這些細微差別，不僅有助于開發更專業和多功能的模型，還強調了持續評估和改進模型架構的重要性，以更好地滿足不同學術和專業領域的多樣化需求。

AI模型的奧運會：誰將在OlympicArena中奪冠？-AI.x社區

論文地址：https://arxiv.org/pdf/2406.16772
代碼：https://github.com/GAIR-NLP/OlympicArena

本文轉載自?? AI論文解讀??，作者：柏企科技圈

標簽

模型

人工智能

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

AI模型的奧運會：誰將在OlympicArena中奪冠？精華

引言：AI模型的奧林匹克級評測

OlympicArena基準介紹

模型比較與評估方法