想糾正LMM犯錯？沒用！NUS華人團隊：最強o1反饋修正率不到50%

作者：新智元 2025-03-17 09:35:00

人工智能

LMM在人類反饋下表現(xiàn)如何？新加坡國立大學(xué)華人團隊提出InterFeedback框架，結(jié)果顯示，最先進(jìn)的LMM通過人類反饋糾正結(jié)果的比例不到50%！

大規(guī)模多模態(tài)模型（Large Multimodal Models，LMM）在人類反饋下的表現(xiàn)如何？

這一問題對于利用LMM開發(fā)通用AI助手至關(guān)重要，現(xiàn)有的基準(zhǔn)測試并未針對LMM與人類的交互智能進(jìn)行測試。

來自新加坡國立大學(xué)的華人團隊提出了InterFeedback，一個可應(yīng)用任何LMM和數(shù)據(jù)集的交互式框架。

論文鏈接：https://arxiv.org/abs/2502.15027

在此基礎(chǔ)上，團隊引入了InterFeedback-Bench，用兩個具有代表性的數(shù)據(jù)集（MMMU-Pro和MathVerse）來評估交互智能，并對10種不同的LMM進(jìn)行測試。

InterFeedback-Bench旨在全面評估LMM：

1）交互式解決問題的能力；

2）解釋反饋以提升自身的能力。

評估結(jié)果表明，最先進(jìn)的LMM通過人類反饋糾正結(jié)果的比例不到50%！

交互式過程可提升大多數(shù)LMM解決難題的性能，現(xiàn)有LMM在解釋和整合反饋方面表現(xiàn)欠佳。進(jìn)行額外迭代不一定能得出正確的解決方案，高質(zhì)量反饋至關(guān)重要。

人類在解決問題時，具有很強的適應(yīng)性，能夠從反饋中不斷學(xué)習(xí)完善。同樣，先進(jìn)的LMM也應(yīng)該能從反饋中學(xué)習(xí)，提高解決問題的能力。

評估LMM交互智能的關(guān)鍵挑戰(zhàn)在于自動模型測試，不同模型對相同查詢的響應(yīng)不同，需要人類在每個對話輪次中提供定制化反饋。

InterFeedback框架設(shè)計原理

研究人員提出了InterFeedback，這是一個基于交互式問題解決的框架，通過GPT-4o等模型模擬人類反饋，讓LMM在動態(tài)的交互環(huán)境中進(jìn)行測試和學(xué)習(xí)。

InterFeedback-Bench將帶有反饋的交互式問題解決過程，變成了一種數(shù)學(xué)模型，叫部分可觀測馬爾可夫決策過程（POMDP）。

通過狀態(tài)空間、觀測值、動作空間、轉(zhuǎn)移函數(shù)和獎勵函數(shù)等要素，精確地描述模型在交互過程中的行為和決策。

在實際應(yīng)用中，當(dāng)給定自然語言問題和輸入圖像時，模型基于當(dāng)前狀態(tài)獲取觀測值，生成自然語言回復(fù)。獎勵函數(shù)通過精確匹配的方式判斷任務(wù)的正確性，為模型提供反饋信號。

數(shù)據(jù)集構(gòu)建

InterFeedback-Bench采用了兩個有挑戰(zhàn)性的數(shù)據(jù)集：MathVerse和MMMU-Pro。

MathVerse是一個視覺數(shù)學(xué)問題數(shù)據(jù)集，其中包含了各種需要結(jié)合圖像和數(shù)學(xué)知識才能解決的問題。

MMMU-Pro則是綜合性的多模態(tài)基準(zhǔn)測試，涵蓋了多個領(lǐng)域的專家級問題，包括科學(xué)、技術(shù)、工程和數(shù)學(xué)等。

通過巧妙地利用LMM（例如GPT-4o）來模擬人機交互，構(gòu)建出具有針對性的測試數(shù)據(jù)集。

具體而言，通過選擇反饋提供模型M_p答對，而反饋接收模型M_r答錯的交集，確保反饋的相關(guān)性和可靠性。

InterFeedback框架

InterFeedback框架有兩個角色：反饋接收者M(jìn)_r和反饋提供者M(jìn)_p。

M_r是準(zhǔn)備接受基準(zhǔn)測試的LMM，如Qwen2-VL，M_p是當(dāng)前最優(yōu)的LMM，如GPT-4o，用于在每個時間步代替人類提供反饋。

當(dāng)M_r模型生成輸出后，M_p會根據(jù)映射策略提供反饋，模型則根據(jù)反饋進(jìn)行改進(jìn)，如此循環(huán)，直到得到正確答案或達(dá)到預(yù)設(shè)的迭代次數(shù)。

在這個過程中，M_r根據(jù)當(dāng)前的狀態(tài)和觀測信息，生成相應(yīng)的動作。M_p則根據(jù)模型的回答，提供反饋信息，幫助模型改進(jìn)自己的回答。

基于InterFeedback框架，團隊構(gòu)建了InterFeedback-Bench基準(zhǔn)測試。這個基準(zhǔn)測試旨在全面評估LMM交互式問題解決和反饋學(xué)習(xí)的能力。

人類評估基準(zhǔn)測試

除了自動基準(zhǔn)測試，研究團隊還收集了InterFeedback-Human數(shù)據(jù)集，用于人工評估閉源模型。

與自動基準(zhǔn)測試不同，InterFeedback-Human數(shù)據(jù)集的評估過程更注重人類的參與和反饋。用戶根據(jù)模型的回答，提供詳細(xì)的反饋信息，包括問題的分析、正確的思路和答案等。

通過這種方式，可以更深入地了解模型在實際人機交互中的表現(xiàn)，以及它們理解和處理人類反饋的能力。

實驗結(jié)果與分析

研究人員設(shè)計了一系列實驗，在MathVerse和MMMU-Pro兩個具有代表性的數(shù)據(jù)集上，對多個開源LMM進(jìn)行了全面評估。

用準(zhǔn)確率和糾錯率來評估結(jié)果，糾錯率定義為所有錯誤樣本中被糾正答案的樣本所占的百分比。N表示樣本總數(shù)，N_e表示錯誤樣本的數(shù)量，N_c表示已被糾正的樣本數(shù)量。

準(zhǔn)確率和糾錯率可以用以下公式表示：

交互過程能提高性能

實驗結(jié)果表明，交互式過程對大多數(shù)LMM的性能提升有顯著的促進(jìn)作用。

InterFeedback框架能使大多數(shù)模型從GPT-4o和Claude-3.5-Sonnet等提供的反饋中受益。

例如，即使是性能較弱的Fuyu-8B模型，通過GPT-4o的反饋也能糾正24.1%的錯誤樣本。這表明交互過程可以有效提高大多數(shù)LMM解決問題的能力。

難以通過反饋提升性能

盡管有先進(jìn)模型提供的反饋，但大多數(shù)LMM仍難以糾正所有錯誤樣本。

以Qwen2-VL-7B和Molmo為例，Qwen2-VL-7B在MathVerse數(shù)據(jù)集上使用GPT-4o的反饋時，糾錯率為66.8%，但在MMMU-Pro數(shù)據(jù)集上僅為50.4%。

Molmo-7B在MathVerse和MMMU-Pro數(shù)據(jù)集上的糾錯率分別為55.1%和51.7%，其余模型的糾錯率普遍低于50%。

即使有LMM提供的反饋，當(dāng)前的模型在通過反饋提升自身性能方面仍存在較大困難。

準(zhǔn)確率可能無法反映模型能力

實驗發(fā)現(xiàn)，準(zhǔn)確率可能無法真實、全面地反映模型的實際能力。

例如，InternVL2-8B的準(zhǔn)確率較高（38.1%），但其糾錯率僅為49.6%。而準(zhǔn)確率較低（22.5%）的Qwen2-VL-7B在使用GPT-4o的反饋時，卻達(dá)到了最高的糾錯率66.8%。

在MMMU-Pro數(shù)據(jù)集上也有類似情況，LLaVA-OneVision-7B的準(zhǔn)確率排名第二（47.1%），但其糾錯率僅為 31.7%，低于幾個準(zhǔn)確率較低的模型。

這表明僅通過準(zhǔn)確率評估模型，可能無法全面體現(xiàn)其真實能力。

反饋質(zhì)量至關(guān)重要

令人驚訝的是，所有模型都能從簡單的二元（0/1）反饋中受益。

同時，研究發(fā)現(xiàn)反饋質(zhì)量至關(guān)重要，低質(zhì)量反饋對性能的損害比簡單的二元反饋更大。

在MathVerse數(shù)據(jù)集上，對于一些模型，使用次優(yōu)模型（Gemini-1.5-Flash）提供的簡單二元反饋，其效果優(yōu)于LMM生成的詳細(xì)反饋。

人工基準(zhǔn)測試的分析

在對OpenAI-o1、GPT-4o、Gemini-2.0和Claude-3.5-Sonnet等閉源模型的人工評估中，Claude-3.5的平均準(zhǔn)確率最高，達(dá)到了48.3%。

從糾正率結(jié)果分析來看，不同模型從人類反饋中獲益的輪次和程度存在明顯差異。

GPT-4o在第一輪反饋中能夠糾正41.9%的錯誤樣本，顯示出其對人類反饋的快速響應(yīng)和學(xué)習(xí)能力。

Claude-3.5則在第二輪反饋中展現(xiàn)出強大的糾正性能，成功糾正了30.6%的錯誤樣本。在第三輪，由于提供了真實答案，所有LMM都能夠給出選擇正確答案的推理步驟。

此外，不同任務(wù)類別中被糾正樣本的分布也有所不同。

視覺邏輯任務(wù)大多在前兩輪就能夠得到有效解決，而純文本數(shù)學(xué)任務(wù)和MMMU-Pro任務(wù)在前兩輪的糾正相對較少。

相比之下，純文本編碼任務(wù)和MathVerse任務(wù)在前兩輪也出現(xiàn)了一定比例的糾正，說明模型在這些領(lǐng)域具有一定的學(xué)習(xí)和改進(jìn)能力。

責(zé)任編輯：張燕妮來源：新智元

AI 模型數(shù)據(jù)