EvaLearn：AI下半場的全新評測范式！

2025-07-29 09:05:00

來自復旦大學自然語言處理實驗室和字節跳動 Seed 等單位的研究人員，共同提出了一種全新的大模型評測范式：EvaLearn —— 一個評估大模型學習能力與學習效率的開創性基準，為理解模型的類人學習潛力提供了全新視角。

在三個月前，OpenAI 研究員 Shunyu Yao 發表了一篇關于 AI 的下半場的博客引起了廣泛討論。他在博客中指出，AI 研究正在從 “能不能做” 轉向 “學得是否有效”，傳統的基準測試已經難以衡量 AI 的實際效用，他指出現有的評估方式中，模型被要求獨立完成每個任務，然后取平均得分。這種方式忽略了任務之間的連貫性，無法評估模型長期適應能力和更類人的動態學習能力。

圖出自 Shunyu Yao Blog：The second half

什么是更類人的動態學習能力？不妨想象一下，一位學生在做數學題時，通過前面題目的解答經驗，逐漸掌握更高效的解題方法，在后續題目中表現越來越好。這種在實踐中不斷優化策略、提升能力的過程，正是人類智能靈活性與適應性的體現。

而對于 LLM 而言，能否具備類似的 “成長” 能力，關乎其能否真正邁向通用人工智能的殿堂。但長期以來，由于缺乏有效的評估手段，這一重要維度始終隱藏在迷霧之中。

作為首個專注于量化 LLM 學習能力與效率的基準，EvaLearn 以「連續問題求解」為核心，重新定義了大語言模型的評估邏輯。目前該項目開源僅一個月，官方倉庫的星標數便突破 400+，讓我們來看看這個工作為何廣受關注。

論文鏈接：https://arxiv.org/pdf/2506.02672
項目鏈接：https://github.com/ByteDance-Seed/EvaLearn

傳統基準的局限顯而易見：它們將問題視為孤立樣本，模型無法從之前的解答中積累經驗，自然也無從評估其「學習效率」與「適應能力」。

EvaLearn 從零構建了 648 個具有挑戰性的問題，將這些問題組織為 182 個序列，每個序列包含來自同一任務類型的 7 個問題，要求模型按順序求解 —— 前序問題的經驗，將直接影響后續表現的評估。

圖 1 EvaLearn 的評估流程

在評測方面，如上圖所示，EvaLearn 不采用并行評估方式，而是要求模型按順序解決問題，從而系統地評估大語言模型（LLM）的學習能力和效率。

這 648 個高難度問題覆蓋六大核心任務：

摘要（Sum）：評估模型能否通過利用先前經驗提高總結的準確性和覆蓋范圍；
分類（Cla）：評估模型從解決一系列分類問題中提升其分類技能的能力；
信息抽取（Ex）：衡量模型能否逐步提高關鍵信息提取的準確性和完整性；
邏輯推理（LR）：測試模型能否從先前錯誤中學習并提高邏輯推理能力；
數學推理（MR）：檢驗模型能否通過利用早期問題的反饋快速掌握數學解題方法；
序列推理（SR）：評估模型能否通過從歷史經驗中學習來增強其解決基于序列問題的能力，包括理清事件步驟和推理邏輯。

每個問題都配有一個由專業標注員編寫的細致評分標準（rubric），結合 GPT-4o 作為「驗證器」，來判斷模型生成的答案的正確性。經過大量實驗，基于 rubric 的驗證器，在評價各種水平的模型時，評估準確率均超過 95%。這實現了高效的自動化評測。

研究團隊 EvaLearn 上對九個前沿大語言模型進行了全面研究，總結了幾個關鍵發現：

(1) 模型在不同任務類型中展現出多樣的學習能力。大部分模型通常更擅長利用先前經驗來解決涉及數學和邏輯推理的任務，而諸如總結之類的任務則更傾向于依賴在預訓練期間獲取的知識以及模型的固有能力。此外，不同任務的學習效率也有顯著差異。

(2) 基于思維鏈的大語言模型在學習能力和學習效率上通常優于非基于思維鏈的大語言模型。它們能更好地利用經驗解決新問題，并且表現出更高的學習穩定性，更有可能在一系列任務中連續解決多個問題。

(3) 反饋學習（即將來自驗證器的評價和反饋作為上下文提供）能讓模型借助對先前解決方案的反饋及基于評分標準的評估來優化問題解決，顯著提升學習能力與效率。相較于示例學習（指將先前的問題和規范解決方案作為上下文提供），反饋學習的效果更為顯著。

(4) 學習能力和學習效率的指標共同提供了對模型學習潛力的全面評估，兩種動態能力與靜態模型能力沒有很強的相關性。即使是靜態性能較高的大語言模型，也并非在所有任務的學習能力上都具有明顯優勢。

評估指標

為了評價模型的學習能力和學習潛力，EvaLearn 設計了一套全面的評估指標體系，從多個維度刻畫模型的動態學習能力：

整體序列準確率（Acc）：連續任務中，模型答對的總題數占總題數的比例，直接反映整體表現，值越高越好。
準確率曲線斜率（k）：通過擬合各位置的準確率變化曲線，斜率 k 體現學習速度，k 越大，說明模型從前期問題中學習越快，后續準確率提升越明顯。
首次正確位置（P_first）：模型第一次答對問題的位置，P_first 值越小，說明越快找到解題思路。
連續正確次數（N_consec）：用于評估模型學習的穩定性與經驗復用能力。模型連續答對的題數，值越高，說明學習穩定性越強，能更好復用已有經驗。
熱身后準確率（Acc_pw-K）：該指標重點關注模型在經過一定數量問題的 “熱身” 后，積累了一定經驗時的準確率表現。它體現了模型在適應任務、積累經驗后的實際適應與提升水平，排除了模型初始狀態對整體評估的干擾。

大模型在 EvaLearn 上的表現

研究人員們比較兩種問題求解范式：并行求解和順序求解，以研究大語言模型的學習能力和效率。

并行求解（Parallel Solving）

零樣本（Zero-shot）：模型獨立地解決每個問題，無法訪問之前問題的任何經驗。這種設置與多數現有基準測試方法一致，評估模型在無學習機會下解決復雜問題的固有能力。

少樣本（Few-shot）：針對每個問題，模型會獲得三個來自同一任務的示例（即 3-shot），以指導輸出格式和解題方法。每類任務內的問題共享相同的示例。

順序求解（Sequential Solving）

示例學習（Demonstration Learning）：在解決當前問題之前，模型會獲得同一序列中之前所有問題及其標準答案，類似于上下文學習。

反饋學習（Feedback Learning）：在解決當前問題時，模型可以訪問之前所有問題、它們的解答以及針對模型自身前次解答的詳細反饋。這些反饋是由評審使用實例級評分標準生成的。本設置評估模型是否能利用自身經驗改善隨后的表現。系統提示如圖 22 所示。

研究者在所有實驗中評估了九個最前沿的 LLMs，包括 “思維型” 和 “非思維型” 模型，結果如表 1。

表 1: 反饋學習與零樣本并行求解之間的整體準確率差異

研究問題一：

LLMs 能否通過問題序列進行學習？

發現一：

LLMs 在從問題序列中學習的能力存在差異，且這種差異不僅體現在模型之間，也體現在任務類型之間。此外，大多數模型在 “熱身階段” 后表現更佳。

表 1 總結了反饋學習與零樣本并行求解之間的整體準確率差異。研究者觀察到，有五個模型從順序學習中獲益，有四個模型表現略有下降，思維型模型在表現上變化更顯著，例如 OpenAI-o3-mini 在整體上提升了 +10.5%，為提升幅度最大者。這說明某些模型可以有效利用先前的經驗來解決同一任務中的問題。

在任務類型方面，大多數 LLMs 在數學推理和分類任務中通過學習獲得了提升。但在摘要任務中，大多數模型表現下降（9 個模型中有 7 個下降），這可能是因為摘要任務更依賴模型預訓練時獲得的知識和指令遵循能力，額外引入的經驗反而會干擾模型完成任務。

此外，研究人員還對 “熱身后準確率（Acc_pw-K）” 進行了分析，結果發現多數模型在序列后期表現更為出色，特別是思維型模型。這意味著它們能夠將早期問題當作練習，不斷優化自身，進而提升后續任務的表現，圖 3 左側清晰地展現了這一現象。

圖 2 左側為 Claude-3.7-Sonnet-Thinking 的熱身后準確率結果，右側為 DeepSeek-R1 的逐位置準確率結果

發現二：

學習穩定性在不同任務和模型之間差異顯著。對于某些任務（如摘要），當前的模型更擅長利用其固有知識來解決問題，而不是依賴從先前問題中獲得的經驗。

圖 3 左側為連續正確解的平均數量（N_consec），右側為首次正確解的平均位置（P_first）。結果以 OpenAI-o3-mini 為例展示，每個節點代表一個序列。

研究者通過分析 N_consec 指標來進一步研究 LLMs 的學習穩定性。圖 2 左側顯示了 o3-mini 的結果。圖中每個彩色節點代表數據集中的一個問題序列，節點位置越高表示模型在該序列中連續解答正確的問題越多。

結果表明，這一指標在不同任務之間差異明顯，對于大多數模型來說，邏輯推理任務上更難連續做對題目。

在思維型模型與非思維型模型之間，這一指標的表現也存在顯著差異。結果發現思維型模型相比非思維型模型通常具有更高的連續正確解答數。這說明思維型模型不僅更能從先前經驗中受益提升表現，還能保持更高的穩定性，更有可能連續解答多個相關問題。

有趣的是，在摘要任務中，模型的 N_consec 值較高，但 Acc_pw-K 卻明顯下降，這表明其在序列后期的問題上表現反而不如前期問題。這意味著在此類任務中，連續解題能力可能更多依賴模型固有的知識和靜態能力，而不是從序列中學習到的經驗。

發現三：

學習能力為評估模型提供了一個獨立于靜態性能的新視角，揭示了其潛在的學習能力。

表 2 結果進一步表明，并行解題的高表現不代表學習能力優異。邏輯推理任務中，Claude-3.7-Sonnet-Thinking 的并行表現不及 DeepSeek-R1 與 Doubao-1.5-Thinking-Pro，但通過反饋學習范式大幅提升；o3-mini 則在兩種設置下均表現最佳。再如數學推理任務，DeepSeek-R1 零樣本表現優于 o3-mini，卻未能從經驗中有效學習，反而在反饋學習中性能下降。

值得注意的是，靜態能力相近的模型可能學習能力迥異：Claude-3.7-Sonnet-Thinking 與 GPT-4o 在序列推理任務中零樣本準確率均為 31.7%，但前者提升 14.5%，后者僅提升 0.5%；而在數學推理中，GPT-4o 的學習能力反超前者。這說明學習能力不僅因模型而異，也因任務而變。

這些發現表明，學習能力是評估模型的重要獨立維度，與靜態性能無關且具有任務差異性。研究者在問題三中進一步分析不同學習范式下的模型表現，為該結論提供了更多佐證。

研究問題二：

大語言模型在從一系列問題中

學習的效率如何？

圖 4 所有模型和任務在反饋學習中擬合的逐位置準確率曲線斜率（k）結果

發現四：

不同模型和任務類型之間的學習效率存在顯著差異。

總體而言，多數非思維型模型在經驗積累中進步更快，思維型模型則表現出更穩定的收益。

圖 2 右側呈現了 DeepSeek-R1 的逐位準確率曲線，圖 4 熱圖則匯總了這些曲線的斜率（k），直接反映模型學習效率。研究發現，多數非思維型模型的逐位準確率曲線斜率更陡峭，這可能與其起始性能較低、更易抓住 “低垂的果實” 有關。相比之下，思維型模型的學習過程更穩定。這表明思維型模型更擅長利用先前問題的信息（包括評判模型反饋），從而實現更高效的推理與更穩定的性能提升。

此外，多數模型在數學推理任務中展現正向學習效率，但在順序推理任務上普遍出現性能下降，這說明即便在有明確解題路徑與反饋的推理任務中，學習效率也會因任務特性產生顯著差異，受多重因素影響。

因此，我們可以得出結論：模型的學習效率受靜態能力、任務類型與推理方法共同影響：非思維型模型借助經驗實現快速提升，思維型模型則以更穩定的方式持續進步。

研究問題三：

不同的學習方式

是否會帶來性能差異？

發現五：

不同的解題方式會顯著影響模型性能。

模型可通過示例學習積累經驗，反饋學習則能進一步強化其學習能力。值得注意的是，學習能力與模型的靜態能力并無強相關性。

圖 5 呈現了模型在四種解題方法下的表現。研究者發現，對多數模型而言，示例學習的效果通常優于并行的少樣本學習。以 Claude-3.7-Sonnet-Thinking 為例，其在五個任務中相較于少樣本設置均實現持續提升。這背后的關鍵原因在于，示例學習讓模型能夠訪問序列中所有先前問題及標準答案，進而從過往經驗中有效學習。

圖 5 四種求解方法的整體準確率對比，包括兩種并行方法（即零樣本和少樣本）與兩種序列方法（即示例學習和反饋學習）

此外，圖 6、7、8 比較了模型采用反饋學習與示例學習兩種學習范式后在熱身后準確率（Acc_pw-K）和斜率 k 方面的差異。結果表明，對于大多數模型，反饋學習比示例學習能獲得更高的平均總體準確率和更大的學習效率。

圖 6 所有模型和任務中，反饋學習與示例學習的斜率差異（Δk）熱圖

圖 7 反饋學習（上）和示范學習（下）的熱身后準確率（Acc_pw-K）結果

值得注意的是，每個大模型在某些任務中都表現出較強的學習能力，但沒有任何模型能在所有任務中始終實現穩定的學習提升。這些結果表明，每個模型都有其優勢，學習能力與靜態表現之間并不強相關。因此，學習能力和效率提供了一個評估模型表現的新視角，有助于理解當前模型與人類能力之間的差距。

發現六：

首個正確解答的位置平均值（P_first）在不同模型和任務之間存在差異，這一指標揭示了模型的學習潛力。

研究人員們還分析了首個正確解答的位置平均值 P_first，發現這一指標對于不同任務之間的模型表現差異很大。例如，在邏輯推理序列中，大多數模型都難以早期解出首個問題，只有 o3-mini 和 Doubao-1.5-Thinking-Pro 能持續取得早期成功。九個模型中有七個在有反饋的情況下，能更早解出問題。

這表明，與僅提供標準答案相比，反饋更能促進模型學習和掌握任務。例如，在邏輯推理任務中，o3-mini 有時在只使用示例學習時無法解出任何問題，但在使用反饋學習后，能在每個序列中至少解出一個問題。因此，P_first 能綜合反映模型的靜態能力、學習能力和學習速度，從而揭示其學習潛力。

結語

研究人員們提出了 EvaLearn，這是一個新穎的基準測試框架，用于在特定任務中對模型的學習能力和效率進行序列化評估。

EvaLearn 配備了一套全面的評估指標，揭示了在多種任務中，包括依賴思維過程和不依賴思維過程的任務，前沿模型之間顯著的性能差異，這些指標從多個角度全面評估了模型的學習表現。EvaLearn 提供了更現實、動態的評估方式，幫助研究人員更好地理解模型與人類之間的差距，推動更強大模型的發展。

此外，研究者發現，盡管某些模型能夠有效利用教師模型對先前解答的反饋來提升學習效果，但另一些模型卻難以從這類反饋中獲益。EvaLearn 為評估大型語言模型的潛力提供了新的視角，是邁向動態評估的重要開創性一步。

責任編輯：張燕妮來源：機器之心

大模型 AI 測評