精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

清華校友用AI破解162個高數定理,智能體LeanAgent攻克困擾陶哲軒難題!

人工智能
就在剛剛,清華校友用AI證明了162個未被人類證明的數學定理,解決了AI無法解決陶哲軒對多項式Freiman-Ruzsa猜想的形式化難題!

諾貝爾物理學獎和化學獎被AI「包圓」后,人們再次確信:基礎科學研究的范式,已經被AI從根本上改變。

果然,就在剛剛,AI成功證明了162個以前未被證明的數學定理,再次印證了這一點。

圖片圖片

到目前為止,LLM仍然是靜態的,無法在線學習新知識,更別提證明高數定理了。

對此,來自加州理工、斯坦福和威大的研究人員提出了LeanAgent——一個終身學習,并能證明定理的AI智能體。

圖片圖片

論文地址:https://arxiv.org/abs/2410.06209

LeanAgent會根據數學難度優化的學習軌跡課程,來提高學習策略。并且,它還有一個動態數據庫,有效管理不斷擴展的數學知識。

值得一提的是,整個學習過程中,它既能自我學習新知識,同時不會遺忘已具備的能力。

實驗結果發現,LeanAgent從來自23個不同Lean代碼庫中,成功證明162個此前未被人類證明的數學定理。

相較于基于Lean數據微調大模型,LeanAgent性能直接飆升11倍。而且,綜合終身學習能力近94%。

其中,有許多是高等數學定理,比如具有挑戰性的抽象代數、代數拓撲。

它還展現出了從基本概念到高級主題清晰的學習過程。

同時,LeanAgent在穩定性、反向遷移方面取得了卓越的成績,并且學習新任務還能提高以往任務的性能。

陶哲軒的證明,AI依然無解?

交互式定理證明器(ITPs),如Lean,已成為形式化和驗證數學證明的工具。

然而,使用ITPs構建形式化證明不僅復雜,且非常耗時。因為它需要極其詳細的證明步驟,并需要使用大量數學代碼庫。

諸如o1、Claude先進的大模型,在非形式化證明中,會產生幻覺。這愈加凸顯了,LLM在形式化數學證明中準確性、可靠性方面的重要性。

先前的一系列研究,探索了LLM也能夠生成完整的證明步驟。

比如,LeanDojo便是基于開源大模型構建的定理證明器。研究人員通過在特定數據集上,訓練微調大模型而來。

圖片圖片

項目地址:https://leandojo.org/

然而,形式化定理證明數據非常稀缺,進而阻礙了這一方法的泛化能力。

再比如,ReProver專門針對Lean定理證明代碼庫mathlib4微調的大模型。盡管這個數據庫包含了超10萬個形式化數學定理、定義,但它們分布僅覆蓋的是本科數學。

因此,ReProver在更具挑戰性問題——陶哲軒對多項式Freiman-Ruzsa(PFR)猜想的形式化,表現就會很差。

圖片圖片

https://terrytao.wordpress.com/2023/11/13/on-a-conjecture-of-marton/

并且,數學研究動態性,更是加劇了無法泛化的問題。

數學家們通常同時,或者交替在多個領域、項目中進行形式化。

比如,陶哲軒并行開啟多個項目,包括PFR猜想、實數對稱平均、經典牛頓不等式、漸近分析的形式化。

Patrick Massot專注于形式化Scholze凝聚態數學,以及完美空間(Perfectoid Spaces)項目。

圖片圖片

這些例子突出了當前AI定理證明方法一個關鍵不足:

缺乏一個能夠隨時間在不同數學領域自適應、改進的AI系統,特別是在Lean數據可用性有限的前提下。

與終身學習的相關性

至關重要的是,數學家們形式化過程與終身學習密切相關,即在不忘記的情況下學習多個任務。

然而,對于AI來說,一個重大挑戰便是「災難性遺忘」問題。

它們往往會學習新知識(新分布)后,直接丟失,甚至抹去了對舊知識(舊分布)的記憶。

而核心挑戰是,如何去平衡可塑性(學習和適應的能力)與穩定性(保留現有知識的能力)。

當AI學習新任務時,可能會覆蓋了先前的學習信息。而若是為了增強穩定,保留既有的知識,便會損害LLM獲取新技能的能力。

在數學形式化定理證明中,AI持續泛化能力的關鍵,便是在這兩者之間實現平衡。

LeanAgent:首個終身學習證明數學定理的AI智能體

基于以上難題,LeanDojo原班人馬團隊提出了LeanAgent,一個用于定理證明的全新終身學習框架。

如下圖1所示,LeanAgent工作流包括了:

  1. 推導定理的復雜度,以計算學習課程
  2. 進行漸進訓練,在學習過程中平衡穩定性和可塑性
  3. 利用最佳優先樹搜索,來搜索sorry定理(人類尚未證明的定理)

當然,LeanAgent可與任何LLM結合使用,并且通過「檢索」來提高泛化能力。

同時,LeanAgent包含了幾個關鍵的創新——

使用自定義動態數據庫,管理不斷擴展的數學知識;使用一種新穎課程學習(curriculum learning)策略,利用Lean證明結構,來學習更復雜的數學倉庫。

圖片圖片

對于AI災難性遺忘問題,研究人員采用了簡單的「漸進」訓練方法。

該方法讓LeanAgent能夠持續適應新的數學知識,同時還能保留先前的學習信息。

這一過程涉及了,在課程中每個倉庫生成的新數據集上,增量訓練檢索器。

從預訓練檢索器開始(比如基于ByT5 ReProver檢索器),LeanAgent在每個新數據集上,額外訓練一個epoch。

通過將漸進訓練限制在一個epoch,有助于平衡穩定性和可塑性。

尤其是,漸進訓練對數據庫生成的每個數據集重復進行,逐步擴展LeanAgent知識庫。

它的優勢是,增加了可能的證明狀態空間(其中狀態包括定理的假設和當前證明進展),同時向前提嵌入添加了新的前提。

不過,更復雜的終身學習方法,如彈性權重合并(EWC),使用Fisher信息矩陣來約束先前任務的重要權重,會導致過度可塑性。

這種不受控制的可塑性,是因為AI無法隨著定理復雜度的增加,而適應參數重要性。

它迫使AI在學習高級概念時,關鍵參數會發生快速變化。

因此,這些方法是無法適應數學定理不斷演變復雜性,也就無法適用在定理證明中的終身學習。

如前所述,在23個不同的Lean代碼庫中, LeanAgent在定理證明終身學習方面取得了優越性。

它成功證明了162個sorry定理,其中許多來自高等數學。

比如,LeanAgent證明了來自PFR倉庫的困難sorry定理,并證明了抽象代數和代數拓撲中與Coxeter系統和毛球定理相關的挑戰性定理。

另外,研究人員還發現,LeanAgent在定理證明中,展現出漸進學習的一面。

從最初證明基本的sorry定理,到后面證明了更復雜的定理。

而且,LeanAgent在只能證明新的sorry定理方面,比靜態ReProver基線高出多達11倍,同時保留了對已知定理證明的能力。

在定理證明中,作者還發現穩定性(在不失去太多可塑性前提下),對于AI持續泛化到新倉庫至關重要。

反向遷移(BWT),即學習新任務改善先前學習任務的性能,也在定理證明中至關重要。

數學家需要一個既能持續泛化,又能持續改進的定理證明終身學習框架。

最后的消融實驗中,相較于7個終身學習框架,LeanAgent簡單的課程學習和漸進訓練組件,顯著提高了穩定性和BWT得分。

最終,LeanAgent拿下了94%綜合終身學習的成績,幾乎接近完美。

這也揭示了,LeanAgent在持續泛化和改進的強大能力,以及卓越的sorry定理證明性能。

LeanAgent對數學知識的掌握

在終身學習過程中,LeanAgent展示了對基本代數結構和基本數學運算的深刻理解。

a)群和環論

LeanAgent證明了關于基本代數結構的定理。例如,MyGroup.mul_right_inv證明了將一個元素與其逆元素相乘等于單位元,而MyRing.add_right_cancel則展示了環加法的消去性質。

圖片圖片

b)初等數論

LeanAgent可以處理基本的算術屬性。例如,MyRing.zero_mul證明了零乘以任何數都是零,而MyRing.neg_neg則證明了負數的負數等于原數。

圖片圖片

c)序理論

LeanAgent掌握了序理論的相關概念。例如,absorb 1證明了x與(x和y的上確界)的下確界總是等于x,而absorb2證明了x與(x和y的下確界)的上確界總是等于x。

圖片圖片

d)初等實分析

LeanAgent 展示了對實數及其絕對值性質的初步理解。例如,C03S05.MyAbs.abs_add證明了涉及實數的三角不等式。

圖片圖片

終身學習過程表明,LeanAgent已經從基礎開始理解數學概念。而在這個過程結束后,它的數學推理能力有顯著提升。

比如證明了涉及多個量詞和條件的邊界和絕對值的復雜命題。

圖片圖片

理解了抽象集合論的概念,證明了子集關系是傳遞的。

圖片圖片

方法

用于定理證明的有效終身學習策略,需要(a)最佳倉庫順序策略和(b)最佳學習策略。

通過課程學習,研究者解決了(a),以利用Lean證明的結構,并通過漸進式訓練來解決(b),以平衡穩定性和可塑性。

LeanAgent由四個主要組件組成:課程學習、動態數據庫管理、檢索器的漸進式訓練和sorry定理證明。

課程學習

LeanAgent采用課程學習方法,學習逐漸增加復雜度的數學代碼庫。

這個過程優化了LeanAgent的學習軌跡,讓它能夠在處理更高級的概念之前,先建立堅實的基礎知識。

具體步驟如下:

  1. 自動搜索并克隆GitHub上的Lean代碼庫。
  2. 使用LeanDojo提取每個代碼庫中定理、證明和依賴關系的細粒度信息。
  3. 使用公式eS計算每個定理的復雜度,其中S代表證明步驟的數量。對于沒有證明的sorry定理(即未完成證明的定理),賦予無限復雜度。
  4. 采用指數縮放,來解決隨著證明長度增加可能出現的證明路徑組合爆炸問題。
  5. 計算所有代碼庫中所有定理復雜度的第33百分位和第67百分位。
  6. 將非sorry定理分為三組:簡單(復雜度低于第33百分位)、中等(復雜度在第33百分位和第67百分位之間)和困難(復雜度高于第67百分位)。
  7. 按照代碼庫中包含的簡單定理數量對代碼庫進行排序,形成課程基礎。

LeanAgent從包含最多簡單定理的代碼庫開始學習。

動態數據庫管理

在建立課程后,研究者進行以下操作:

  1. 將排序后的代碼庫添加到LeanAgent的自定義動態數據庫中,使用LeanAgent提取的數據。
  2. 將每個定理的復雜度包含在動態數據庫中,以便未來課程中高效重用代碼庫。
  3. 對課程中的每個代碼庫,LeanAgent使用動態數據庫生成數據集,遵循與制作LeanDojo基準測試4相同的程序。

生成的數據集包括:

  • 一系列定理及其證明
  • 每個證明步驟的詳細注釋,說明該步驟如何改變證明的狀態
  • 定理狀態信息,包括假設和證明進展
  • 展示如何按順序使用特定的策略(函數)和前提來證明定理
  • 前提語料庫,作為事實和定義的參考庫

檢索模型的漸進式訓練

LeanAgent在新生成的數據集上,對其檢索模型進行漸進式訓練。

這種策略使LeanAgent能夠持續適應新數據集中前提的新數學知識,同時保留先前學習的信息,這對定理證明的終身學習至關重要。

漸進式訓練通過逐步整合每個代碼庫的新知識來實現這一目標。訓練過程如下:

  1. 起點選擇:雖然LeanAgent可以與任何LLM配合使用,但研究者選擇從ReProver的檢索模型開始。這是ByT5編碼器的微調版本,利用其從mathlib4獲得的一般預訓練知識。
  2. 新數據集訓練:在新數據集上額外訓練LeanAgent一個epoch(訓練周期)。這種有限的訓練有助于防止對新數據過擬合,同時允許LeanAgent學習重要的新信息。
  3. 嵌入預計算:在驗證之前,預先計算語料庫中所有前提的嵌入,以確保這些嵌入與LeanAgent的當前狀態一致。
  4. 模型評估:
    - 計算可塑性:保存在前十個檢索到的前提(R@10)的驗證召回率最高的模型迭代。這是一個原始可塑性值,用于評估LeanAgent適應新數學類型的能力。
    - 計算穩定性:計算模型在所有先前漸進式訓練過的數據集上的平均測試R@10,作為原始穩定性值。
  5. 重復過程:對從數據庫生成的每個數據集重復上述步驟,體現訓練的漸進性質。

漸進式訓練的效果:

  • 將新的前提添加到前提嵌入中
  • 增加可能的證明狀態空間
  • 使LeanAgent能夠探索更多樣化的證明路徑
  • 發現無法用原始知識庫產生的新證明

sorry定理的證明

對于每個sorry定理,LeanAgent AI智能體會通過最佳優先樹搜索生成證明。具體步驟如下:

1. 前提檢索:

  • 使用之前收集的整個前提語料庫的嵌入
  • 基于當前證明狀態(表示為上下文嵌入)與前提的相似性,從前提語料庫中檢索相關前提
  • 使用語料庫依賴圖進行過濾,確保只考慮當前文件可訪問的前提

2. 策略生成:

  • 將檢索到的前提添加到當前狀態
  • 使用束搜索生成策略候選

3. 狀態評估:

  • 將每個策略候選通過Lean運行,獲得潛在的下一個狀態
  • 每個成功的策略應用都會向證明搜索樹添加一條新邊

4. 策略選擇:

  • 選擇具有最大累積對數概率的策略,即導致該狀態的策略序列的累積對數概率

5. 回溯處理:

  • 如果搜索遇到無效路徑,進行回溯并探索替代路徑

6. 迭代過程:

  • 重復上述步驟,直到滿足以下條件之一:a) 找到證明 b) 窮盡所有可能性 c) 達到10分鐘的時間限制

7. 結果處理:

  • 如果LeanAgent找到證明,將其添加到動態數據庫中
  • 新證明中添加的前提將包含在涉及當前代碼庫的未來前提語料庫中
  • LeanAgent可以在未來的漸進式訓練中從新證明中學習,進一步改進其性能

如前所述,研究者對從數據庫生成的每個數據集重復這個過程,因此這種訓練具有漸進性質。

漸進式訓練將新的前提添加到前提嵌入中,并增加了可能的證明狀態空間。

這使LeanAgent能夠探索更多樣化的路徑來證明定理,發現它無法用原始知識庫產生的新證明。

實驗

圖片圖片

sorry定理的證明

研究者比較LeanAgent AI智能體在持續學習過程中和之后能夠證明的sorry定理,并與ReProver基準進行對比。

選擇ReProver作為基準,是因為在實驗中使用了它的檢索器作為LeanAgent的初始檢索器。

然而,由于定理證明難度的非線性特性,研究者避免在LeanAgent和ReProver之間進行簡單的百分比比較。

值得注意的是,LeanAgent在多個代碼庫中顯著優于基準的性能,讓它能夠證明越來越難的定理。

此外,sorry定理缺乏已知的證明,因此證明一個sorry定理,對數學研究具有重要價值。

基于以上考慮,研究者提出了一個定理證明性能得分(Theorem Proving Performance Score,TPPS),特別強調新證明的sorry定理。

TPPS的計算方法如下:

  1. LeanAgent TPPS = (# ReProver Theorems Proved) + (# New Theorems Proved * X) + 1
  2. ReProver TPPS = (# ReProver Theorems Proved) + 1
  3. improvement Factor = (LeanAgent TPPS) / (ReProver TPPS)

其中,X代表證明新定理的重要性權重。考慮到基礎算術和抽象代數之間的巨大難度差距,研究者選擇了X = 10。

此外,LeanAgent AI智能體的一個使用場景,是在學習完一個課程后在新的代碼庫中進行形式化(即將數學概念和證明轉化為計算機可驗證的形式)。

研究者通過在MiniF2F上逐步訓練來展示這一點。需要注意的是,我們選擇了MiniF2F代碼庫的Lean4版本,并忽略了其驗證集和測試集的劃分(原因詳見附錄A.5)。

數學家可以使用LeanAgent進行以下兩步操作:

1. 學習初始課程A

2. 學習子課程B

然后,LeanAgent可以幫助數學家并行地形式化課程A+B中的代碼庫。

為了演示這種情況,研究者在8個代碼庫組成的子課程B上繼續訓練LeanAgent。結果見表2,案例研究見圖2。

圖片圖片

圖片圖片

LeanAgent在多個代碼庫中,展示了持續的泛化能力和定理證明能力的提升。

在終身學習結束時,LeanAgent相比ReProver的改進因子如下:

- PFR:11倍

- Mathematics in Lean Source:5.67倍

- MiniF2F:2.63倍

- SciLean:2.2倍

- Hairy Ball定理:11倍

- Coxeter:11倍

- Formal Book:4.33倍

在大多數情況下,LeanAgent的證明是ReProver所證明的sorry定理的超集。LeanAgent的學習進展從基本概念(如算術、簡單代數)逐步深入到高級主題(如抽象代數、拓撲學)。

1. PFR:

LeanAgent AI智能體能夠證明這個前沿代碼庫中的一個sorry定理,而ReProver做不到。它還能泛化到不同的代碼提交,僅使用rfl策略就能證明ReProver無法證明的定理。有趣的是,LeanAgent對PFR代碼庫中的邏輯操作理解得足夠深入,能夠用「0 = 1」這樣的占位符定理語句,證明5個sorry定理。

2. SciLean:

在終身學習過程中,LeanAgent證明了與基本代數結構、線性和仿射映射以及測度論基礎相關的定理。到終身學習結束時,它掌握了高級函數空間、復雜雙射和抽象代數結構的概念。

3. Mathematics in Lean Source:

在終身學習過程中,LeanAgent證明了關于基本代數結構和基本算術性質的定理。到終身學習結束時,它能夠證明涉及量詞操作、集合論和關系的復雜定理。

4. MiniF2F:

ReProver展示了在基礎算術、初等代數和簡單微積分方面的熟練程度。然而,到終身學習結束時,LeanAgent掌握了高級數論、復雜代數、復雜微積分和分析、抽象代數以及復雜歸納法。

5. 子課程:

  • Formal Book代碼庫:LeanAgent從證明基本實分析和數論定理進步到掌握高級抽象代數,其證明Wedderburn小定理就是一個例證。
  • Coxeter代碼庫:LeanAgent證明了一個關于Coxeter系統的復雜引理,展示了它在群論方面的熟練程度。
  • Hairy Ball定理代碼庫:LeanAgent證明了該定理的一個關鍵步驟,展示了對代數拓撲的理解。

LeanAgent能夠證明這些令人印象深刻的定理,表明它比ReProver具有更高級的定理證明能力。

終身學習分析

因為文獻中不存在其他用于定理證明的終身學習框架,因此研究者進行了一項消融研究,使用七個終身學習指標,來展示LeanAgent AI智能體在處理穩定性-可塑性權衡方面的優越性。

這些結果有助于解釋LeanAgent AI智能體在sorry定理證明性能方面的優勢。

研究者為原始的14個代碼庫課程計算了這些指標。

具體來說,消融研究包括七個額外的設置,這些設置由學習和數據集選項組合而成。學習設置的選項是有或沒有EWC的漸進式訓練。

數據集設置涉及數據集順序和構建。數據集順序的選項包括單一代碼庫或合并所有,其中每個數據集由所有先前的代碼庫和新的代碼庫組成。

考慮到GitHub上按星級計數最受歡迎的代碼庫,數據集構建的選項包括受歡迎度順序或課程順序。

圖片圖片

圖片圖片

研究者使用了以下七個終身學習指標:

1. 窗口遺忘5(WF5)

2. 遺忘度量(FM)

3. 災難性遺忘恢復力(CFR)

4. 擴展反向遷移(EBWT)

5. 窗口可塑性5(WP5)

6. 增量可塑性(IP)

7. 綜合得分(CS)

他們引入了三個新指標,來解決定理證明中終身學習的特定方面:

  • 災難性遺忘恢復力(CFR):這個指標捕捉了LeanAgent AI智能體在其最弱任務上,相對于其最佳表現保持性能的能力,這在存在多樣化數學領域的情況下至關重要。
  • 增量可塑性(IP):IP提供了比總體措施更細粒度的可塑性視圖,并對任務順序敏感,這在定理證明的終身學習中特別相關。
  • 綜合得分:目前應該還沒有廣泛建立的綜合指標能夠提供一個單一的穩定性-可塑性權衡得分,包含表3中的前六個指標。

因此,研究者提出了一個綜合得分:Composite Score = 0.2 · (1 ? WF5_norm) + 0.2 · (1 ? FM_norm) + 0.1 · WP5_norm + 0.1 · IP_norm + 0.2 · EBWT_norm + 0.2 · CFR_ norm

圖片圖片

此外,這些指標在合并所有策略中衡量的是累積知識改進而不是孤立的任務表現。

圖片圖片

1. 單一代碼庫分析

表4呈現了,單一代碼庫的結果。

LeanAgent智能體在多項指標上,展現出卓越的穩定性。其WF5指標比下一個最佳設置低75.34%,表明它能更有效地在一個時間窗口內保持性能。

LeanAgent FM得分比設置3還要低59.97%,展示了其對災難性遺忘的強大抵抗力。

此外,LeanAgent智能體、設置1和設置2中,都表現出高度一致的不會出現災難性遺忘,CFR值均超過0.87,差異極小(僅±0.01)。

這恰恰凸顯了,LeanAgent智能體隨時間持續泛化的能力。

另外,它EBWT高出16.25%,進而表明其具備了隨時間持續改進的能力。

圖片圖片

相比之下,設置3表現出更高可塑性。

它的WP5比LeanAgent AI 智能體高出38.26%,表明其在一個時間窗口內,快速適應新任務的能力更強。

設置3 IP 比LeanAgent智能體高出3.98%相輔相成,暗示了隨著時間推移,其在新任務上改進更為顯著。

然而,這些可塑性的提升是以極大代價換來的:設置3產生了更嚴重的災難性遺忘,可從其與LeanAgent智能體相比明顯較差的穩定性指標可以看出。

設置3中過度的可塑性,源于EWC無法隨定理復雜性增加而調整參數重要性。

EWC保留了對簡單定理重要的參數,但這些參數可能對更復雜的定理,并不關鍵。

因此,這些保留的參數抗拒變化,而其他參數為復雜定理快速變化。這迫使模型整體變得更具可塑性,在處理新的復雜定理時嚴重依賴非保留參數。

LeanAgent AI 智能體在綜合得分上表現出卓越性能,能夠在適應新任務的同時,保持已有知識,使其成為單一代碼庫設置中最適合終身學習智能體。

2. 合并所有分析

接下來,研究人員分析了表4中的合并所有設置。

設置5的WF5指標比下一個最佳設置(設置7)低61.68%,表明設置5在不斷擴大的數據集中最有效地實現可塑性和穩定性平衡。

此外,設置5的CFR得分比設置7高3.77%,再次展示了面對不斷擴大、可能更復雜的數據集時的高度且一致的抵抗力。

然而,設置7的FM得分比設置5低6.44%,展示了其在早期數據點上能夠保持已有知識的能力。

此外,設置5是唯一一個EBWT為正的設置,表明學習新任務可以提高整個歷史數據集的性能。其他設置的EBWT為負,表明在學習新任務后,早期任務的性能有所下降。

只有設置5和7的WP5不為0,表明它們有能力適應合并數據集不斷增加的復雜性。

設置4和6為0數值表明,在處理合并數據時,按受歡迎程度排序難以顯示改進。然而,盡管設置5的IP得分最高,比設置7高27.75%,但所有4個設置的IP值都為負。

這表明驗證R@10隨時間推移而下降,說明合并所有策略難以保持性能。

設置5的高綜合得分表明,它在平衡保留早期知識與適應合并數據集中的新數據方面表現最佳。然而,其負IP值表明其方法存在根本性問題。

3. 比較分析和洞見

盡管這些指標在單一代碼庫和合并所有設置中有不同的解釋,但研究者表示,仍然可以通過關注整體趨勢和相對表現,來進行一些有意義的比較。

研究者注意到,合并所有設置中的負IP值表明存在重大問題。

這個缺點超過了其他指標所顯示的潛在優勢,因為它揭示了在持續增長的數據集中無法保持和改善性能的根本問題。

相比之下,LeanAgent展示了正IP值,表明其能夠有效吸收新知識。

這一特點,再加上其相對于其他單一代碼庫方法更優越的穩定性和EBWT指標,表明LeanAgent比設置5更適合實現持續的泛化能力和性能改進。

4. 與sorry定理證明性能的一致性

這種終身學習分析與LeanAgent在sorry定理證明方面的性能表現是一致的。

LeanAgent優越的穩定性指標(WF5、FM和CFR),解釋了它在不同數學領域保持性能的能力,這一點從它成功證明來自SciLean、Mathematics in Lean Source和PFR等不同代碼庫的定理中就可以被證實。

其高EBWT分數與它在定理證明中從基本概念到高級主題的進展相一致。

雖然LeanAgent相比某些設置顯示出略低的可塑性(WP5和IP),但這種權衡實際上導致了更好的整體性能。這一點體現在它能夠證明比其他方法更廣泛的sorry定理集合。

由持續泛化能力、持續改進和可塑性組成的綜合得分,進一步證實了LeanAgent在定理證明的終身學習方面具有全面的優勢。

作者介紹

Peiyang Song

圖片圖片

Peiyang Song是加州理工學院(Caltech)計算機科學的本科生,由Steven Low教授的指導。同時也是斯坦福人工智能實驗室(SAIL)的研究員,在計算與認知實驗室(CoCoLab)由Noah Goodman教授指導。

他的研究方向是機器推理,特別是用于數學和代碼生成的AI。此前,從事過高能效機器學習系統和機器翻譯的研究。

Chaowei Xiao

圖片

Chaowei Xiao是威斯康星大學麥迪遜分校的助理教授,同時也是英偉達的研究員。

他的研究方向是探索LLM系統的安全性和安全保障,以及LLM在不同應用領域中的作用。

此前,他在密歇根大學安娜堡分校獲得博士學位,并在清華大學獲得學士學位。

參考資料:

https://arxiv.org/abs/2410.06209

https://x.com/AnimaAnandkumar/status/1844756761510859034

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-11-06 08:59:00

2024-07-29 13:28:52

2024-10-14 14:31:36

2024-12-09 09:35:00

AI數據訓練

2025-09-04 09:04:13

2023-12-16 09:42:12

2024-10-28 16:20:00

2025-10-30 16:08:28

谷歌AI陶哲軒

2023-10-28 13:18:05

AI工具

2025-06-12 14:20:35

谷歌DeepMindAI

2023-10-04 08:07:06

CopilotGitHub

2025-05-22 09:08:40

2023-10-10 13:51:46

GPT-4GitHubAI

2023-10-10 12:30:51

AI模型

2023-09-02 11:21:54

代碼ChatGPT

2025-06-03 08:15:00

2022-12-19 10:45:14

編程幾何

2024-09-29 14:00:00

AI數學自動化

2024-07-29 08:49:00

AI數學

2024-01-31 13:04:00

AI數據
點贊
收藏

51CTO技術棧公眾號

日韩午夜在线视频| 欧美精品日日鲁夜夜添| 狠狠色狠狠色综合人人| 日本中文字幕久久| 国产精品久久久久久久免费观看| 日韩精品在线网站| 国产综合免费视频| 91麻豆一二三四在线| 2024国产精品视频| 成人免费激情视频| 午夜毛片在线观看| 婷婷亚洲五月| 国产午夜精品理论片a级探花| 亚洲欧美久久久久| 18video性欧美19sex高清| 欧美高清在线一区二区| 国产精品播放| 久久中文字幕免费| 午夜精彩国产免费不卡不顿大片| 亚洲美女av在线| 亚洲AV成人精品| 九七影院97影院理论片久久| 欧美日韩国产精品| 三级在线免费观看| 粉嫩av在线播放| av一区二区三区| 91欧美日韩一区| 亚洲精品一区二三区| 一道本一区二区| 欧美片一区二区三区| 老头老太做爰xxx视频| 丝袜连裤袜欧美激情日韩| 日韩视频免费直播| 永久免费的av网站| xxxxx.日韩| 日韩欧美有码在线| 免费国产a级片| 免费在线播放电影| 亚洲女同ⅹxx女同tv| 日韩精品久久久| 欧美3p视频在线观看| av在线综合网| 国产精品视频免费一区| 成人av手机在线| 国产成人av资源| 91亚洲va在线va天堂va国| 一本色道久久综合无码人妻| 秋霞影院一区二区| 国产精品一区电影| 亚洲无码精品在线播放| 免费成人美女在线观看.| 国产精品91久久久| 无码人妻一区二区三区线| 亚洲欧美久久| 97在线观看视频国产| 国产午夜免费视频| 亚洲精品四区| 欧美一乱一性一交一视频| 国产成人无码精品久久久久| 亚洲深夜福利| 国产成人精品在线观看| 国产一级做a爱片久久毛片a| 亚洲综合精品四区| 日韩美女视频免费在线观看| 日韩精品在线一区二区三区| 蜜臀久久久久久久| 成人精品一区二区三区电影免费 | 欧美日韩国产影片| 黄大色黄女片18第一次| 日韩有码欧美| 日韩一区二区三区视频在线观看| 日本黄色三级网站| 精品欧美午夜寂寞影院| 亚洲人成毛片在线播放| 日本综合在线观看| 亚洲深深色噜噜狠狠爱网站| 久久99精品久久久久久噜噜| 日韩av电影网| 久久男女视频| 91久久精品国产91性色| 亚洲精品国产suv一区| 91性感美女视频| 日韩在线第一区| 人人澡人人添人人爽一区二区| 亚洲国产欧美在线| 国产精品拍拍拍| 久久三级中文| 亚洲欧洲偷拍精品| 久久国产高清视频| 99综合精品| 国产精品美女视频网站| aaa一区二区三区| 99久久精品免费精品国产| 日本在线观看不卡| 国内老司机av在线| 欧美三级在线看| 国产精品熟妇一区二区三区四区 | 狠狠色伊人亚洲综合成人| 成人精品一二区| 国产精品一区在线看| 亚洲欧美另类小说视频| 黄色片一级视频| 亚洲乱码一区| 中文字幕不卡av| 日韩欧美性视频| 国产一区二区调教| 日韩高清国产精品| 色老头在线观看| 日本乱人伦aⅴ精品| 永久免费未满蜜桃| 午夜国产一区二区| 国产ts一区二区| 成人毛片在线免费观看| 中文字幕一区二区三区视频| 精品一卡二卡三卡| 丁香婷婷成人| 欧美成人全部免费| 中文字幕久久熟女蜜桃| 久久综合色综合88| 给我免费播放片在线观看| 96sao精品免费视频观看| 亚洲人成在线一二| 中文字幕一区二区三区手机版| 久久精品国产77777蜜臀| 欧美国产综合视频| 超级白嫩亚洲国产第一| 日韩一区二区三区四区 | 日韩久久久久| 国产ts人妖一区二区三区| 污视频网站免费观看| 一区二区久久久久久| www.桃色.com| 97色伦图片97综合影院| 国产精品亚洲精品| 国产三级视频在线看| 欧美性色xo影院| 中文字幕在线永久| 亚洲国产专区| 国产精品视频福利| 久草免费在线色站| 精品捆绑美女sm三区| 久久久久久久久久久久国产| 国产精品一区免费视频| 国产精品无码乱伦| 电影中文字幕一区二区| 久久精品视频在线观看| 一二区在线观看| 亚洲欧美综合在线精品| 天堂中文av在线| 天天综合网网欲色| 亚洲专区中文字幕| 亚洲卡一卡二| 精品国产乱码久久久久久久| 成人免费看片98| 成人永久免费视频| 日韩免费一级视频| 杨幂一区二区三区免费看视频| 国产69久久精品成人| 可以直接在线观看的av| 欧美性感一区二区三区| 蜜桃av.com| 国产一区二区网址| 青青草精品视频在线| 亚洲综合小说图片| 国产日韩在线看片| 午夜伦理在线视频| 亚洲精品国偷自产在线99热| 日本高清不卡码| 国产精品欧美一级免费| 国产九九九视频| 影院欧美亚洲| 欧美一区二区三区精美影视| 精品欧美日韩精品| 久久国产精品影片| 无码国产精品一区二区色情男同| 色综合久久天天| 国产传媒视频在线| 国产69精品久久99不卡| 超碰97人人射妻| 性欧美欧美巨大69| 国产亚洲精品自在久久| 外国成人直播| 欧美成人激情在线| 欧美日本韩国一区二区| 欧美乱妇15p| 日本少妇性生活| 中文成人综合网| 香蕉视频污视频| 日韩精品一卡二卡三卡四卡无卡| 日本特级黄色大片| 秋霞蜜臀av久久电影网免费| 国产精品久久久久久久久借妻| sm国产在线调教视频| 日韩黄色在线免费观看| 一级全黄裸体免费视频| 亚洲v日本v欧美v久久精品| 五月天精品在线| 成人va在线观看| 奇米视频888| 亚洲永久免费| 久久国产精品免费观看| 国产永久精品大片wwwapp| 国产99在线免费| 亚洲成人a级片| 日本免费久久高清视频| 亚洲欧美成人影院| 中文字幕免费国产精品| 日韩精品系列| 欧美成人r级一区二区三区| 亚洲男人天堂网址| 午夜电影久久久| 国产盗摄x88av| 中文字幕av一区 二区| 成人精品在线观看视频| 岛国一区二区在线观看| 日本一二三四区视频| 日韩精品午夜视频| 怡红院av亚洲一区二区三区h| 中文字幕亚洲精品乱码| 亚洲激情一区二区| 久久综合影院| 九色综合婷婷综合| 成人av动漫| 国产精品theporn88| 久久99成人| 成人精品在线视频| 99re久久| 日本精品久久久久久久| 欧美一级鲁丝片| 久久久久久综合网天天| 宅男在线观看免费高清网站| xvideos成人免费中文版| 91啦中文在线| 中文字幕久久久| 粉嫩av一区| 中文字幕欧美精品在线| 成年人视频在线免费观看| 亚洲人成77777在线观看网| 日韩午夜影院| 日韩精品中文字幕在线| 性xxxx18| 亚洲人成网7777777国产| 欧美色视频免费| 亚洲深夜福利在线| 国产午夜在线观看| 中文字幕av一区| 91社区在线| 久久精品国产一区二区三区| 成人在线影视| 久久久久国产视频| а√天堂中文在线资源8| 欧美亚洲免费电影| 欧美日韩成人影院| 国产久一一精品| 亚洲欧美综合久久久久久v动漫| 成人高清视频观看www| 国产精品99久久免费| 91视频最新| 成人在线视频你懂的| 国产在线一区二区三区欧美| 青青一区二区| 亚洲欧洲中文| 影音先锋日韩在线| 国产手机免费视频| 久久精品动漫| 一个色综合久久| 大尺度一区二区| 四虎永久免费影院| 国产精品色呦呦| 永久久久久久久| 五月天国产精品| 成人av网站在线播放| 欧美精品在线观看一区二区| 亚洲av无码一区二区三区性色| 亚洲国产成人精品一区二区 | 亚洲精品无码久久久久久| 丝袜美腿一区二区三区| www.色就是色.com| 成人av在线看| 国产精品成人在线视频| 一区二区三区波多野结衣在线观看 | 国产超碰在线播放| 国产一区999| 成人性生活免费看| 国产精品乱人伦中文| 国产亚洲成人精品| 在线视频国内自拍亚洲视频| 国产高清第一页| 亚洲色图激情小说| 日本在线视频中文有码| 国产91亚洲精品| av自拍一区| 亚洲国产激情一区二区三区| 精品1区2区3区4区| 国产aaaaa毛片| 99久久国产综合精品色伊| 久久成人小视频| 欧美性20hd另类| 精品国产va久久久久久久| 亚洲乱码一区av黑人高潮| 少妇视频在线| 国产精品久久久久99| 国产主播性色av福利精品一区| 亚洲人久久久| 久久国产88| 伊人网综合视频| 一区二区视频免费在线观看| 最好看的日本字幕mv视频大全| 精品国产伦一区二区三区观看方式| 成人性爱视频在线观看| 午夜精品国产精品大乳美女| 国产精品777777在线播放| 日韩欧美99| 亚欧成人精品| 在线观看一区二区三区四区| 亚洲桃色在线一区| 无码人妻黑人中文字幕| 日韩极品精品视频免费观看| 欧美一卡二卡| 国产在线观看不卡| 欧美亚洲国产精品久久| 成人毛片视频网站| av午夜精品一区二区三区| 日本老熟俱乐部h0930| 欧美精品乱人伦久久久久久| 成人在线观看免费| 国产精品高潮粉嫩av| 亚洲精品国模| 成年人视频网站免费观看| jizz一区二区| 日韩av在线电影| 亚洲护士老师的毛茸茸最新章节| 污片在线免费观看| 亚洲综合精品伊人久久| 小说区亚洲自拍另类图片专区| 999在线观看| 中文字幕的久久| 怡红院成永久免费人全部视频| 亚洲人成网站在线播| 欧美一区国产| 色一情一乱一伦一区二区三区| 日韩国产欧美在线播放| 性猛交娇小69hd| 欧美日韩一区精品| 欧美一级二级三级区| 成人性生交大片免费观看嘿嘿视频| 成人在线免费视频观看| 一女二男3p波多野结衣| 日韩美女视频19| 国产美女无遮挡永久免费| 大胆欧美人体视频| 中文字幕一区二区三区日韩精品| www.好吊操| av不卡免费在线观看| www欧美在线| 国产午夜精品全部视频播放| 国产精品蜜月aⅴ在线| 一区二区三区四区不卡| 国产在线精品一区二区不卡了| 国精品无码一区二区三区| 精品伦理精品一区| 亚洲校园激情春色| 亚洲电影一二三区| 国产精品99久久久久久久vr| 国产中文字字幕乱码无限| 亚洲精品日韩欧美| 青青草国产一区二区三区| 欧美 国产 精品| www.66久久| 亚洲天堂手机版| 久久久久久久久久久人体 | 国产在线一区观看| 久久亚洲成人av| 亚洲精品一区二区在线| а√天堂资源国产精品| 妞干网在线播放| 久久久99久久| 国产露脸国语对白在线| 91高清免费视频| 91视频精品| 男男一级淫片免费播放| 欧美午夜理伦三级在线观看| 亚洲资源一区| 日韩电影免费观看高清完整| 精品一区二区精品| 在线观看亚洲欧美| 久久久精品国产一区二区| 欧美调教网站| 性久久久久久久久久久久久久| 日韩欧美国产网站| 国内精品久久久久久野外| 欧美三级网色| 国产福利视频一区二区三区| 日韩黄色片网站| 久久久久国产视频| 五月天综合网站| 国产伦理片在线观看| 亚洲高清在线观看| 精品国产18久久久久久二百| 免费在线观看的av网站|