精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

CMU清華教LLM練成數學高手,LeanSTaR訓練模型邊思考邊證明,登頂新SOTA

人工智能 新聞
LLM數學水平不及小學生怎么辦?CMU清華團隊提出了Lean-STaR訓練框架,在語言模型進行推理的每一步中都植入CoT,提升了模型的定理證明能力,成為miniF2F上的新SOTA。

如果想訓練LLM證明定理的能力,你會怎么做?

既然模型可以通過海量語料學會生成文本,那如果我們能喂給它足夠數量的形式證明數據,定理證明能力自然水到渠成?

然而,我們看到的事實是,無論用符號形式還是自然語言,GPT等大模型的推理能力都不如人意。

兩句話,讓LLM邏輯推理瞬間崩潰!最新「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷

就像GPT-4o自信表示13.11比13.8大一樣,AI再聰明卻依舊會在簡單的算術上犯蠢。

然而,LLM的數學能力弱,不代表自動化的定理證明器對數學沒用。

前段時間剛剛被破解的「忙碌海貍」問題中,4萬行Coq代碼功不可沒。

陶哲軒也曾在采訪中強調,使用Lean等自動化工具可以徹底顛覆數學家們的工作方式。這是一股不可小覷的力量。

最近,CMU和清華的一項研究就致力于讓LLM的「自然語言思維鏈」和Lean的形式化證明結合在一起。

圖片

論文地址:https://arxiv.org/abs/2407.10040

論文提出,Lean、Coq、Isabelle等基于形式語言(代碼)的自動化證明方法,忽略了大量可能對推理過程有用的「非形式化信息」。

比如,每個證明步驟之前的潛在思維過程是必不可少的,但卻不會形式化地體現在最終的公式和代碼中。

比如,圖1中右側的推理思路,在左側的證明步驟中完全「無處安放」。

圖片

因此,作者提出了Lean-STaR訓練框架,讓語言模型既學會逐步推理的思維,也學會形式化的證明方式。

這意味著,需要將自然語言和形式語言交織在一起,也將「思考」和「證明」的過程交織在一起。

方法:Lean-STaR

顧名思義,Lean-STaR這個方法同時結合了之前的兩項成果——Lean和STaR。

Lean是一種函數式編程語言,可以用作交互式定理證明器(Interactive Theorem Prover)。

圖片

項目主頁:https://lean-lang.org/

這是由Leonardo de Moura在微軟研究院期間發起的開源項目,目前已經更新到Lean 4。

比如,要想形式化證明,能從n≤m推斷出n+k≤m+k,就可以用Lean寫為如下形式(圖6):

首先給出一種高級的「策略」(tactic,圖中所示為歸納策略k),將當前要證明的目標狀態簡化為多個子目標(下圖中的case 0和case ih)。

這些子目標又會形成新的「狀態」(state)。當所有子目標都得到證明時,我們就給出了定理的完整證明。

圖片

STaR則是來源于斯坦福和谷歌研究院在2022年發表的一篇論文,全稱是「自學推理器」(Self-Taught Reasoner)。

圖片

論文地址:https://arxiv.org/abs/2203.14465

其基本思想就是用到了「自舉法」(bootstrapping)。

首先根據訓練數據中的問題和答案,提示語言模型,生成能解釋答案的「原理」(rationale)。

之后,再用這個包含了問題、答案和原理的混合數據集對LM進行微調,提升模型的推理能力(圖1)。

圖片

Lean-STaR模型的微調也是采用了「漸進優化」的思路,逐步將以上兩個相關工作的成果融合在一起,完善底層的策略預測模型。模型構建的流水線如圖4所示。

圖片

直接策略預測(Direct Tactic Prediction)

首先,將定理證明問題簡單地定義為馬爾科夫決策過程(MDP)圖片

從這個角度來看,證明過程是狀態si、策略ai和獎勵ri∈R等3個變量組成的軌跡(s1,a1,r1) (s2,a2,r2)?其中,ITP(比如Lean)用于提供每個新狀態si+1

在這種經典設置中,證明定理的過程包括向LM提供狀態s,讓模型M生成策略?????(??|??) 。

因此,可以使用僅包含成功證明軌跡的基本數據集圖片

對基本模型進行監督微調,得到SFT模型。

思維增強策略預測(Thought-augmented Tactic Prediction)

結合之前所述的研究動機,我們假設「潛在想法」可以提高模型的策略預測能力,因此引入一個表示「思維」的隱變量ti,然后將模型擴展為:

圖片

此時,根據狀態預測下一個策略的分布可以表示為:

圖片

如果用這種方式預測,我們就需要一個全新的數據集圖片

用于訓練模型M,然而Lean給出的證明步驟只包含si和ai

論文的解決方法是:借助一個強大的語言模型G(如GPT-4)作為「預言家」,讓它在給定當前狀態si和真實策略ai的情況下生成ti,從而創建出新的數據集DT(即圖4中的CoT Dataset)。

作者將這種方法稱為「回顧性原理生成」(retrospective rationale generation)。

將SFT模型在DT數據集上再進行一次微調后,就得到了第一個思維增強的策略預測模型Lean-CoT。

自舉思維增強定理證明(Bootstrapping Thought-augmented Theorem Proving)

在Lean-CoT模型的基礎上,作者提出,可以應用「專家迭代」(expert iteration)方法進一步提升性能。

具體來說,從初始的Lean-CoT模型M0以及初始數據集D開始,讓M0對每個問題進行K次采樣,每次采樣都會產生一個證明軌跡 [(s0,t0,a0),(s1,t1,a1),?,(sn,tn,an)],之后過濾出成功的證明軌跡并去重,得到新數據集D1

接下來,在數據集DTD1上進一步微調M0模型以得到Lean-STaR模型M1

將上述過程進行多次迭代,即可不斷更新Lean-STaR模型。

評估實驗

為了測試Lean-STaR的具體性能,研究使用了可用的最佳開放語言模型Lean語料庫 (InternLM2-Math-base-7b) 上進行預訓練,并遵循Lean的Mathlib作為底層訓練集的標準實踐。

首先以LeanDojo Benchmark 4 v9作為監督微調(SFT)數據集,包含超過23.1萬個示例,進行1輪微調以獲得SFT模型。

之后從數據集中隨機選擇17256個不同的成功證明軌跡,并使用GPT-4-0125模型注釋出52438個想法,并且執行兩次專家迭代。

實驗在MiniF2F基準上評估Lean-STaR,使用了與之前的實驗工作類似的評估設置,但主要使用的是采樣方法(sampling)而不是最佳優先搜索(best-first search)來進行評估。

圖片

實驗結果表明,回顧性原理生成和專家迭代都顯著提高了模型的定理證明能力。

實驗結果

實驗的主要結果如下表所示,Lean-STaR比之前基于Lean的SOTA模型有了顯著的改進。

例如,在類似的推理預算下,同樣使用best-first search,Lean-STaR從InternLM2的30.3%提升至34.8%,也同樣高于使用GPT-4的COPRA(30.7%)。

隨著計算預算的增加,Lean-STAR的性能進一步提升至36.1%。

圖片

思維增強改進定理證明

Lean-STaR的第一階段在思維增強的合成數據集上進行微調,訓練模型來交替生成思維和策略。

此階段的微調模型(在表1中表示為Lean-CoT)達到了32.8%的通過率,高于此階段之前的模型(表示為 SFT,29.5%)。

可以證明,第一階段的思維增強能提高語言模型的定理證明能力,即使對于已經專門用于生成Lean策略的語言模型(例如SFT)也依舊成立。

自舉法(Bootstrapping)進一步改進

Lean-STaR的第二階段包括使用當前語言模型生成新的思維和策略,保存正確結果,并結合初始數據集進行訓練。

從表1結果來看,每次迭代都會提高模型的定理證明性能,從32.8%(初始模型)到34%(迭代1次后的L-STR)再到34.8%(迭代2次后的L-STR)。

此外,我們發現該模型可以通過額外采樣進一步改進,將采樣的K值加倍后,分數能進一步提升至36.1%。

無CoT的專家迭代實驗

表5顯示了沒有CoT的專家迭代結果(即僅使用狀態和策略,沒有思維增強),對比Lean-CoT和Lean-STaR的表現。

圖片

僅用專家迭代時,準確率就達到了43.0%,低于Lean-STaR (45.5%)。

這表明Lean-STaR的性能提升不僅僅來自于專家迭代的使用,思維增強也有不可忽略的效果。

問題類型與難度

MiniF2F-test中的問題有多個來源,包括AIME、AMC、IMO等數學競賽以及MATH數據集,并進行了手動形式化處理。

這些問題可能有不同的難度和類型。表2展示了成功證明的問題數量,按類型和難度劃分。

圖片

Lean-CoT提高了解決所有類別難題的表現,尤其是數學競賽中的難題。

除了這些改進之外,Lean-STAR的改進主要集中在數論方面。

搜索和抽樣預算

表4說明了問題通過率與搜索規模或抽樣預算S×K的關系。

圖片

實驗發現,Lean-STAR性能與K值的大小成正比,特別是當K值相對較大時。

對比前兩列和Lean-STaR可以發現,附帶思維的額外采樣能提高定理證明性能,而沒有思維的額外采樣可能會飽和。

作者猜測,可能是因為「思維」增加了輸出的多樣性,并有助于對定理證明空間進行探索。

因此,Lean-STaR更具可擴展性(就推理階段算力而言),并且可以通過額外的專家迭代進一步改進。

更強基礎模型和更多數據實驗

實驗還使用了更強的語言模型InternLM2-Math-plus-7b訓練LeanSTaR,來測試不同語言模型性能的影響。

不僅基座模型更強,為數據集注釋「思維」的模型也從GPT-4升級到GPT-4o,生成了1.4萬條想法。

實驗只執行一次專家迭代,收集了大約6萬條(證明狀態、思維、下一步策略)正確的數據,命名為「STaR 數據集」。

在STaR數據集上進一步微調得到Lean-STAR模型,其測評結果如表3所示,可以看到Lean-STaR仍然比基線有了顯著的改進。

圖片

結論和局限性

研究團隊提出了Lean-STaR,這是一種新穎的方法,通過將思維鏈 (CoT) 原理集成到每個證明步驟中,顯著增強了語言模型用形式化數學語言進行定理證明的能力。

方法首先根據ground truth回顧性地為證明步驟生成「原理」,然后微調語言模型,訓練模型學會生成「原理」并預測后續策略,從而得到Lean-CoT模型。

然后使用專家迭代進一步改進該模型,根據被證明為正確的采樣結果進行微調,并使用Lean solver進行驗證。

研究的貢獻包括引入第一個思維增強的定理證明數據集,并證明專家迭代可以進一步提高性能。得到的模型在miniF2F測試上取得最新SOTA,將通過率從30.3%提高到36.1%。

這些進步不僅提高了自動化定理證明的準確性,而且還提供了一個可擴展且高效的框架來促進對數學的理解,這可能會對教育、科學發現和程序驗證產生重大影響。

方法的主要限制在于,其性能可能受限于計算可擴展性,實驗中用于微調Lean-CoT和Lean-STaR模型的數據集都不是很大。

需要注意的是,專家迭代的速度也存在嚴重瓶頸,會受限于Lean ITP的緩慢進程。

此外,使用GPT-4生成合成數據成本較大,并可能引入偏差。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-08-19 08:45:00

開源模型

2025-08-05 09:02:00

2022-04-08 14:40:59

框架訓練模型

2025-06-13 09:29:51

2025-06-05 03:00:00

AutoRefineRAGLLM

2025-03-13 12:39:22

2019-06-10 15:58:30

數據分析流量采集

2025-05-16 08:37:35

2025-06-23 08:47:00

2024-04-18 08:38:15

LLM數據訓練模型

2025-06-19 09:15:00

自然語言訓練模型

2025-07-08 09:07:00

2011-06-23 09:18:53

Python

2025-09-22 08:47:00

AI模型數據

2013-09-24 10:58:00

編程生活方式

2023-10-11 12:32:53

AI模型

2012-05-01 20:26:01

iPhone

2020-12-02 10:20:33

Docker命令Linux

2025-03-04 09:00:00

點贊
收藏

51CTO技術棧公眾號

免费的av网站| 久草免费福利在线| 国产一级精品毛片| 午夜精品久久| 亚洲精品永久免费| 在线观看国产中文字幕| 欧美6一10sex性hd| 欧美精彩视频一区二区三区| 亚洲一区二区久久久久久 | 国产精品久久久久久福利一牛影视 | 337p日本欧洲亚洲大胆精品| avav在线看| www.欧美日本韩国| 久久久久9999亚洲精品| 亚洲free性xxxx护士hd| 男人天堂2024| 国产一区二区三区四区三区四| 欧美另类变人与禽xxxxx| 日本熟妇人妻xxxx| 免费黄色电影在线观看| 2023国产一二三区日本精品2022| 91色视频在线导航| 久久精品五月天| 国内视频精品| 久久精品视频在线观看| jizz日本免费| 亚洲日本va| 欧美精品 国产精品| 黄色片视频在线免费观看| а√中文在线8| 中文字幕不卡一区| 欧美人与物videos另类| 成人免费一级视频| 精品午夜一区二区三区在线观看| 91超碰中文字幕久久精品| 玖玖爱这里只有精品| 欧美午夜精彩| 亚洲欧洲第一视频| 草草地址线路①屁屁影院成人| 欧美成人一级| 555www色欧美视频| jizz欧美性11| 成人在线视频免费| 欧美在线看片a免费观看| 日本福利视频在线| jizzjizz中国精品麻豆| 亚洲欧美激情小说另类| 亚洲一区高清| 日本高清在线观看wwwww色| 久久亚区不卡日本| 精品国产综合久久| 人妻偷人精品一区二区三区| 顶级嫩模精品视频在线看| 成人免费视频网站| 亚洲av无码国产精品永久一区| 精品无码三级在线观看视频| 国产精品视频网址| 911美女片黄在线观看游戏| 蜜臀久久久久久久| 国产日本欧美一区二区三区在线 | 国产白丝一区二区三区| 日韩av免费大片| 精品国产一区二区在线| 伊人在线视频观看| 欧美日本不卡| 久久久人成影片一区二区三区| 免费在线观看黄视频| 好看不卡的中文字幕| 久久久久久久久久久久av| 久久这里只有精品国产| 亚洲经典三级| 国产99久久久欧美黑人| 中文字幕久久久久| 极品少妇一区二区| 超碰97在线人人| 无码国产色欲xxxx视频| 国产午夜精品久久久久久免费视| 午夜欧美性电影| 国产原创精品视频| 亚洲国产精品人人做人人爽| 黄色一级视频片| 日韩和的一区二在线| 欧美日本免费一区二区三区| 小日子的在线观看免费第8集| 视频精品一区二区三区| 亚洲精品国产精品自产a区红杏吧| 日本激情小视频| 99久久精品费精品国产| 欧美国产视频一区二区| 五月婷婷色丁香| 久草在线在线精品观看| 国内一区二区三区在线视频| 国产乱理伦片a级在线观看| 亚洲欧洲成人自拍| 黄色一级片播放| 亚洲一区二区小说| 精品裸体舞一区二区三区| 性欧美精品中出| 欧美激情视频一区二区三区免费| 18一19gay欧美视频网站| 亚洲视频一区二区三区四区| 岛国av在线一区| 亚洲精品高清国产一线久久| xxxx另类黑人| 欧美日韩成人综合天天影院 | 欧美激情一二三| 18国产免费视频| 成人av综合在线| 亚洲在线不卡| jizz内谢中国亚洲jizz| 3751色影院一区二区三区| 成人影视免费观看| 亚洲澳门在线| 国产精品久久久av| 少妇一区二区三区四区| 亚洲三级视频在线观看| 91淫黄看大片| 欧美wwwwww| 欧美日韩国产123| 在线免费观看日韩视频| 91在线视频网址| 青青在线视频免费观看| 日本在线一区二区| 亚洲三级av在线| 国产成人无码精品久久久久| 国产高清精品网站| 亚洲在线视频一区二区| 亚洲精品福利电影| 亚洲国产一区二区三区四区 | 精品日本高清在线播放| 午夜诱惑痒痒网| 98精品视频| 国产精品视频26uuu| 日产精品久久久久久久性色| 亚洲成av人片在www色猫咪| 日韩av加勒比| 91九色精品| 国产精品一区二区三| 黄色免费在线播放| 色哟哟在线观看一区二区三区| 日韩精品人妻中文字幕有码| 国产精品观看| 97在线电影| 日本精品600av| 日韩欧美黄色影院| 福利所第一导航| 国产91在线|亚洲| 欧美日韩午夜爽爽| 欧州一区二区三区| 久久97久久97精品免视看| 99久久精品国产成人一区二区| 亚洲欧美在线观看| 亚洲精品第三页| 综合在线一区| 91久久精品国产91久久性色tv| 成人免费视屏| 欧美电影免费提供在线观看| 国产性生活网站| av在线这里只有精品| 欧美一级视频免费看| 日韩精品a在线观看91| 77777亚洲午夜久久多人| 视频福利在线| 91国在线观看| 日本少妇aaa| 国产伦精品一区二区三区在线观看| 精品一区二区三区毛片| 136国产福利精品导航网址应用| 久久久之久亚州精品露出| 天天操天天干天天干| 欧美性20hd另类| 日本精品久久久久中文| 国产在线精品不卡| 天堂8在线天堂资源bt| 色综合www| 国产精品视频xxxx| 日本高清在线观看| 亚洲成人网av| 婷婷激情五月综合| 国产精品国产成人国产三级 | 欧美人交a欧美精品| 欧美在线 | 亚洲| 日韩欧美中文第一页| 91视频免费看片| 国产精品66部| 97xxxxx| 97偷自拍亚洲综合二区| 国产精品自拍首页| 成人黄色视屏网站| 欧美激情在线狂野欧美精品| 国产主播福利在线| 日韩欧美专区在线| 中文字幕69页| 一区二区三区日韩欧美| 人妻少妇一区二区| 国产一区二区精品在线观看| 欧美日韩二三区| 97精品国产| 精品午夜一区二区三区| 久久av影院| 欧美在线不卡区| 超碰porn在线| 在线观看欧美视频| 国产18精品乱码免费看| 欧美久久一二三四区| 国产精品久久久久久久妇| 日韩美女啊v在线免费观看| 一女三黑人理论片在线| 国产在线一区二区| 欧美两根一起进3p做受视频| 国产在线欧美| 亚洲午夜精品久久久久久浪潮| 麻豆精品99| 91免费人成网站在线观看18| 无人区在线高清完整免费版 一区二 | 国产欧美日韩在线播放| 亚洲欧洲一二区| 日韩免费在线观看视频| 不卡av免费观看| 久久好看免费视频| 国产区视频在线播放| 日韩av在线免费看| www.国产麻豆| 欧美精品欧美精品系列| 国产精品午夜一区二区| 欧美日韩在线视频首页| 青青草偷拍视频| 1000部国产精品成人观看| 人人妻人人澡人人爽| av午夜精品一区二区三区| 无码国产精品一区二区高潮| 久久激五月天综合精品| 粗暴91大变态调教| 一本一本久久| 五十路熟女丰满大屁股| 国产专区一区| 日韩国产小视频| 亚洲在线久久| 99中文字幕在线观看| 四虎国产精品免费观看| 亚洲国产一区二区在线| 狠狠综合久久av一区二区蜜桃 | 深夜福利在线视频| 亚洲第一页在线| 丰满熟妇人妻中文字幕| 日韩精品中文字幕一区二区三区| 999久久久久久| 91精品婷婷国产综合久久性色| 国产一区二区在线播放视频| 欧美巨大另类极品videosbest| 中文字幕一区二区三区波野结| 日本电影亚洲天堂一区| 国产黄色免费视频| 欧美性猛片xxxx免费看久爱| 成人免费一级片| 欧美日韩中文字幕一区二区| 特级西西444www大胆免费看| 欧美日韩国产一级片| 91激情在线观看| 欧美一区二区黄色| 东京干手机福利视频| 精品日韩av一区二区| 日韩一区二区三区在线观看视频| 亚洲精品久久久久久久久久久久| 青青草在线视频免费观看| 亚洲欧美国产日韩天堂区| h网站视频在线观看| 精品国偷自产在线视频| 白白色在线观看| 欧美一级片久久久久久久| 影音成人av| 亚洲综合精品伊人久久| 国产图片一区| 日本黑人久久| 中国成人一区| av之家在线观看| 麻豆精品一区二区av白丝在线| 特级黄色片视频| 99riav久久精品riav| 久操视频在线观看免费| 亚洲日本乱码在线观看| 国产在线免费视频| 在线观看视频一区二区| 国产精品久久久久毛片| 亚洲成av人乱码色午夜| 二区三区在线播放| 亚洲综合免费观看高清完整版在线 | 国产999在线观看| 日韩美女在线| 国产伦精品一区二区三区免| 国产成人影院| 欧美日韩中文字幕在线播放| 国产日韩欧美在线播放不卡| 国产探花在线看| 懂色中文一区二区在线播放| 欧美熟妇激情一区二区三区| 亚洲欧美日韩国产成人精品影院| 国产 日韩 欧美 在线| 欧美视频日韩视频在线观看| 亚洲av无码乱码国产精品| 亚洲日韩中文字幕| 欧美1—12sexvideos| 国产精品久久久久免费a∨| 北条麻妃在线一区二区免费播放 | 69xxxx欧美| 国内久久久精品| 四虎国产精品成人免费影视| 国产伦精品一区二区三区高清版 | 高清精品xnxxcom| 亚洲资源在线网| 久久精品日产第一区二区| 亚洲黄色小说在线观看| 中文一区一区三区高中清不卡| 国产香蕉视频在线| 欧美一区二区成人| 成人在线高清视频| 2019国产精品自在线拍国产不卡| 亚洲一区av| 日本一区网站| 亚洲影视综合| 国产精品果冻传媒| 亚洲日本一区二区三区| 亚洲高清在线看| 国产网站欧美日韩免费精品在线观看| 污视频免费在线观看| 国产日韩专区在线| 欧美一级精品片在线看| 国产裸体舞一区二区三区| 成人午夜伦理影院| 欧美色图一区二区| 67194成人在线观看| 三区四区电影在线观看| 国产精品国产三级国产aⅴ浪潮 | 日本久久一区| 日韩视频精品| 久久中文精品| 无码人妻精品一区二区三区温州| 亚洲成人av一区二区三区| 人妻精品一区二区三区| 久久久久久国产免费| 66精品视频在线观看| 一二三在线视频| 国产麻豆视频精品| 欧洲猛交xxxx乱大交3| 欧美一区二区在线不卡| 岛国成人毛片| 亚洲一区中文字幕| 一区二区三区中文| 波多野结衣电影免费观看| 又紧又大又爽精品一区二区| 国产免费一区二区三区最新不卡| 久久久国产成人精品| 伊人国产精品| 国产高清不卡无码视频| 波多野结衣中文字幕一区 | 琪琪一区二区三区| 精品一区二区6| 欧美精品丝袜中出| 成人区精品一区二区不卡| 91av一区二区三区| 在线观看日韩av电影| 中文字幕乱码在线| 色综合久久久久久久久久久| 国产在线一在线二| 91精品国产综合久久久久久久久| 久久久9色精品国产一区二区三区| 黄色aaaaaa| 亚洲午夜激情av| 美州a亚洲一视本频v色道| 国产精品免费在线免费| 亚洲无中文字幕| 中文成人无字幕乱码精品区| 色综合网站在线| 午夜视频在线观看网站| 99久久自偷自偷国产精品不卡| 在线欧美三区| www.av天天| 欧美一级欧美一级在线播放| caoporn视频在线| 亚洲精品国产精品国自产观看 | 国产伦精品一区二区三区高清版| 国产日韩一区二区三区在线播放| 少妇视频在线播放| 精品国产一区二区三区四区四| 亚洲高清黄色| 亚洲欧美一二三| 91免费在线看| 国产精品毛片一区视频播| 国内免费久久久久久久久久久| 精品国产1区| 最新国产精品自拍| 欧美综合一区二区| 影音先锋中文在线视频| 欧美一区二区影视| 国产成人综合精品三级| 国产suv精品一区二区33| 美日韩丰满少妇在线观看| 亚洲最大在线| gogo亚洲国模私拍人体| 欧美系列日韩一区|