精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

像搭樂高一樣做數學定理證明題,GPT-3.5證明成功率達新SOTA

人工智能 新聞
中山大學和華為等機構的研究者提出了 LEGO-Prover,實現了數學定理的生成、整理、儲存、檢索和復用的全流程閉環。

背景

作為長鏈條嚴格推理的典范,數學推理被認為是衡量語言模型推理能力的重要基準,GSM8K 和 MATH 等數學文字問題(math word problem)數據集被廣泛應用于語言模型的測評和比較中。事實上,數學作為一項科學研究并不僅僅包括計算具體實例,還包括推演一般性的定理。不同于簡單的計算問題僅僅需要驗證最終的結果與答案是否匹配,定理的證明要求對數學概念擁有更嚴格的理解,而這種定理證明的正確性是難以通過直接的自然語言生成和判別或是簡單的程序調用就能夠完成的。

正如自然語言處理希望能夠使用計算機直接對人類語言進行數字化計算一樣,對于數學對象的數字化也有著數十年的探索,甚至現代形式邏輯的誕生在很大程度上也正是源于對數學命題進行演算的想法。從事形式化驗證的計算機科學家致力于為數學論述構造表達自然且計算高效的形式語言和證明驗證器,人工編寫的形式化數學代碼在通過計算機的形式化驗證后被認為具有高度的嚴格性。然而,這一過程需要大量的人工成本,著名的 Flyspeck project 甚至花費了二十年的時間才完成開普勒猜想的證明,而自動化的證明搜索算法則面臨著搜索空間的組合爆炸問題,導致非平凡的定理證明往往超出了當前的計算能力限制。

深度學習的發展為形式化數學和自動定理證明提供了新的機遇。近年來,一種名為神經定理證明(neural theorem proving)的新范式以兩種方式嘗試將神經網絡與形式定理證明相結合:使用神經網絡對數學庫中的定理和當前的證明目標分別進行向量表征并進行匹配,篩選出最可能被使用的定理,幫助純符號計算的自動定理證明器縮小證明搜索空間;或者將證明目標作為提示輸入語言模型,使其直接生成相應的形式化數學證明代碼,再使用相應的形式化驗證器來判斷該證明的正確性,這種直接代替人類編碼者完成主要證明內容書寫的直接模式在大語言模型取得突破后備受關注。

然而,與數學文字問題一樣,當前進行定理證明的方法通常是 “一次性的”,也即推理過程和中間結論僅僅作為通向最終證明的臨時性路徑,在完成證明的驗證后即被丟棄、并不對后續的定理證明產生貢獻。這種方式更像是對大語言模型進行靜態測試,而沒有對其能力的持續提升做出貢獻。

事實上,數學的發展并不僅僅是簡單的重復嘗試解題,還包括從實例中「抽象」出普遍的數學結構和定理、從特殊的定理推廣到一般的定理和根據已有的定理演繹地「推出」新的結論。

隨著這一過程的演進,數學家對更復雜的問題擁有更強大的工具和更深刻的理解,最終才能解決先前無法解決的困難問題。

為了解決這一問題,模擬人類數學家在進行定理證明時通常進行的分解復雜問題、引用已有知識,并積累成功證明的新定理的迭代過程,中山大學和華為等機構的研究者提出了 LEGO-Prover,實現了數學定理的生成、整理、儲存、檢索和復用的全流程閉環。

LEGO-Prover 使 GPT-3.5 在形式化定理證明數據集 miniF2F-valid(證明成功率從 48.0% 提高到 57.0%)和 miniF2F-test(證明成功率從 45.5% 提高到 50.0%)上都達到了新的 SOTA。在證明過程中,LEGO-Prover 還成功地生成了超過 20,000 個引理并將它們添加到了不斷增長的定理庫中。

消融研究表明,這些新添加的技能確實對證明定理有幫助,在 miniF2F-valid 上的證明成功率從 47.1% 提高到 50.4%。

圖片

  • 論文地址:https://arxiv.org/abs/2310.00656
  • 代碼地址:https://github.com/wiio12/LEGO-Prover

方法

圖片


圖片

LEGO-Prover 采取了一系列的流程來實現對定理證明的規劃、實施和可復用定理庫的收集:

1. 給定一個以自然語言描述的數學定理及其人類編寫的形式化描述,使用 GPT-3.5(informal solver)直接生成的自然語言證明。

2. 使用分解器(decomposer)將這一自然語言證明分解為具體的證明步驟,并以引理的形式對這些證明步驟中的子目標進行對應的形式語言描述(作為檢索的 request)。

3. 利用這些以形式語言描述的子目標嘗試從定理庫(也即 skill library)中檢索相關的已證明定理,將其與上述內容一同輸入 GPT-3.5(formalizer),在這些提示的基礎上進行目標定理的形式化證明,并使用形式化驗證器檢驗證明的正確性。

4. 從通過驗證的形式化證明中,提取出除目標定理外的其他通過驗證的定理(或引理)和在分解過程后得到的子目標形式語言描述,對它們進行 embedding 后加入到維護的定理庫中。

此外,LEGO-Prover 還對定理庫進行了專門的整理和維護流程,對分解過程中收集到的子目標進行單獨的證明嘗試,通過多種類別的 prompt 引導 GPT-3.5 對證明過程中收集到的成功證明的定理進行演化,從具體的證明實例抽象出一般的數學命題,以增進定理庫中命題的多樣性、概括性和可復用性:

圖片

實驗

圖片

實驗表明,這些演化得到的新定理在后續的定理證明中起到了關鍵性的作用,miniF2F 數據集中的許多定理都是在利用這些從定理庫中抽取得到的結果才得以證明的。使用收集和演化得到的定理庫后,LEGO-Prover 的證明成功率從 47.1% 提高到 50.4%,而在使用定理庫的情形下,有 24% 的問題是在技能庫的幫助下完成的,這表明技能庫的使用對于大語言模型進行定理證明任務而言幫助很大。此外,使用定理庫技術的優勢在較小的嘗試次數下具有較高的比例,表明這一方法對于計算資源相當有限的情形下具有相當可觀的使用價值。

圖片

最后,實驗結果表明 LEGO-Prover 在 miniF2F 數據集上的證明成功率顯著優于基于先前的方法。使用人類編寫的證明,LEGO-Prover 在驗證集和測試集上的證明成功率分別比先前最好的方法高出 19% 和 3.5%。當使用模型生成的非正式證明替代人類編寫的非正式證明時,LEGO-Prover 在驗證集上的證明成功率仍然達到了 52.4%,接近于使用人類編寫的非正式證明的證明成功率 55.3%。

圖片

LEGO-Prover 探索了如何以塊狀的方式證明定理。然而數據稀缺問題在定理證明這個領域內依舊非常嚴重。因此,與此同時,中山大學聯合北京大學還推出了基于三角函數的定理證明基準數據集 TRIGO (https://arxiv.org/abs/2310.10180),發表于EMNLP 2023。

TRIGO 對自動引理生成以及如何從合成的引理數據的分布泛化到真實世界數據的分布進行了進一步的探索。當前的自動定理證明數據集主要側重于符號推理,很少涉及復雜數字組合推理的理解。TRIGO 不僅要求模型通過逐步證明來簡化三角函數表達式,還評估了生成式語言模型在公式和數字術語的操作、分組和因式分解方面的推理能力。研究團隊從網絡上收集了三角函數表達式及其簡化形式,人工標注了簡化過程,然后將其轉化為 LEAN 形式系統下的語言。在有一定的來自于真實世界的形式化定理數據后,研究團隊利用引理生成器,從已標注的樣本中初始化 Lean-gym 來自動生成新的引理以擴展數據集。

此外,TRIGO 還開發了基于 lean-gym 的自動生成器,用以創建不同難度和分布的數據集拆分,以全面分析模型的泛化能力。TRIGO 在定理證明領域提供了新的挑戰,同時也提供了一種研究生成式語言模型在形式和數學推理方面能力的新工具。

圖片

此外,為了探索定理證明模型的能力在更難的數據集上的表現,中山大學聯合北京大學還提出了 FIMO 基準數據集(https://arxiv.org/abs/2309.04295)。形式化數學數據稀缺,手工形式化成本非常高昂。當前主流的數據集主要聚焦于初高中水平的應用題,難度普遍偏低,對于 IMO 等需要高水平解題技巧的數學競賽題目關注較少,而且常常不包括自然語言題解。

針對現有數據集的問題,FIMO 探索了使用反饋信息的自動形式化方法,使用 GPT-4 和自動、手動兩種反饋信息,將數量較為豐富的 IMO Shortlisted 候選題轉換為了 Lean 語言描述的形式語言。

實驗結果表明,反饋機制的加入大大緩解了先前自動形式化的語法錯誤和語義錯誤,顯著提升了自動形式化的成功率(32.6%→60.8),成功形式化了 89 道代數和 60 道數論的高難度題目。進一步的實驗表明,雖然 GPT-4 無法直接生成 IMO 級別題目的形式化題解,但是它可以跟隨自然語言答案的解題思路,暗示了使用自然語言輔助機器定理證明的可能性。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-08-19 08:45:00

開源模型

2022-11-21 10:18:24

AI谷歌

2025-05-08 16:44:54

AI應用LazyLLM

2022-01-13 13:57:05

滑板底盤悠跑

2019-07-12 07:26:26

神經網絡數學樂高

2025-09-04 01:45:00

2023-08-02 13:55:22

AI研究

2022-01-20 17:31:38

網絡安全網絡安全網格

2025-07-25 08:25:39

2023-05-30 13:29:25

2025-09-18 12:41:22

2023-01-10 08:30:05

2025-06-04 13:53:22

代碼模型AI

2015-02-05 13:27:02

移動開發模塊SDK

2025-05-01 08:33:20

miniF2FDeepSeekLLM

2025-06-17 08:21:16

Android區域UI模塊

2024-01-02 14:07:00

2025-07-22 08:45:00

AI機器人訓練

2023-10-10 13:51:46

GPT-4GitHubAI
點贊
收藏

51CTO技術棧公眾號

美女av一区| 麻豆app在线观看| 欧美成人综合| 亚洲福利影片在线| 无码粉嫩虎白一线天在线观看| 天天干天天舔天天射| 日韩电影在线看| 久久资源免费视频| 亚洲狠狠婷婷综合久久久久图片| 成人福利片在线| 亚洲色图第一区| 精品一区二区国产| 91一区二区视频| 欧美日本三区| 色系列之999| 中文字幕无码人妻少妇免费| 日韩免费大片| 日韩欧美一区二区三区| 国产成年人在线观看| 婷婷国产在线| 粉嫩av一区二区三区| 日韩免费av一区二区| 欧美成人黄色网| 中文日本在线观看| 绿色成人影院| 亚洲国产精品成人综合| www.久久久| 免费黄色一级大片| 一区二区日韩免费看| 中文字幕久久精品| 中文字幕av网址| 热re99久久精品国产99热| 精品国产精品国产精品| 久久最新网址| 亚洲精品v天堂中文字幕| 一级做a免费视频| 中国字幕a在线看韩国电影| 亚洲精品视频一区| 亚洲精品欧洲精品| 可以在线观看的av网站| 福利电影一区二区| 91久久精品一区| 中文字幕乱码一区二区| 久久国产精品99国产| 欧美二区在线播放| 欧美成人精品欧美一级私黄| 我不卡伦不卡影院| 中文字幕日韩欧美精品在线观看| 一本加勒比北条麻妃| 96sao在线精品免费视频| 欧美日韩电影一区| 艹b视频在线观看| 黄色精品视频| 欧美最猛黑人xxxxx猛交| 久久无码高潮喷水| 狠狠躁少妇一区二区三区| 亚洲一区在线电影| 久久人人爽人人爽人人av| 91精品久久| 一区二区三区视频在线看| 伊人久久99| 国产一二区在线观看| 亚洲特级片在线| 三年中文高清在线观看第6集| 日韩理伦片在线| 最近中文字幕一区二区三区| 黑人巨大国产9丨视频| 国产最新在线| 亚洲丝袜精品丝袜在线| 中文字幕精品在线播放| 色爱综合区网| 亚洲电影第三页| 男人天堂1024| 另类中文字幕国产精品| 欧美一a一片一级一片| 污污网站免费看| 9999在线精品视频| 日韩视频永久免费| 精品熟女一区二区三区| 色88888久久久久久影院| 亚洲欧美成人网| 国产成人在线网址| 欧美一区成人| 2018日韩中文字幕| 中文有码在线播放| 国内不卡的二区三区中文字幕| 91视频-88av| 人妻va精品va欧美va| 26uuu成人网一区二区三区| 色中色综合成人| 高潮毛片在线观看| 午夜精品一区二区三区三上悠亚| 激情综合网婷婷| 伊人亚洲精品| 日韩成人在线视频| 成人欧美一区二区三区黑人一| 欧美有码视频| 青青久久aⅴ北条麻妃| 亚洲资源在线播放| 成人午夜伦理影院| 亚洲成人一区二区三区| 暖暖在线中文免费日本| 91国产精品成人| 少妇熟女视频一区二区三区| 亚洲精品动态| 欧美麻豆久久久久久中文 | 一级黄色a视频| 风流少妇一区二区| 日韩国产在线一区| 黄页网站在线| 欧美日韩国产影片| 国产婷婷在线观看| 天天射综合网视频| 欧美一区二区三区艳史| 国产丰满美女做爰| 中文字幕av一区二区三区| 无码粉嫩虎白一线天在线观看 | 2022国产精品| 国产免费视频在线| 午夜精品福利一区二区蜜股av| 波多结衣在线观看| 欧美挤奶吃奶水xxxxx| 久久婷婷国产麻豆91天堂| 国产午夜麻豆影院在线观看| 国产999精品久久久久久| 五月天丁香综合久久国产| 高潮在线视频| 日韩免费视频一区| 激情无码人妻又粗又大| 日韩精品欧美精品| 精品国产乱码久久久久久郑州公司 | 亚洲精品视频在线播放| 免看一级a毛片一片成人不卡| 麻豆精品新av中文字幕| 日韩av电影免费在线| 午夜激情在线播放| 亚洲国产天堂久久国产91| 18岁成人毛片| 国内精品自线一区二区三区视频| 五月天久久综合网| 国产在线|日韩| 亚洲男人天堂2019| 国产精品久久久久久99| 成人不卡免费av| 激情六月天婷婷| 国产精品视频一区二区三区| 色噜噜亚洲精品中文字幕| 懂色av蜜臀av粉嫩av分享吧最新章节| 91在线你懂得| 少妇性饥渴无码a区免费| 日韩超碰人人爽人人做人人添| 欧美激情第99页| 亚洲精品无amm毛片| 夜夜嗨av一区二区三区网页| 女教师高潮黄又色视频| 欧美高清不卡| 成人在线观看av| 国产精品一区hongkong| 精品盗摄一区二区三区| 国产一级av毛片| youjizz久久| 亚洲熟妇av一区二区三区漫画| 人体久久天天| 日本视频久久久| 国产精品一区二区三区四区色| 在线观看亚洲专区| 亚洲精品自拍视频在线观看| 国产亚洲电影| 精品国产露脸精彩对白| 久久精品视频8| 成人免费观看av| 男女啪啪免费视频网站| 911精品国产| 性欧美xxxx交| 久久精品国产亚洲a∨麻豆| 91官网在线观看| 岛国片在线免费观看| 狠狠色丁香久久婷婷综合丁香| 一区二区三区欧美在线| 精品久久亚洲| 国内精品美女av在线播放| 午夜性色福利影院| 欧美综合天天夜夜久久| 国产真实乱在线更新| 国产99久久久久久免费看农村| 男人日女人视频网站| 蜜桃一区二区三区| 国产精品综合久久久| 伊人精品影院| 国产视频精品免费播放| 中日韩av在线| 亚洲精品乱码久久久久久日本蜜臀| 日本精品一二三区| 丝袜美腿亚洲综合| 亚洲欧美国产精品桃花| 波多野结衣在线一区二区| 国产a级全部精品| 在线免费观看a视频| 国产视频在线观看一区二区| 国产精品欧美综合亚洲| 欧美日韩国内自拍| 小早川怜子一区二区的演员表| 成人性生交大合| 激情五月亚洲色图| 午夜久久免费观看| 免费h精品视频在线播放| 欧美性www| 欧美一级视频一区二区| 超碰免费在线播放| 日韩av资源在线播放| 国产乱淫片视频| 午夜国产精品影院在线观看| 国产精品视频一区二区在线观看| 国产在线精品成人一区二区三区| 宅男在线观看免费高清网站| 亚洲精品视频中文字幕| av av片在线看| 色综合久久天天综合网| www日韩在线| 国产女同性恋一区二区| 91精品啪在线观看国产| 美日韩一区二区| 欧美激情 国产精品| 婷婷亚洲五月色综合| 久久青青草原一区二区| 国产精品九九视频| 精品午夜一区二区三区在线观看| 久久久999视频| 亚洲精品国产一区二区三区| 欧美精品一区二区久久| 精品久久久久久中文字幕动漫 | 亚洲一区二区3| 久久噜噜色综合一区二区| 久久久久久久久久久久久女国产乱| 国产亚洲色婷婷久久| 蜜臀国产一区二区三区在线播放| 日韩在线视频在线观看| 亚洲黄色毛片| 国产免费一区二区视频| 欧美视频官网| 老司机激情视频| 国产精品99一区二区三| 亚洲国产婷婷香蕉久久久久久99| 免费黄色成人| 欧美日韩亚洲一区二区三区在线观看 | 免费在线观看av| 在线视频精品一| 国产免费a∨片在线观看不卡| 亚洲片av在线| 九色视频在线观看免费播放| 日本一区二区三级电影在线观看| 无码国产精品一区二区免费式直播 | 国产福利一区在线| 亚洲综合av在线播放| 美女视频黄频大全不卡视频在线播放| 国产成人精品视频免费看| aa亚洲婷婷| 国产午夜福利在线播放| 亚洲黄色毛片| 成人中文字幕在线播放| 国产美女一区| 欧美少妇性生活视频| 国产精品久久久久久久久久妞妞| 亚洲熟妇无码一区二区三区导航| 重囗味另类老妇506070| 国产美女永久无遮挡| 在线看片成人| 男的插女的下面视频| 国产欧美综合一区二区三区| 亚洲中文字幕无码不卡电影| 日韩高清一级片| 狠狠干狠狠操视频| 国产精品中文有码| 免费看91视频| 99精品久久只有精品| 成人免费毛片糖心| 中文在线一区二区| 日韩成人短视频| 亚洲不卡av一区二区三区| 特一级黄色大片| 欧美亚洲综合久久| h狠狠躁死你h高h| 日韩av影视综合网| 草碰在线视频| 欧美老女人性生活| 麻豆视频在线看| 国产成人一区二区三区小说| 在线视频成人| 激情小说网站亚洲综合网| 欧美限制电影| 国产免费一区二区视频| 丝袜亚洲精品中文字幕一区| 亚洲免费在线播放视频| 99re8在线精品视频免费播放| 91精品久久久久久久久久久久| 亚洲另类在线制服丝袜| 欧美videossex极品| 欧美高清一级片在线| 日本黄色免费视频| 深夜福利一区二区| 国产777精品精品热热热一区二区| 国产精品444| 97人人澡人人爽91综合色| 日韩av高清在线播放| 四虎成人av| 国产精品97在线| 国产成人自拍网| 五月婷婷婷婷婷| 精品国产鲁一鲁一区二区张丽| 中文字幕a级片| 亚洲国产精品热久久| 香蕉视频在线播放| 青草青草久热精品视频在线观看| 国产美女视频一区二区| 品久久久久久久久久96高清| 国语对白精品一区二区| 成年人三级黄色片| 久久久影视传媒| 国产精品2020| 69久久夜色精品国产69蝌蚪网| 欧美伦理影视网| 久久青草精品视频免费观看| 中文字幕一区三区久久女搜查官| 久久久久久久久久看片| 国产真人真事毛片| 国产在线一区二区综合免费视频| 欧美一级大片在线观看| 亚洲成人av观看| 狠狠色综合色区| 国语自产精品视频在线看8查询8| 亚洲免费av一区| 日本一区二区三区dvd视频在线| 日本三级视频在线| 欧美成人精精品一区二区频| 最新国产在线观看| 国产精品激情av在线播放| 特黄特色欧美大片| 久久久久久久久久网| 国产91高潮流白浆在线麻豆| 破处女黄色一级片| 欧美日本一区二区| 91在线品视觉盛宴免费| 国产精品久久久av久久久| 精品一区在线| www.亚洲天堂网| 久久婷婷国产综合精品青草| 天天操天天爽天天干| 亚洲一区二区三区成人在线视频精品| 日韩激情电影免费看| 国产精品一区二区欧美黑人喷潮水| 天天久久综合| 日本在线观看视频一区| 中文字幕一区二区三中文字幕| 欧美日韩国产中文| 激情五月激情综合| 91黄视频在线| h视频在线播放| 国产精品久久久久久久久久新婚| 国产精品久久午夜| 91香蕉国产视频| 欧美日韩一区中文字幕| 成人免费一区二区三区视频网站| 欧美最猛性xxxxx亚洲精品| 天堂日韩电影| 日韩人妻精品无码一区二区三区| jizz一区二区| 九九精品免费视频| 国产亚洲人成网站在线观看| 国精产品一区二区三区有限公司| 日本一区二区三区免费观看| 69堂国产成人免费视频| 欧美一级黄视频| 亚洲天堂成人在线| 日韩漫画puputoon| 亚洲欧美在线网| 国产美女在线观看一区| 欧美成人免费观看视频 | 亚洲日本va午夜在线影院| 亚洲精品无码久久久久| www.99久久热国产日韩欧美.com| 欧美久久亚洲| 奇米精品一区二区三区| 国产视频一区二区三区在线观看| 精品精品导航| 欧美人与物videos| 草草视频在线一区二区| 18黄暴禁片在线观看| 久久一区二区三区四区| 国产精品无码粉嫩小泬| 久久综合网hezyo| 中文字幕av在线免费观看| www.亚洲天堂| 亚洲精品18| 日本三区在线观看| 亚洲美女视频一区| 嫩草在线播放| 91免费看网站| 久久久久久一区二区| wwwav国产| 在线观看欧美www|