精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

陶哲軒攜AI再戰數學!o4-mini秒慫棄賽,Claude 20分鐘通關

人工智能 新聞
陶哲軒 YouTube視頻第二彈震撼來襲!這一次,他讓AI挑戰在Lean中形式化代數蘊含證明,結果Claude約20分通關,o4-mini太過謹慎直接「棄賽」。

3天后,陶哲軒YouTube視頻二更來了。

上一次,他使用GitHub Copilot(基于GPT-4),成功在33分鐘內完成一頁非形式化證明。

這次,他嘗試了一種更短、更概念化的證明版本,并測試Claude、o4-mini能否基于之前的非形式和形式證明,生成類似的形式化代碼。

圖片

實驗的核心是,在Lean中形式化同一個代數蘊含的證明。

圖片

此外,他還發文深入剖析了,自動化工具不同尺度上的效率表現,以及自動化與人工干預之間的微妙平衡。

Claude 20分完成,o4-mini棄題

最新實驗中,陶哲軒圍繞一個代數蘊含展開(algebraic implication):證明方程1689蘊含方程2。

圖片

錄制前,他已進行了一次測試。

這里直接在Claude/o4-mini中粘貼prompt,然后附上非形式證明、形式證明、方程三個附件。

接下來,一起看看這兩個模型具體表現如何?

Claude

實驗中,Claude整體表現出色,能夠快速將非形式證明的單行,轉化為看似合理的Lean代碼。

圖片

它生成了與之前形式化證明結構相似的代碼,并成功定義了關鍵的冪函數。

然而,陶哲軒創建一個新文件,在Claude編譯過程中,卻發現錯誤——它假設從自然數1開始,而Lean中的自然數從0開始。

圖片

另外,Claude未能正確處理方程的對稱性,比如x=(y·x)·z,導致了證明邏輯出現偏差。

圖片

盡管單行代碼生成高效,但缺乏對整體結構的理解,使得錯誤診斷和修復變得困難。

通過人工干預,陶哲軒修復了這些問題,最終在20分鐘內完成形式化。

o4-mini

相比之下,o4-mini表現得更為謹慎。

圖片

與Claude類似,o4-mini一上來也創建了一個冪函數,卻勝過前者。

它正確識別了冪函數定義中的問題,magmas中沒有單位元1,因此不能簡單假設0=>x設置為等于1。

然而,o4-mini在關鍵時刻卻選擇了「放棄」,僅生成了部分證明代碼,并在修復步驟中輸出「抱歉」。

圖片

最終,o4-mini未能完成形式化證明。

陶哲軒表示,它的謹慎策略雖避免了嚴重錯誤,但也限制了其在復雜任務中的實用性。

有趣的是,o4-mini和Claude同樣遇到了類似對稱性問題,表明LLM在處理數學邏輯的細微差別時,存在共同的局限。

總之,整個實驗目標看似簡單,即讓AI工具將人類可讀的證明轉化為Lean代碼,并在證明助手中成功編譯。

然而,陶哲軒的實驗揭示了自動化的復雜性,尤其是在效率和正確性之間的平衡。

100%過度自動化,毀掉數學未來?

在長達一周的自動形式化實驗中,陶哲軒得出了一個教訓——

即使純粹專注于效率,僅接受在證明助手中實際編譯并產生預期結果的形式化,衡量效率的尺度現在也產生了顯著差異。

在形式化數學證明過程中,效率可以從以下四個不同尺度衡量。

1. 單形式化:加快證明中任意一行的形式化

2. 單一引理形式化:加快形式化證明中的任一引理

3. 單一證明形式化:加快形式化定理的任一證明

4. 「整個教科書」形式化:加快形式化整個教科書的成果

每個尺度看似都在指向同一個目標:更快地完成形式化。然而,實際操作中,這些尺度的優化策略可能互相沖突。

圖片

陶哲軒以自己最近的實驗為例,嘗試用一些自動化工具,加速形式化過程。

我意識到,許多當前的自動化工具可以在其中一個尺度上加速形式化,但出乎意料的是,過度依賴此類工具可能會削弱在其他尺度上形式化的能力。

比如,依賴類型匹配工具canonical在「單行形式化」(尺度1)的任務中,表現出色。

它能快速解析,并生成正確的代碼,在此過程中,陶哲軒幾乎無需手動干預。

然而,當過于依賴canonical,盲目接受它對某一步的解析,并迅速進入下一步時,他發現自己逐漸失去了對證明整體結構的把握。

這導致了,在「引理形式化」(尺度2)上,診斷和修復錯誤變得更加困難,因為到了此刻,陶哲軒對證明步驟之間的聯系缺乏深入的理解。

有趣的是,修復這些錯誤的過程,卻讓陶哲軒本人受益匪淺。

圖片

通過手動檢查和調整,他逐漸理解了引理之間的作用,這反過來提升了其解決「單一證明形式化」(尺度3)任務的能力。

這種「意外收獲」讓他意識到,完全依賴自動化工具,可能會讓自己錯過對證明結構的深刻洞察,而這些這些洞察在更大尺度上至關重要。

陶哲軒認為結論是,「最優的自動化水平并不是100%,而是介于0%和100%之間的某個值」。

從每個尺度上來說,自動化工具應該被用來減少重復性的繁瑣工作,但同時必須保留足夠的人為干預,以審查和修復局部問題,從加深人類對所有尺度任務結構的理解。

更廣義地看,如果我們100%依賴自動化工具解決所有任務,可能會失去對任務空間的熟悉度。

在面對中等,甚至高難度任務時,自動化工具可靠性下降,我們卻可能因缺乏經驗而束手無策。

值得警醒的是,過度聚焦于單一尺度的效率優化,可能會違背數學形式化的長遠目標。

其終極目標,不僅是生成在證明助手中編譯的代碼,更是要創造一個靈活、可用、不斷演變且富有啟發性的形式化數學語料庫。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-10-08 09:49:06

2025-05-28 10:30:41

AI陶哲軒模型

2025-04-18 11:18:51

2025-06-03 08:15:00

2025-11-06 08:59:00

2023-12-06 13:44:00

模型訓練

2025-03-18 09:19:26

大模型AI代碼

2024-02-26 08:30:00

2024-07-29 08:49:00

AI數學

2024-07-08 13:08:04

2023-10-10 13:51:46

GPT-4GitHubAI

2025-05-12 14:26:43

AI陶哲軒模型

2024-11-29 13:25:00

2024-09-29 14:00:00

AI數學自動化

2025-08-05 14:54:39

AI模型陶哲軒

2025-09-08 09:15:00

2023-10-04 08:07:06

CopilotGitHub

2024-12-23 07:40:00

AI模型數學

2025-05-22 09:08:40

2024-12-09 09:35:00

AI數據訓練
點贊
收藏

51CTO技術棧公眾號

欧美影院一区| 免费网站在线观看人| 久久午夜电影| 色综合伊人色综合网站| 日韩av加勒比| 国产传媒av在线| 中文文精品字幕一区二区| 91色精品视频在线| 成人午夜视频精品一区| 精品国产乱码久久久久久蜜坠欲下| 欧美亚洲高清一区| 青青青在线观看视频| 精品三级久久久久久久电影聊斋| 精品一区二区免费| 68精品国产免费久久久久久婷婷| 少妇视频在线播放| 国产成人一二片| 欧美区在线观看| 99福利在线观看| 深夜国产在线播放| 国产欧美中文在线| 国产一区二区在线网站| 一区二区三区www污污污网站| 亚洲手机视频| 久久天天躁夜夜躁狠狠躁2022| 亚洲av人人澡人人爽人人夜夜| 国产精品久久亚洲不卡| 亚洲国产精品嫩草影院| 黄频视频在线观看| av无码精品一区二区三区| 欧美一区二区免费在线观看| 欧美日韩女优| 亚洲va韩国va欧美va| 在线播放豆国产99亚洲| 狠狠v欧美ⅴ日韩v亚洲v大胸| 国产精品亚洲а∨天堂免在线| 国产精品99久久久久久白浆小说| 日本三级免费看| 欧美激情五月| 伦理中文字幕亚洲| 色无极影院亚洲| 少妇高潮一区二区三区| 日韩欧美亚洲国产另类| 97人人爽人人| 992tv国产精品成人影院| 欧美日韩激情美女| 欧美激情视频免费看| 免费电影视频在线看| 亚洲男女一区二区三区| 特级毛片在线免费观看| 尤物在线视频| 国产精品人成在线观看免费| 日韩三级电影| www.亚洲.com| 国产精品视频看| 性欧美videosex高清少妇| 国产中文字幕在线看| 91亚洲国产成人精品一区二三| 亚洲一区二区三区四区视频| 91高潮大合集爽到抽搐| 久久 天天综合| 成人免费看黄网站| 国产浮力第一页| 国产成人福利片| 国产精品久久九九| 特黄aaaaaaaaa真人毛片| 99久久免费精品| 久精品国产欧美| 精品视频二区| 国产精品久久久久久久久果冻传媒| 日韩理论片在线观看| 成人免费在线看片| 欧美性受xxx黑人xyx性爽| 日韩高清欧美激情| 国产免费一区二区三区在线观看| 中文字幕二区三区| 国产一区二区在线观看免费| 51精品国产人成在线观看 | 国产精品日韩一区二区| 成人免费视频国产免费麻豆| 成人高清免费观看| 欧美一级爱爱| 欧美猛烈性xbxbxbxb| 亚洲乱码国产乱码精品精的特点| 久久99久久99精品| 欧美电影免费观看高清完整| 欧美色视频在线| 亚洲精品乱码久久久久久9色| 伦理一区二区| 中文字幕日韩电影| 青青草在线观看视频| 99热免费精品在线观看| 国产精品色悠悠| 丰满人妻一区二区三区无码av | 水蜜桃一区二区三区| 成人在线app| 狠狠色狠狠色综合日日五| 五月天亚洲视频| 精品视频高潮| 色婷婷**av毛片一区| 久视频在线观看| 蜜桃视频在线一区| 国产乱子伦精品| 一级毛片视频在线| 精品久久久在线观看| 奇米影音第四色| 成人线上播放| 精品国产一区二区三区久久久| 中文字幕一区二区三区手机版 | 日本韩国视频一区二区| 中文字幕视频三区| 婷婷精品在线| 久久久久久国产精品三级玉女聊斋 | 人人妻人人澡人人爽人人欧美一区 | 91精品综合视频| 日韩成人黄色| 亚洲一区二区精品久久av| 四季av一区二区| 日本韩国欧美超级黄在线观看| 久久精品成人一区二区三区 | 草草视频在线观看| 91精品国产乱码久久蜜臀| 欧美日韩国产黄色| 久热精品在线| 超碰在线97av| av在线免费网址| 欧美性猛交xxxx乱大交退制版| 国产美女视频免费观看下载软件| 99久久99久久精品国产片桃花| 国产va免费精品高清在线| 黄色一级大片在线免费看国产一| 一区免费观看视频| 婷婷六月天在线| 精品影片在线观看的网站| 欧美精品video| 精品人妻一区二区三区含羞草 | 99在线精品一区二区三区| 免费观看中文字幕| 亚洲精品一区av| xxxxxxxxx欧美| 在线视频你懂得| 国产精品蜜臀在线观看| jizz欧美激情18| 欧美老女人另类| 国产精品video| 国产精品四虎| 91激情在线视频| 色屁屁草草影院ccyy.com| 日本三级在线观看网站| 久久成人国产| 久久精品国产一区二区三区日韩 | 凹凸成人精品亚洲精品密奴| 青青a在线精品免费观看| 天堂a√中文在线| 欧美性猛交xxxx富婆| 久久精品老司机| 首页国产欧美久久| 手机成人在线| 亚洲国产一区二区久久| 久久九九国产精品怡红院 | 国产精品久久无码一三区| 国产精品久久午夜| 999热精品视频| 黄色亚洲免费| 欧美一区国产一区| 亚洲国产91视频| 欧美—级a级欧美特级ar全黄| 欧美一区二区三区激情| 懂色aⅴ精品一区二区三区蜜月| 亚洲AV无码国产精品| 视频一区二区三区在线| 日本一区二区免费高清视频| 日本精品在线观看| 青草成人免费视频| 免费在线观看av网站| 欧美成人女星排名| 日韩在线视频不卡| 亚洲视频一区在线观看| 亚洲av成人片无码| 日本不卡的三区四区五区| 91xxx视频| 丝袜久久网站| 成人精品视频99在线观看免费| 亚洲综合影视| 亚洲一级免费视频| 精品人妻一区二区三区蜜桃| 精品久久久精品| 天天做夜夜爱爱爱| 99久久国产综合精品女不卡| 亚洲福利精品视频| 怡红院精品视频在线观看极品| 欧美裸体网站| 9999久久久久| 国产日韩精品一区二区三区| 亚洲黄色一区二区三区| 日韩精品视频一区二区三区| 97视频免费观看| 在线免费观看黄| 亚洲精品国产综合久久| 国产精品九九九九| 欧美性猛交xxxx乱大交极品| 日韩欧美国产成人精品免费| 97精品久久久午夜一区二区三区| 天天影视色综合| 久久精品一区二区国产| 成人免费在线视频播放| 精品国产精品国产偷麻豆| 国产精品麻豆免费版| 另类一区二区| 日韩免费精品视频| 激情av在线播放| 久久精品国产欧美亚洲人人爽| 黄色在线小视频| 亚洲精品美女在线观看播放| 精品国产免费无码久久久| 欧美性高清videossexo| 九九九在线观看| 亚洲午夜久久久| 黑鬼狂亚洲人videos| 中文字幕乱码久久午夜不卡| 亚洲专区区免费| 成人午夜免费电影| 伊人av在线播放| 久久99国内精品| 日本肉体xxxx裸体xxx免费| 久久精品日韩欧美| 男人天堂999| 国产视频一区在线观看一区免费| 一本大道东京热无码aⅴ| 88国产精品视频一区二区三区| 日韩在线电影一区| 精品九九在线| 日韩在线观看电影完整版高清免费| 窝窝社区一区二区| 久久国产精品一区二区三区四区 | 在线观看欧美一区| 日韩欧美三级| 亚洲欧洲久久| 欧美电影《轻佻寡妇》| 日韩精品一区二区三区色偷偷| 五月国产精品| 日韩精品久久久毛片一区二区| 在线观看欧美理论a影院| 久久偷看各类wc女厕嘘嘘偷窃| 日本爱爱小视频| 久久精品国产精品青草| 国产野外作爱视频播放| 麻豆成人av在线| 三级性生活视频| 国产一区二区三区在线观看免费 | 久久久国产精品视频| 乱人伦中文视频在线| 久久综合88中文色鬼| 日韩av中文| 久久精品一区中文字幕| 日本资源在线| 91黄色8090| 国产成人精品一区二三区在线观看| 国产精品xxx视频| 另类一区二区| av免费观看久久| 欧美日韩一区二区三区在线电影 | 日本高清不卡视频| 中文区中文字幕免费看| 在线播放亚洲一区| 亚洲成人一二三区| 日韩av资源在线播放| www.亚洲视频| 欧美富婆性猛交| 涩涩视频在线免费看| 国产精品福利无圣光在线一区| 久久精品国产精品亚洲毛片| 亚洲最大的成人网| 国产成人一二片| 神马影院一区二区| 自拍视频亚洲| 浮妇高潮喷白浆视频| 免费在线观看一区二区三区| 欧美视频亚洲图片| 99久久久精品免费观看国产蜜| 欧美日韩高清丝袜| 亚洲女爱视频在线| 天天干在线播放| 欧美一区二区三区免费大片| 无码h黄肉3d动漫在线观看| 中文字幕亚洲国产| 成人三级小说| 国产精品久久久久久亚洲调教 | 在线精品亚洲欧美日韩国产| 国产裸体写真av一区二区| 一区二区视频| 亚洲二区自拍| 在线精品亚洲| 欧美激情第3页| 91蝌蚪国产九色| 日本女人高潮视频| 18在线观看的| 欧美最近摘花xxxx摘花| 爱情电影网av一区二区| 裸模一区二区三区免费| 欧美 日韩 国产 一区| 日韩手机在线观看视频| 成人亚洲一区二区一| 老司机精品免费视频| 精品久久久香蕉免费精品视频| 国产麻豆免费视频| 一区二区福利视频| 永久免费毛片在线播放| 亚洲最大福利网| 99国产精品一区二区| wwwxxx黄色片| 波多野结衣亚洲一区| 男人操女人的视频网站| 欧美偷拍一区二区| 日本在线视频1区| 久久免费视频这里只有精品| 国产欧美视频在线| 亚洲制服中文| 全国精品久久少妇| av中文字幕免费观看| 性欧美疯狂xxxxbbbb| www.com在线观看| 日韩在线观看免费高清完整版| 高清不卡亚洲| 久久综合色一本| 国产欧美一区二区三区国产幕精品| 中文字幕欧美视频| 亚洲丝袜精品丝袜在线| 中文字幕视频在线播放| 亚洲性xxxx| 成人开心激情| 日本视频一区在线观看| 亚洲欧美视频| 欧美bbbbb性bbbbb视频| 五月婷婷色综合| 黄色小视频免费观看| 国内精品久久久久久久久| 成人自拍在线| 欧美在线一区视频| 99国产欧美另类久久久精品| 日韩无码精品一区二区三区| 亚洲第一精品夜夜躁人人爽| 国内在线免费视频| 国产精品久久久久久久天堂第1集| 午夜欧美精品久久久久久久| 少妇丰满尤物大尺度写真| 亚洲无人区一区| 视频一区 中文字幕| 欧美在线免费视频| 国产一区二区欧美| 一区二区三区入口| 《视频一区视频二区| 精品国产黄色片| 欧美激情在线视频二区| 日韩伦理一区二区三区| 成人在线免费播放视频| 中文一区二区完整视频在线观看| 伊人久久亚洲综合| 久热99视频在线观看| 丁香婷婷成人| 久久国产视频网站| 日韩私人影院| 国产精品xxx视频| 亚洲成人日韩| 久久久久亚洲无码| 一本色道久久综合狠狠躁的推荐 | 日本成人中文字幕在线| 国产精品情趣视频| 精品人妻一区二区三区四区不卡 | 国产成人久久777777| 国产精品视频第一区| www国产一区| 国产91精品久久久久久| jiujiure精品视频播放| 欧美视频亚洲图片| 欧美日韩亚洲91| 日韩理伦片在线| 国产精品二区在线| 免费看亚洲片| 日本中文字幕免费在线观看| 亚洲国产精品高清久久久| 在线国产成人影院| 男女爱爱视频网站| 91丨国产丨九色丨pron| 国产又黄又粗又硬| 久久久人成影片一区二区三区| 国产欧美高清视频在线| 熟妇女人妻丰满少妇中文字幕| 精品久久久久久久久中文字幕 | 五月婷婷激情综合| www.中文字幕久久久| 国产精品区一区| 加勒比av一区二区| 日韩成人免费在线视频| 最近2019年日本中文免费字幕 | 国产精品久久久久久久久免费高清 | 三级毛片在线免费看| 国产在线视频欧美| 新67194成人永久网站| 五月天av网站|