精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

超越DeepSeek-R1,數(shù)學(xué)形式化準(zhǔn)確率飆升至84% | 字節(jié)&南大開源

人工智能 新聞
字節(jié)跳動Seed團(tuán)隊(duì)與南京大學(xué)聯(lián)合發(fā)布CriticLean框架,一舉將數(shù)學(xué)自然語言到Lean 4代碼的形式化準(zhǔn)確率從38%提升至84%。

當(dāng)人工智能已經(jīng)能下圍棋、寫代碼,如何讓機(jī)器理解并證明數(shù)學(xué)定理,仍是橫亙在科研界的重大難題。

字節(jié)跳動Seed團(tuán)隊(duì)與南京大學(xué)聯(lián)合發(fā)布CriticLean框架,一舉將數(shù)學(xué)自然語言到Lean 4代碼的形式化準(zhǔn)確率從38%提升至84%。

該框架創(chuàng)新性地將評估模型置于核心位置。通過強(qiáng)化學(xué)習(xí)訓(xùn)練的CriticLeanGPT模型,能像數(shù)學(xué)專家一樣精準(zhǔn)判斷形式化代碼是否貼合原始語義,配合迭代優(yōu)化機(jī)制,讓生成的定理證明既符合語法規(guī)范,又忠實(shí)于數(shù)學(xué)邏輯。

?前論?和數(shù)據(jù)代碼倉庫均已對外公開,歡迎開源使用。

圖片

數(shù)學(xué)形式化領(lǐng)域的核心挑戰(zhàn)

將自然語言描述的數(shù)學(xué)命題轉(zhuǎn)化為機(jī)器可驗(yàn)證的形式化代碼(如Lean 4定理),是自動化定理證明領(lǐng)域的基礎(chǔ)性難題,其核心挑戰(zhàn)不僅在于語法層面的準(zhǔn)確轉(zhuǎn)換,更在于對數(shù)學(xué)語義的深度理解與忠實(shí)還原。

盡管現(xiàn)有研究在生成模型與編譯有效性上取得一定進(jìn)展,但在復(fù)雜問題的語義對齊上仍存在顯著瓶頸,具體體現(xiàn)在以下三方面:

  • 語義鴻溝:自然語言數(shù)學(xué)命題的隱含條件等難精準(zhǔn)映射為形式邏輯,易出現(xiàn)前提翻譯偏差等問題,過往方法因缺語義一致性校驗(yàn),導(dǎo)致大量邏輯錯誤的形式化結(jié)果。
  • 評價(jià)缺位:對形式化結(jié)果的評價(jià)依賴編譯檢查或 LLM 簡單判斷,存在錯誤類型覆蓋不全、評價(jià)可靠性不足的問題,難以識別邏輯矛盾等。
  • 數(shù)據(jù)瓶頸:現(xiàn)有數(shù)學(xué)形式化數(shù)據(jù)集規(guī)模和多樣性不足、難度分布單一、語義校驗(yàn)缺失,制約了模型應(yīng)對復(fù)雜數(shù)學(xué)命題的能力。

引入Critic角色以實(shí)現(xiàn)可靠形式化

上述挑戰(zhàn)的核心在于:形式化流程中“評價(jià)”與“生成”的割裂。

CriticLean框架將引入強(qiáng)化學(xué)習(xí)的 Critic 模型,通過訓(xùn)練專門的語義評價(jià)模型(CriticLeanGPT)、結(jié)合 Lean 4 編譯器反饋進(jìn)行迭代生成。系統(tǒng)性解決語義對齊、評價(jià)可靠性與數(shù)據(jù)質(zhì)量問題,為數(shù)學(xué)自動化形式化提供了全新范式。

圖片圖1:CriticLean框架通過編譯器與評估器的雙重反饋,實(shí)現(xiàn)數(shù)學(xué)形式化的迭代優(yōu)化

CriticLeanGPT:會“挑錯”的數(shù)學(xué)評估專家

團(tuán)隊(duì)基于Qwen2.5和Qwen3系列模型,通過兩步訓(xùn)練打造專業(yè)評估器:

  • 有監(jiān)督微調(diào)(SFT):在4.8萬條包含:數(shù)學(xué)、代碼以及數(shù)學(xué)語句-形式化代碼對一致性相關(guān)的Critic數(shù)據(jù)CriticLeanInstruct數(shù)據(jù)集上訓(xùn)練,增強(qiáng)其針對語義判斷的評估能力。
  • 強(qiáng)化學(xué)習(xí)優(yōu)化(RL):采用GRPO算法,以“判斷是否準(zhǔn)確”和“輸出格式是否規(guī)范”作為獎勵信號,讓模型學(xué)會在評估中迭代提升。

該模型能識別12類常見錯誤,包括類型錯誤(占比24.9%)、數(shù)學(xué)表示錯誤(23.8%)等,能夠發(fā)現(xiàn)“代碼編譯通過但邏輯偏離原題”的隱性問題。

圖片

△圖2:不同類型錯誤的分布

CriticLeanBench:首個聚焦形式化任務(wù)語義評估的基準(zhǔn)測試

CriticLeanBench是用于評估模型在數(shù)學(xué)形式化任務(wù)中關(guān)鍵推理能力的基準(zhǔn)測試,旨在全面衡量模型將自然語言數(shù)學(xué)陳述轉(zhuǎn)化為經(jīng)形式驗(yàn)證的定理聲明等方面的表現(xiàn).

其構(gòu)建和實(shí)現(xiàn)過程如下:

CriticLeanBench 在數(shù)據(jù)收集階段,從多個數(shù)據(jù)來源選取數(shù)學(xué)陳述及對應(yīng)的Lean 4 陳述,提交Lean 4陳述到編譯器。1)對于編譯失敗的語句,隨機(jī)采樣保留編譯器反饋信息。2)對于編譯成功的部分,通過使用 DeepSeek R1 結(jié)合專家校驗(yàn)的方式保留正確和錯誤的樣本(錯誤的樣本保留錯誤信息)。

  • 數(shù)據(jù)來源多樣:數(shù)學(xué)陳述選取了Omni-MATH、AIME、U-MATH等多個數(shù)據(jù)源,這些數(shù)據(jù)源涵蓋了不同難度層次和數(shù)學(xué)領(lǐng)域的問題。有助于更全面準(zhǔn)確地評估模型在不同數(shù)學(xué)內(nèi)容上的表現(xiàn)。
  • 覆蓋多種錯誤類型:CriticLeanBench 覆蓋語法錯誤、語義錯誤、邏輯錯誤等多種問題,全面考察模型能力。
  • 確保評估可靠有效:通過專家審查和大模型驗(yàn)證相結(jié)合的方式來保證評估基準(zhǔn)的可靠性和有效性。在不同類別中選取具有代表性的樣本,確保涵蓋各種錯誤類型,從而使評估結(jié)果更可靠。

圖片

△圖3: CriticLeanBench 構(gòu)建的概覽

圖片

△表1:CriticLeanBench 數(shù)據(jù)集統(tǒng)計(jì)信息與各類代碼基準(zhǔn)數(shù)據(jù)集的對比

在包含500組測試樣本的CriticLeanBench基準(zhǔn)中,CriticLeanGPT的準(zhǔn)確率達(dá)到87%,遠(yuǎn)超GPT-4o(67.8%)和Claude 3.5(74.2%),甚至超過DeepSeek-R1(84%)的表現(xiàn)。

  • 核心指標(biāo):Qwen3-32B-RL版本準(zhǔn)確率達(dá)87%,true negative rate(正確識別錯誤樣本)達(dá)85.6%,遠(yuǎn)超GPT-4o的40.0%。
  • 對比優(yōu)勢:在相同模型規(guī)模下,經(jīng)CriticLean訓(xùn)練的Qwen2.5-32B模型準(zhǔn)確率(78.6%)較基礎(chǔ)版(73.0%)提升5.6%,且對錯誤樣本的識別能力提升明顯。

圖片

△表2:在 CriticLeanBench 上的性能表現(xiàn)

模型大小的Scaling分析表明,模型性能隨規(guī)模提升穩(wěn)步增強(qiáng)。

圖片

△圖4: 大語言模型在 CriticLeanBench 上的擴(kuò)展性分析(? 表示閉源的大語言模型)

FineLeanCorpus:28.5萬條高質(zhì)量形式化數(shù)據(jù)

依托CriticLean框架,團(tuán)隊(duì)構(gòu)建了目前規(guī)模最大、質(zhì)量最高的數(shù)學(xué)形式化數(shù)據(jù)集之一:

  • 規(guī)模與多樣性:包含285,957條樣本,覆蓋從高中奧數(shù)到大學(xué)數(shù)學(xué)的16個領(lǐng)域,其中高難度子集(Diamond)含36,033條問題。
  • 質(zhì)量保障:每條樣本均通過編譯器語法檢查與CriticLeanGPT語義驗(yàn)證,人工抽檢準(zhǔn)確率達(dá)84%以上。
  • 結(jié)構(gòu)優(yōu)勢:相比LeanWorkbook,其難度分布更均衡(多峰分布),領(lǐng)域覆蓋更全面(如解析幾何樣本量提升300%)。

圖片

△表3:FineLeanCorpus 的不同來源及數(shù)據(jù)集統(tǒng)計(jì)信息

與高度偏斜的 Lean-Workbook 相比,F(xiàn)ineLeanCorpus 提供了更透明的批判過程、更高比例的頂級問題,以及更加平衡和多樣化的主題分布

圖片

△表4:數(shù)據(jù)集統(tǒng)計(jì)信息的對比

與高度偏斜的 Lean-Workbook 相比,F(xiàn)ineLeanCorpus 提供了更透明的批判過程、更高比例的頂級問題,以及更加平衡和多樣化的主題分布

圖片

△圖5:數(shù)據(jù)集統(tǒng)計(jì)信息的對比()

實(shí)驗(yàn)結(jié)果:大幅提高數(shù)學(xué)形式化準(zhǔn)確率

將該框架應(yīng)用于自動形式化流程,配合Kimina-Autoformalizer-7B生成器,準(zhǔn)確率從38%(單輪生成)提升至84%(多輪迭代優(yōu)化),其中語義評估環(huán)節(jié)貢獻(xiàn)了30個百分點(diǎn)的提升。

圖片

△表5:自動化形式化性能的人類評估準(zhǔn)確率結(jié)果

論文鏈接:https://arxiv.org/pdf/2507.06181
項(xiàng)目鏈接:https://github.com/multimodal-art-projection/CriticLean

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-03-10 08:30:00

AI模型訓(xùn)練

2025-02-25 14:46:59

2025-02-03 14:17:27

2025-02-19 08:00:00

2025-09-08 09:06:16

2025-03-04 09:00:00

2019-01-10 14:49:14

開源技術(shù) 工具包

2022-04-13 10:31:04

微軟Jigsaw大型語言模型

2025-03-13 11:07:30

2025-06-17 17:14:01

DeepSeekSOTA開源

2023-09-19 14:56:00

模型訓(xùn)練

2025-03-06 10:00:00

2025-02-19 08:33:18

2025-05-06 15:39:53

DeepSeek-R英偉達(dá)開源

2018-11-14 10:01:30

谷歌開源機(jī)器學(xué)習(xí)

2025-03-13 08:13:47

DeepSeekMLLMVision-R1
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

亚洲一级片网站| 一区二区免费电影| 久久久免费高清视频| 九九在线精品| 91精品国产综合久久小美女| 久久综合亚洲精品| 天堂在线中文资源| 精品一二三四区| 久久全球大尺度高清视频| av中文字幕免费观看| 国产精品一级在线观看| 精品高清一区二区三区| 中文字幕av导航| 日本一本草久在线中文| 国产精品亚洲视频| 国产91露脸中文字幕在线| 中文字幕五月天| 伊人久久大香线蕉无限次| 91精品福利在线一区二区三区 | 亚洲一区二区在线观看视频 | 国产精品高潮呻吟久久av野狼| 99鲁鲁精品一区二区三区| 美女毛片一区二区三区四区| 精品乱码亚洲一区二区不卡| 向日葵污视频在线观看| 永久免费毛片在线播放| 亚洲最色的网站| 最新不卡av| 国产午夜在线视频| 972aa.com艺术欧美| 99三级在线| 国产一区二区在线视频聊天 | 日本久久亚洲电影| 日本少妇性生活| 午夜视频一区| 精品国产区一区二区三区在线观看| 水蜜桃av无码| 超碰97久久国产精品牛牛| 777精品伊人久久久久大香线蕉| 国产无套内射久久久国产| 激情av在线| 亚洲一二三四久久| 国产女人18毛片| 婷婷激情在线| 国产精品免费久久久久| 婷婷五月色综合| 成人在线免费视频| 国产日韩欧美不卡| 日本一区二区三区四区在线观看 | 亚洲午夜精品久久久久久性色 | 国产一区日韩| 亚洲欧美国产日韩中文字幕| 在线观看av中文字幕| 九九热播视频在线精品6| 精品成人一区二区| 无码国产69精品久久久久网站| 少妇精品在线| 精品国产免费一区二区三区四区 | 51精品国产黑色丝袜高跟鞋 | 亚洲小说欧美另类婷婷| 欧美极品美女电影一区| 国产在线视频在线观看| 亚洲精品九九| 欧美在线免费看| 久久久久久无码精品大片| 久久国产88| 国产欧美 在线欧美| 国产又大又长又粗| 成人丝袜视频网| 国内一区二区三区在线视频| 欧美在线观看在线观看| 99国产欧美另类久久久精品| 蜜桃臀一区二区三区| 黄色大片在线免费观看| 国产精品久久久一本精品| 久久av喷吹av高潮av| 久草免费在线色站| 欧美日韩一区二区在线 | 成人做爰视频www| 欧美亚洲自拍偷拍| 在线播放黄色av| 国产精品欧美大片| 亚洲欧洲日产国产网站| 无码人妻精品中文字幕| 欧美特黄a级高清免费大片a级| 97香蕉久久夜色精品国产| 日本视频免费观看| 韩国成人在线视频| 久久久久久亚洲精品不卡4k岛国| 成人动漫在线免费观看| 一区二区三区在线看| 99精品在线免费视频| 看片一区二区| 亚洲国产天堂久久国产91| av电影网站在线观看| 你懂的网址国产 欧美| 日本aⅴ大伊香蕉精品视频| 一级黄色短视频| 不卡免费追剧大全电视剧网站| 亚洲精品成人久久久998| 污视频免费在线观看| 色综合久久综合网欧美综合网 | 日韩精品久久久久久久软件91| 亚洲精品久久久久| 欧美在线视频第一页| 乱码第一页成人| av日韩中文字幕| 北条麻妃在线| 午夜伦欧美伦电影理论片| 激情五月俺来也| 亚洲瘦老头同性70tv| 麻豆国产va免费精品高清在线| 看片网址国产福利av中文字幕| 国产自产视频一区二区三区| 欧美日韩综合精品| 国产网红女主播精品视频| 欧美精品1区2区3区| 深爱五月激情网| 亚洲性人人天天夜夜摸| 成人在线免费观看视视频| 人操人视频在线观看| 亚洲国产毛片aaaaa无费看 | 中文字幕在线亚洲| 亚洲男人第一av| 国产成人自拍高清视频在线免费播放| 国产午夜精品一区理论片飘花| 欧美黄色aaa| 免费欧美日韩国产三级电影| 久久99久久99精品蜜柚传媒| 亚洲图区一区| 3atv一区二区三区| 国产一二三四区在线| 国产亚洲成人一区| 国产精品一区二区免费看| 免费超碰在线| 欧美日韩一区高清| caopeng视频| 羞羞答答国产精品www一本 | www国产一区| 中文字幕一区二区三区四区不卡| 国产视频一区二区三区在线播放| 三级小说欧洲区亚洲区| 国模gogo一区二区大胆私拍| 九九热最新视频| yourporn久久国产精品| 国产精品自拍合集| 亚洲天堂av资源在线观看| 美日韩精品免费视频| 国产精品无码专区av免费播放| 91丝袜美腿高跟国产极品老师 | 精品免费国产| 国产v日韩v欧美v| 日韩精品视频免费在线观看| 影音先锋亚洲天堂| 91毛片在线观看| 毛片av免费在线观看| 亚洲宅男一区| 日本91av在线播放| 国产对白叫床清晰在线播放| 欧美色图免费看| 韩国一级黄色录像| 激情深爱一区二区| 黄色影视在线观看| 视频一区中文字幕精品| 欧美激情亚洲另类| 天天干在线观看| 欧美午夜性色大片在线观看| 丰腴饱满的极品熟妇| 日韩高清国产一区在线| 一区二区精品国产| 亚洲三级av| 欧美自拍大量在线观看| 国产福利小视频在线观看| 欧美日韩一区二区三区四区五区| frxxee中国xxx麻豆hd| 国产乱子轮精品视频| aa视频在线播放| 加勒比久久综合| 91九色综合久久| 国产三级伦理在线| 亚洲人线精品午夜| 国产精品久久久久久久久毛片 | 91浏览器在线观看| 久久久久久一二三区| 五月天av在线播放| 亚洲电影成人| 日韩在线第一区| 欧美专区视频| 538国产精品视频一区二区| 在线日本视频| 精品国产凹凸成av人导航| 国产剧情在线视频| 亚洲三级电影全部在线观看高清| 免费观看污网站| 人人超碰91尤物精品国产| 日本人妻伦在线中文字幕| 亚洲伊人春色| 超碰97网站| 78精品国产综合久久香蕉| 久久中文精品视频| 日本人妖在线| 欧美变态口味重另类| 无码一区二区三区在线观看| 亚洲精品写真福利| 欧美做受xxxxxⅹ性视频| 国产精品亚洲午夜一区二区三区| 日韩手机在线观看视频| 欧美三级第一页| 亚洲精品在线免费看| 美国十次av导航亚洲入口| 成人久久精品视频| 国产精品迅雷| 久久久久亚洲精品国产| 自拍视频在线播放| 亚洲精品资源在线| 亚洲精品久久久蜜桃动漫| 欧美午夜精品久久久| 日本五十路女优| 亚洲欧美日韩中文字幕一区二区三区| 深爱五月激情网| 成人av在线一区二区| 天天干天天av| 日韩av网站免费在线| 欧美视频在线免费播放| 欧美激情综合| 中文字幕在线亚洲三区| 精品视频亚洲| 欧洲精品在线一区| 妖精视频一区二区三区免费观看| 99精品欧美一区二区三区| 国产福利亚洲| 国产国语刺激对白av不卡| 在线天堂资源| 96精品视频在线| 嗯啊主人调教在线播放视频| 免费成人高清视频| 老司机午夜在线视频| 一区二区三区日韩在线| 国内av一区二区三区| 日韩电影中文字幕在线| 五月婷婷久久久| 精品福利在线导航| 亚洲av永久无码国产精品久久 | 亚洲靠逼com| 三级黄色录像视频| 亚洲视频香蕉人妖| 免费三级在线观看| 亚洲免费观看高清完整版在线 | 国产专区在线| 亚洲图片欧美午夜| www.在线播放| 精品国产网站地址| a级影片在线| 欧美精品免费在线观看| 男插女视频久久久| 久久人人爽人人| 免费h在线看| 国产91久久婷婷一区二区| 最新欧美电影| 国产精品视频公开费视频| 国语自产精品视频在线看抢先版结局| 国产精品久久久久久久久久久久久久| 韩国精品主播一区二区在线观看| 国产精品www| 亚洲国产aⅴ精品一区二区三区| 91久久久久久久久久久| 日韩精品亚洲专区在线观看| 春色成人在线视频| 青青草这里只有精品| 日本不卡一区| 99精品美女| 欧美大黑帍在线播放| 日韩视频二区| 亚洲黄色小视频在线观看| 激情小说亚洲一区| 国产高潮失禁喷水爽到抽搐| 久久综合色综合88| 天天操天天摸天天舔| 亚洲午夜在线电影| 成人毛片一区二区三区| 欧美一区二区三区色| 性感美女福利视频| 色婷婷av一区二区三区久久| 99视频免费在线观看| 2018日韩中文字幕| 91精品福利观看| 国产欧美日韩亚洲| 欧美美女视频| 男人添女人下部视频免费| 欧美一级视频| 6080国产精品| 久久亚洲精品小早川怜子| 日韩在线观看免| 午夜电影一区二区三区| 中文字幕乱码视频| 亚洲第一区中文99精品| www.亚洲.com| 91精品国产91久久| 成人在线日韩| 麻豆久久久9性大片| 久久综合成人| www黄色日本| 国产资源在线一区| 国产精品揄拍100视频| 亚洲免费在线观看视频| 欧美性受xxx黑人xyx性爽| 精品乱人伦小说| 午夜在线视频| **欧美日韩vr在线| 91精品尤物| 中文字幕av导航| 日韩精品每日更新| a级一a一级在线观看| 亚洲欧美偷拍卡通变态| 无码人妻精品一区二区蜜桃色欲| 欧美一二区视频| 日本在线观看网站| 热久久美女精品天天吊色| 一本一道久久a久久| 综合一区中文字幕| 日韩精品电影一区亚洲| 国产人妻黑人一区二区三区| 成人欧美一区二区三区| 精品成人无码久久久久久| 亚洲第一天堂av| 欧美家庭影院| 91中文字幕一区| 91偷拍一区二区三区精品| 日韩精品免费播放| 久久先锋影音av| 特级做a爱片免费69| 亚洲成年人影院在线| 超鹏97在线| 91夜夜揉人人捏人人添红杏| 成人高清av| 久久久久久香蕉| 91捆绑美女网站| 精品成人久久久| 亚洲成人教育av| 久草成色在线| 国产精品一区视频| 黑丝一区二区三区| 男人添女人荫蒂国产| 亚洲激情图片小说视频| 国产深喉视频一区二区| 久久中文字幕国产| 日韩中文在线| 欧美性猛交内射兽交老熟妇| 国产91精品在线观看| 欧美三级免费看| 欧美大片国产精品| 成人性生交大片免费看网站| 国产精品.com| 国产欧美大片| 国产成人无码精品久久二区三| 日韩欧美主播在线| 九色在线观看| 国产精品视频精品| 国产精品成人一区二区不卡| 色网站在线视频| 亚洲一卡二卡三卡四卡无卡久久| 后入内射欧美99二区视频| 久久人人看视频| 亚洲精品亚洲人成在线观看| 北条麻妃在线一区| 国产精品久久久久影院色老大| 亚洲一区在线观| 久久中文字幕视频| 韩国女主播一区二区三区| 亚洲美免无码中文字幕在线| 久久蜜桃一区二区| 又骚又黄的视频| 欧美精品免费播放| 欧美男人操女人视频| 无码少妇一区二区三区芒果| 国产精品成人一区二区三区夜夜夜| 国产欧美一级片| 久久免费精品日本久久中文字幕| 丝袜美腿一区二区三区动态图| av无码精品一区二区三区| 国产精品国产自产拍高清av王其 | 亚洲精品影视在线观看| 黄色欧美视频| 日韩小视频网站| 国产丝袜美腿一区二区三区| 国产女人高潮时对白| 欧美在线性爱视频| 亚洲a一区二区三区| 好男人香蕉影院| 欧美日韩三级视频| 丁香高清在线观看完整电影视频 | 你懂的在线观看| 成人性生交xxxxx网站| 一区二区三区高清视频在线观看| 国产综合精品久久久久成人av| 精品免费99久久| 日本美女久久| 亚洲熟妇国产熟妇肥婆| 中文字幕在线不卡国产视频| 天天操天天插天天射|