精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

7B級形式化推理與驗證小模型,媲美滿血版DeepSeek-R1,全面開源!

人工智能 新聞
近日,由香港科技大學牽頭,聯合中科院軟件所、西安電子科技大學、重慶大學等單位,開源了一系列形式化推理與驗證大模型,僅用 7B,即可在相關任務上獲得與 671B 滿血版 DeepSeek-R1 相當的水平!

研究團隊構成:香港科技大學、中國科學院軟件研究所、西安電子科技大學和重慶大學。團隊核心成員:香港科技大學的研究助理教授曹嘉倫,主要研究領域包括 AI&SE、人工智能測試、形式化驗證等;中國科學院軟件研究所副研究員陸垚杰,主要研究領域包括大語言模型及其應用。

隨著 DeepSeek-R1 的流行與 AI4Math 研究的深入,大模型在輔助形式化證明寫作方面的需求日益增長。作為數學推理最直接的應用場景,形式化推理與驗證(formal reasoning and verification),也獲得持續關注。

然而,近期的形式化推理大模型大多只針對單一形式化語言模型,缺乏對多形式化語言、多形式化任務場景的深度探索。 

近日,由香港科技大學牽頭,聯合中科院軟件所、西安電子科技大學、重慶大學等單位,開源了一系列形式化推理與驗證大模型,僅用 7B,即可在相關任務上獲得與 671B 滿血版 DeepSeek-R1 相當的水平!

  • 論文標題:From Informal to Formal–Incorporating and Evaluating LLMs on Natural Language Requirements to Verifiable Formal Proofs
  • 論文鏈接:https://arxiv.org/abs/2501.16207
  • Hugging Face 模型鏈接:https://huggingface.co/fm-universe

正如 Meta FAIR 和斯坦福大學等多所機構在去年年底的立場論文(Formal Mathematical Reasoning: A New Frontier in AI)中所指出的,多語言形式化驗證模型正日益成為業界發展的趨勢

事實上,形式化驗證(formal verification)不僅是計算機科學的核心問題,也是形式化數學最直接的應用之一。然而,由于其門檻高、人力消耗大和部署成本高,形式化驗證的普及與推廣一直受到限制。

憑借大模型在語義理解、代碼自動生成等方面的優勢,引入該技術有望大幅加速驗證流程,從而有效降低人力成本并提升自動驗證效率。

形式化任務拆解

研究團隊首先對形式化驗證任務進行了分層拆解,從非形式化的自然語言輸入到可驗證的形式化證明(formal proof)或可檢測的模型(model checking)。在此基礎上,研究團隊將傳統的端到端形式化驗證流程細化為六個子任務,包括驗證需求分解、形式化規約片段生成、規約補全、填空,以及代碼到形式化規約的自動生成。

圖 1 形式化驗證任務拆解

這一過程可以與代碼生成(code generation)任務相對照:代碼生成任務旨在將自然語言描述的功能轉換為相應的代碼實現,而形式化證明生成或模型生成(formal proof/model generation)則將自然語言描述的驗證需求轉化為由形式化語言編寫的形式化證明(proof)或模型(model)。

圖 2 從代碼生成到形式化證明生成

研究團隊從 Github 收集了五種形式化語言的經過一系列數據收集、清洗與整理,最終得到了 14k 數據用于訓練微調(fm-alpaca),4k 數據用于測試(fm-bench)。

圖 3 數據準備過程

大模型在形式化細分任務上的能力對比

通過對五種形式化語言(Coq, Lean4, Dafny, ACSL, TLA+)在形式化證明寫作上六種細分能力對比,研究團隊獲得了一些有趣的發現。

形式化任務的角度(如圖 4),未經微調的通用指令大模型更擅長從代碼生成形式化證明(準確率 43.57%),而不擅長從自然語言生成形式化證明(8.65%~10.61%),遠低于代碼生成任務(從自然語言生成編程語言如 Python)。

滿血版(671B)DeepSeek-R1 平均準確率為 27.11%,而其他參數規模在 8B 至 72B 的模型平均準確率僅介于 7.32% 與 18.39% 之間。

另外,研究團隊觀察到在形式化規約填空的任務中,較大規模的模型往往不及小規模模型。例如,70B 的 llama3.1-instruct 模型在填空(列「ProofInfill」)上的準確率僅為 8B 模型的一半。這一現象可能與這些模型的微調策略:指令模型被訓練得更擅長生成,而非填空。研究團隊還發現,盡管 70B 級規模模型填寫的形式化規約片段看似更加正確,但因常常包含額外的內容,導致「說多錯多」,因此最終的準確率反而不如小模型。

圖 4 驗證任務上的差異(微調前)

大模型在不同形式化語言上的能力對比

形式化語言的角度看(見圖 5),大模型在 ACSL 上的效果最好(34.92%),Dafny 次之(15.92%)。研究團隊認為,原因可能在于:一方面,ACSL 語言的關鍵詞更貼近自然語言,其語法結構又類似于 C 語言,使得生成過程更為順暢;另一方面,ACSL 規約片段相對較短,而 Coq 和 TLA 等語言的規約片段較長,生成難度更大。

圖 5 還顯示,僅通過增加生成次數(從 1 次提升至 5 次),即可在不用微調的情況下,得到 10.82%~63.64% 的提升。之后,進一步結合上下文學習(in-context learning),可以進一步將準確率翻番(51.33%~532.83%)。

圖 5 形式化語言上的差異(微調前)

微調帶來的能力提升

接下來,研究團隊在 3 個 7~8B 的基礎模型(LLaMA-3.1,Qwen-2.5,Deepseek-coder-v1.5)上用 fm-alpaca(14k 數據),同時對比了普通的對話型指令微調數據集 tulu-v3 和 ultra-chat。

如圖 6,經過形式化數據 fm-alpaca 微調之后,大模型在各類形式化任務上均有明顯提升(模型名以「fma」為后綴的模型),性能幾乎翻倍。

值得注意的是,這種顯著提升僅用了 14k 條形式化相關的指令數據(instruction-response pairs)。

有趣的是,當把形式化數據和對話型指令數據混合微調時,能進一步提升模型性能,從 21.79%(僅用 fm-alpaca 微調)提升至 23.75%(fm-alpaca + ultrachat)和 25.16%(fm-alpaca + tulu)。

圖 6 微調前后結果對比

對比圖 5 與圖 6 還可以發現,盡管增加迭代次數和上下文學習可以提升準確率,但仍比不上微調帶來的提升。

能力遷移探究

最后,研究團隊進一步探索了形式化數據微調對大模型數學、推理和編程等任務上的「遷移能力」。他們通過對比微調前后在上述任務上的表現差異,以驗證大模型能否通過形式化驗證能力訓練中習得推理、數學等「元能力」。

實驗結果令人驚喜:利用形式化數據(FM-Alpaca)進行微調后,模型在數學、推理、代碼任務上的平均性能平均性能提升達到了 1.37% 至 5.15%。

該觀察或為未來探索模型「元能力」、「能力遷移」提供啟發。

總結

  • 高質量數據集構建:研究團隊構建了包含 18000 對高質量指令 - 響應對的微調數據集(fm-alpaca)與評估集(fm-bench),覆蓋 5 種主流的形式化語言(Coq, Lean4, Dafny, ACSL, TLA+)和 6 種不同形式化推理與驗證任務;
  • 形式化任務分解與評估:將從非形式化的自然語言需求到形式化、可驗證的證明的轉換過程細分為六個子任務,明確了每一步的目標和挑戰,有助于精確定位大模型的能力瓶頸;
  • 微調模型開源:通過微調,7~8B 的小模型在生成形式化證明的能力得到顯著提升,模型的性能提高了近三倍,在評估任務上媲美 671B 滿血版 DeepSeek-R1;
  • 后續啟發與影響:基于三種基礎模型的微調模型均已開源;完整的執行上下文和自動驗證流程也將開源,這將有助于降低形式化驗證的門檻,減少人力消耗及部署成本。
責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-27 10:28:32

2025-03-06 17:29:21

2025-02-12 12:45:59

2025-06-25 08:54:03

模型訓練AI

2025-06-06 09:07:00

模型LLMAI

2025-07-30 09:06:02

2025-03-07 08:30:00

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-03-17 12:13:26

AI模型生成

2025-02-03 14:17:27

2025-04-11 12:04:58

2025-03-19 10:10:43

2025-02-13 01:00:00

2025-03-05 03:00:00

DeepSeek大模型調優

2025-03-04 09:00:00

2025-03-07 08:50:03

點贊
收藏

51CTO技術棧公眾號

国产精品1024| 欧美日韩激情| 亚洲一区二区三区四区的| www.久久草| 五月婷婷色丁香| 国产成人精品免费视| 欧美日韩视频专区在线播放| 一区二区三区四区免费观看| 免费观看黄色一级视频| 日韩av一二三| 欧美另类在线播放| 中日韩精品一区二区三区| 色综合视频一区二区三区日韩| 亚洲在线视频网站| 亚洲精品久久久久久一区二区| 国产99久一区二区三区a片| 国产欧美成人| 久久精品亚洲精品| 久久精品老司机| 不卡一区视频| 欧美性xxxx极品hd欧美风情| 黄瓜视频免费观看在线观看www| 老牛影视av牛牛影视av| 蜜臀av亚洲一区中文字幕| 午夜精品一区二区三区视频免费看| 人人妻人人澡人人爽| 精品人人人人| 日韩欧美一区二区免费| wwwwww.色| www.51av欧美视频| 综合久久国产九一剧情麻豆| 欧美性色黄大片人与善| 欧美性猛交 xxxx| 国产乱色国产精品免费视频| 国产精品久久网| av大片在线免费观看| 国内精品久久久久久久影视蜜臀 | 亚洲伦在线观看| 热re99久久精品国产99热| 人妻va精品va欧美va| 激情欧美一区二区| 国产欧美 在线欧美| 69视频免费在线观看| 亚洲久久一区| 久久6精品影院| 日韩在线观看免| 久久国产电影| 色先锋资源久久综合5566| 久久精品视频18| 日韩成人一级| 亚洲国产精久久久久久| 丰满人妻一区二区三区大胸| 精品国产三区在线| 91精品国产免费| 国产精品久久久久久9999| 国外成人福利视频| 欧美亚洲综合色| 在线免费观看av的网站| 成人四虎影院| 欧美日韩一区二区三区不卡| 爱情岛论坛成人| 欧美极品免费| 在线观看www91| 亚洲精品自拍网| 91精品美女| 欧美视频一区二区三区在线观看 | 奇米综合一区二区三区精品视频| 日韩美女在线观看一区| www.久久久久久久| 免费看欧美美女黄的网站| 国产精品一区二区三区毛片淫片| 亚洲精品国产精品国自产网站按摩| 日韩高清中文字幕一区| 国产精品久久久久久久久男| 国产精品高潮呻吟久久久| 韩国午夜理伦三级不卡影院| 亚洲xxxx3d| 丁香六月天婷婷| 99国产精品久久久久久久久久久 | 日韩在线免费看| 久久视频一区二区| 日本在线视频不卡| 欧美性videos| 亚洲制服丝袜一区| 欧美激情成人网| 国产在视频一区二区三区吞精| 91精品一区二区三区久久久久久| 中文字幕一二三区| 日韩av系列| 视频在线观看一区二区| 人妻久久一区二区| 亚洲一区日韩在线| 成人高h视频在线| 黄色www视频| 国产三级一区二区| 午夜久久久久久久久久久| 精精国产xxxx视频在线野外| 欧美在线观看视频一区二区| 香蕉视频xxx| 免费国产自久久久久三四区久久| 精品国产网站地址| 午夜毛片在线观看| 国产一区二区三区在线观看精品 | 欧美日韩高清| 久久91亚洲人成电影网站| 精品美女久久久久| 精品在线一区二区三区| 国产区一区二区三区| www.中文字幕久久久| 亚洲国产一区二区视频| 午夜在线观看av| 久久九九热re6这里有精品| 日日骚av一区| 天天操天天干视频| 国产一二精品视频| 欧美亚洲另类在线一区二区三区| 尤物yw193can在线观看| 欧美在线你懂的| 在线观看免费视频国产| 天天做天天爱天天综合网2021 | 青少年xxxxx性开放hg| 原纱央莉成人av片| 欧美精品一区视频| 日本精品在线免费观看| 久久aⅴ国产紧身牛仔裤| 国产精品免费观看高清| www红色一片_亚洲成a人片在线观看_| 色婷婷精品大视频在线蜜桃视频 | 91免费观看视频| 800av在线免费观看| 国产一区精品福利| 亚洲人成人99网站| 日韩美女视频网站| 粉嫩av亚洲一区二区图片| 在线免费一区| 精品自拍视频| 夜夜嗨av色综合久久久综合网| 久久夜色精品亚洲| 播五月开心婷婷综合| 日韩亚洲欧美一区二区| www欧美在线观看| 久久久www成人免费精品| 国产精品国产一区二区三区四区| 久久久天堂av| 国产精品免费观看久久| 精品伊人久久久| 97超碰国产精品女人人人爽 | 天天人人精品| 久久久人成影片一区二区三区在哪下载| 亚洲精品久久久久久久久久久久 | 稀缺小u女呦精品呦| 女人香蕉久久**毛片精品| 92看片淫黄大片看国产片| 欧美jizz18性欧美| 欧美日韩成人高清| 女同久久另类69精品国产| 蜜桃av一区二区| 亚洲无玛一区| 亚洲aⅴ网站| 久久精品国亚洲| 99视频在线观看免费| 中文字幕一区二区三区在线不卡| 久久6免费视频| 亚洲精品a级片| 91pron在线| 成人性生交大片免费看网站| 精品国产一区二区在线观看| 国产性70yerg老太| aaa亚洲精品一二三区| 日韩av三级在线| 亚洲精华一区二区三区| 国产精品极品美女粉嫩高清在线| 69视频在线观看| 欧美一级爆毛片| 国产视频91在线| 久久午夜羞羞影院免费观看| 97公开免费视频| 91影院成人| 99国产超薄肉色丝袜交足的后果| 91黄页在线观看| 亚洲免费成人av电影| 中文字幕久久久久| 一区二区三区在线观看国产| 妖精视频一区二区| 日韩国产精品大片| 热久久最新网址| 牛牛影视久久网| 人人做人人澡人人爽欧美| 69视频在线| 精品成人a区在线观看| 波多野结衣电车痴汉| 国产精品久久久久久久裸模| 岛国大片在线免费观看| 午夜在线视频观看日韩17c| 亚洲制服中文| 风间由美一区二区av101 | 国产一区二区三区在线观看视频| 91片黄在线观看喷潮| 亚洲国产日韩一级| 亚洲一级片在线播放| 成人综合在线视频| 黄色a级片免费| 永久亚洲成a人片777777| 久久久久久亚洲精品不卡4k岛国 | 国产精品一区二区三区观看| 91p九色成人| 久久久午夜视频| 成人免费高清在线播放| 亚洲аv电影天堂网| 中文字幕有码视频| 福利二区91精品bt7086| chinese全程对白| 久久亚洲一区二区三区明星换脸| 午夜激情影院在线观看| 老司机免费视频久久| 成人一区二区av| 色999国产精品| 激情视频一区二区| 精品91福利视频| 国产精品久久久久久久久久免费| 91九色美女在线视频| 久久久国产一区| 国产一级免费在线观看| 亚洲第一福利网站| 精品国产av一区二区三区| 欧美图区在线视频| 久久亚洲精品石原莉奈| 天天综合色天天综合| 久久久久久久久久久久久久免费看| 中文字幕免费在线观看视频一区| 一级特级黄色片| 国产成人免费在线观看不卡| 一本色道久久亚洲综合精品蜜桃| 久久激情一区| 亚洲午夜精品久久久久久人妖| 欧美日韩国产一区精品一区| 在线视频一二三区| 国产精品99久久| 亚洲精品第一区二区三区| 欧州一区二区| 日本日本精品二区免费| 国产毛片一区二区三区| 欧美成人第一区| 亚洲宅男网av| 欧美成人免费在线| 久久99国产精一区二区三区| 精品亚洲第一| 亚洲专区视频| 欧美在线播放一区| 波多野结衣在线观看一区二区| 欧美日韩国产一二| 国产尤物久久久| 日韩高清dvd| 成人精品久久| 亚洲午夜久久久影院伊人| 四季av在线一区二区三区| 一区二区三区四区五区精品| 国产精品久久久久久麻豆一区软件| 亚洲精品在线视频观看| 无码一区二区三区视频| 狠狠干视频网站| 在线播放亚洲| 久久久久久久中文| 久久不射网站| 国产原创精品在线| 国产一区二区三区av电影| 韩国三级在线看| 99视频超级精品| 美国黄色一级毛片| 亚洲国产精品精华液ab| 特一级黄色录像| 亚洲国产精品人人做人人爽| 黄色免费av网站| 欧美网站一区二区| www日本视频| 亚洲精品中文字| 免费人成在线观看播放视频| 欧美激情xxxx| 韩国美女久久| 国产精品网红直播| 97青娱国产盛宴精品视频| 久久婷婷国产综合尤物精品| av中字幕久久| 欧美大黑帍在线播放| 亚洲免费影院| 最新免费av网址| 99久久国产综合精品色伊| 人妻少妇无码精品视频区| 亚洲精品久久久蜜桃| 西西44rtwww国产精品| 欧美日韩国产精品自在自线| 可以免费看毛片的网站| 尤物yw午夜国产精品视频明星| 日本性爱视频在线观看| 国产精品999999| 9l视频自拍蝌蚪9l视频成人| 日本一区二区三区视频在线播放 | 国产清纯在线一区二区www| 日韩在线视频网址| 精品久久久中文| 国产男男gay网站| 国产视频久久久| 1区2区3区在线视频| 欧美在线视频导航| 成人在线啊v| 视频一区二区在线观看| 国产精品videosex极品| 中文字幕成人在线视频| av中文字幕在线不卡| 四虎免费在线视频| 91久久精品一区二区三| 天堂网av在线播放| 久久久久999| 成人h在线观看| 久久久久久艹| 国产综合精品| www.桃色.com| 国产精品水嫩水嫩| 国产成人精品一区二三区| 日韩精品一区二区三区视频播放| xxxxx日韩| 青青草原成人在线视频| 国产成人福利av| 小泽玛利亚av在线| 麻豆精品视频在线| 深爱五月激情网| 午夜亚洲福利老司机| 国产又粗又猛又爽又黄的视频一| 亚洲视频在线观看网站| 国产美女高潮在线| 成人免费观看网站| 欧美成人首页| 欧美一级特黄aaa| 欧美国产日本视频| 国产污视频网站| 国产视频久久久久| 日韩深夜视频| 精品无人乱码一区二区三区的优势| 欧美视频在线观看| 4438x全国最大成人| 亚洲精品乱码久久久久久久久 | 神马电影网我不卡| 久久久久久久久四区三区| 亚洲国产日本| 91传媒理伦片在线观看| 亚洲一区二区在线免费看| www.色亚洲| 久久99久国产精品黄毛片入口| 韩国三级成人在线| 女同性恋一区二区| 国产精品888| 久久久久久国产精品免费播放| 欧美一区二区成人6969| а√天堂在线官网| 91免费版黄色| 亚洲高清成人| 色噜噜在线观看| 欧美日韩精品在线播放| 男女网站在线观看| 国产精品一区二区性色av | 欧美a级免费视频| 国产aⅴ综合色| 日韩高清免费av| 亚洲免费福利视频| 国产成人a视频高清在线观看| 一区二区三区四区视频在线观看| 国产最新精品精品你懂的| 成年人av电影| 亚洲精品美女视频| 成人一级福利| 日本高清一区| 久久97超碰国产精品超碰| 欧美成人精品欧美一级私黄| 精品国产一区a| 亚洲一级少妇| 一区二区三区久久网| 国产麻豆精品theporn| 国产在线观看成人| 国产午夜精品久久久| 免费视频观看成人| 国产美女在线一区| 久久久91精品国产一区二区三区| 91亚洲国产成人精品一区| 欧美激情一区二区三区在线视频观看| 日韩有码中文字幕在线| 热久久精品免费视频| 亚洲另类一区二区| 三级毛片在线免费看| 国产精品亚洲аv天堂网| 欧美日韩网址| 国产精品成人无码免费| 日韩欧美亚洲一区二区| 综合毛片免费视频| 一级黄色免费在线观看| 久久先锋资源网| 国产三区在线播放| 国产成人鲁鲁免费视频a| 在线电影一区二区| 卡一卡二卡三在线观看| 欧美不卡一区二区三区|