精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型推理新范式!清華&螞蟻:用編程思維來思考,用自然語言來表達

人工智能 新聞
CodePlan 的提出為大模型推理能力發展提供了一個新思路。

該論文的第一作者是清華大學計算機系研究生溫佳鑫,螞蟻技術研究院副研究員關健為共同第一作者。

大模型應該以什么形式進行推理?自然語言是表示推理路徑的最佳方案嗎?

2024 年 9 月,OpenAI 攜 o1 模型吹響推理革命的號角,以驚人的思維鏈長度刷新認知邊界。在這場技術革命中,中國力量迅速崛起:DeepSeek R1 以極低的訓練成本成功復現 o1 性能,引發全球熱議。然而,在振奮的結果背后,上述「靈魂拷問」似乎并沒有得到解答。

事實上,在這場推理大潮來臨之前,本文研究團隊就一直在圍繞這些問題進行思考和探討。自然語言形式的推理范式雖然從思維鏈開始就主導了推理模型的構建,其本身卻存在著不可忽視的缺陷:推理過程中常見邏輯斷裂、焦點漂移、冗余重復等系統性問題。這就像一名博學卻缺乏系統訓練的學生,知識有余而邏輯不足。 

研究團隊認為這些問題源自自然語言的雙面性:表達自由靈活,卻難以傳遞嚴謹的結構化思維。更本質的挑戰在于:文本中蘊含的推理結構往往被埋藏在自然語言冗余的表達形式之下。這些隱含的邏輯模式難以被模型有效捕捉和復用。對于參數量較小的模型而言,這一困境更為嚴峻。

為應對這一困境,研究團隊在 ICLR 2025 上提出了 CodePlan 方法。這一創新框架將「代碼形式的規劃」(Code-Form Planning)引入推理過程,讓大模型先用「編程思維」來思考,再用自然語言來表達

得益于編程語言的嚴謹特性,代碼規劃能夠精確構建包含條件分支、循環迭代、函數調用等結構的推理藍圖,就像為大模型裝上了一個邏輯嚴密的「操作系統」。更有趣的是,由于編程語言存在海量的數據,這種方法無需繁重的人工標注,能夠自動從已有數據中提取隱含的規劃信號;并且由于已有代碼覆蓋了各個領域的問題,CodePlan 除了解決復雜推理問題外,還可以很好地泛化到其它任務上。

在 13 個具有挑戰性的基準測試中,CodePlan 實現了平均 25.1% 的相對性能提升。目前,研究團隊已開源了 200 萬條包含代碼形式規劃的推理數據,以期推動這一方向的研究。

圖片

  • 論文標題:CodePlan: Unlocking Reasoning Potential in Large Language Models by Scaling Code-form Planning
  • 論文地址:https://arxiv.org/pdf/2409.12452
  • Github: https://github.com/thu-coai/CodePlan
  • Dataset: https://huggingface.co/datasets/jiaxin-wen/CodePlan

一、推理能力的阿喀琉斯之踵

在大模型推理能力突飛猛進的表象之下,隱藏著一個被忽視的現象:隨著研究者不斷追逐更大的參數規模、更龐大的數據量,模型的「思維熵增」現象反而愈發嚴重。這種反?,F象主要表現在兩個方面:一是推理過度膨脹,即便是回答 「2+3=?」這樣的簡單問題,o1 模型也會生成長達 200 多個 token 的冗長思維鏈;二是推理不夠專注,在解決復雜問題時頻繁跳躍于不同思路之間,卻始終無法深入任何一個方向得出正確答案。

這一現象暴露出當前技術路線中一個根本性矛盾:自然語言固有的非結構化特性,與系統化推理所需的嚴謹規劃框架之間存在著難以調和的沖突。

深入分析這一現象,研究團隊發現現有的推理模型主要依賴兩個步驟:首先通過自然語言形式隨機探索生成海量的推理路徑,然后借助強化學習算法從中篩選優質軌跡。這種方法雖然拓寬了推理的探索空間,卻像在茫茫沙漠中漫無目的地搜尋綠洲,缺乏有效的導航機制必然導致效率低下。更為致命的是,這種基于自然語言的自由推理方式難以沉淀出可復用的結構化知識,導致模型每次面對新問題時都需要從零開始探索。

因此,現有方法雖然培養了模型強大的直覺能力,卻忽視了人類思維最本質的特征 —— 通過高層規劃將零散知識系統化的能力。

圖片CodePlan 在 5 類核心推理任務上取得顯著提升。Vaniila: 不使用規劃的基線方法;Natural Language Plan:基于自然語言的規劃方法。

二、CodePlan:為大模型裝載結構化思維引擎

面對大模型推理能力的瓶頸,研究團隊提出了 CodePlan 框架,其核心創新在于引入「代碼形式規劃」(Code-Form Planning)作為思維的中間表征。

這一創新建立在對推理結構的精確表達之上。通過將編程語言的嚴謹結構引入推理過程,CodePlan 為大模型構建了一個可靠的「思維操作系統」。這個系統通過兩個層次來實現思維的結構化:先用 Python 風格的偽代碼勾勒出高層次的推理框架;再基于這個框架,系統性地展開具體推理步驟。

如下圖所示,這種基于代碼的表達方式具有四大核心優勢:

  1. 條件分支能力:通過 if 語句動態調整推理路徑,實現靈活的上下文適應;
  2. 循環迭代結構:利用 for 循環高效處理序列數據和重復操作;
  3. 模塊化工具:通過函數定義和調用,增強模型對工具的創建和使用能力;
  4. 層次化架構:通過變量定義、子任務分解和嚴謹的邏輯編排,支持復雜推理任務的模塊化分解。

圖片

相比傳統的自然語言規劃,CodePlan 的優勢突出。Python 代碼不僅能夠以更簡潔的方式傳遞規劃信息,而且這種表達方式在預訓練語料中分布更廣,使模型在訓練階段就已經建立起對代碼結構的深層理解。

這種與生俱來的「代碼素養」讓模型能夠更自然地生成和理解規劃信息,大大降低了學習成本。更重要的是,這種規劃方式展現出驚人的通用性——從數學推理到指令理解,從符號運算到開放式問題,都能構建出清晰的代碼形式規劃表示。

三、廣泛提升模型推理能力

為驗證 CodePlan 的效果,研究團隊構建了一套高效的規劃信息自動挖掘方法。如下圖所示,該方法包含兩個關鍵創新:首先通過代碼預訓練模型精準解析文本中潛藏的推理結構,將其轉化為顯式的偽代碼表示;其次設計了基于啟發式評分的動態過濾機制,確保所提取規劃的質量。

基于這一方法,團隊成功構建了一個包含 200 萬個「< 用戶提示,代碼規劃,回復 >」三元組的大規模數據集。 

圖片

訓練數據構建流程。

實驗結果令人振奮。研究團隊以 Mistral 和 Llama 為基座模型,在跨越數學推理、符號運算、指令理解、多跳問答和決策等五大領域的 13 個具有挑戰性的基準測試中進行了系統評估。

結果顯示,相比于直接從用戶指令生成推理步驟的基線方法(Vanilla)和使用自然語言形式規劃的傳統方法(PS Prompting),CodePlan 在所有任務上都實現了顯著提升。特別是在復雜度較高的任務上,性能提升更為明顯。例如,在 Last Letter 任務上,Mistral-7B 的準確率提升了超過 20 個百分點,展示出 CodePlan 在處理高難度推理問題時的獨特優勢。 

圖片

圖片

1. 任務越復雜,提升越顯著

深入分析實驗結果揭示了 CodePlan 一個令人矚目的特性:隨著任務復雜度的提升,其性能優勢愈發顯著。研究團隊以多跳問答任務為例進行了精細化分析,通過將數據集按推理步數(2 跳、3 跳、4 跳)劃分,清晰地展示了這一規律。

圖片

多跳問答任務的性能對比

如上圖所示,在相對簡單的 2 跳問題上,CodePlan 相比基線模型已有穩定提升;而在需要三次以上推理跳轉的復雜問題中,性能差距急劇擴大。特別是在最具挑戰性的 4 跳問題上,CodePlan 的優勢達到最大,這充分說明其在處理深層次推理時的卓越能力。

這種「難者愈強」的特性,正是源于 CodePlan 的結構化推理框架。通過將復雜推理過程分解為清晰的代碼步驟,模型能夠更好地把控長程依賴關系,避免了傳統方法在多步推理中常見的邏輯斷裂和注意力發散問題。

2. 更高效、更穩定的后訓練

研究團隊在探索 CodePlan 的訓練特性時,發現了另一個重要優勢:它為大模型的后訓練提供了一條更高效、更可靠的路徑。

圖片CodePlan 的訓練曲線

如上圖所示,在 GSM8K 數學推理和 MuSiQue 多跳問答這兩個具有代表性的任務上,CodePlan 展現出顯著的訓練優勢。傳統的后訓練方法(藍線)在訓練過程中表現出明顯的性能波動。相比之下,CodePlan(橙線)不僅實現了更快的性能提升,更重要的是保持了穩定的上升趨勢。

這一現象揭示了 CodePlan 的核心優勢:通過引入結構化的代碼規劃作為中間表示,它成功建立了一個更加普適的學習框架。這個框架能夠有效降低不同任務之間的表達差異,使得模型可以更專注于學習本質的推理模式,從而實現知識的高效遷移和穩定積累。這不僅提高了訓練效率,更為大模型能力的持續進化提供了可靠保障。

3. 案例分析:化繁為簡的結構化思維

讓我們來看看「數值比較」(9.8 和 9.11 誰更大)和「字母計數」(統計 strawberry 中字母 r 的出現次數)這兩個看似簡單,卻常常難倒模型的問題。

圖片

如上表所示,CodePlan 通過引入代碼形式的規劃,優雅地解決了這些問題。與之形成鮮明對比的是,沒有規劃輔助的模型往往給出模糊或錯誤的答案。它們要么直接下結論,要么陷入冗長卻不準確的解釋中,反映出缺乏系統化思維方法的局限。

這個對比表明:CodePlan 不是簡單地告訴模型「該做什么」,而是教會模型「如何思考」。通過將復雜任務分解為清晰的代碼步驟,CodePlan 為模型提供了一個可靠的問題解決范式。

結語:開辟大模型結構化思維新思路

CodePlan 的提出為大模型推理能力發展提供了一個新思路。這項創新通過將代碼形式規劃引入推理過程,成功解決了自然語言表達中的結構化缺陷;更重要的是,它開創了一種全新的方法論,為大模型注入了系統化的問題解決能力。通過開源 200 萬條規劃數據,研究團隊為整個社區貢獻了資源。在此基礎上,期待在金融、醫療等高要求場景中有更多激動人心的應用突破。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-11-24 19:31:41

機器學習神經網絡人工智能

2025-06-26 09:06:59

2020-12-07 08:16:39

自然語言查詢數據庫數據庫查詢

2023-10-11 12:32:53

AI模型

2023-08-01 13:09:42

代碼開發

2025-01-10 10:30:00

大模型統計評估

2025-05-16 08:44:01

2020-12-24 10:00:12

PythonPython基礎阿姆斯特朗數

2025-06-09 09:32:35

2025-11-04 01:43:00

循環語言模型架構

2024-06-21 13:15:27

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-10-10 01:25:00

大模型訓練數據OpenAI

2013-07-16 10:08:51

MIT編程語言

2024-12-12 09:00:00

2023-08-07 08:41:45

自然語言模型因果推理

2025-11-04 02:22:00

AgenticAI多智能

2025-04-08 09:16:00

推理模型AI

2025-05-30 02:00:00

獎勵模型RRMAI

2021-03-25 16:01:11

編程語言CPU機器語言
點贊
收藏

51CTO技術棧公眾號

97色在线播放视频| 日韩一区二区免费高清| 亚洲mv在线看| www.亚洲欧美| 日韩成人一级片| 欧美丰满少妇xxxx| 亚洲av成人无码久久精品| 国内精品视频| 色偷偷成人一区二区三区91| 一区二区三区日韩视频| 日韩福利一区二区| 国产一区福利在线| 国产99久久精品一区二区| 黄色在线观看免费| 日韩精品首页| 亚洲电影在线观看| 天天做天天干天天操| 自拍一区在线观看| 一区二区三区中文字幕| 欧美日韩在线精品| 丰满人妻妇伦又伦精品国产| 久久国产精品99精品国产| 欧美在线观看网站| 免费网站观看www在线观| 成人一二三区| 日韩av最新在线观看| gogo亚洲国模私拍人体| 吉吉日韩欧美| 欧美日韩美女在线| 欧美狂野激情性xxxx在线观| 黄色国产网站在线播放| 欧美经典一区二区三区| 美日韩免费视频| 欧美在线 | 亚洲| 国产成人激情av| 91精品国产综合久久久久久蜜臀 | 蜜桃在线一区二区三区精品| www天堂在线| 国产在线视频一区二区| 国产精品一香蕉国产线看观看| 日本一区二区三区精品| 亚洲激情黄色| 久久男人av资源网站| 中文字幕在线观看成人| 亚洲成av人片乱码色午夜| 在线日韩av观看| 91视频免费在观看| 成人羞羞动漫| 色老头一区二区三区| 亚洲高潮女人毛茸茸| 国产精品一区二区av交换| 亚洲欧洲xxxx| 国产视频三区四区| 日韩电影免费网站| 色综合亚洲精品激情狠狠| 91狠狠综合久久久久久| 欧美高清在线| 不卡中文字幕av| 青青草手机在线视频| 中文字幕一区二区av| 欧美华人在线视频| 久久精品免费在线| 久久国产精品久久w女人spa| 国产97人人超碰caoprom| 日韩欧美一级大片| 九九久久精品视频| 国产精品久久久久免费| 人妻无码中文字幕| aaa欧美色吧激情视频| 免费看污久久久| 国产经典自拍视频在线观看| 中文字幕巨乱亚洲| 8x8x华人在线| 人人草在线视频| 欧美亚洲一区二区在线| 午夜视频在线网站| 中文字幕日韩在线| 亚洲欧美中文字幕| 日韩免费av一区| 欧美久久综合| 日本一区二区三区在线播放| 91福利在线观看视频| 国产很黄免费观看久久| 久久久福利视频| 色多多视频在线观看| 亚洲男女毛片无遮挡| 国产精品沙发午睡系列| 久久天天久久| 亚洲国产天堂久久综合| ass精品国模裸体欣赏pics| 久久精品国产大片免费观看| 欧美国产日韩在线| 国产情侣免费视频| 国产成人午夜精品影院观看视频 | 国产在视频线精品视频| 天海翼亚洲一区二区三区| 国产亚洲精品va在线观看| 欧美一区免费观看| 久久不射2019中文字幕| 亚洲自拍小视频| 国产在线日本| 亚洲国产成人av| 五月激情五月婷婷| 免费看成人哺乳视频网站| 久久综合伊人77777| 国产一级免费视频| 成人av在线资源| 在线视频精品一区| 成人性生交大片免费网站| 日韩一级黄色片| 成人小视频免费看| 亚洲综合国产| 粉嫩精品一区二区三区在线观看| 成人三级黄色免费网站| 欧美日韩一区二区在线播放| 手机在线播放av| 欧美大片aaaa| 国产成人短视频| 天堂√在线中文官网在线| 亚洲综合免费观看高清完整版在线| 国产日韩一区二区在线观看| 亚洲视频一起| 久久亚洲精品国产亚洲老地址| 日韩黄色片网站| av在线播放一区二区三区| 欧美 国产 精品| **国产精品| 中文字幕一精品亚洲无线一区 | 黄页视频在线播放| 91成人免费网站| 免费a级黄色片| 国产亚洲在线观看| 国产精品一码二码三码在线| 亚洲欧美成人影院| 欧美一区二区三区四区五区 | 国产人成视频在线观看| 欧美日韩一卡| 99国产高清| 中文字幕在线观看播放| 91精品中文字幕一区二区三区| 手机免费观看av| 另类小说欧美激情| 新呦u视频一区二区| 99蜜月精品久久91| 在线观看日韩欧美| 一级全黄裸体免费视频| 国产精品美女久久久久av爽李琼| 国产小视频精品| 日韩一级毛片| 成人一区二区电影| 中文国产字幕在线观看| 日韩一级成人av| 精品在线免费观看视频| 成人短视频下载| 国产极品粉嫩福利姬萌白酱| 免费观看久久av| 国产精品久久久久久久久影视| 午夜视频成人| 日韩欧美一级片| 黄色小视频在线免费看| 99精品视频在线观看免费| 一本色道无码道dvd在线观看| 久久av资源| 国产欧美一区二区| 制服丝袜中文字幕在线| 亚洲国产精品字幕| 亚洲精品一区二区二区| 中文字幕在线不卡| 亚洲av综合色区无码另类小说| 欧美日韩蜜桃| 久久婷婷人人澡人人喊人人爽| 欧美极度另类| 久久天天躁日日躁| 蜜臀久久久久久999| 日韩欧美国产成人| 色婷婷在线视频观看| 不卡视频在线观看| 日本美女高潮视频| 欧美三级网页| 日本一区免费看| 狂野欧美xxxx韩国少妇| 欧美影院在线播放| 免费黄色在线看| 亚洲第一福利网| 中文字幕乱码视频| 亚洲午夜激情网页| 欧美丰满美乳xxⅹ高潮www| 国产福利精品导航| 农村妇女精品一二区| 亚洲一本二本| 明星裸体视频一区二区| 精品一区二区三区亚洲| 欧美资源在线观看| av免费在线网站| 亚洲欧洲在线视频| 国产综合视频在线| 欧美色图免费看| 日韩av男人天堂| 中文字幕在线一区免费| 成人影视免费观看| 国产成人精品免费| 成人亚洲免费视频| 亚洲欧美日韩国产一区二区| 国产资源第一页| 波多野结衣的一区二区三区| 国产欧美日韩综合一区在线观看| 欧美高清你懂的| 热99在线视频| av在线资源| 欧美www在线| shkd中文字幕久久在线观看| 亚洲福利在线看| 99视频国产精品免费观看a| 在线观看免费成人| 久久久久久久久久久久久久av| 一区二区三区资源| 亚洲伦理一区二区三区| 国产视频一区在线播放| 欧美一级片黄色| 国v精品久久久网| 992kp免费看片| 黄色小说综合网站| 污色网站在线观看| 日本在线不卡一区| 超碰97人人射妻| 国产精品日韩| 1024av视频| 在线综合亚洲| 久激情内射婷内射蜜桃| 国模吧视频一区| 男人天堂新网址| 欧美日韩精选| 免费在线看黄色片| 欧美日韩国产免费观看| 亚洲激情免费视频| 欧美在线91| 免费的一级黄色片| 中文无码久久精品| 一级黄色片播放| 亚洲天堂免费| 欧美另类videosbestsex日本| 91不卡在线观看| 免费在线观看污污视频| 婷婷亚洲综合| 日本在线视频www色| 中文在线播放一区二区| www.一区二区.com| 亚洲电影av| www一区二区www免费| 久久激情网站| 亚洲色图 在线视频| 精品中文字幕一区二区| 91 视频免费观看| 丁香激情综合五月| 国产人妻人伦精品1国产丝袜| 久久综合给合久久狠狠狠97色69| 在线观看国产精品一区| 国产精品无遮挡| 久久久久久视频| 亚洲国产精品人人做人人爽| 国产成人愉拍精品久久| 一本大道综合伊人精品热热| 国产免费www| 91精品国产综合久久久蜜臀粉嫩| 国产成人精品毛片| 精品国产凹凸成av人网站| 亚洲av成人精品一区二区三区在线播放 | 男人天堂999| 青青草精品视频| 亚洲欧美一区二区三区不卡| 成人小视频免费在线观看| 中文字幕在线观看的网站| 中文字幕乱码久久午夜不卡 | 91福利视频在线| 国产精品玖玖玖| 亚洲第一网中文字幕| 精品99又大又爽又硬少妇毛片| 正在播放国产一区| 成人av黄色| 51色欧美片视频在线观看| 日韩在线激情| 国产自产精品| 99久久夜色精品国产亚洲96| 国产人妻777人伦精品hd| 日韩成人伦理电影在线观看| 日本一二三四区视频| 2021久久国产精品不只是精品| www.黄色com| 亚洲不卡一区二区三区| 一级黄色片网站| 亚洲精品中文字| 日本孕妇大胆孕交无码| 国产精品高潮呻吟久久av无限| 97一区二区国产好的精华液| 亚洲精品欧美精品| 亚洲一区观看| 免费国偷自产拍精品视频| 久久精品视频一区| 国产在线视频在线观看| 欧美日韩国产小视频| 午夜一区在线观看| 欧美成人免费小视频| 日韩高清不卡| 久久久99国产精品免费| 欧美精品福利| 911福利视频| 国产亚洲精久久久久久| 亚洲视频免费播放| 91精品国产综合久久久久久久久久| 日韩在线无毛| 97精品国产97久久久久久免费| 精品久久国产一区| 日韩一区二区三区资源| 国产情侣一区| 中文字幕在线观看91| 亚洲欧美日韩系列| 最近中文字幕在线观看| 精品一区二区亚洲| 岛国在线视频网站| 福利视频久久| 国产一区二区三区四区老人| 手机精品视频在线| 亚洲欧洲精品天堂一级 | 中文字幕乱码在线播放| 国产精品视频入口| 亚洲精品91| 中文字幕成人免费视频| 国产精品欧美一区喷水| 欧美高清69hd| 亚洲无线码在线一区观看| 黄色成人免费网| 欧美日韩精品免费观看视一区二区| 一区在线视频| 久久久久成人精品无码中文字幕| 亚洲午夜电影在线观看| 亚洲黄色小说网址| 欧美高清电影在线看| 91麻豆精品国产91久久久久推荐资源| 久久久成人精品一区二区三区| 激情深爱一区二区| 五月天激情丁香| 欧美一区二区三区系列电影| 大片免费在线观看| 91久久爱成人| 亚洲美女啪啪| 中文字幕国产专区| 欧美最新大片在线看| av在线播放免费| 国产日本欧美一区| 亚洲经典一区| 午夜免费福利影院| 狠狠躁18三区二区一区| 欧美色18zzzzxxxxx| 国产精品久久久久久久久影视| 99国产**精品****| 国产91在线免费观看| 亚洲超丰满肉感bbw| 免费理论片在线观看播放老| 国产精品久久久久久久久久尿 | 欧美成人性生活| 亚洲国产高清在线观看| 99在线精品免费视频| 久久先锋影音av鲁色资源| 国产精品无码粉嫩小泬| 久久久99久久精品女同性| 日本精品视频| 黄色av网址在线播放| 国产欧美中文在线| 国产强被迫伦姧在线观看无码| 久久人人看视频| 国产一区二区观看| 欧美国产在线一区| 精品久久香蕉国产线看观看gif| 国产视频第一页在线观看| 成人在线国产精品| 9国产精品视频| 波多野结衣家庭教师在线观看| 日韩午夜在线影院| 最近高清中文在线字幕在线观看1| 先锋影音日韩| 成人激情文学综合网| 一区二区三区在线免费观看视频 | 日本一区二区不卡在线| 亚洲欧洲自拍偷拍| 一区二区亚洲视频| 久久九九国产视频| 一二三四社区欧美黄| 国产最新视频在线| 粉嫩av四季av绯色av第一区| 日韩精品一区第一页| 久久久久久久久久久网| 亚洲最新av网址| 丁香婷婷成人| 中文字幕永久有效| 色婷婷综合久久久久中文一区二区| 超碰在线无需免费| 欧美高清性xxxxhd| 国产98色在线|日韩| 亚洲中文一区二区三区| 欧美亚洲第一区|