把科研寫成 Python：X-Master 用代碼拆碎“人類最后考試”

作者：肆零柒 2025-07-18 13:48:49

把“不會”寫成一段 Python，把“獨自思考”拆成四角色流水線——X-Master 用 32.1% 的 HLE 首破 30% 大關(guān)，告訴我們：AI 做科研，缺的不是更大模型，而是更聰明的系統(tǒng)級設(shè)計。

大家好，我是肆〇柒，當下，LLM 從最初的對話能力到如今的強大推理能力，AI 模型正在不斷進化。而最新的趨勢是從單一的對話模型向通用目的 AI 智能體轉(zhuǎn)變，這一轉(zhuǎn)變有望徹底改變科學(xué)研究的范式。本文將探討上海交通大學(xué)人工智能學(xué)院推出的 X-Master，它是 SciMaster 系列研究的第一步，目標就是構(gòu)建通用科學(xué) AI 智能體。X-Master 憑借其創(chuàng)新的工具增強型推理機制和分散 - 堆疊工作流，在 “人類最后的考試”（Humanity’s Last Exam，HLE）基準測試中取得了前所未有的好成績，為我們展示了 AI 在科學(xué)發(fā)現(xiàn)中加速復(fù)雜問題解決的巨大潛力。

X-Master 速覽：

《人類終極考題》評測結(jié)果出爐：X-Masters 以 32.1% 的準確率刷新紀錄，力壓 Kimi、Gemini 及 OpenAI 的深度研究產(chǎn)品

突破性成績 ：X-Masters 在 HLE 上以 32.1% 的成績首破 30% 大關(guān)，超越 OpenAI 和 Google DeepMind 的產(chǎn)品。
開源貢獻 ：項目開源，為科學(xué) AI 領(lǐng)域提供了寶貴的經(jīng)驗和技術(shù)支持，促進研究合作與創(chuàng)新。
創(chuàng)新架構(gòu) ：將代碼作為交互語言，實現(xiàn)工具增強型推理（TAR），并在分散 - 堆疊工作流中提升推理的廣度和深度。

X-Master 概覽：一款借助工具增強推理能力的智能體。當用戶提出問題后，智能體首先進入“思考”階段，并通過生成一段代碼來觸發(fā)與外部環(huán)境的交互——例如調(diào)用各類工具。工具返回的執(zhí)行結(jié)果會即時追加到智能體的上下文中，從而不斷豐富其認知并指導(dǎo)下一步推理。以本次流程為例，智能體共發(fā)起三次交互：先搜索獲取 GitHub 鏈接，再解析得到 arXiv 論文地址，最后解析出作者所屬機構(gòu)，直至得出最終答案

HLE 基準與現(xiàn)有局限

當前 AI 領(lǐng)域正面臨從專為特定任務(wù)設(shè)計的大型語言模型（LLM），向能夠處理多種復(fù)雜任務(wù)的通用目的 AI 智能體邁進。這一轉(zhuǎn)變的核心目標是利用 AI 加速科學(xué)發(fā)現(xiàn)，幫助人類突破認知邊界。在這種背景下，Humanity’s Last Exam（HLE）被提出，成為評估科學(xué) AI 智能體能力的關(guān)鍵基準測試。HLE 包含 2,518 個文本題，覆蓋數(shù)學(xué)、人文社科、生物、醫(yī)學(xué)、化學(xué)、物理、工程、計算機科學(xué)等 8 個學(xué)科領(lǐng)域，由 500 多個機構(gòu)的 1,000 多位專家命題。這些問題不僅要求智能體具備廣泛的知識覆蓋面，還需要對各個領(lǐng)域的核心概念有深入的理解，并能夠進行復(fù)雜的邏輯推理。HLE 在科學(xué) AI 領(lǐng)域具有極其重要的地位和廣泛影響力，它為科學(xué) AI 智能體的研發(fā)和評估提供了一個極具挑戰(zhàn)性的標準，推動著科學(xué) AI 技術(shù)的不斷進步和發(fā)展。

但問題在于：模型如何像人類一樣 “動手” 查資料？下面 X-Master 給出了一個激進的答案 —— 把 Python 代碼變成母語。現(xiàn)有方法在應(yīng)對 HLE 時暴露出諸多局限性。首先，模型知識的時效性不足，難以跟上快速發(fā)展的科學(xué)前沿。其次，推理能力有限，尤其是在需要多步驟邏輯推理和跨領(lǐng)域知識整合時，現(xiàn)有模型容易出現(xiàn)錯誤或不完整的結(jié)論。最后，工具使用的靈活性不足，現(xiàn)有模型在調(diào)用外部工具時往往缺乏動態(tài)適應(yīng)性，難以根據(jù)具體問題需求進行精準操作。這些挑戰(zhàn)嚴重制約了科學(xué) AI 的發(fā)展，使得開發(fā)更強大的科學(xué) AI 智能體成為當務(wù)之急。

X-Master：TAR 架構(gòu)

代碼即交互語言

在 HLE 的 2,518 道題里，有一道 “如何用最少衍射光柵重建光譜體積” 曾難倒多數(shù)模型。人類研究員會怎么做？先查文獻、再寫公式、最后交叉驗證 —— 這正是 X-Master 想模擬的 “邊想邊查” 過程。

X-Master 的設(shè)計理念源于對人類研究者工作方式的深入觀察。在解決復(fù)雜問題時，人類研究者通常會在內(nèi)部推理和外部工具使用之間靈活切換。X-Master 模仿了這種人類的動態(tài)問題解決過程。它將代碼視為與外部環(huán)境交互的語言，使智能體能夠在遇到內(nèi)部無法解決的問題時，制定精確的代碼行動計劃。例如，當需要進行復(fù)雜的數(shù)學(xué)計算時，X-Master 可以生成 Python 代碼，調(diào)用 SciPy 等科學(xué)計算庫來完成任務(wù)。執(zhí)行結(jié)果會自動反饋到智能體的上下文中，豐富其對問題的理解，從而指導(dǎo)后續(xù)的推理過程。

這種設(shè)計使 X-Master 成為一個真正的動態(tài)問題解決者，而非傳統(tǒng)的靜態(tài)推理模型。它能夠像人類一樣，在思考過程中主動尋求外部幫助，靈活調(diào)用各種資源，并根據(jù)反饋不斷調(diào)整優(yōu)化自己的解決方案。與傳統(tǒng)的工具調(diào)用方式相比，將代碼作為交互語言具有顯著優(yōu)勢。代碼作為一種通用且靈活的語言，能夠精確表達智能體與外部環(huán)境交互的各種需求，無論是進行復(fù)雜的科學(xué)計算、調(diào)用定制工具，還是處理 Web 結(jié)果等，都能輕松實現(xiàn)。這種靈活性使得 X-Master 能夠適應(yīng)各種復(fù)雜的科學(xué)任務(wù)，大大提升了其推理能力和解決問題的靈活性。

初始推理引導(dǎo)機制

盡管 X-Master 的設(shè)計概念先進，但在實際操作中，如何引導(dǎo)模型有效地進行代碼生成和工具調(diào)用是一個關(guān)鍵問題。為此，研究人員引入了初始推理引導(dǎo)機制。在模型接收到用戶查詢后，初始推理引導(dǎo)機制會在模型開始自由思考之前，嵌入一系列精心設(shè)計的引導(dǎo)文本。這些引導(dǎo)文本從智能體的第一人稱視角出發(fā)，明確告訴模型它具備與外部環(huán)境交互的能力。例如，引導(dǎo)文本會說明：“我可以通過生成 Python 代碼與外部工具進行交互，以獲取實時信息或進行復(fù)雜計算。” 通過這種方式，模型在思考過程中會更加自然地生成代碼，并將其視為解決問題的自然延伸。

這種引導(dǎo)機制并非簡單的提示工程，而是一種深層次的認知塑造。它讓模型在推理過程中主動尋求外部資源的支持，而不是局限于自身的知識和能力。這種主動性和適應(yīng)性是 X-Master 能夠在復(fù)雜任務(wù)中表現(xiàn)出色的重要原因。它有效地解決了現(xiàn)有模型在工具使用上的局限性，使模型能夠更充分地發(fā)揮其潛能，從而在科學(xué)發(fā)現(xiàn)等復(fù)雜任務(wù)中取得更好的成果。

X-Masters：Scatter-Stack 工作流

單點突破還不夠。科學(xué)發(fā)現(xiàn)需要 “平行宇宙” 式的探索 —— 于是把 1 個 X-Master 拆成 4 個角色。

如果說 X-Master 是一個會寫代碼的科學(xué)家，那么 X-Masters 就是一支由科學(xué)家、批評家、作家、評委組成的 “智能體聯(lián)盟”。

X-Masters 全景解讀：一種“分散-再聚合”的智能體工作流。該工作流把 X-Master 拆分成不同角色，在推理階段層層把關(guān)，提升最終答案質(zhì)量。流程分四步： 1. 解題者：一次性產(chǎn)出 5 份初版答案； 2. 評審者：對每份答案打分并給出修改意見； 3. 重寫者：綜合 5 份答案與意見，再生成 5 份新版答案； 4. 決策者：從新版中挑出最優(yōu)解

四階段角色

為了進一步提升 X-Master 的推理能力，研究人員設(shè)計了 X-Masters，這是一種基于分散 - 堆疊過程的智能體工作流。X-Masters 通過多個智能體的協(xié)作，系統(tǒng)性地擴展推理的廣度和深度。整個工作流分為四個階段：

1. 求解器（Solver） ：在這一階段，多個 Solver 智能體并行工作，生成多樣化的初始解決方案。每個 Solver 都基于 X-Master 的工具增強型推理機制，獨立思考并提出自己的解決方案。這種并行處理方式能夠快速探索問題的不同側(cè)面，增加找到有效解決方案的可能性。

2. 批評家（Critic） ：生成初始解決方案后，Critic 智能體對這些方案進行評估和改進。Critic 會仔細檢查每個解決方案的邏輯一致性、事實準確性以及與問題要求的匹配度。對于存在缺陷的方案，Critic 會提出具體的改進建議，例如補充遺漏的關(guān)鍵步驟或修正錯誤的假設(shè)。

3. 改寫者（Rewriter） ：在這一階段，Rewriter 智能體會綜合所有經(jīng)過初步評估的解決方案，生成新的五個優(yōu)化方案。Rewriter 的目標是整合不同方案的優(yōu)點，消除冗余和矛盾，形成更加全面和深入的解決方案。例如，如果一個方案在邏輯推理上表現(xiàn)突出，而另一個方案在數(shù)據(jù)準確性上更有優(yōu)勢，Rewriter 會嘗試將兩者的優(yōu)勢結(jié)合起來。

4. 選擇器（Selector） ：最后，Selector 智能體對所有優(yōu)化后的方案進行全面比較，選擇一個最符合邏輯和事實的最佳答案作為最終輸出。Selector 的決策基于一系列評估指標，包括解決方案的完整性、邏輯連貫性、與問題的匹配度以及對工具使用結(jié)果的合理利用等。

這種分散和堆疊相結(jié)合的設(shè)計使得 X-Masters 能夠在廣度和深度上同時發(fā)力。分散階段通過多智能體的并行探索增加了解決方案的多樣性，而堆疊階段則通過迭代改進和綜合評估提升了解決方案的質(zhì)量。例如，在處理一個復(fù)雜的跨學(xué)科科學(xué)問題時，求解器智能體可以從不同學(xué)科角度提出多種解決方案，批評家對其進行評估和改進，改寫者整合優(yōu)化，最后選擇器選出最佳答案。這種協(xié)作模式能夠充分發(fā)揮各智能體的優(yōu)勢，提高解決復(fù)雜科學(xué)問題的效率和準確性。

為了直觀展示 X-Masters 在 HLE 八個學(xué)科上的細粒度表現(xiàn)，把同一套測試集喂給 DeepSeek-R1-0528 與 X-Masters，并繪制出學(xué)科級柱狀圖。下圖中，每一條柱形不僅代表該科的平均準確率，也映射了模型在跨學(xué)科推理上的“長短板”——哪一科是強項、哪一科仍需加料，一目了然。

DeepSeek-R1-0528 與 X-Masters 在 HLE 各分項的表現(xiàn)對比

為了進一步驗證 X-Masters 在生物醫(yī)學(xué)場景中的“硬實力”，我們把它放到一個更專精的考場——TRQA-lit（choice）基準。該基準聚焦生物研究中的高階任務(wù)，如治療靶點識別和機制分析，共 172 道選擇題。下圖展示了 X-Masters 與當前主流模型的對比結(jié)果：在完全零改動的前提下，X-Masters 以 67.4% 的準確率刷新 SOTA，領(lǐng)先第二名 OriGene 5 個百分點，證明其工具增強推理在垂直學(xué)科同樣游刃有余。

在生物領(lǐng)域基準測試 TRQA-lit（選擇題）中，X-Masters 與其他模型的表現(xiàn)對比顯示：無需任何額外調(diào)整，X-Masters 便在該基準上達到了當前最佳水平

生物與醫(yī)學(xué)向來是 HLE 的重災(zāi)區(qū)，題目往往橫跨分子機制、臨床指標與公共健康政策。所以單獨把這一學(xué)科的 500 + 道題拎出來做切片分析，結(jié)果如下圖：X-Masters 在生物/醫(yī)學(xué)賽道上的領(lǐng)先優(yōu)勢尤為明顯，再次證明了工具增強型推理在處理高噪聲、高知識密度文本時的不可替代性。

HLE 生物/醫(yī)學(xué)類題目得分表現(xiàn)

與 RL rollouts 的映射

X-Masters 的分散 - 堆疊架構(gòu)與強化學(xué)習(xí)中的 rollouts 概念具有相似之處。分散階段類似于 rollouts 的探索過程，多個智能體通過并行探索不同的推理路徑，模擬出多種可能的解決方案。這種方式能夠有效避免過早收斂到一個可能次優(yōu)的單一思路。堆疊階段則類似于強化學(xué)習(xí)中的聚合和利用步驟，智能體對所有并行探索的結(jié)果進行綜合分析，提煉出最有價值的解決方案。例如，在分散階段，多個智能體嘗試不同的推理路徑，探索各種可能的解決方案；在堆疊階段，智能體對這些探索結(jié)果進行整合和優(yōu)化，最終得到一個高質(zhì)量的解決方案。這種探索與利用相結(jié)合的機制有助于智能體在復(fù)雜問題中找到更優(yōu)的解決方案，提高其在科學(xué)發(fā)現(xiàn)等領(lǐng)域的應(yīng)用效果。

將“X-Masters智能體工作流”與DeepSeek-R1-0528相比，各階段的準確率呈遞進式提升。性能增長主要來自工具增強和推理階段算力投入

智能體工作流中散射與堆疊特征的消融實驗

實驗

設(shè)置（超參數(shù) / 數(shù)據(jù)）

在實驗中，研究人員使用 DeepSeek-R1-0528 作為 X-Master 的推理模型。為了評估 X-Masters 的性能，他們選擇了 HLE 的文本子集，共包含 2,518 個樣本。這些樣本涵蓋了多個學(xué)科領(lǐng)域，能夠全面測試智能體的知識廣度和推理深度。評估方法是運行 X-Masters 工作流三次，并取平均分數(shù)作為最終結(jié)果。為了確保評估的客觀性，研究人員使用了 o3-mini 作為評判模型。基線系統(tǒng)包括當前在 HLE 上表現(xiàn)領(lǐng)先的智能體和先進模型，如 OpenAI 的 Deep Research 和 Google DeepMind 的 Deep Research。這些基線系統(tǒng)的成績數(shù)據(jù)來源于已有的排行榜，為 X-Masters 的性能提供了重要的對比基準。

主結(jié)果（HLE 32.1%）

X-Masters 在 HLE 上取得了令人興奮的成績，其最高分數(shù)達到了 32.1%。這一成績不僅超越了 OpenAI 和 Google DeepMind 的產(chǎn)品（分別為 26.6% 和 26.9%），還首次突破了 30% 的大關(guān)，創(chuàng)造了新的世界紀錄。這表明 X-Masters 在解決復(fù)雜科學(xué)問題方面具有顯著的優(yōu)勢。例如，在數(shù)學(xué)領(lǐng)域，X-Masters 能夠快速準確地解決復(fù)雜的數(shù)學(xué)問題；在生物醫(yī)學(xué)領(lǐng)域，它能夠深入理解生物醫(yī)學(xué)文獻并進行推理分析。這種跨學(xué)科的廣泛應(yīng)用能力使其在科學(xué)研究中具有巨大的潛力。

重寫前后的答案正確率對比顯示：重寫步驟顯著提升了全部 5 個答案均正確的概率

消融（階段增益）

研究者用了 4 個階段把準確率從 17.7% 拉到 32.1%，但最關(guān)鍵的 5.6% 來自一個容易被忽視的步驟 —— 改寫器（Rewriter）。

以下是一張 “階段增益” 信息圖，直觀展示了各階段對準確率的提升效果：

從實驗結(jié)果可以看出，X-Masters 在各個學(xué)科領(lǐng)域上的表現(xiàn)存在一定差異。例如，在計算機科學(xué)領(lǐng)域，其準確率相對較高，而在人文社科領(lǐng)域，準確率相對較低。這可能是因為計算機科學(xué)領(lǐng)域的題目更側(cè)重于邏輯推理和算法知識，這些是 X-Master 所擅長的；而人文社科領(lǐng)域的問題往往涉及更復(fù)雜的社會文化和歷史背景，需要更深入的理解和推理。針對這些差異，研究人員可以進一步優(yōu)化 X-Master 在特定領(lǐng)域的知識和推理能力，提高其整體性能。

技術(shù)實現(xiàn)

1. 關(guān)鍵超參與基線配置實驗全部基于 DeepSeek-R1-0528（temperature=0.6，max_tokens=64k）。HLE 文本子集共 2,518 題，每題運行 X-Masters 工作流 3 次取平均；官方采用 o3-mini 作裁判，確保與排行榜一致。Solver 階段統(tǒng)計顯示，平均單題調(diào)用外部工具 3 次，足證工具鏈使用率之高。

2. 開源與再現(xiàn)實驗整套推理代碼在 GitHub 開源（地址見文末參考）。目前暫時還未上傳代碼。

3. 真實場景韌性示例論文用 3 個實例展示“工具失靈”時的自我修復(fù)能力：Case 1： 502 網(wǎng)關(guān)錯誤真實場景永遠比基準測試更復(fù)雜。下面的案例里，X-Master 第一次嘗試用 arXiv 解析器抓取作者單位時，工具返回了 502 錯誤。它并未像傳統(tǒng)流水線那樣直接報錯退出，而是把錯誤信息當“環(huán)境反饋”寫進上下文，立刻換用搜索引擎二次定位作者主頁，最終交叉驗證出正確 affiliation。整個過程被完整記錄在下方的交互軌跡中。

【案例 1】當工具表現(xiàn)不如預(yù)期時，X-Master 會靈活調(diào)整用法；并通過交叉驗證，確保答案準確無誤

Case 2：返回格式跑偏當工具返回了格式完全跑偏的 HTML 片段，大多數(shù)模型會“懵圈”。X-Master 則把異常內(nèi)容當成新的觀測變量，自動調(diào)整正則表達式并嘗試多種解析策略，直至抽出可用的答案片段。下圖的 Case 2 展示了這一自我修復(fù)的完整循環(huán)：錯誤觸發(fā) → 策略切換 → 二次解析 → 結(jié)果驗證。

【案例 2】當工具返回的內(nèi)容與預(yù)期不符時，X-Master 會靈活切換多種策略，順暢應(yīng)對

Case 3：計算結(jié)果與預(yù)期不符當光譜輻射度計算值與給定值相差 5.5 倍時，X-Master 并未直接采信任一結(jié)果，而是：

1. 把差異視為潛在誤差信號；

2. 反向推導(dǎo)普朗克公式，重新求解溫度；

3. 用新的溫度二次代入驗證，確認實測值吻合后才鎖定“溫度錯誤”結(jié)論。整個“懷疑—重算—驗證”循環(huán)完全由 Python 腳本驅(qū)動，不留人為盲區(qū)。

【案例 3】X-Master 先完成計算，一旦遇到不匹配的結(jié)果就調(diào)整策略，最后用寫好的 Python 代碼驗證最終答案

同類研究對比

工具增強型 LLM

近期，許多研究聚焦于利用外部工具增強 LLM 的能力。這些方法可以分為以下幾類：

1. 提示工程生成結(jié)構(gòu)化輸出 ：這種方法通過精心設(shè)計的提示（prompt），引導(dǎo) LLM 生成特定格式的輸出，以便后續(xù)處理。例如，在 Agentic Reasoning 中，研究人員通過提示引導(dǎo)模型生成符合要求的推理步驟。然而，這種方法在處理需要復(fù)雜工具交互的任務(wù)時，往往缺乏靈活性和適應(yīng)性。

2. special token引導(dǎo)的工具調(diào)用 ：一些方法通過引入special token（如 “<search>” 或 “<compute>”）來引導(dǎo)模型觸發(fā)調(diào)用工具的instruct。例如，Search-R1 和 WebThinker 使用special token來觸發(fā)工具調(diào)用。但這種方法的局限性在于，每添加一個新工具都需要手動修改調(diào)用規(guī)則，難以適應(yīng)復(fù)雜多變的科學(xué)任務(wù)需求。

3. 代碼生成用于計算 ：ToRL 和 ReTool 等方法使 LLM 能夠生成代碼來執(zhí)行計算任務(wù)。然而，這些方法通常局限于數(shù)學(xué)計算，缺乏對更廣泛工具（如 Web 結(jié)果解析）的支持。

與這些方法相比，X-Master 的創(chuàng)新之處在于將代碼作為通用的交互語言。它不僅能夠訪問 Python 內(nèi)置庫進行復(fù)雜計算，還能通過定制工具進行 Web 結(jié)果解析等操作。這種通用性和靈活性使得 X-Master 能夠在更廣泛的科學(xué)任務(wù)中表現(xiàn)出色。例如，在處理生物醫(yī)學(xué)文獻分析任務(wù)時，X-Master 可以通過生成代碼調(diào)用 Web 工具獲取最新的研究文獻，并利用科學(xué)計算庫對文獻中的數(shù)據(jù)進行分析和處理，從而得出有價值的結(jié)論。這種能力是其他工具增強型 LLM 難以實現(xiàn)的。

智能體工作流

現(xiàn)有的智能體工作流研究（如 AI 合作科學(xué)家、ChatDev、MetaGPT、MAS-GPT 等）主要關(guān)注于通過多智能體協(xié)作完成特定任務(wù)。例如，AI 合作科學(xué)家利用多個智能體和工具進行科學(xué)探索；ChatDev 設(shè)計了智能體工作流以支持軟件開發(fā)；MetaGPT 提出了一個多智能體協(xié)作框架用于編程任務(wù)；MAS-GPT 則通過生成特定于查詢的工作流來解決問題。這些方法的共同局限性在于，它們的智能體通常以固定單輪的方式運行，即每個智能體在一次交互中只能執(zhí)行一個動作（如生成文本或調(diào)用一個工具）。相比之下，X-Masters 框架中的智能體能夠以靈活多輪的方式工作。例如，在處理一個復(fù)雜的跨學(xué)科問題時，X-Master 智能體會先生成一個初步方案，然后根據(jù)批評家的反饋進行多次調(diào)整，同時調(diào)用不同工具獲取更多信息，最后整合所有結(jié)果生成最終答案。這種多輪交互模式使得 X-Masters 能夠更動態(tài)地適應(yīng)問題需求，提高解決方案的質(zhì)量。在實際應(yīng)用中，這種多輪交互模式的優(yōu)勢尤為明顯。例如，在解決一個涉及多個學(xué)科的科研問題時，X-Masters 可以通過多輪交互逐步深入問題的核心，不斷完善解決方案，最終得到一個全面且準確的答案。

總結(jié)：把“科學(xué)”拆成代碼，把“協(xié)作”做成流程

當我看完 X-Master 的這篇論文時，我最大的感受是：它把“做科研”這件事拆成了兩條極其清晰的工程路線——

1. 把思考翻譯成代碼；

（我曾在社群中說過，formal language 的精度是 NL 無法比的，它應(yīng)當成為 Agent 介于 ① 對人具有可解釋性體驗，又 ② 對機器保障推理精度之間的優(yōu)選）

2. 把單點突破擴展成多人協(xié)作的流水線。

（核心要點是對上下文的控制力，對 Agent 組織的管理能力）

先說第一條。傳統(tǒng)大模型遇到知識盲區(qū)，要么“硬猜”，要么“拒絕”；導(dǎo)致要么幻覺，要么卡殼。X-Master 的做法是：把“我不知道”翻譯成一段可執(zhí)行的 Python，讓外部工具替它把盲區(qū)補上。于是，模型就不只是一個只會聊天的知識庫，而成了一個會寫腳本、會調(diào) API、會跑實驗的“研究生”。這一步看似簡單，卻把 LLM 的“語言能力”無縫嫁接到了現(xiàn)實世界的“工具能力”上——就像給只會背公式的學(xué)生配了一套實驗器材，立刻能把紙面知識變成可驗證的數(shù)據(jù)。

再說第二條。X-Masters 把單體的 X-Master 復(fù)制成四個角色：Solver、Critic、Rewriter、Selector。一個負責(zé)“發(fā)散”，一個負責(zé)“挑刺”，一個負責(zé)“整合”，一個負責(zé)“拍板”。四步下來，準確率從 17.7% 一路提到 32.1%，其中最關(guān)鍵的一步是 Rewriter——把五個版本的答案再回爐重造，而不是簡單投票。這讓我想起學(xué)術(shù)圈的“同行評議”：一篇論文先由多位審稿人各自提意見，再由作者綜合修改，最后被程序委員會決定錄用與否。X-Masters 用代碼把這套流程自動化了，于是“人類科研的集體智慧”變成了“模型推理的并行計算”。

而且，這兩條路線都不依賴閉門造車的科技：代碼-工具交互用的是最普通的 Python REPL(Read-Eval-Print-Loop)；多智能體協(xié)作用的是最樸素的“角色-批處理”。真正難的是把這兩件“普通事”組合成一個可復(fù)現(xiàn)、可擴展的框架，并在一個公認的硬基準（HLE）上跑出第一名。它提醒我們：AI 要真正“做科學(xué)”，不一定需要更大的模型，而是需要更聰明的系統(tǒng)級設(shè)計——把語言、工具、流程拼成一條能自我糾錯、自我進化的流水線。

讀完論文不禁聯(lián)想到：如果今天的科研助理可以把查文獻、跑模擬、寫報告都寫成腳本，那么明天的科研主腦或許就能把“提出假設(shè)—驗證—修正”整個循環(huán)也寫成一段可迭代的程序。X-Master 沒有承諾“AI 將替代科學(xué)家”，但它示范了一種可能：讓科學(xué)家把注意力從“如何調(diào)參”轉(zhuǎn)向“如何設(shè)計流程”，把重復(fù)勞動交給代碼，把真正需要人類直覺和創(chuàng)造力的部分留給自己。人需要承擔(dān)核心的“思考”，人需要思考如何思考（元思考）。這也許才是人機交互、協(xié)作共創(chuàng)的正確分工。

責(zé)任編輯：龐桂玉來源：覺察流