把科研寫成 Python:X-Master 用代碼拆碎“人類最后考試”

大家好,我是肆〇柒,當下,LLM 從最初的對話能力到如今的強大推理能力,AI 模型正在不斷進化。而最新的趨勢是從單一的對話模型向通用目的 AI 智能體轉(zhuǎn)變,這一轉(zhuǎn)變有望徹底改變科學(xué)研究的范式。本文將探討上海交通大學(xué)人工智能學(xué)院推出的 X-Master,它是 SciMaster 系列研究的第一步,目標就是構(gòu)建通用科學(xué) AI 智能體。X-Master 憑借其創(chuàng)新的工具增強型推理機制和分散 - 堆疊工作流,在 “人類最后的考試”(Humanity’s Last Exam,HLE)基準測試中取得了前所未有的好成績,為我們展示了 AI 在科學(xué)發(fā)現(xiàn)中加速復(fù)雜問題解決的巨大潛力。
X-Master 速覽:

《人類終極考題》評測結(jié)果出爐:X-Masters 以 32.1% 的準確率刷新紀錄,力壓 Kimi、Gemini 及 OpenAI 的深度研究產(chǎn)品
- 突破性成績 :X-Masters 在 HLE 上以 32.1% 的成績首破 30% 大關(guān),超越 OpenAI 和 Google DeepMind 的產(chǎn)品。
- 開源貢獻 :項目開源,為科學(xué) AI 領(lǐng)域提供了寶貴的經(jīng)驗和技術(shù)支持,促進研究合作與創(chuàng)新。
- 創(chuàng)新架構(gòu) :將代碼作為交互語言,實現(xiàn)工具增強型推理(TAR),并在分散 - 堆疊工作流中提升推理的廣度和深度。

X-Master 概覽:一款借助工具增強推理能力的智能體。當用戶提出問題后,智能體首先進入“思考”階段,并通過生成一段代碼來觸發(fā)與外部環(huán)境的交互——例如調(diào)用各類工具。工具返回的執(zhí)行結(jié)果會即時追加到智能體的上下文中,從而不斷豐富其認知并指導(dǎo)下一步推理。以本次流程為例,智能體共發(fā)起三次交互:先搜索獲取 GitHub 鏈接,再解析得到 arXiv 論文地址,最后解析出作者所屬機構(gòu),直至得出最終答案
HLE 基準與現(xiàn)有局限
當前 AI 領(lǐng)域正面臨從專為特定任務(wù)設(shè)計的大型語言模型(LLM),向能夠處理多種復(fù)雜任務(wù)的通用目的 AI 智能體邁進。這一轉(zhuǎn)變的核心目標是利用 AI 加速科學(xué)發(fā)現(xiàn),幫助人類突破認知邊界。在這種背景下,Humanity’s Last Exam(HLE)被提出,成為評估科學(xué) AI 智能體能力的關(guān)鍵基準測試。HLE 包含 2,518 個文本題,覆蓋數(shù)學(xué)、人文社科、生物、醫(yī)學(xué)、化學(xué)、物理、工程、計算機科學(xué)等 8 個學(xué)科領(lǐng)域,由 500 多個機構(gòu)的 1,000 多位專家命題。這些問題不僅要求智能體具備廣泛的知識覆蓋面,還需要對各個領(lǐng)域的核心概念有深入的理解,并能夠進行復(fù)雜的邏輯推理。HLE 在科學(xué) AI 領(lǐng)域具有極其重要的地位和廣泛影響力,它為科學(xué) AI 智能體的研發(fā)和評估提供了一個極具挑戰(zhàn)性的標準,推動著科學(xué) AI 技術(shù)的不斷進步和發(fā)展。
但問題在于:模型如何像人類一樣 “動手” 查資料?下面 X-Master 給出了一個激進的答案 —— 把 Python 代碼變成母語。現(xiàn)有方法在應(yīng)對 HLE 時暴露出諸多局限性。首先,模型知識的時效性不足,難以跟上快速發(fā)展的科學(xué)前沿。其次,推理能力有限,尤其是在需要多步驟邏輯推理和跨領(lǐng)域知識整合時,現(xiàn)有模型容易出現(xiàn)錯誤或不完整的結(jié)論。最后,工具使用的靈活性不足,現(xiàn)有模型在調(diào)用外部工具時往往缺乏動態(tài)適應(yīng)性,難以根據(jù)具體問題需求進行精準操作。這些挑戰(zhàn)嚴重制約了科學(xué) AI 的發(fā)展,使得開發(fā)更強大的科學(xué) AI 智能體成為當務(wù)之急。
X-Master:TAR 架構(gòu)
代碼即交互語言
在 HLE 的 2,518 道題里,有一道 “如何用最少衍射光柵重建光譜體積” 曾難倒多數(shù)模型。人類研究員會怎么做?先查文獻、再寫公式、最后交叉驗證 —— 這正是 X-Master 想模擬的 “邊想邊查” 過程。
X-Master 的設(shè)計理念源于對人類研究者工作方式的深入觀察。在解決復(fù)雜問題時,人類研究者通常會在內(nèi)部推理和外部工具使用之間靈活切換。X-Master 模仿了這種人類的動態(tài)問題解決過程。它將代碼視為與外部環(huán)境交互的語言,使智能體能夠在遇到內(nèi)部無法解決的問題時,制定精確的代碼行動計劃。例如,當需要進行復(fù)雜的數(shù)學(xué)計算時,X-Master 可以生成 Python 代碼,調(diào)用 SciPy 等科學(xué)計算庫來完成任務(wù)。執(zhí)行結(jié)果會自動反饋到智能體的上下文中,豐富其對問題的理解,從而指導(dǎo)后續(xù)的推理過程。
這種設(shè)計使 X-Master 成為一個真正的動態(tài)問題解決者,而非傳統(tǒng)的靜態(tài)推理模型。它能夠像人類一樣,在思考過程中主動尋求外部幫助,靈活調(diào)用各種資源,并根據(jù)反饋不斷調(diào)整優(yōu)化自己的解決方案。與傳統(tǒng)的工具調(diào)用方式相比,將代碼作為交互語言具有顯著優(yōu)勢。代碼作為一種通用且靈活的語言,能夠精確表達智能體與外部環(huán)境交互的各種需求,無論是進行復(fù)雜的科學(xué)計算、調(diào)用定制工具,還是處理 Web 結(jié)果等,都能輕松實現(xiàn)。這種靈活性使得 X-Master 能夠適應(yīng)各種復(fù)雜的科學(xué)任務(wù),大大提升了其推理能力和解決問題的靈活性。
初始推理引導(dǎo)機制
盡管 X-Master 的設(shè)計概念先進,但在實際操作中,如何引導(dǎo)模型有效地進行代碼生成和工具調(diào)用是一個關(guān)鍵問題。為此,研究人員引入了初始推理引導(dǎo)機制。在模型接收到用戶查詢后,初始推理引導(dǎo)機制會在模型開始自由思考之前,嵌入一系列精心設(shè)計的引導(dǎo)文本。這些引導(dǎo)文本從智能體的第一人稱視角出發(fā),明確告訴模型它具備與外部環(huán)境交互的能力。例如,引導(dǎo)文本會說明:“我可以通過生成 Python 代碼與外部工具進行交互,以獲取實時信息或進行復(fù)雜計算。” 通過這種方式,模型在思考過程中會更加自然地生成代碼,并將其視為解決問題的自然延伸。
這種引導(dǎo)機制并非簡單的提示工程,而是一種深層次的認知塑造。它讓模型在推理過程中主動尋求外部資源的支持,而不是局限于自身的知識和能力。這種主動性和適應(yīng)性是 X-Master 能夠在復(fù)雜任務(wù)中表現(xiàn)出色的重要原因。它有效地解決了現(xiàn)有模型在工具使用上的局限性,使模型能夠更充分地發(fā)揮其潛能,從而在科學(xué)發(fā)現(xiàn)等復(fù)雜任務(wù)中取得更好的成果。
X-Masters:Scatter-Stack 工作流
單點突破還不夠。科學(xué)發(fā)現(xiàn)需要 “平行宇宙” 式的探索 —— 于是把 1 個 X-Master 拆成 4 個角色。
如果說 X-Master 是一個會寫代碼的科學(xué)家,那么 X-Masters 就是一支由科學(xué)家、批評家、作家、評委組成的 “智能體聯(lián)盟”。

X-Masters 全景解讀:一種“分散-再聚合”的智能體工作流。 該工作流把 X-Master 拆分成不同角色,在推理階段層層把關(guān),提升最終答案質(zhì)量。流程分四步: 1. 解題者:一次性產(chǎn)出 5 份初版答案; 2. 評審者:對每份答案打分并給出修改意見; 3. 重寫者:綜合 5 份答案與意見,再生成 5 份新版答案; 4. 決策者:從新版中挑出最優(yōu)解
四階段角色
為了進一步提升 X-Master 的推理能力,研究人員設(shè)計了 X-Masters,這是一種基于分散 - 堆疊過程的智能體工作流。X-Masters 通過多個智能體的協(xié)作,系統(tǒng)性地擴展推理的廣度和深度。整個工作流分為四個階段:
1. 求解器(Solver) :在這一階段,多個 Solver 智能體并行工作,生成多樣化的初始解決方案。每個 Solver 都基于 X-Master 的工具增強型推理機制,獨立思考并提出自己的解決方案。這種并行處理方式能夠快速探索問題的不同側(cè)面,增加找到有效解決方案的可能性。
2. 批評家(Critic) :生成初始解決方案后,Critic 智能體對這些方案進行評估和改進。Critic 會仔細檢查每個解決方案的邏輯一致性、事實準確性以及與問題要求的匹配度。對于存在缺陷的方案,Critic 會提出具體的改進建議,例如補充遺漏的關(guān)鍵步驟或修正錯誤的假設(shè)。
3. 改寫者(Rewriter) :在這一階段,Rewriter 智能體會綜合所有經(jīng)過初步評估的解決方案,生成新的五個優(yōu)化方案。Rewriter 的目標是整合不同方案的優(yōu)點,消除冗余和矛盾,形成更加全面和深入的解決方案。例如,如果一個方案在邏輯推理上表現(xiàn)突出,而另一個方案在數(shù)據(jù)準確性上更有優(yōu)勢,Rewriter 會嘗試將兩者的優(yōu)勢結(jié)合起來。
4. 選擇器(Selector) :最后,Selector 智能體對所有優(yōu)化后的方案進行全面比較,選擇一個最符合邏輯和事實的最佳答案作為最終輸出。Selector 的決策基于一系列評估指標,包括解決方案的完整性、邏輯連貫性、與問題的匹配度以及對工具使用結(jié)果的合理利用等。
這種分散和堆疊相結(jié)合的設(shè)計使得 X-Masters 能夠在廣度和深度上同時發(fā)力。分散階段通過多智能體的并行探索增加了解決方案的多樣性,而堆疊階段則通過迭代改進和綜合評估提升了解決方案的質(zhì)量。例如,在處理一個復(fù)雜的跨學(xué)科科學(xué)問題時,求解器智能體可以從不同學(xué)科角度提出多種解決方案,批評家對其進行評估和改進,改寫者整合優(yōu)化,最后選擇器選出最佳答案。這種協(xié)作模式能夠充分發(fā)揮各智能體的優(yōu)勢,提高解決復(fù)雜科學(xué)問題的效率和準確性。
為了直觀展示 X-Masters 在 HLE 八個學(xué)科上的細粒度表現(xiàn),把同一套測試集喂給 DeepSeek-R1-0528 與 X-Masters,并繪制出學(xué)科級柱狀圖。下圖中,每一條柱形不僅代表該科的平均準確率,也映射了模型在跨學(xué)科推理上的“長短板”——哪一科是強項、哪一科仍需加料,一目了然。

DeepSeek-R1-0528 與 X-Masters 在 HLE 各分項的表現(xiàn)對比
為了進一步驗證 X-Masters 在生物醫(yī)學(xué)場景中的“硬實力”,我們把它放到一個更專精的考場——TRQA-lit(choice)基準。該基準聚焦生物研究中的高階任務(wù),如治療靶點識別和機制分析,共 172 道選擇題。下圖展示了 X-Masters 與當前主流模型的對比結(jié)果:在完全零改動的前提下,X-Masters 以 67.4% 的準確率刷新 SOTA,領(lǐng)先第二名 OriGene 5 個百分點,證明其工具增強推理在垂直學(xué)科同樣游刃有余。

在生物領(lǐng)域基準測試 TRQA-lit(選擇題)中,X-Masters 與其他模型的表現(xiàn)對比顯示:無需任何額外調(diào)整,X-Masters 便在該基準上達到了當前最佳水平
生物與醫(yī)學(xué)向來是 HLE 的重災(zāi)區(qū),題目往往橫跨分子機制、臨床指標與公共健康政策。所以單獨把這一學(xué)科的 500 + 道題拎出來做切片分析,結(jié)果如下圖:X-Masters 在生物/醫(yī)學(xué)賽道上的領(lǐng)先優(yōu)勢尤為明顯,再次證明了工具增強型推理在處理高噪聲、高知識密度文本時的不可替代性。

HLE 生物/醫(yī)學(xué)類題目得分表現(xiàn)
與 RL rollouts 的映射
X-Masters 的分散 - 堆疊架構(gòu)與強化學(xué)習(xí)中的 rollouts 概念具有相似之處。分散階段類似于 rollouts 的探索過程,多個智能體通過并行探索不同的推理路徑,模擬出多種可能的解決方案。這種方式能夠有效避免過早收斂到一個可能次優(yōu)的單一思路。堆疊階段則類似于強化學(xué)習(xí)中的聚合和利用步驟,智能體對所有并行探索的結(jié)果進行綜合分析,提煉出最有價值的解決方案。例如,在分散階段,多個智能體嘗試不同的推理路徑,探索各種可能的解決方案;在堆疊階段,智能體對這些探索結(jié)果進行整合和優(yōu)化,最終得到一個高質(zhì)量的解決方案。這種探索與利用相結(jié)合的機制有助于智能體在復(fù)雜問題中找到更優(yōu)的解決方案,提高其在科學(xué)發(fā)現(xiàn)等領(lǐng)域的應(yīng)用效果。

將“X-Masters智能體工作流”與DeepSeek-R1-0528相比,各階段的準確率呈遞進式提升。性能增長主要來自工具增強和推理階段算力投入

智能體工作流中散射與堆疊特征的消融實驗
實驗
設(shè)置(超參數(shù) / 數(shù)據(jù))
在實驗中,研究人員使用 DeepSeek-R1-0528 作為 X-Master 的推理模型。為了評估 X-Masters 的性能,他們選擇了 HLE 的文本子集,共包含 2,518 個樣本。這些樣本涵蓋了多個學(xué)科領(lǐng)域,能夠全面測試智能體的知識廣度和推理深度。評估方法是運行 X-Masters 工作流三次,并取平均分數(shù)作為最終結(jié)果。為了確保評估的客觀性,研究人員使用了 o3-mini 作為評判模型。基線系統(tǒng)包括當前在 HLE 上表現(xiàn)領(lǐng)先的智能體和先進模型,如 OpenAI 的 Deep Research 和 Google DeepMind 的 Deep Research。這些基線系統(tǒng)的成績數(shù)據(jù)來源于已有的排行榜,為 X-Masters 的性能提供了重要的對比基準。
主結(jié)果(HLE 32.1%)
X-Masters 在 HLE 上取得了令人興奮的成績,其最高分數(shù)達到了 32.1%。這一成績不僅超越了 OpenAI 和 Google DeepMind 的產(chǎn)品(分別為 26.6% 和 26.9%),還首次突破了 30% 的大關(guān),創(chuàng)造了新的世界紀錄。這表明 X-Masters 在解決復(fù)雜科學(xué)問題方面具有顯著的優(yōu)勢。例如,在數(shù)學(xué)領(lǐng)域,X-Masters 能夠快速準確地解決復(fù)雜的數(shù)學(xué)問題;在生物醫(yī)學(xué)領(lǐng)域,它能夠深入理解生物醫(yī)學(xué)文獻并進行推理分析。這種跨學(xué)科的廣泛應(yīng)用能力使其在科學(xué)研究中具有巨大的潛力。

重寫前后的答案正確率對比顯示:重寫步驟顯著提升了全部 5 個答案均正確的概率
消融(階段增益)
研究者用了 4 個階段把準確率從 17.7% 拉到 32.1%,但最關(guān)鍵的 5.6% 來自一個容易被忽視的步驟 —— 改寫器(Rewriter)。
以下是一張 “階段增益” 信息圖,直觀展示了各階段對準確率的提升效果:

從實驗結(jié)果可以看出,X-Masters 在各個學(xué)科領(lǐng)域上的表現(xiàn)存在一定差異。例如,在計算機科學(xué)領(lǐng)域,其準確率相對較高,而在人文社科領(lǐng)域,準確率相對較低。這可能是因為計算機科學(xué)領(lǐng)域的題目更側(cè)重于邏輯推理和算法知識,這些是 X-Master 所擅長的;而人文社科領(lǐng)域的問題往往涉及更復(fù)雜的社會文化和歷史背景,需要更深入的理解和推理。針對這些差異,研究人員可以進一步優(yōu)化 X-Master 在特定領(lǐng)域的知識和推理能力,提高其整體性能。
技術(shù)實現(xiàn)
1. 關(guān)鍵超參與基線配置實驗全部基于 DeepSeek-R1-0528(temperature=0.6,max_tokens=64k)。HLE 文本子集共 2,518 題,每題運行 X-Masters 工作流 3 次取平均;官方采用 o3-mini 作裁判,確保與排行榜一致。Solver 階段統(tǒng)計顯示,平均單題調(diào)用外部工具 3 次,足證工具鏈使用率之高。
2. 開源與再現(xiàn)實驗整套推理代碼在 GitHub 開源(地址見文末參考)。目前暫時還未上傳代碼。
3. 真實場景韌性示例論文用 3 個實例展示“工具失靈”時的自我修復(fù)能力:Case 1: 502 網(wǎng)關(guān)錯誤真實場景永遠比基準測試更復(fù)雜。下面的案例里,X-Master 第一次嘗試用 arXiv 解析器抓取作者單位時,工具返回了 502 錯誤。它并未像傳統(tǒng)流水線那樣直接報錯退出,而是把錯誤信息當“環(huán)境反饋”寫進上下文,立刻換用搜索引擎二次定位作者主頁,最終交叉驗證出正確 affiliation。整個過程被完整記錄在下方的交互軌跡中。

【案例 1】當工具表現(xiàn)不如預(yù)期時,X-Master 會靈活調(diào)整用法;并通過交叉驗證,確保答案準確無誤
Case 2:返回格式跑偏當工具返回了格式完全跑偏的 HTML 片段,大多數(shù)模型會“懵圈”。X-Master 則把異常內(nèi)容當成新的觀測變量,自動調(diào)整正則表達式并嘗試多種解析策略,直至抽出可用的答案片段。下圖的 Case 2 展示了這一自我修復(fù)的完整循環(huán):錯誤觸發(fā) → 策略切換 → 二次解析 → 結(jié)果驗證。

【案例 2】當工具返回的內(nèi)容與預(yù)期不符時,X-Master 會靈活切換多種策略,順暢應(yīng)對
Case 3:計算結(jié)果與預(yù)期不符當光譜輻射度計算值與給定值相差 5.5 倍時,X-Master 并未直接采信任一結(jié)果,而是:
1. 把差異視為潛在誤差信號;
2. 反向推導(dǎo)普朗克公式,重新求解溫度;
3. 用新的溫度二次代入驗證,確認實測值吻合后才鎖定“溫度錯誤”結(jié)論。整個“懷疑—重算—驗證”循環(huán)完全由 Python 腳本驅(qū)動,不留人為盲區(qū)。

【案例 3】X-Master 先完成計算,一旦遇到不匹配的結(jié)果就調(diào)整策略,最后用寫好的 Python 代碼驗證最終答案
同類研究對比
工具增強型 LLM
近期,許多研究聚焦于利用外部工具增強 LLM 的能力。這些方法可以分為以下幾類:
1. 提示工程生成結(jié)構(gòu)化輸出 :這種方法通過精心設(shè)計的提示(prompt),引導(dǎo) LLM 生成特定格式的輸出,以便后續(xù)處理。例如,在 Agentic Reasoning 中,研究人員通過提示引導(dǎo)模型生成符合要求的推理步驟。然而,這種方法在處理需要復(fù)雜工具交互的任務(wù)時,往往缺乏靈活性和適應(yīng)性。
2. special token引導(dǎo)的工具調(diào)用 :一些方法通過引入special token(如 “<search>” 或 “<compute>”)來引導(dǎo)模型觸發(fā)調(diào)用工具的instruct。例如,Search-R1 和 WebThinker 使用special token來觸發(fā)工具調(diào)用。但這種方法的局限性在于,每添加一個新工具都需要手動修改調(diào)用規(guī)則,難以適應(yīng)復(fù)雜多變的科學(xué)任務(wù)需求。
3. 代碼生成用于計算 :ToRL 和 ReTool 等方法使 LLM 能夠生成代碼來執(zhí)行計算任務(wù)。然而,這些方法通常局限于數(shù)學(xué)計算,缺乏對更廣泛工具(如 Web 結(jié)果解析)的支持。
與這些方法相比,X-Master 的創(chuàng)新之處在于將代碼作為通用的交互語言。它不僅能夠訪問 Python 內(nèi)置庫進行復(fù)雜計算,還能通過定制工具進行 Web 結(jié)果解析等操作。這種通用性和靈活性使得 X-Master 能夠在更廣泛的科學(xué)任務(wù)中表現(xiàn)出色。例如,在處理生物醫(yī)學(xué)文獻分析任務(wù)時,X-Master 可以通過生成代碼調(diào)用 Web 工具獲取最新的研究文獻,并利用科學(xué)計算庫對文獻中的數(shù)據(jù)進行分析和處理,從而得出有價值的結(jié)論。這種能力是其他工具增強型 LLM 難以實現(xiàn)的。
智能體工作流
現(xiàn)有的智能體工作流研究(如 AI 合作科學(xué)家、ChatDev、MetaGPT、MAS-GPT 等)主要關(guān)注于通過多智能體協(xié)作完成特定任務(wù)。例如,AI 合作科學(xué)家利用多個智能體和工具進行科學(xué)探索;ChatDev 設(shè)計了智能體工作流以支持軟件開發(fā);MetaGPT 提出了一個多智能體協(xié)作框架用于編程任務(wù);MAS-GPT 則通過生成特定于查詢的工作流來解決問題。這些方法的共同局限性在于,它們的智能體通常以固定單輪的方式運行,即每個智能體在一次交互中只能執(zhí)行一個動作(如生成文本或調(diào)用一個工具)。相比之下,X-Masters 框架中的智能體能夠以靈活多輪的方式工作。例如,在處理一個復(fù)雜的跨學(xué)科問題時,X-Master 智能體會先生成一個初步方案,然后根據(jù)批評家的反饋進行多次調(diào)整,同時調(diào)用不同工具獲取更多信息,最后整合所有結(jié)果生成最終答案。這種多輪交互模式使得 X-Masters 能夠更動態(tài)地適應(yīng)問題需求,提高解決方案的質(zhì)量。在實際應(yīng)用中,這種多輪交互模式的優(yōu)勢尤為明顯。例如,在解決一個涉及多個學(xué)科的科研問題時,X-Masters 可以通過多輪交互逐步深入問題的核心,不斷完善解決方案,最終得到一個全面且準確的答案。
總結(jié):把“科學(xué)”拆成代碼,把“協(xié)作”做成流程
當我看完 X-Master 的這篇論文時,我最大的感受是:它把“做科研”這件事拆成了兩條極其清晰的工程路線——
1. 把思考翻譯成代碼;
(我曾在社群中說過,formal language 的精度是 NL 無法比的,它應(yīng)當成為 Agent 介于 ① 對人具有可解釋性體驗,又 ② 對機器保障推理精度之間的優(yōu)選)
2. 把單點突破擴展成多人協(xié)作的流水線。
(核心要點是對上下文的控制力,對 Agent 組織的管理能力)
先說第一條。傳統(tǒng)大模型遇到知識盲區(qū),要么“硬猜”,要么“拒絕”;導(dǎo)致要么幻覺,要么卡殼。X-Master 的做法是:把“我不知道”翻譯成一段可執(zhí)行的 Python,讓外部工具替它把盲區(qū)補上。于是,模型就不只是一個只會聊天的知識庫,而成了一個會寫腳本、會調(diào) API、會跑實驗的“研究生”。這一步看似簡單,卻把 LLM 的“語言能力”無縫嫁接到了現(xiàn)實世界的“工具能力”上——就像給只會背公式的學(xué)生配了一套實驗器材,立刻能把紙面知識變成可驗證的數(shù)據(jù)。
再說第二條。X-Masters 把單體的 X-Master 復(fù)制成四個角色:Solver、Critic、Rewriter、Selector。一個負責(zé)“發(fā)散”,一個負責(zé)“挑刺”,一個負責(zé)“整合”,一個負責(zé)“拍板”。四步下來,準確率從 17.7% 一路提到 32.1%,其中最關(guān)鍵的一步是 Rewriter——把五個版本的答案再回爐重造,而不是簡單投票。這讓我想起學(xué)術(shù)圈的“同行評議”:一篇論文先由多位審稿人各自提意見,再由作者綜合修改,最后被程序委員會決定錄用與否。X-Masters 用代碼把這套流程自動化了,于是“人類科研的集體智慧”變成了“模型推理的并行計算”。
而且,這兩條路線都不依賴閉門造車的科技:代碼-工具交互用的是最普通的 Python REPL(Read-Eval-Print-Loop);多智能體協(xié)作用的是最樸素的“角色-批處理”。真正難的是把這兩件“普通事”組合成一個可復(fù)現(xiàn)、可擴展的框架,并在一個公認的硬基準(HLE)上跑出第一名。它提醒我們:AI 要真正“做科學(xué)”,不一定需要更大的模型,而是需要更聰明的系統(tǒng)級設(shè)計——把語言、工具、流程拼成一條能自我糾錯、自我進化的流水線。
讀完論文不禁聯(lián)想到:如果今天的科研助理可以把查文獻、跑模擬、寫報告都寫成腳本,那么明天的科研主腦或許就能把“提出假設(shè)—驗證—修正”整個循環(huán)也寫成一段可迭代的程序。X-Master 沒有承諾“AI 將替代科學(xué)家”,但它示范了一種可能:讓科學(xué)家把注意力從“如何調(diào)參”轉(zhuǎn)向“如何設(shè)計流程”,把重復(fù)勞動交給代碼,把真正需要人類直覺和創(chuàng)造力的部分留給自己。人需要承擔(dān)核心的“思考”,人需要思考如何思考(元思考)。這也許才是人機交互、協(xié)作共創(chuàng)的正確分工。



























