精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

把科研寫成 Python:X-Master 用代碼拆碎“人類最后考試”

人工智能
把“不會”寫成一段 Python,把“獨自思考”拆成四角色流水線——X-Master 用 32.1% 的 HLE 首破 30% 大關(guān),告訴我們:AI 做科研,缺的不是更大模型,而是更聰明的系統(tǒng)級設(shè)計。

大家好,我是肆〇柒,當下,LLM 從最初的對話能力到如今的強大推理能力,AI 模型正在不斷進化。而最新的趨勢是從單一的對話模型向通用目的 AI 智能體轉(zhuǎn)變,這一轉(zhuǎn)變有望徹底改變科學(xué)研究的范式。本文將探討上海交通大學(xué)人工智能學(xué)院推出的 X-Master,它是 SciMaster 系列研究的第一步,目標就是構(gòu)建通用科學(xué) AI 智能體。X-Master 憑借其創(chuàng)新的工具增強型推理機制和分散 - 堆疊工作流,在 “人類最后的考試”(Humanity’s Last Exam,HLE)基準測試中取得了前所未有的好成績,為我們展示了 AI 在科學(xué)發(fā)現(xiàn)中加速復(fù)雜問題解決的巨大潛力。

X-Master 速覽:

圖片

《人類終極考題》評測結(jié)果出爐:X-Masters 以 32.1% 的準確率刷新紀錄,力壓 Kimi、Gemini 及 OpenAI 的深度研究產(chǎn)品

  • 突破性成績 :X-Masters 在 HLE 上以 32.1% 的成績首破 30% 大關(guān),超越 OpenAI 和 Google DeepMind 的產(chǎn)品。
  • 開源貢獻 :項目開源,為科學(xué) AI 領(lǐng)域提供了寶貴的經(jīng)驗和技術(shù)支持,促進研究合作與創(chuàng)新。
  • 創(chuàng)新架構(gòu) :將代碼作為交互語言,實現(xiàn)工具增強型推理(TAR),并在分散 - 堆疊工作流中提升推理的廣度和深度。

圖片

X-Master 概覽:一款借助工具增強推理能力的智能體。當用戶提出問題后,智能體首先進入“思考”階段,并通過生成一段代碼來觸發(fā)與外部環(huán)境的交互——例如調(diào)用各類工具。工具返回的執(zhí)行結(jié)果會即時追加到智能體的上下文中,從而不斷豐富其認知并指導(dǎo)下一步推理。以本次流程為例,智能體共發(fā)起三次交互:先搜索獲取 GitHub 鏈接,再解析得到 arXiv 論文地址,最后解析出作者所屬機構(gòu),直至得出最終答案

HLE 基準與現(xiàn)有局限

當前 AI 領(lǐng)域正面臨從專為特定任務(wù)設(shè)計的大型語言模型(LLM),向能夠處理多種復(fù)雜任務(wù)的通用目的 AI 智能體邁進。這一轉(zhuǎn)變的核心目標是利用 AI 加速科學(xué)發(fā)現(xiàn),幫助人類突破認知邊界。在這種背景下,Humanity’s Last Exam(HLE)被提出,成為評估科學(xué) AI 智能體能力的關(guān)鍵基準測試。HLE 包含 2,518 個文本題,覆蓋數(shù)學(xué)、人文社科、生物、醫(yī)學(xué)、化學(xué)、物理、工程、計算機科學(xué)等 8 個學(xué)科領(lǐng)域,由 500 多個機構(gòu)的 1,000 多位專家命題。這些問題不僅要求智能體具備廣泛的知識覆蓋面,還需要對各個領(lǐng)域的核心概念有深入的理解,并能夠進行復(fù)雜的邏輯推理。HLE 在科學(xué) AI 領(lǐng)域具有極其重要的地位和廣泛影響力,它為科學(xué) AI 智能體的研發(fā)和評估提供了一個極具挑戰(zhàn)性的標準,推動著科學(xué) AI 技術(shù)的不斷進步和發(fā)展。

但問題在于:模型如何像人類一樣 “動手” 查資料?下面 X-Master 給出了一個激進的答案 —— 把 Python 代碼變成母語。現(xiàn)有方法在應(yīng)對 HLE 時暴露出諸多局限性。首先,模型知識的時效性不足,難以跟上快速發(fā)展的科學(xué)前沿。其次,推理能力有限,尤其是在需要多步驟邏輯推理和跨領(lǐng)域知識整合時,現(xiàn)有模型容易出現(xiàn)錯誤或不完整的結(jié)論。最后,工具使用的靈活性不足,現(xiàn)有模型在調(diào)用外部工具時往往缺乏動態(tài)適應(yīng)性,難以根據(jù)具體問題需求進行精準操作。這些挑戰(zhàn)嚴重制約了科學(xué) AI 的發(fā)展,使得開發(fā)更強大的科學(xué) AI 智能體成為當務(wù)之急。

X-Master:TAR 架構(gòu)

代碼即交互語言

在 HLE 的 2,518 道題里,有一道 “如何用最少衍射光柵重建光譜體積” 曾難倒多數(shù)模型。人類研究員會怎么做?先查文獻、再寫公式、最后交叉驗證 —— 這正是 X-Master 想模擬的 “邊想邊查” 過程。

X-Master 的設(shè)計理念源于對人類研究者工作方式的深入觀察。在解決復(fù)雜問題時,人類研究者通常會在內(nèi)部推理和外部工具使用之間靈活切換。X-Master 模仿了這種人類的動態(tài)問題解決過程。它將代碼視為與外部環(huán)境交互的語言,使智能體能夠在遇到內(nèi)部無法解決的問題時,制定精確的代碼行動計劃。例如,當需要進行復(fù)雜的數(shù)學(xué)計算時,X-Master 可以生成 Python 代碼,調(diào)用 SciPy 等科學(xué)計算庫來完成任務(wù)。執(zhí)行結(jié)果會自動反饋到智能體的上下文中,豐富其對問題的理解,從而指導(dǎo)后續(xù)的推理過程。

這種設(shè)計使 X-Master 成為一個真正的動態(tài)問題解決者,而非傳統(tǒng)的靜態(tài)推理模型。它能夠像人類一樣,在思考過程中主動尋求外部幫助,靈活調(diào)用各種資源,并根據(jù)反饋不斷調(diào)整優(yōu)化自己的解決方案。與傳統(tǒng)的工具調(diào)用方式相比,將代碼作為交互語言具有顯著優(yōu)勢。代碼作為一種通用且靈活的語言,能夠精確表達智能體與外部環(huán)境交互的各種需求,無論是進行復(fù)雜的科學(xué)計算、調(diào)用定制工具,還是處理 Web 結(jié)果等,都能輕松實現(xiàn)。這種靈活性使得 X-Master 能夠適應(yīng)各種復(fù)雜的科學(xué)任務(wù),大大提升了其推理能力和解決問題的靈活性。

初始推理引導(dǎo)機制

盡管 X-Master 的設(shè)計概念先進,但在實際操作中,如何引導(dǎo)模型有效地進行代碼生成和工具調(diào)用是一個關(guān)鍵問題。為此,研究人員引入了初始推理引導(dǎo)機制。在模型接收到用戶查詢后,初始推理引導(dǎo)機制會在模型開始自由思考之前,嵌入一系列精心設(shè)計的引導(dǎo)文本。這些引導(dǎo)文本從智能體的第一人稱視角出發(fā),明確告訴模型它具備與外部環(huán)境交互的能力。例如,引導(dǎo)文本會說明:“我可以通過生成 Python 代碼與外部工具進行交互,以獲取實時信息或進行復(fù)雜計算。” 通過這種方式,模型在思考過程中會更加自然地生成代碼,并將其視為解決問題的自然延伸。

這種引導(dǎo)機制并非簡單的提示工程,而是一種深層次的認知塑造。它讓模型在推理過程中主動尋求外部資源的支持,而不是局限于自身的知識和能力。這種主動性和適應(yīng)性是 X-Master 能夠在復(fù)雜任務(wù)中表現(xiàn)出色的重要原因。它有效地解決了現(xiàn)有模型在工具使用上的局限性,使模型能夠更充分地發(fā)揮其潛能,從而在科學(xué)發(fā)現(xiàn)等復(fù)雜任務(wù)中取得更好的成果。

X-Masters:Scatter-Stack 工作流

單點突破還不夠。科學(xué)發(fā)現(xiàn)需要 “平行宇宙” 式的探索 —— 于是把 1 個 X-Master 拆成 4 個角色。

如果說 X-Master 是一個會寫代碼的科學(xué)家,那么 X-Masters 就是一支由科學(xué)家、批評家、作家、評委組成的 “智能體聯(lián)盟”。

圖片

X-Masters 全景解讀:一種“分散-再聚合”的智能體工作流。   該工作流把 X-Master 拆分成不同角色,在推理階段層層把關(guān),提升最終答案質(zhì)量。流程分四步:   1. 解題者:一次性產(chǎn)出 5 份初版答案;   2. 評審者:對每份答案打分并給出修改意見;   3. 重寫者:綜合 5 份答案與意見,再生成 5 份新版答案;   4. 決策者:從新版中挑出最優(yōu)解

四階段角色

為了進一步提升 X-Master 的推理能力,研究人員設(shè)計了 X-Masters,這是一種基于分散 - 堆疊過程的智能體工作流。X-Masters 通過多個智能體的協(xié)作,系統(tǒng)性地擴展推理的廣度和深度。整個工作流分為四個階段:

1. 求解器(Solver) :在這一階段,多個 Solver 智能體并行工作,生成多樣化的初始解決方案。每個 Solver 都基于 X-Master 的工具增強型推理機制,獨立思考并提出自己的解決方案。這種并行處理方式能夠快速探索問題的不同側(cè)面,增加找到有效解決方案的可能性。

2. 批評家(Critic) :生成初始解決方案后,Critic 智能體對這些方案進行評估和改進。Critic 會仔細檢查每個解決方案的邏輯一致性、事實準確性以及與問題要求的匹配度。對于存在缺陷的方案,Critic 會提出具體的改進建議,例如補充遺漏的關(guān)鍵步驟或修正錯誤的假設(shè)。

3. 改寫者(Rewriter) :在這一階段,Rewriter 智能體會綜合所有經(jīng)過初步評估的解決方案,生成新的五個優(yōu)化方案。Rewriter 的目標是整合不同方案的優(yōu)點,消除冗余和矛盾,形成更加全面和深入的解決方案。例如,如果一個方案在邏輯推理上表現(xiàn)突出,而另一個方案在數(shù)據(jù)準確性上更有優(yōu)勢,Rewriter 會嘗試將兩者的優(yōu)勢結(jié)合起來。

4. 選擇器(Selector) :最后,Selector 智能體對所有優(yōu)化后的方案進行全面比較,選擇一個最符合邏輯和事實的最佳答案作為最終輸出。Selector 的決策基于一系列評估指標,包括解決方案的完整性、邏輯連貫性、與問題的匹配度以及對工具使用結(jié)果的合理利用等。

這種分散和堆疊相結(jié)合的設(shè)計使得 X-Masters 能夠在廣度和深度上同時發(fā)力。分散階段通過多智能體的并行探索增加了解決方案的多樣性,而堆疊階段則通過迭代改進和綜合評估提升了解決方案的質(zhì)量。例如,在處理一個復(fù)雜的跨學(xué)科科學(xué)問題時,求解器智能體可以從不同學(xué)科角度提出多種解決方案,批評家對其進行評估和改進,改寫者整合優(yōu)化,最后選擇器選出最佳答案。這種協(xié)作模式能夠充分發(fā)揮各智能體的優(yōu)勢,提高解決復(fù)雜科學(xué)問題的效率和準確性。

為了直觀展示 X-Masters 在 HLE 八個學(xué)科上的細粒度表現(xiàn),把同一套測試集喂給 DeepSeek-R1-0528 與 X-Masters,并繪制出學(xué)科級柱狀圖。下圖中,每一條柱形不僅代表該科的平均準確率,也映射了模型在跨學(xué)科推理上的“長短板”——哪一科是強項、哪一科仍需加料,一目了然。

圖片

DeepSeek-R1-0528 與 X-Masters 在 HLE 各分項的表現(xiàn)對比

為了進一步驗證 X-Masters 在生物醫(yī)學(xué)場景中的“硬實力”,我們把它放到一個更專精的考場——TRQA-lit(choice)基準。該基準聚焦生物研究中的高階任務(wù),如治療靶點識別和機制分析,共 172 道選擇題。下圖展示了 X-Masters 與當前主流模型的對比結(jié)果:在完全零改動的前提下,X-Masters 以 67.4% 的準確率刷新 SOTA,領(lǐng)先第二名 OriGene 5 個百分點,證明其工具增強推理在垂直學(xué)科同樣游刃有余。

圖片

在生物領(lǐng)域基準測試 TRQA-lit(選擇題)中,X-Masters 與其他模型的表現(xiàn)對比顯示:無需任何額外調(diào)整,X-Masters 便在該基準上達到了當前最佳水平

生物與醫(yī)學(xué)向來是 HLE 的重災(zāi)區(qū),題目往往橫跨分子機制、臨床指標與公共健康政策。所以單獨把這一學(xué)科的 500 + 道題拎出來做切片分析,結(jié)果如下圖:X-Masters 在生物/醫(yī)學(xué)賽道上的領(lǐng)先優(yōu)勢尤為明顯,再次證明了工具增強型推理在處理高噪聲、高知識密度文本時的不可替代性。

圖片

HLE 生物/醫(yī)學(xué)類題目得分表現(xiàn)

與 RL rollouts 的映射

X-Masters 的分散 - 堆疊架構(gòu)與強化學(xué)習(xí)中的 rollouts 概念具有相似之處。分散階段類似于 rollouts 的探索過程,多個智能體通過并行探索不同的推理路徑,模擬出多種可能的解決方案。這種方式能夠有效避免過早收斂到一個可能次優(yōu)的單一思路。堆疊階段則類似于強化學(xué)習(xí)中的聚合和利用步驟,智能體對所有并行探索的結(jié)果進行綜合分析,提煉出最有價值的解決方案。例如,在分散階段,多個智能體嘗試不同的推理路徑,探索各種可能的解決方案;在堆疊階段,智能體對這些探索結(jié)果進行整合和優(yōu)化,最終得到一個高質(zhì)量的解決方案。這種探索與利用相結(jié)合的機制有助于智能體在復(fù)雜問題中找到更優(yōu)的解決方案,提高其在科學(xué)發(fā)現(xiàn)等領(lǐng)域的應(yīng)用效果。

圖片

將“X-Masters智能體工作流”與DeepSeek-R1-0528相比,各階段的準確率呈遞進式提升。性能增長主要來自工具增強和推理階段算力投入

圖片

智能體工作流中散射與堆疊特征的消融實驗

實驗

設(shè)置(超參數(shù) / 數(shù)據(jù))

在實驗中,研究人員使用 DeepSeek-R1-0528 作為 X-Master 的推理模型。為了評估 X-Masters 的性能,他們選擇了 HLE 的文本子集,共包含 2,518 個樣本。這些樣本涵蓋了多個學(xué)科領(lǐng)域,能夠全面測試智能體的知識廣度和推理深度。評估方法是運行 X-Masters 工作流三次,并取平均分數(shù)作為最終結(jié)果。為了確保評估的客觀性,研究人員使用了 o3-mini 作為評判模型。基線系統(tǒng)包括當前在 HLE 上表現(xiàn)領(lǐng)先的智能體和先進模型,如 OpenAI 的 Deep Research 和 Google DeepMind 的 Deep Research。這些基線系統(tǒng)的成績數(shù)據(jù)來源于已有的排行榜,為 X-Masters 的性能提供了重要的對比基準。

主結(jié)果(HLE 32.1%)

X-Masters 在 HLE 上取得了令人興奮的成績,其最高分數(shù)達到了 32.1%。這一成績不僅超越了 OpenAI 和 Google DeepMind 的產(chǎn)品(分別為 26.6% 和 26.9%),還首次突破了 30% 的大關(guān),創(chuàng)造了新的世界紀錄。這表明 X-Masters 在解決復(fù)雜科學(xué)問題方面具有顯著的優(yōu)勢。例如,在數(shù)學(xué)領(lǐng)域,X-Masters 能夠快速準確地解決復(fù)雜的數(shù)學(xué)問題;在生物醫(yī)學(xué)領(lǐng)域,它能夠深入理解生物醫(yī)學(xué)文獻并進行推理分析。這種跨學(xué)科的廣泛應(yīng)用能力使其在科學(xué)研究中具有巨大的潛力。

圖片

重寫前后的答案正確率對比顯示:重寫步驟顯著提升了全部 5 個答案均正確的概率

消融(階段增益)

研究者用了 4 個階段把準確率從 17.7% 拉到 32.1%,但最關(guān)鍵的 5.6% 來自一個容易被忽視的步驟 —— 改寫器(Rewriter)。

以下是一張 “階段增益” 信息圖,直觀展示了各階段對準確率的提升效果:

圖片

從實驗結(jié)果可以看出,X-Masters 在各個學(xué)科領(lǐng)域上的表現(xiàn)存在一定差異。例如,在計算機科學(xué)領(lǐng)域,其準確率相對較高,而在人文社科領(lǐng)域,準確率相對較低。這可能是因為計算機科學(xué)領(lǐng)域的題目更側(cè)重于邏輯推理和算法知識,這些是 X-Master 所擅長的;而人文社科領(lǐng)域的問題往往涉及更復(fù)雜的社會文化和歷史背景,需要更深入的理解和推理。針對這些差異,研究人員可以進一步優(yōu)化 X-Master 在特定領(lǐng)域的知識和推理能力,提高其整體性能。

技術(shù)實現(xiàn)

1. 關(guān)鍵超參與基線配置實驗全部基于 DeepSeek-R1-0528(temperature=0.6,max_tokens=64k)。HLE 文本子集共 2,518 題,每題運行 X-Masters 工作流 3 次取平均;官方采用 o3-mini 作裁判,確保與排行榜一致。Solver 階段統(tǒng)計顯示,平均單題調(diào)用外部工具 3 次,足證工具鏈使用率之高。

2. 開源與再現(xiàn)實驗整套推理代碼在 GitHub 開源(地址見文末參考)。目前暫時還未上傳代碼。

3. 真實場景韌性示例論文用 3 個實例展示“工具失靈”時的自我修復(fù)能力:Case 1: 502 網(wǎng)關(guān)錯誤真實場景永遠比基準測試更復(fù)雜。下面的案例里,X-Master 第一次嘗試用 arXiv 解析器抓取作者單位時,工具返回了 502 錯誤。它并未像傳統(tǒng)流水線那樣直接報錯退出,而是把錯誤信息當“環(huán)境反饋”寫進上下文,立刻換用搜索引擎二次定位作者主頁,最終交叉驗證出正確 affiliation。整個過程被完整記錄在下方的交互軌跡中。

圖片

【案例 1】當工具表現(xiàn)不如預(yù)期時,X-Master 會靈活調(diào)整用法;并通過交叉驗證,確保答案準確無誤

Case 2:返回格式跑偏當工具返回了格式完全跑偏的 HTML 片段,大多數(shù)模型會“懵圈”。X-Master 則把異常內(nèi)容當成新的觀測變量,自動調(diào)整正則表達式并嘗試多種解析策略,直至抽出可用的答案片段。下圖的 Case 2 展示了這一自我修復(fù)的完整循環(huán):錯誤觸發(fā) → 策略切換 → 二次解析 → 結(jié)果驗證。

圖片

【案例 2】當工具返回的內(nèi)容與預(yù)期不符時,X-Master 會靈活切換多種策略,順暢應(yīng)對

Case 3:計算結(jié)果與預(yù)期不符當光譜輻射度計算值與給定值相差 5.5 倍時,X-Master 并未直接采信任一結(jié)果,而是:

1. 把差異視為潛在誤差信號;

2. 反向推導(dǎo)普朗克公式,重新求解溫度;

3. 用新的溫度二次代入驗證,確認實測值吻合后才鎖定“溫度錯誤”結(jié)論。整個“懷疑—重算—驗證”循環(huán)完全由 Python 腳本驅(qū)動,不留人為盲區(qū)。

圖片

【案例 3】X-Master 先完成計算,一旦遇到不匹配的結(jié)果就調(diào)整策略,最后用寫好的 Python 代碼驗證最終答案

同類研究對比

工具增強型 LLM

近期,許多研究聚焦于利用外部工具增強 LLM 的能力。這些方法可以分為以下幾類:

1. 提示工程生成結(jié)構(gòu)化輸出 :這種方法通過精心設(shè)計的提示(prompt),引導(dǎo) LLM 生成特定格式的輸出,以便后續(xù)處理。例如,在 Agentic Reasoning 中,研究人員通過提示引導(dǎo)模型生成符合要求的推理步驟。然而,這種方法在處理需要復(fù)雜工具交互的任務(wù)時,往往缺乏靈活性和適應(yīng)性。

2. special token引導(dǎo)的工具調(diào)用 :一些方法通過引入special token(如 “<search>” 或 “<compute>”)來引導(dǎo)模型觸發(fā)調(diào)用工具的instruct。例如,Search-R1 和 WebThinker 使用special token來觸發(fā)工具調(diào)用。但這種方法的局限性在于,每添加一個新工具都需要手動修改調(diào)用規(guī)則,難以適應(yīng)復(fù)雜多變的科學(xué)任務(wù)需求。

3. 代碼生成用于計算 :ToRL 和 ReTool 等方法使 LLM 能夠生成代碼來執(zhí)行計算任務(wù)。然而,這些方法通常局限于數(shù)學(xué)計算,缺乏對更廣泛工具(如 Web 結(jié)果解析)的支持。

與這些方法相比,X-Master 的創(chuàng)新之處在于將代碼作為通用的交互語言。它不僅能夠訪問 Python 內(nèi)置庫進行復(fù)雜計算,還能通過定制工具進行 Web 結(jié)果解析等操作。這種通用性和靈活性使得 X-Master 能夠在更廣泛的科學(xué)任務(wù)中表現(xiàn)出色。例如,在處理生物醫(yī)學(xué)文獻分析任務(wù)時,X-Master 可以通過生成代碼調(diào)用 Web 工具獲取最新的研究文獻,并利用科學(xué)計算庫對文獻中的數(shù)據(jù)進行分析和處理,從而得出有價值的結(jié)論。這種能力是其他工具增強型 LLM 難以實現(xiàn)的。

智能體工作流

現(xiàn)有的智能體工作流研究(如 AI 合作科學(xué)家、ChatDev、MetaGPT、MAS-GPT 等)主要關(guān)注于通過多智能體協(xié)作完成特定任務(wù)。例如,AI 合作科學(xué)家利用多個智能體和工具進行科學(xué)探索;ChatDev 設(shè)計了智能體工作流以支持軟件開發(fā);MetaGPT 提出了一個多智能體協(xié)作框架用于編程任務(wù);MAS-GPT 則通過生成特定于查詢的工作流來解決問題。這些方法的共同局限性在于,它們的智能體通常以固定單輪的方式運行,即每個智能體在一次交互中只能執(zhí)行一個動作(如生成文本或調(diào)用一個工具)。相比之下,X-Masters 框架中的智能體能夠以靈活多輪的方式工作。例如,在處理一個復(fù)雜的跨學(xué)科問題時,X-Master 智能體會先生成一個初步方案,然后根據(jù)批評家的反饋進行多次調(diào)整,同時調(diào)用不同工具獲取更多信息,最后整合所有結(jié)果生成最終答案。這種多輪交互模式使得 X-Masters 能夠更動態(tài)地適應(yīng)問題需求,提高解決方案的質(zhì)量。在實際應(yīng)用中,這種多輪交互模式的優(yōu)勢尤為明顯。例如,在解決一個涉及多個學(xué)科的科研問題時,X-Masters 可以通過多輪交互逐步深入問題的核心,不斷完善解決方案,最終得到一個全面且準確的答案。

總結(jié):把“科學(xué)”拆成代碼,把“協(xié)作”做成流程

當我看完 X-Master 的這篇論文時,我最大的感受是:它把“做科研”這件事拆成了兩條極其清晰的工程路線——

1. 把思考翻譯成代碼

(我曾在社群中說過,formal language 的精度是 NL 無法比的,它應(yīng)當成為 Agent 介于 ① 對人具有可解釋性體驗,又 ② 對機器保障推理精度之間的優(yōu)選)

2. 把單點突破擴展成多人協(xié)作的流水線

(核心要點是對上下文的控制力,對 Agent 組織的管理能力)

先說第一條。傳統(tǒng)大模型遇到知識盲區(qū),要么“硬猜”,要么“拒絕”;導(dǎo)致要么幻覺,要么卡殼。X-Master 的做法是:把“我不知道”翻譯成一段可執(zhí)行的 Python,讓外部工具替它把盲區(qū)補上。于是,模型就不只是一個只會聊天的知識庫,而成了一個會寫腳本、會調(diào) API、會跑實驗的“研究生”。這一步看似簡單,卻把 LLM 的“語言能力”無縫嫁接到了現(xiàn)實世界的“工具能力”上——就像給只會背公式的學(xué)生配了一套實驗器材,立刻能把紙面知識變成可驗證的數(shù)據(jù)。

再說第二條。X-Masters 把單體的 X-Master 復(fù)制成四個角色:Solver、Critic、Rewriter、Selector。一個負責(zé)“發(fā)散”,一個負責(zé)“挑刺”,一個負責(zé)“整合”,一個負責(zé)“拍板”。四步下來,準確率從 17.7% 一路提到 32.1%,其中最關(guān)鍵的一步是 Rewriter——把五個版本的答案再回爐重造,而不是簡單投票。這讓我想起學(xué)術(shù)圈的“同行評議”:一篇論文先由多位審稿人各自提意見,再由作者綜合修改,最后被程序委員會決定錄用與否。X-Masters 用代碼把這套流程自動化了,于是“人類科研的集體智慧”變成了“模型推理的并行計算”。

而且,這兩條路線都不依賴閉門造車的科技:代碼-工具交互用的是最普通的 Python REPL(Read-Eval-Print-Loop);多智能體協(xié)作用的是最樸素的“角色-批處理”。真正難的是把這兩件“普通事”組合成一個可復(fù)現(xiàn)、可擴展的框架,并在一個公認的硬基準(HLE)上跑出第一名。它提醒我們:AI 要真正“做科學(xué)”,不一定需要更大的模型,而是需要更聰明的系統(tǒng)級設(shè)計——把語言、工具、流程拼成一條能自我糾錯、自我進化的流水線。

讀完論文不禁聯(lián)想到:如果今天的科研助理可以把查文獻、跑模擬、寫報告都寫成腳本,那么明天的科研主腦或許就能把“提出假設(shè)—驗證—修正”整個循環(huán)也寫成一段可迭代的程序。X-Master 沒有承諾“AI 將替代科學(xué)家”,但它示范了一種可能:讓科學(xué)家把注意力從“如何調(diào)參”轉(zhuǎn)向“如何設(shè)計流程”,把重復(fù)勞動交給代碼,把真正需要人類直覺和創(chuàng)造力的部分留給自己。人需要承擔(dān)核心的“思考”,人需要思考如何思考(元思考)。這也許才是人機交互、協(xié)作共創(chuàng)的正確分工。

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2024-12-18 13:30:00

2020-07-07 10:55:01

C++C語言代碼

2015-10-23 10:53:39

代碼航天程序員

2023-03-08 09:43:42

2014-11-20 09:55:13

編程

2019-10-17 11:42:18

前端程序員算法

2025-09-28 09:09:00

2017-01-05 09:09:10

2010-11-22 14:47:22

MySQL存儲過程

2025-06-23 09:00:00

2025-11-06 08:59:00

2024-11-25 12:50:14

2025-04-29 01:30:00

Redis集群節(jié)點

2025-07-07 08:58:00

2025-03-04 10:15:00

2017-06-02 16:49:23

GMIS搜狗人機大戰(zhàn)

2017-09-13 14:38:55

USB散熱器機箱

2023-10-23 10:19:23

自動駕駛深度學(xué)習(xí)

2021-01-26 05:39:06

項目模塊代碼

2021-11-11 07:02:33

類型函數(shù)調(diào)用
點贊
收藏

51CTO技術(shù)棧公眾號

久久久久久九九九| www.色亚洲| 欧美影视资讯| av亚洲精华国产精华| 91av在线网站| 亚洲精品视频一二三| 中文字幕一区二区三区精华液| av在线看片| 天天干天天操天天玩| 欧美电影在线免费观看| 国产一区美女| 亚洲一区二区av电影| 久久久久久久久久久一区| 波多野结衣mp4| julia中文字幕一区二区99在线| 欧美日韩视频在线| 中国成人亚色综合网站| 欧美熟妇交换久久久久久分类| 秋霞电影网一区二区| 欧美高跟鞋交xxxxxhd| 亚洲自拍偷拍图| 日韩一区二区三区精品视频第3页| 欧美性20hd另类| 久久久久久av无码免费网站下载| 免费黄网站在线观看| 国产精品99久| 国产精品影片在线观看| 成人毛片18女人毛片| 伊人久久大香线蕉精品组织观看| 亚洲欧美日韩中文视频| 久久久无码人妻精品无码| 欧美日韩免费观看视频| 亚洲国产日韩一级| 久久最新免费视频| 1024视频在线| 久久久99精品免费观看| 国产精品香蕉视屏| 国产999久久久| 久久电影国产免费久久电影| 国产成人精品在线视频| 青青草精品在线视频| 欧美色爱综合| 亚洲欧美在线一区二区| 日本高清在线观看wwwww色| 日韩一级精品| 免费99精品国产自在在线| 色噜噜噜噜噜噜| 中文字幕乱码在线观看| 国产精品欧美日韩一区| 亚洲精品国产成人| 一区二区在线免费观看视频| 亚洲男人在线| 在线成人免费视频| 中文字幕第88页| 成人全视频免费观看在线看| 欧美中文字幕一区| 网站一区二区三区| www.久久.com| 欧美日韩精品欧美日韩精品| 成人免费在线观看视频网站| 少妇精品视频一区二区免费看| 色爱区综合激月婷婷| 日韩精品一区二区三区不卡| 亚洲第一影院| 欧美日韩一本到| 8x8x成人免费视频| 日韩一区二区三区高清在线观看| 精品福利一二区| 第四色在线视频| 亚洲涩涩av| 这里只有精品在线播放| www色aa色aawww| 国精品一区二区| 97视频在线观看亚洲| 免费黄色网址在线| 免费在线观看成人| 亚洲综合在线小说| 五十路在线视频| 久久久久亚洲蜜桃| 亚洲自拍偷拍二区| 欧美1—12sexvideos| 舔着乳尖日韩一区| 久久久国产欧美| a一区二区三区亚洲| 精品国产乱码久久久久久牛牛| 国产不卡一二三| 精品国产aⅴ| 另类天堂视频在线观看| 久久露脸国语精品国产91| 日韩av网站在线观看| 91免费综合在线| 视频一区二区免费| 国产精品美女视频| 日韩av新片网| 欧美国产日韩电影| 日韩欧美国产三级电影视频| 中文字幕高清视频| 香蕉精品视频在线观看| 69av在线播放| 国产乱码精品一区二区| 91论坛在线播放| 手机成人av在线| 亚洲精品国产精品国产| 91精品一区二区三区久久久久久 | 国产精品久久麻豆| 午夜精品影院在线观看| 三上悠亚av一区二区三区| 国产一区调教| 插插插亚洲综合网| 色一情一乱一伦| 国产成人av电影在线播放| 日本亚洲欧洲精品| 92久久精品| 欧美精品三级在线观看| 精品少妇一区二区三区免费观| 中出一区二区| 国产精品午夜一区二区欲梦| 特黄视频在线观看| 综合精品久久久| 亚洲精品高清无码视频| 国产成人高清精品免费5388| 中文字幕一区日韩电影| 超碰超碰超碰超碰| 成人性生交大合| 性做爰过程免费播放| 日本精品另类| 亚洲视频综合网| 亚洲日本视频在线观看| 成人三级伦理片| 亚洲色婷婷久久精品av蜜桃| 日韩成人综合网站| 国产一区二区三区在线视频| 国产情侣在线视频| 成人一级视频在线观看| 男人天堂网站在线| 国产精品一级在线观看| 色777狠狠综合秋免鲁丝| 一级做a爰片久久毛片| 99久久久久久| 自拍日韩亚洲一区在线| 波多野结衣在线一区二区| 蜜臀久久99精品久久久久久宅男 | 国产精品成人网站| 国产精品77777竹菊影视小说| 一区二区三区国产福利| 成人国产激情| 中文字幕综合一区| 在线播放一级片| 亚洲国产精品精华液2区45| 少妇高清精品毛片在线视频| 免费看一级大黄情大片| 成人在线观看免费播放| 亚洲色图在线观看| 伊人久久久久久久久久久久| 国产亚洲女人久久久久毛片| 苍井空浴缸大战猛男120分钟| 偷拍精品福利视频导航| 日本视频久久久| 国产视频第一页在线观看| 欧美性感一类影片在线播放| 99精品全国免费观看| 麻豆精品一区二区三区| 中文字幕精品一区日韩| 国产精品1区在线| 欧美老少配视频| 日本成人动漫在线观看| 岛国av一区二区| 欧美黄色一级生活片| 美国十次了思思久久精品导航| 一区二区在线中文字幕电影视频| 亚洲图片小说区| 欧美另类极品videosbestfree| 伊人久久久久久久久久久久 | 精品欧美一区二区在线观看| 国产真实夫妇交换视频| www.一区二区| 亚洲熟妇av一区二区三区| 日韩欧美不卡| 超碰在线97av| 亚洲天堂资源| 久久精品小视频| 亚洲欧美另类一区| 欧美视频中文字幕在线| 成年人网站在线观看视频| 国产福利一区在线观看| 日韩少妇内射免费播放18禁裸乳| 国精产品一区一区二区三区mba| 偷拍欧美精品| 成人在线观看av| 日韩电影av| 欧美成人精品h版在线观看| 天天色天天操天天射| 欧美午夜精品电影| 久久免费公开视频| 国产欧美一区二区在线| 丰满人妻一区二区三区53视频| 亚洲麻豆一区| 自拍偷拍亚洲色图欧美| 欧美网色网址| 91热精品视频| 免费看av不卡| 九九久久久久99精品| 国产小视频在线| 日韩欧美中文一区二区| 国产婷婷色一区二区在线观看| 国产精品sss在线观看av| 国产乱人伦精品一区二区在线观看| 日本一区二区三区免费观看| 国产精品欧美一区二区三区不卡| 91精品国产成人| 精品麻豆一区二区三区| 亚洲人成在线电影| 亚洲欧美高清视频| 欧美蜜桃一区二区三区| 午夜婷婷在线观看| 亚洲乱码中文字幕| 亚洲精品成人av久久| 91免费视频网址| 在线播放国产视频| 久久99热国产| 8x8x最新地址| 久久久久国产精品一区三寸 | 国一区二区在线观看| 天堂资源在线亚洲资源| 欧美一区二区三区久久| dy888夜精品国产专区| 自拍偷拍欧美日韩| 国产精品久久久久久久久粉嫩av| 日本不卡网站| 久久免费视频这里只有精品| 97caopor国产在线视频| 中文字幕欧美亚洲| 国产一区电影| 国产亚洲视频在线| 毛片免费在线播放| 亚洲精品国产综合久久| 日本高清视频www| 精品国产髙清在线看国产毛片 | 亚洲第一中文字幕在线观看| 99国产精品久久久久99打野战| 欧美日韩国产综合视频在线观看| 成人午夜精品视频| 在线观看www91| 日本久久综合网| 91久久精品一区二区三| 中文字幕av影院| 色综合久久久网| 黄色av网站免费观看| 欧美日韩国产一区二区三区| 国产小视频在线免费观看| 精品欧美一区二区三区| av大片免费观看| 91精品1区2区| 中文字幕欧美色图| 欧美精品v日韩精品v韩国精品v| 中文字幕有码无码人妻av蜜桃| 欧美三级资源在线| 一二区在线观看| 91精品国产综合久久精品图片| 国产精品国产三级国产aⅴ| 欧美狂野另类xxxxoooo| 国产男男gay体育生白袜| 日韩欧美一级二级| 人人妻人人玩人人澡人人爽| 日韩精品中文在线观看| www.在线视频.com| 乱亲女秽乱长久久久| 七七成人影院| 97在线视频一区| 成人软件在线观看| 国产精自产拍久久久久久| 国产精品视频首页| 精品视频高清无人区区二区三区| 蜜桃tv一区二区三区| 亚洲国产成人不卡| 综合视频在线| 日韩精品视频久久| 蜜桃久久久久久久| 性感美女一区二区三区| 久久综合久久99| 性生交大片免费全黄| 亚洲国产精品麻豆| 精人妻无码一区二区三区| 51午夜精品国产| 五月天久久久久久| 中文字幕一区二区精品| xxxcom在线观看| 国产精品福利在线观看| 欧美午夜网站| 欧美一级爽aaaaa大片| 五月天综合网站| 欧美一区二区三区爽大粗免费| 六月丁香婷婷久久| 在线精品视频播放| 中文字幕精品一区二区三区精品| 激情综合五月网| 91传媒视频在线播放| 午夜精品一二三区| 伊人亚洲福利一区二区三区| 色网在线观看| 国产精品久久久久久久久久| av男人一区| 一区二区日本| 日日摸夜夜添夜夜添亚洲女人| 亚洲综合123| 国产欧美一区二区精品久导航 | 色88888久久久久久影院野外| 国产精品人妻一区二区三区| 国产视频久久久| 美女精品导航| 国产日韩在线免费| 国产精品免费不| av之家在线观看| 国产成人在线视频播放| 亚洲精品视频网址| 五月激情综合婷婷| 国产黄色av片| 色偷偷噜噜噜亚洲男人的天堂| 91看片在线播放| 伊人成人网在线看| 日本成人黄色网| www.性欧美| 久久综合亚洲色hezyo国产| 欧美日韩欧美一区二区| 青青草超碰在线| 97在线看福利| 99re6热只有精品免费观看| 最新中文字幕久久| 免费不卡在线视频| 亚洲精品视频久久久| 天天色综合成人网| 蜜桃av鲁一鲁一鲁一鲁俄罗斯的| 久久九九免费视频| 看片一区二区| 亚洲国产精品www| 爽好多水快深点欧美视频| 三级男人添奶爽爽爽视频| 亚洲一区二区三区小说| av老司机久久| 欧美成人免费大片| 精品中文字幕一区二区三区四区| 伊人狠狠色丁香综合尤物| 日一区二区三区| 国产又粗又猛又爽又黄av| 精品国产乱码久久久久酒店| 蜜桃视频在线观看www| 欧美风情在线观看| 99精品国产高清一区二区麻豆| 国产日韩第一页| 激情六月婷婷久久| 国产女片a归国片aa| 日韩一级黄色片| 免费看电影在线| 国产亚洲精品美女久久久m| 影音先锋中文字幕一区| 亚洲一区二区在线免费| 天天综合网 天天综合色| 神马电影在线观看| 欧美最近摘花xxxx摘花| 视频一区在线观看| 色哟哟精品视频| 亚洲天堂精品在线观看| 国产成a人亚洲精v品无码| 久久91亚洲精品中文字幕| 草草视频在线一区二区| 九九九九免费视频| 国产亚洲精品资源在线26u| 国产女优在线播放| 俺也去精品视频在线观看| 日本在线一区二区三区| 久久国产精品网| 久久久国产午夜精品| 中文字幕av无码一区二区三区| 日韩一区二区三区在线播放| 欧美影院视频| 鲁一鲁一鲁一鲁一澡| 久久精品噜噜噜成人av农村| 97av在线播放| 国产中文字幕视频| 91精品国产欧美一区二区| 污污网站在线观看| 亚洲黄色性网站| 国产无码精品在线播放| 美女尤物久久精品| 91沈先生在线观看| 重囗味另类老妇506070| 色婷婷精品久久二区二区密 | 国产在线拍揄自揄拍无码视频| 亚洲а∨天堂久久精品喷水| 在线人成日本视频| 一区二区av| 成人白浆超碰人人人人| 无码人妻精品一区二区三区不卡| 视频直播国产精品| 加勒比色老久久爱综合网| 91国产精品视频在线观看| 亚洲一区二区三区在线播放| www.av在线播放| 福利视频久久| 蜜桃精品视频在线|