精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大語言模型空間推理能力的深度評測:基于基準測試對基數方向推理的再審視

發布于 2025-7-25 07:07
瀏覽
0收藏

引言:探尋非具身智能的空間認知邊界

隨著大語言模型(Large Language Models, LLMs)技術的飛速發展,其在自然語言處理、代碼生成乃至多模態交互等領域展現出的驚人能力,不斷刷新著我們對人工智能潛力的認知。然而,一個根本性的問題始終縈繞在學術界和產業界:這些在數字世界中誕生的、缺乏物理實體與真實世界交互經驗的“非具身智能”(non-embodied intelligence),是否真正獲得了類似人類的推理能力?

空間推理,作為高級智能的核心組成部分,成為了檢驗這一問題的絕佳試金石。它不僅是人類在物理世界中導航、操作和生存的基礎,更是一種高度抽象的認知能力。近期,一篇題為《再探大語言模型基數方向推理能力評測》(Evaluating the Ability of Large Language Models to Reason about Cardinal Directions, Revisited)的研究,便針對這一前沿課題展開了系統而深入的探索。該研究由利茲大學的 Anthony G Cohn 和艾倫·圖靈研究所的 Robert E Blackwell 共同完成,是對其早期工作的擴展與深化。

這項研究的核心貢獻在于,它沒有停留在對模型進行零散、隨意的測試,而是設計并實施了一個大規模、系統化、可復現的評測框架。通過這個框架,研究者們對多達 28 個當前主流及前沿的 LLM(包括新興的“大型推理模型” Large Reasoning Models, LRMs)進行了嚴格的“壓力測試”。其評測的焦點,被精確地限定在“基數方向”(Cardinal Directions, CDs)推理上——即對東、西、南、北及其組合方向的理解與運用能力。

選擇基數方向作為切入點,其背后有著深刻的考量。基數方向不僅是地圖使用、路線指引等日常導航任務的基石,還在地理學、氣象學、甚至人類文化與歷史中扮演著至關重要的角色。一個智能體若要聲稱理解了我們所處的世界,那么對基數方向的掌握無疑是其必備的基本功。

這篇文章用更有價值的數據和實驗,揭示當前大語言模型在空間推理領域的能力邊界、內在缺陷以及未來可能的發展路徑。用更直白的方式總結,就是目前的大語言模型似乎還并不具備顯示的空間推理能力。

一、研究背景與核心問題:為何聚焦基數方向推理?

在深入探討實驗細節之前,我們必須首先理解該研究的立足點:為何在眾多空間推理任務中,基數方向推理如此關鍵?以及,這項研究試圖回答的核心科學問題是什么?

空間推理:從具身智能到數字智能的挑戰

空間推理能力涵蓋了對位置、方向、距離、拓撲關系等多種空間屬性的感知、表征和操縱。對于人類等“具身智能體”(embodied intelligence)而言,這種能力是通過與物理世界的長期、多模態交互(視覺、觸覺、運動感知等)而習得和內化的。我們知道“向東走”意味著什么,因為我們能感知太陽的升落,能體驗身體朝向的改變。

然而,大語言模型是徹頭徹尾的“數字原住民”。它們的知識來源于海量的文本和代碼語料庫,缺乏任何直接的物理感知。因此,一個核心的科學疑問隨之產生:LLMs 是否能僅僅通過學習語言中的模式,來構建一個有效的、可用于推理的內部空間模型? 換言之,當一個 LLM 讀到“東”這個字時,它所“理解”的,究竟是一個與其連接的其他詞語的統計概率,還是一個真正蘊含了方向、相對位置等空間語義的抽象概念?

該研究正是為了探究這一問題。它繞開了那些需要復雜物理交互的任務,選擇了一個純粹基于邏輯和空間關系的認知任務——基數方向推理,以此作為探針,刺入 LLM 認知能力的深處。

基數方向(CDs)的重要性

研究報告明確指出了基數方向在多個層面上的基礎性地位,這解釋了為何它是一個理想的評測領域:

  1. 導航與路徑規劃:無論是解讀地圖、聽從導航指示(“沿主路向北行駛 2 公里”),還是向他人描述路線,對基數方向的精確理解都是成功完成任務的前提。
  2. 地理與環境理解:區域間的相對位置(如“某地位于某山脈以西”)直接決定了其氣候、生態和經濟聯系。理解這些宏觀地理格局,離不開對基數方向的掌握。
  3. 氣象學應用:天氣預報中頻繁出現的“西北風”、“偏東氣流”等術語,其背后是基于基數方向的氣流運動模型。
  4. 文化與歷史語境:從金字塔精確對準四個基本方向的建筑奇跡,到某些土著語言(如 Guugu Yimithirr)中完全依賴絕對基數方向而非相對的“左/右”來進行空間定位,基數方向深深植根于人類文明之中。

因此,對基數方向推理能力的評測,實際上是在考察 LLM 是否能理解并運用這些在人類知識體系中無處不在的基礎空間概念。

大型推理模型(LRMs)的興起

研究特別引入并關注了“大型推理模型”(LRMs)這一新興概念。與傳統 LLM 不同,LRMs 在訓練階段就經過特殊設計,旨在優化其在推理任務上的表現。它們在響應用戶提示時,會顯式地生成“推理代幣”(reasoning tokens),這可以被看作是模型在輸出最終答案前進行的內部“思考”或“草稿”。該研究評測的 LRMs 包括 ??azure-o1-2024-12-17???、??deepseek-reasoner?? 等。將這些新銳模型納入評測,使得研究能夠追蹤技術最前沿的進展,并檢驗這些聲稱具備更強推理能力的模型是否名副其實。

值得注意的是,研究者明確排除了使用“思維鏈”(Chain-of-Thought, CoT)等提示工程策略。他們希望測量的是模型“原始”的、未經外部引導的推理能力,從而獲得一個更純粹、更具可比性的性能基準。

綜上所述,該研究通過聚焦基數方向這一基礎而關鍵的領域,并引入對最新 LRMs 的評測,旨在系統性地回答:當前的大語言模型,在多大程度上真正掌握了空間推理這一核心認知能力?

二、精巧而嚴謹的實驗設計:一個可擴展的評測框架

一項評測研究的價值,很大程度上取決于其實驗設計的科學性與嚴謹性。該研究的突出貢獻之一,便是構建了一個大規模、多維度、可自動生成的基準測試集,從而能夠對 LLM 的能力進行全面而細致的“CT掃描”。

2.1 模板化問題的構建哲學

為了避免手動編寫問題可能帶來的偏差和規模限制,研究者采用了一種基于模板的自動化方法,最終生成了包含 5760 個問題的龐大測試集。這種方法的背后,是一種將復雜推理能力拆解為可控變量的科學思想。

研究者設計了六個核心問題模板(在論文中標記為 T1 至 T6),這些模板模擬了日常生活中可能遇到的簡單空間場景。這些模板的設計極具巧思,涵蓋了不同類型的空間關系:

  • T1 & T2 (湖泊場景):??你正沿著一個湖的[東]岸向[南]走;湖在哪個方向??? (T1) 以及在此基礎上增加一個“轉身”動作的 T2。這測試了在圍繞一個“內凹”區域(湖泊)移動時,對相對方向的判斷。
  • T3 (公園場景):??你正沿著一個公園[東]側的中間向[南]走;位于公園中心的演奏臺在哪個方向??? 這與 T1 類似,但場景更換為公園,測試模型是否能理解場景的本質而非表面詞匯。
  • T4 (道路場景):??你正沿著一條[由東向西]延伸的公路的[南]側向[東]走。公路在哪個方向??? 這是唯一一個涉及線性對象(道路)而非面狀對象(湖、公園)的模板。理論上,這需要一種不同的空間想象方式。
  • T5 & T6 (島嶼場景):??你正沿著一個島嶼的[東]岸向[南]走;海在哪個方向??? (T5) 以及其“轉身”版本 T6。這個場景與湖泊場景(T1/T2)形成鮮明對比。在湖的東岸,湖水在西邊;而在島的東岸,海水在東邊。這是一個絕佳的測試,用以檢驗模型是真正理解了“岸邊”這一概念的空間含義,還是僅僅記住了“東岸”和“西”之間的某種膚淺關聯。

通過這六個精心設計的模板,研究者構建了一個能夠探測模型對不同空間基元(面狀、線性、內凹、外凸)理解深度的評測基礎。

2.2 多維度變量的引入與控制

在模板的基礎上,研究者引入了多個維度的變量,對每個模板進行“排列組合”,從而將測試集的規模和復雜度提升到了新的高度。每一個變量都像一把手術刀,旨在剖析模型能力的特定方面:

  1. 方向(Directions):測試覆蓋了全部 8 個基數和中間基數方向(東、南、西、北、東北、東南、西北、西南)。這種窮舉式的測試確保了評測的完備性,可以揭示模型在處理不同方向時是否存在性能差異。
  2. 運動方式(Locomotion Forms):研究引入了 10 種不同的運動方式,包括??cycling??? (騎行),??driving??? (駕駛),??hiking??? (徒步),??unicycling??? (騎獨輪車),??walking?? (行走) 等。這個變量的設計極為巧妙,因為它在邏輯上是完全無關的。無論一個人是在行走、駕駛還是騎獨輪車,湖泊的方向都不會改變。因此,這個變量成為了檢驗模型泛化能力和抗干擾能力的“照妖鏡”。一個真正具備推理能力的模型,其準確率不應隨運動方式的改變而波動。
  3. 人稱形式(Person Forms):問題被構造成 6 種不同的人稱,包括第一人稱單數(??I am???)、復數(??We are???),第二人稱(??You are???),以及第三人稱單數(??He is???,??She is???)和復數(??They are??)。與運動方式類似,人稱的變化也不應影響最終答案。這一變量旨在測試模型的回答是否穩定,以及是否存在潛在的偏見。例如,模型在處理“He is”和“She is”時表現是否一致,可以間接反映其訓練數據中可能存在的性別偏見。

通過這三個維度的交叉組合,最終生成了 ??6個模板 × 10種運動方式 × 6種人稱 × 8個方向 × 2種方向變化 = 5760個問題??。這個龐大而結構化的數據集,為后續的深度分析提供了堅實的基礎。

2.3 實驗環境與評測方法

為確保研究的科學性和可復現性,研究者詳細記錄了實驗的全部配置:

  • 模型選擇:評測范圍廣泛,既包括了??azure-o1???、??GPT-4.5-preview??? 等頂級的商業閉源模型,也納入了??LLama-3-7B???、??Mistral-Small-24B?? 等可以在本地設備上運行的開源模型,形成了鮮明的性能梯隊對比。
  • 實驗工具:所有實驗均通過名為??Golem?? 的軟件框架執行。該框架的一個重要優勢是能夠自動記錄所有 API 的請求和響應,并將結果以 JSONL 格式保存。這確保了實驗過程的完全透明,便于后續的審計和復現,踐行了開放科學的理念。
  • 提示策略:研究采用了零樣本(zero-shot)提示,并使用了一個非常簡潔的系統提示:??“你是一個有用的助手。我會給你一個關于方向的問題。答案是北、南、東、西、東北、西北、東南或西南之一。請只回答答案。不要閑聊(No yapping)。”??? 設定??temperature = 0??(在可設置的模型中)旨在獲得確定性的輸出,盡管研究也指出云端模型即便在此設置下也可能存在非確定性。
  • 評估標準:答案的評判標準相對寬松但明確。通過不區分大小寫的字符串比較,并移除多余的標點和空格來進行。即使模型回答了“湖在西邊”(The lake is to the west),只要正確答案是“西”(west),也被視為正確。性能主要通過準確率(Accuracy)來衡量,并輔以預測區間(prediction intervals)來報告結果的變異性。

總體而言,該研究的實驗設計堪稱典范。它不僅在規模上達到了前所未有的程度,更重要的是,其多維度的變量控制和透明的實驗流程,為我們提供了一個強大而可靠的分析工具,使我們能夠以前所未有的精度,審視大語言模型在空間推理任務上的真實能力。

三、評測結果深度剖析:能力邊界與未解之謎

長達 5760 個問題的嚴苛測試,產出了一系列信息量巨大且發人深省的結果。這些結果不僅量化了當前 LLM 的能力水平,更揭示了它們在“思考”空間問題時可能存在的內在機制和缺陷。

3.1 總體性能概覽:進步顯著,但遠未完美

首先,從整體準確率來看(如圖 1 所示),結果喜憂參半:

  • 沒有完美的模型:在所有 28 個被測試的模型中,沒有任何一個能夠 100% 正確地回答所有問題。這直接表明,即便是最先進的 LLM,其空間推理能力也遠未達到完全可靠的程度。
  • 顯著優于隨機猜測:所有模型的表現都顯著高于 0.125 的隨機猜測率(8 個方向選項之一),即便是表現最差的??ollama-olmo2?? 也達到了 0.16 的準確率。這說明 LLM 確實從訓練數據中學習到了一些與基數方向相關的有效信息。
  • 驚人的年度進步與 LRMs 的統治力:性能最好的模型是??azure-o1-2024-12-17???,準確率高達 0.92。與之形成鮮明對比的是,一年前的舊論文中表現最好的??GPT-3.5 Turbo?? 準確率僅為 0.60。在短短一年內,頂級模型的準確率提升了超過 50%,這是一個令人矚目的進步。更關鍵的是,性能排名前列的模型幾乎全部是大型推理模型(LRMs),這強烈暗示了為推理任務進行專門優化的架構,確實帶來了實質性的能力飛躍。
  • API 供應商的差異:研究還發現一個有趣的現象,即通過不同云服務商(如 OpenAI API vs. Azure API)訪問同一個模型(如 GPT-4-Turbo),其性能存在統計學上的顯著差異。這為所有 LLM 基準測試研究敲響了警鐘:報告精確的模型版本號和供應商至關重要。

總體來看,LLM 在基數方向推理上的能力正以前所未有的速度發展,但距離人類水平的穩定和可靠仍有相當長的路要走。(圖 1)

大語言模型空間推理能力的深度評測:基于基準測試對基數方向推理的再審視-AI.x社區

3.2 推理過程探秘:從混淆矩陣到“推理代幣”

為了更深入地理解模型是如何出錯的,研究者進行了更細致的分析。

  • 混淆矩陣揭示的非對稱性錯誤:以表現最好的??o1?? 模型為例,其混淆矩陣(如圖 2 所示)揭示了幾個關鍵信息。首先,模型的錯誤主要集中在中間基數方向(如東北、西南)上,而對基本基數方向(東、南、西、北)的判斷要準確得多。其次,錯誤分布是不對稱的。例如,當正確答案是“西北”時,模型有 8% 的概率會錯誤地回答為“東北”;但當正確答案是“東北”時,模型幾乎不會錯答成“西北”。這種非對稱性非常耐人尋味,它表明模型的“推理”過程并非一個像人類一樣基于對稱性公理的邏輯系統,而可能是一種更復雜的、路徑依賴的模式匹配過程。
  • “推理代幣”作為“思考努力”的代理指標:對于 LRMs,研究者分析了它們在回答問題時消耗的“推理代幣”數量,并發現了兩個驚人的規律:
  1. 中間方向需要更多“思考”:如圖 3 所示,對于所有 LRMs,處理涉及中間基數方向的問題時,所消耗的推理代幣中位數和分布范圍,都顯著高于處理基本基數方向的問題。研究者推斷,推理代幣的數量可以被視為模型“推理努力程度”(reasoning effort)的一個代理指標。這似乎表明,在模型的“認知”中,中間方向(如“東北”)因為是由兩個基本方向復合而成,所以需要更復雜的處理步驟。
  2. 錯誤答案消耗更多“思考”:更令人驚訝的是,如圖 4 所示,對于??o1???、??o3-mini High??? 和??Deepseek R1?? 這三個 LRM,它們在給出錯誤答案時,消耗的推理代幣中位數反而顯著高于給出正確答案時。這顛覆了我們直覺上的“思考越久、答案越準”的印象。一種可能的解釋是,當模型遇到難題時,它會陷入一種無效的、冗長的“思考循環”中,消耗了大量計算資源,但最終卻得出了錯誤的結論。這為我們觀察和理解 LLM 的“思維”過程提供了一個全新的、量化的視角。

大語言模型空間推理能力的深度評測:基于基準測試對基數方向推理的再審視-AI.x社區大語言模型空間推理能力的深度評測:基于基準測試對基數方向推理的再審視-AI.x社區

(圖 2, 圖 3, 圖 4)

3.3 多維度變量下的性能波動:泛化能力的“試金石”

該研究最精彩的部分,莫過于對不同變量如何影響模型性能的深入剖析(如圖 5 所示)。這部分結果是衡量模型是否真正具備抽象推理能力的關鍵。

  • 基數方向 vs. 中間方向:幾乎所有模型在處理基本基數方向時都比中間基數方向表現更好。研究者將其與人類認知中的“傾斜效應”(oblique effect,即人類對水平和垂直方向的感知比對傾斜方向更敏銳)進行了類比。但他們也提出了一個更符合 LLM 特點的解釋:在英語等許多語言中,中間方向的名稱是由兩個基本方向的詞匯復合而成(如 "north-east"),這種語言上的復雜性可能直接導致了模型在處理上的困惑。
  • 人稱形式(Person Form):頂級模型(如??o1???)在不同人稱下的表現非常穩定,其在雷達圖上呈現出近乎完美的“同心六邊形”,顯示出良好的泛化能力。然而,性能較差的模型(如??Llama-3-70b??? 和??Mistral-24B???)則表現出明顯的波動。特別值得注意的是,??GPT-3.5T?? 等模型在處理“She is”(她是)時的準確率低于“He is”(他是),這清晰地揭示了模型可能從訓練數據中習得并放大了性別偏見。
  • 運動方式(Locomotion Form):如前所述,這個變量在邏輯上是無關的。頂級模型的表現再次印證了其強大的泛化能力,在雷達圖上形成了規則的“同心十邊形”。但其他模型,特別是??Deepseek-chat??? 和??Mistral-small-24b???,則在不同運動方式下表現出顯著的性能起伏。例如,??Mistral??? 在“徒步”(hiking)上的表現優于??Llama-3-70b??,但在其他方面則不然。這種對無關信息的敏感性,是模型尚未形成真正抽象推理能力的有力證據。
  • 問題模板(Question Template):這是最具戲劇性的結果。

a.T4 模板的“集體滑鐵盧”:幾乎所有模型在處理 T4(道路場景)時,準確率都出現了斷崖式下跌,遠遠差于其他五個模板。這表明模型處理線性對象和面狀對象的空間關系時,可能采用了完全不同且效果更差的內部機制。

b.GPT-4.5-preview 的驚天異象:??openai-gpt-4.5-preview-2025-02-27?? 這個模型表現出了極度異常的行為:它在 T1, T2, T3, T5, T6 這五個模板上的準確率是 100%,但在 T4 上的準確率是 0%!這種“全對或全錯”的二極管式表現,在概率模型中幾乎是不可能的。研究者據此提出了一個合理的懷疑:該模型很可能在訓練數據中“見過”這個基準測試集(或其早期版本),從而“記住”了大部分問題的答案,但唯獨在 T4 這個最棘手的模板上未能成功泛化或記憶。這一發現對整個 LLM 評測生態提出了嚴峻的挑戰——如何確保評測的“純潔性”,防止“數據污染”?

c.細微變化的敏感性:T2 相較于 T1 增加了“轉身”的動作,導致了所有模型準確率的輕微下降。T5/T6(島嶼)與 T1/T2(湖泊)的答案方向正好相反,研究發現,許多模型最常見的錯誤并非是混淆 180 度(即將島嶼當成湖泊),反而是混淆 90 度,這再次說明模型的錯誤模式并非系統性的邏輯混淆。

大語言模型空間推理能力的深度評測:基于基準測試對基數方向推理的再審視-AI.x社區

(圖 5)

綜合來看,這份詳盡的評測結果如同一面高清的鏡子,映照出當前大語言模型在空間推理能力上的真實面貌:它們在特定模式上表現出色,甚至超越了舊模型,但其知識和能力是“脆弱的”、“有偏見的”,并且在面對與已見模式稍有不同的新情況時,其泛化能力會急劇下降。

四、 討論與展望:從當前局限到未來路徑

在詳盡地呈現了實驗數據之后,研究報告進入了更深層次的討論,并為未來的研究指明了方向。這部分內容濃縮了該研究的核心洞見與長遠價值。

核心結論與反思

研究者首先對整個評測結果進行了總結,得出了幾個關鍵結論:

  1. 可靠性仍是奢望:沒有任何一個模型能夠完全可靠地進行基數方向推理。即便是準確率高達 0.92 的??o1??,也意味著在每 12 個問題中就可能答錯 1 個。在自動駕駛、機器人導航等對安全性要求極高的領域,這樣的錯誤率是不可接受的。
  2. 泛化能力是最大軟肋:模型無法在“人稱”和“運動方式”這些邏輯無關的變量上實現完全泛化,這是其尚未掌握抽象推理能力的鐵證。它們的“知識”在很大程度上仍與特定的詞匯和語境綁定,而非真正理解了其背后的空間幾何關系。
  3. LRMs 代表了未來方向:大型推理模型(LRMs)的優異表現,證明了在模型架構和訓練方法上針對“推理”進行優化的路徑是正確且有效的。“推理代幣”的分析也為我們打開了一扇觀察模型“思考”過程的窗戶。
  4. 基準測試的“污染”警報:??GPT-4.5-preview?? 的異常表現是一個強烈的警告信號。隨著 LLM 競爭的白熱化,模型開發者可能會無意或有意地將各種公開的基準測試集納入訓練數據,這將嚴重損害這些基準的評估價值。未來的評測工作必須考慮如何應對這種“數據污染”或“過擬合”問題。

需要進一步研究的九個關鍵問題

該研究不僅診斷了當前的問題,更極具建設性地提出了九個具體的未來研究方向,為該領域的后續發展繪制了一幅清晰的路線圖:

  1. 優化問題設計:承認當前模板(特別是 T4)可能存在措辭模糊之處,并提出需要設計更清晰、無歧義的評測問題。
  2. 探索提示策略:本次研究為測定“裸機性能”而排除了提示工程,但未來可以系統研究思維鏈(CoT)、思維樹(ToT)乃至專為空間任務設計的“思維可視化”(Visualization-of-Thought)等策略,能在多大程度上提升模型的推理表現。
  3. 持續擴大評測范圍:隨著新模型的不斷涌現,需要持續地對它們進行評估,并對現有模型進行微調(fine-tuning)實驗。
  4. 構建更全面的方向推理基準:目前的測試只涉及絕對的基數方向。未來的基準應擴展到以自我為中心的相對方向(左、右、前、后)和以物體為中心的相對方向。
  5. 開展跨語言實驗:研究一個非常有趣的問題——對于那些中間基數方向不是由基本方向詞匯復合而成的語言(如芬蘭語、布列塔尼語),LLM 是否還會表現出對中間方向的“處理困難”?這能幫助我們判斷性能瓶頸究竟是源于語言還是源于模型內在的空間表征。
  6. 建立更廣泛的空間推理基準:將評測范圍從方向推理擴展到拓撲關系(如包含、相交)、距離關系等其他空間推理領域。
  7. 測試更復雜的場景:引入涉及多個對象的組合推理(如 A 在 B 的東邊,B 在 C 的北邊,問 A 和 C 的關系),以及對運動軌跡的推理。
  8. 進軍多模態推理:將文本描述與圖像、地圖等視覺信息結合起來,在多模態的設定下考察模型的空間推理能力。
  9. 連接真實地理與認知偏差:構建基于真實世界地理實體的測試集(如“里諾市在圣地亞哥市的東邊還是西邊?”),并研究 LLM 是否會像人類一樣,表現出某些系統性的認知偏差。

結語

這份對大語言模型基數方向推理能力的再審視,是一次里程碑式的研究。它通過一個前所未有的大規模、精細化、可復現的評測框架,為我們提供了一幅關于當前 LLM 空間認知能力的超高分辨率圖像。

研究結果清晰地表明,盡管 LLM 的發展日新月異,其在看似簡單的空間推理任務上所展現的能力,仍然是局部、脆弱且缺乏泛化性的。它們或許能夠通過強大的模式匹配能力“模仿”推理,但距離真正“理解”物理世界的空間法則,仍有遙遠的距離。

然而,悲觀并非這項研究的主旋律。恰恰相反,通過精確地定位問題、量化能力的邊界,該研究為我們指明了通往更強大、更可靠的人工智能的道路。它所揭示的 LRMs 的潛力、對無關信息的敏感性、對特定模板的“偏科”現象,以及“推理代幣”所反映的“思考”痕跡,都為未來模型的改進提供了寶貴的線索。

最終,這項工作告訴我們,通往通用人工智能(AGI)的征途,需要的不僅僅是更大的模型和更多的數據,更需要像這樣嚴謹、深入、甚至帶有“對抗性”的科學評測。只有不斷地用精心設計的難題去挑戰模型,我們才能真正理解它們的所能與所不能,并最終推動人工智能從“鸚鵡學舌”式的模仿,邁向真正意義上的認知與推理。

參考論文: https://arxiv.org/abs/2507.12059v1

本文轉載自??上堵吟??,作者:一路到底的孟子敬

已于2025-7-25 10:42:34修改
收藏
回復
舉報
回復
相關推薦
99久久精品费精品国产一区二区 | 666精品在线| 黄色a级片在线观看| 成人爽a毛片| 一本大道久久a久久精二百| 亚洲永久激情精品| 男人天堂网在线视频| 日韩激情中文字幕| 久久6精品影院| 成人乱码一区二区三区av| 亚洲欧洲一二区| 欧美日韩国内自拍| 国产日本欧美在线| 日本五码在线| 国产麻豆成人传媒免费观看| 欧美在线一区二区三区四| 91嫩草|国产丨精品入口| 免费观看久久av| 欧美一区二区三区色| 欧美激情国产精品日韩| 污污片在线免费视频| 国产精品私人影院| 精品午夜一区二区| 精品午夜一区二区三区| 欧美日韩中文视频| 欧美aaaa视频| 亚洲欧美中文字幕在线一区| 日本中文字幕有码| 久久精品国产福利| 在线中文字幕一区二区| 日韩五码在线观看| 亚洲小说区图片| 国产精品麻豆一区二区| 奇米视频888战线精品播放| 欧美性受xxxx狂喷水| 国内久久精品视频| 国产精品一区二区久久久久| 丁香六月婷婷综合| 99精品国产一区二区青青牛奶| 久久伊人精品天天| 日日操免费视频| 国产影视精品一区二区三区| 日韩av影视综合网| 亚洲成av人片在线观看无| 亚洲一区二区电影| 日韩视频免费直播| 九色91porny| 欧美日韩黄网站| 91精品国产综合久久精品app| 污版视频在线观看| 91另类视频| 在线观看精品一区| 日本999视频| 日本在线视频一区二区| 欧美影院一区二区| 杨幂毛片午夜性生毛片| 日韩欧美少妇| 欧美日韩一级大片网址| 日本不卡一区在线| 日韩午夜视频在线| 91麻豆精品国产91久久久久| 中文 日韩 欧美| 亚洲伊人精品酒店| 91精品国产全国免费观看| 又色又爽又黄视频| 懂色av色香蕉一区二区蜜桃| 日韩一区二区三区免费看 | 成人h动漫精品一区二区| 国产精品v欧美精品∨日韩| 蜜臀av中文字幕| 91免费版在线看| 无码免费一区二区三区免费播放 | 亚洲黄色视屏| 国产91成人video| 波多野结衣视频在线看| 久久99国内精品| 91嫩草国产在线观看| 丁香花免费高清完整在线播放| 99国产精品国产精品久久| 日韩av大全| 国产传媒在线播放| 婷婷开心激情综合| 日本激情视频在线播放| 免费精品一区| 日韩毛片在线观看| 美国黄色片视频| 一区二区三区国产盗摄 | 日韩av免费播放| 国产一区二区三区在线观看免费视频| 成人情视频高清免费观看电影| 香蕉视频免费在线看| 国产精品欧美极品| 中国丰满熟妇xxxx性| 婷婷综合六月| 日韩美女在线视频| 亚洲精品国产熟女久久久| 在线成人激情| 国产91网红主播在线观看| 国产乱淫a∨片免费观看| 99久久免费精品| 一区二区三区四区视频在线观看| 成人性生交大片免费看网站| 欧美色区777第一页| 色综合久久久无码中文字幕波多| 狠狠综合久久av一区二区蜜桃| 欧美另类交人妖| 中文字幕免费观看| 国产不卡视频在线播放| 午夜精品区一区二区三| 1024在线看片你懂得| 欧美日韩亚洲另类| 中文字幕在线免费看线人| 中文字幕亚洲精品乱码| 国产精品夫妻激情| 亚洲高清在线观看视频| 国产女人aaa级久久久级| 欧美一级视频免费看| 亚洲免费看片| 影音先锋欧美精品| 久久99国产综合精品免费| 国产成人免费高清| 亚洲 欧洲 日韩| 亚洲第一会所| 亚洲精品综合精品自拍| 久久久久亚洲av片无码下载蜜桃 | 潘金莲一级淫片aaaaa| 波多野结衣在线播放一区| 97视频免费在线看| 亚洲精品成人电影| 亚洲免费观看高清完整| 麻豆一区二区三区视频| 国产伦精品一区二区三区视频| 97精品国产97久久久久久| 国产成人精品免费看视频| 国产精品国产三级国产aⅴ无密码 国产精品国产三级国产aⅴ原创 | 国产91久久久| 亚洲免费观看高清在线观看| 五月激情婷婷在线| 日产午夜精品一线二线三线| 国产999精品| 久久手机免费观看| 91精品福利视频| 免费黄色在线视频| 亚洲永久在线| 久中文字幕一区| 最近高清中文在线字幕在线观看1| 精品精品国产高清a毛片牛牛| 希岛爱理中文字幕| 狠狠色丁香久久婷婷综| 特级毛片在线免费观看| av成人在线网站| 久久精品国产一区二区电影| 97在线视频人妻无码| 亚洲女人小视频在线观看| 在线免费黄色网| 欧美成熟视频| 国产精品一区二| 国产社区精品视频| 亚洲欧洲偷拍精品| 中文字幕在线观看1| 国产精品久久久久久久久快鸭| 一本色道久久亚洲综合精品蜜桃| 欧美大人香蕉在线| av免费观看久久| 多野结衣av一区| 国产视频欧美视频| 久久影视中文字幕| 亚洲欧洲日韩综合一区二区| 久久精品一二三四| 欧美精品入口| 精品一区久久久久久| 激情开心成人网| 久久精品视频在线观看| 亚洲国产福利视频| 懂色av中文一区二区三区天美| 亚洲国产天堂av| 国产专区综合网| 亚洲人成无码网站久久99热国产 | 自拍偷拍第八页| 日韩毛片一二三区| 黄色国产在线视频| 日韩电影在线看| 丰满女人性猛交| 精品国内亚洲2022精品成人| 国产成人精品视频| 国产精品剧情一区二区在线观看| 日韩精品中文字幕在线一区| 中文字幕一区二区人妻电影| 一区二区中文字幕在线| av网页在线观看| 蜜桃视频一区二区三区在线观看| 欧美激情亚洲天堂| 妖精视频一区二区三区| 91精品国产综合久久男男| 国产免费拔擦拔擦8x在线播放| 国产性猛交xxxx免费看久久| 国产按摩一区二区三区| 色综合天天天天做夜夜夜夜做| 在线日韩国产网站| av影院午夜一区| www.午夜av| 一区二区动漫| 日本中文字幕一级片| 欧美美乳视频| 粉嫩精品一区二区三区在线观看| 无人区在线高清完整免费版 一区二 | 成人免费黄色网| 欧美极品影院| 久久久久久噜噜噜久久久精品| 午夜视频在线看| 亚洲女人天堂av| 国产伦精品一区二区三区免.费| 日韩欧美在线免费| 国产污视频在线看| 亚洲色图一区二区| 久久久久久成人网| 91在线丨porny丨国产| 亚洲国产欧美日韩在线| 另类人妖一区二区av| 欧美综合在线观看视频| 亚洲经典自拍| 成年人网站国产| 影音先锋日韩精品| 男女啪啪的视频| 日韩毛片视频| 亚洲精品成人a8198a| 一道本一区二区三区| 精品国产一区二区三区四区vr| 亚洲3区在线| 91成人免费观看| 国产成人免费视频网站视频社区| 国产精品美女久久久久av超清| 松下纱荣子在线观看| 高清一区二区三区四区五区| 在线观看免费网站黄| 一区二区三区视频免费| 国产系列在线观看| 国产亚洲精品久久久优势| 婷婷色在线观看| 亚洲国产欧美精品| 色婷婷av一区二区三区之红樱桃 | 日韩高清不卡在线| 大肉大捧一进一出好爽视频| 亚洲美女少妇无套啪啪呻吟| 18黄暴禁片在线观看| 在线不卡亚洲| 无码人妻丰满熟妇区96| 国产精品亚洲欧美| 免费无码av片在线观看| 天堂午夜影视日韩欧美一区二区| 动漫av网站免费观看| 久久久777| 国产视频在线视频| 美女视频一区在线观看| 成人日韩在线视频| 国产福利一区二区三区视频在线| 国产农村妇女精品久久| 国产精品中文欧美| 国产乱国产乱老熟300部视频| 不卡av在线免费观看| 中文精品在线观看| 国产清纯在线一区二区www| 欧美18—19性高清hd4k| 国产精品久久久久国产精品日日| 亚洲区一区二区三| 一区二区三区高清在线| 日本少妇裸体做爰| 一本色道a无线码一区v| 亚洲国产无线乱码在线观看| 91精品国产综合久久小美女| 成人免费视频国产| 亚洲欧美日韩中文视频| 日本中文字幕在线2020| 欧美精品少妇videofree| 91九色在线看| 国产精品高清在线观看| 精品国产麻豆| 精品国产乱码久久久久久88av| 精品视频日韩| 日本精品福利视频| 亚洲欧美日韩国产一区| 五月天av在线播放| av在线播放成人| 精品国产国产综合精品| 亚洲大尺度视频在线观看| 免费在线不卡av| 日韩欧美电影一二三| 毛片网站在线观看| 萌白酱国产一区二区| 亚洲性色av| 亚洲淫片在线视频| 免费欧美视频| 日韩专区第三页| 日韩va欧美va亚洲va久久| 深爱五月综合网| 欧美激情综合五月色丁香小说| 久草网视频在线观看| 欧美中文字幕一区| 日韩在线视频观看免费| 色婷婷av一区二区三区在线观看| 波多野结衣久久| 国产在线一区二区三区| 丝袜av一区| 国产小视频免费| 免费一区二区视频| 成人网站免费观看| 一区二区在线观看视频在线观看| 九九热最新视频| 亚洲精品不卡在线| 91麻豆国产福利在线观看宅福利| 国产精品白丝jk喷水视频一区| www.亚洲一二| 三级网在线观看| 免费观看成人av| 风间由美一二三区av片| 亚洲激情av在线| 一级爱爱免费视频| 在线播放日韩av| 超碰超碰人人人人精品| 国产欧美亚洲日本| 欧美在线网址| www.com久久久| 亚洲国产电影在线观看| 无码人妻丰满熟妇精品区| 精品国产一区二区亚洲人成毛片 | 欧美日韩在线免费观看| 国产激情无套内精对白视频| www.亚洲一区| 久久人体av| 日韩精品一区二区三区四区五区| 99视频一区| 国产女人18毛片水真多18 | 亚洲影院在线播放| 亚洲国产精彩中文乱码av| 2020国产在线视频| 4444kk亚洲人成电影在线| 欧美激情偷拍自拍| 天天干天天综合| 国产精品成人在线观看| 日韩精品在线一区二区三区| 亚洲天堂av网| 亚洲成av在线| 亚洲欧美国产不卡| 喷白浆一区二区| 亚洲激情图片网| 欧美日韩dvd在线观看| 2019中文字幕在线视频| 国产精品久久中文| 欧美在线免费看视频| 婷婷免费在线观看| 亚洲天堂中文字幕| www.日韩高清| 久久久久久噜噜噜久久久精品| 亚洲日本va中文字幕| 久久这里只有精品23| 成人不卡免费av| 国产无人区码熟妇毛片多| 亚洲精品在线视频| se01亚洲视频| 在线国产99| 国产成人一区在线| 四虎永久在线精品| 亚洲欧美日韩中文在线制服| 欧美成a人片在线观看久| 亚洲一区二区在线观| 国产一区二区在线电影| 免费视频一二三区| 亚洲精品国产精品国产自| 欧美特大特白屁股xxxx| 一区二区三区四区视频在线| 国产一区福利在线| 精品在线视频免费| 亚洲男人天堂久| 天天综合在线观看| 97超碰在线视| 久久免费精品国产久精品久久久久| 成人午夜精品视频| 插插插亚洲综合网| xxxxxhd亚洲人hd| www日韩视频| 亚洲激情av在线| 九色国产在线观看| 成人黄色片在线| 1024成人| 岛国片在线免费观看| 欧美精品一区二区三区蜜臀| 户外露出一区二区三区| 国产一级不卡视频| 久久天堂av综合合色蜜桃网| 91片黄在线观看喷潮| 91国内在线视频| 亚洲国产不卡| www在线观看免费视频| 欧美一区二区三区在线电影| 巨茎人妖videos另类| 777久久精品一区二区三区无码| 久久美女高清视频| 亚洲精品字幕在线| 国产精品视频永久免费播放| 亚洲高清二区|