大語言模型空間推理能力的深度評測:基于基準測試對基數方向推理的再審視
引言:探尋非具身智能的空間認知邊界
隨著大語言模型(Large Language Models, LLMs)技術的飛速發展,其在自然語言處理、代碼生成乃至多模態交互等領域展現出的驚人能力,不斷刷新著我們對人工智能潛力的認知。然而,一個根本性的問題始終縈繞在學術界和產業界:這些在數字世界中誕生的、缺乏物理實體與真實世界交互經驗的“非具身智能”(non-embodied intelligence),是否真正獲得了類似人類的推理能力?
空間推理,作為高級智能的核心組成部分,成為了檢驗這一問題的絕佳試金石。它不僅是人類在物理世界中導航、操作和生存的基礎,更是一種高度抽象的認知能力。近期,一篇題為《再探大語言模型基數方向推理能力評測》(Evaluating the Ability of Large Language Models to Reason about Cardinal Directions, Revisited)的研究,便針對這一前沿課題展開了系統而深入的探索。該研究由利茲大學的 Anthony G Cohn 和艾倫·圖靈研究所的 Robert E Blackwell 共同完成,是對其早期工作的擴展與深化。
這項研究的核心貢獻在于,它沒有停留在對模型進行零散、隨意的測試,而是設計并實施了一個大規模、系統化、可復現的評測框架。通過這個框架,研究者們對多達 28 個當前主流及前沿的 LLM(包括新興的“大型推理模型” Large Reasoning Models, LRMs)進行了嚴格的“壓力測試”。其評測的焦點,被精確地限定在“基數方向”(Cardinal Directions, CDs)推理上——即對東、西、南、北及其組合方向的理解與運用能力。
選擇基數方向作為切入點,其背后有著深刻的考量。基數方向不僅是地圖使用、路線指引等日常導航任務的基石,還在地理學、氣象學、甚至人類文化與歷史中扮演著至關重要的角色。一個智能體若要聲稱理解了我們所處的世界,那么對基數方向的掌握無疑是其必備的基本功。
這篇文章用更有價值的數據和實驗,揭示當前大語言模型在空間推理領域的能力邊界、內在缺陷以及未來可能的發展路徑。用更直白的方式總結,就是目前的大語言模型似乎還并不具備顯示的空間推理能力。
一、研究背景與核心問題:為何聚焦基數方向推理?
在深入探討實驗細節之前,我們必須首先理解該研究的立足點:為何在眾多空間推理任務中,基數方向推理如此關鍵?以及,這項研究試圖回答的核心科學問題是什么?
空間推理:從具身智能到數字智能的挑戰
空間推理能力涵蓋了對位置、方向、距離、拓撲關系等多種空間屬性的感知、表征和操縱。對于人類等“具身智能體”(embodied intelligence)而言,這種能力是通過與物理世界的長期、多模態交互(視覺、觸覺、運動感知等)而習得和內化的。我們知道“向東走”意味著什么,因為我們能感知太陽的升落,能體驗身體朝向的改變。
然而,大語言模型是徹頭徹尾的“數字原住民”。它們的知識來源于海量的文本和代碼語料庫,缺乏任何直接的物理感知。因此,一個核心的科學疑問隨之產生:LLMs 是否能僅僅通過學習語言中的模式,來構建一個有效的、可用于推理的內部空間模型? 換言之,當一個 LLM 讀到“東”這個字時,它所“理解”的,究竟是一個與其連接的其他詞語的統計概率,還是一個真正蘊含了方向、相對位置等空間語義的抽象概念?
該研究正是為了探究這一問題。它繞開了那些需要復雜物理交互的任務,選擇了一個純粹基于邏輯和空間關系的認知任務——基數方向推理,以此作為探針,刺入 LLM 認知能力的深處。
基數方向(CDs)的重要性
研究報告明確指出了基數方向在多個層面上的基礎性地位,這解釋了為何它是一個理想的評測領域:
- 導航與路徑規劃:無論是解讀地圖、聽從導航指示(“沿主路向北行駛 2 公里”),還是向他人描述路線,對基數方向的精確理解都是成功完成任務的前提。
- 地理與環境理解:區域間的相對位置(如“某地位于某山脈以西”)直接決定了其氣候、生態和經濟聯系。理解這些宏觀地理格局,離不開對基數方向的掌握。
- 氣象學應用:天氣預報中頻繁出現的“西北風”、“偏東氣流”等術語,其背后是基于基數方向的氣流運動模型。
- 文化與歷史語境:從金字塔精確對準四個基本方向的建筑奇跡,到某些土著語言(如 Guugu Yimithirr)中完全依賴絕對基數方向而非相對的“左/右”來進行空間定位,基數方向深深植根于人類文明之中。
因此,對基數方向推理能力的評測,實際上是在考察 LLM 是否能理解并運用這些在人類知識體系中無處不在的基礎空間概念。
大型推理模型(LRMs)的興起
研究特別引入并關注了“大型推理模型”(LRMs)這一新興概念。與傳統 LLM 不同,LRMs 在訓練階段就經過特殊設計,旨在優化其在推理任務上的表現。它們在響應用戶提示時,會顯式地生成“推理代幣”(reasoning tokens),這可以被看作是模型在輸出最終答案前進行的內部“思考”或“草稿”。該研究評測的 LRMs 包括 ??azure-o1-2024-12-17???、??deepseek-reasoner?? 等。將這些新銳模型納入評測,使得研究能夠追蹤技術最前沿的進展,并檢驗這些聲稱具備更強推理能力的模型是否名副其實。
值得注意的是,研究者明確排除了使用“思維鏈”(Chain-of-Thought, CoT)等提示工程策略。他們希望測量的是模型“原始”的、未經外部引導的推理能力,從而獲得一個更純粹、更具可比性的性能基準。
綜上所述,該研究通過聚焦基數方向這一基礎而關鍵的領域,并引入對最新 LRMs 的評測,旨在系統性地回答:當前的大語言模型,在多大程度上真正掌握了空間推理這一核心認知能力?
二、精巧而嚴謹的實驗設計:一個可擴展的評測框架
一項評測研究的價值,很大程度上取決于其實驗設計的科學性與嚴謹性。該研究的突出貢獻之一,便是構建了一個大規模、多維度、可自動生成的基準測試集,從而能夠對 LLM 的能力進行全面而細致的“CT掃描”。
2.1 模板化問題的構建哲學
為了避免手動編寫問題可能帶來的偏差和規模限制,研究者采用了一種基于模板的自動化方法,最終生成了包含 5760 個問題的龐大測試集。這種方法的背后,是一種將復雜推理能力拆解為可控變量的科學思想。
研究者設計了六個核心問題模板(在論文中標記為 T1 至 T6),這些模板模擬了日常生活中可能遇到的簡單空間場景。這些模板的設計極具巧思,涵蓋了不同類型的空間關系:
- T1 & T2 (湖泊場景):?
?你正沿著一個湖的[東]岸向[南]走;湖在哪個方向??? (T1) 以及在此基礎上增加一個“轉身”動作的 T2。這測試了在圍繞一個“內凹”區域(湖泊)移動時,對相對方向的判斷。 - T3 (公園場景):?
?你正沿著一個公園[東]側的中間向[南]走;位于公園中心的演奏臺在哪個方向??? 這與 T1 類似,但場景更換為公園,測試模型是否能理解場景的本質而非表面詞匯。 - T4 (道路場景):?
?你正沿著一條[由東向西]延伸的公路的[南]側向[東]走。公路在哪個方向??? 這是唯一一個涉及線性對象(道路)而非面狀對象(湖、公園)的模板。理論上,這需要一種不同的空間想象方式。 - T5 & T6 (島嶼場景):?
?你正沿著一個島嶼的[東]岸向[南]走;海在哪個方向??? (T5) 以及其“轉身”版本 T6。這個場景與湖泊場景(T1/T2)形成鮮明對比。在湖的東岸,湖水在西邊;而在島的東岸,海水在東邊。這是一個絕佳的測試,用以檢驗模型是真正理解了“岸邊”這一概念的空間含義,還是僅僅記住了“東岸”和“西”之間的某種膚淺關聯。
通過這六個精心設計的模板,研究者構建了一個能夠探測模型對不同空間基元(面狀、線性、內凹、外凸)理解深度的評測基礎。
2.2 多維度變量的引入與控制
在模板的基礎上,研究者引入了多個維度的變量,對每個模板進行“排列組合”,從而將測試集的規模和復雜度提升到了新的高度。每一個變量都像一把手術刀,旨在剖析模型能力的特定方面:
- 方向(Directions):測試覆蓋了全部 8 個基數和中間基數方向(東、南、西、北、東北、東南、西北、西南)。這種窮舉式的測試確保了評測的完備性,可以揭示模型在處理不同方向時是否存在性能差異。
- 運動方式(Locomotion Forms):研究引入了 10 種不同的運動方式,包括?
?cycling??? (騎行),??driving??? (駕駛),??hiking??? (徒步),??unicycling??? (騎獨輪車),??walking?? (行走) 等。這個變量的設計極為巧妙,因為它在邏輯上是完全無關的。無論一個人是在行走、駕駛還是騎獨輪車,湖泊的方向都不會改變。因此,這個變量成為了檢驗模型泛化能力和抗干擾能力的“照妖鏡”。一個真正具備推理能力的模型,其準確率不應隨運動方式的改變而波動。 - 人稱形式(Person Forms):問題被構造成 6 種不同的人稱,包括第一人稱單數(?
?I am???)、復數(??We are???),第二人稱(??You are???),以及第三人稱單數(??He is???,??She is???)和復數(??They are??)。與運動方式類似,人稱的變化也不應影響最終答案。這一變量旨在測試模型的回答是否穩定,以及是否存在潛在的偏見。例如,模型在處理“He is”和“She is”時表現是否一致,可以間接反映其訓練數據中可能存在的性別偏見。
通過這三個維度的交叉組合,最終生成了 ??6個模板 × 10種運動方式 × 6種人稱 × 8個方向 × 2種方向變化 = 5760個問題??。這個龐大而結構化的數據集,為后續的深度分析提供了堅實的基礎。
2.3 實驗環境與評測方法
為確保研究的科學性和可復現性,研究者詳細記錄了實驗的全部配置:
- 模型選擇:評測范圍廣泛,既包括了?
?azure-o1???、??GPT-4.5-preview??? 等頂級的商業閉源模型,也納入了??LLama-3-7B???、??Mistral-Small-24B?? 等可以在本地設備上運行的開源模型,形成了鮮明的性能梯隊對比。 - 實驗工具:所有實驗均通過名為?
?Golem?? 的軟件框架執行。該框架的一個重要優勢是能夠自動記錄所有 API 的請求和響應,并將結果以 JSONL 格式保存。這確保了實驗過程的完全透明,便于后續的審計和復現,踐行了開放科學的理念。 - 提示策略:研究采用了零樣本(zero-shot)提示,并使用了一個非常簡潔的系統提示:?
?“你是一個有用的助手。我會給你一個關于方向的問題。答案是北、南、東、西、東北、西北、東南或西南之一。請只回答答案。不要閑聊(No yapping)。”??? 設定??temperature = 0??(在可設置的模型中)旨在獲得確定性的輸出,盡管研究也指出云端模型即便在此設置下也可能存在非確定性。 - 評估標準:答案的評判標準相對寬松但明確。通過不區分大小寫的字符串比較,并移除多余的標點和空格來進行。即使模型回答了“湖在西邊”(The lake is to the west),只要正確答案是“西”(west),也被視為正確。性能主要通過準確率(Accuracy)來衡量,并輔以預測區間(prediction intervals)來報告結果的變異性。
總體而言,該研究的實驗設計堪稱典范。它不僅在規模上達到了前所未有的程度,更重要的是,其多維度的變量控制和透明的實驗流程,為我們提供了一個強大而可靠的分析工具,使我們能夠以前所未有的精度,審視大語言模型在空間推理任務上的真實能力。
三、評測結果深度剖析:能力邊界與未解之謎
長達 5760 個問題的嚴苛測試,產出了一系列信息量巨大且發人深省的結果。這些結果不僅量化了當前 LLM 的能力水平,更揭示了它們在“思考”空間問題時可能存在的內在機制和缺陷。
3.1 總體性能概覽:進步顯著,但遠未完美
首先,從整體準確率來看(如圖 1 所示),結果喜憂參半:
- 沒有完美的模型:在所有 28 個被測試的模型中,沒有任何一個能夠 100% 正確地回答所有問題。這直接表明,即便是最先進的 LLM,其空間推理能力也遠未達到完全可靠的程度。
- 顯著優于隨機猜測:所有模型的表現都顯著高于 0.125 的隨機猜測率(8 個方向選項之一),即便是表現最差的?
?ollama-olmo2?? 也達到了 0.16 的準確率。這說明 LLM 確實從訓練數據中學習到了一些與基數方向相關的有效信息。 - 驚人的年度進步與 LRMs 的統治力:性能最好的模型是?
?azure-o1-2024-12-17???,準確率高達 0.92。與之形成鮮明對比的是,一年前的舊論文中表現最好的??GPT-3.5 Turbo?? 準確率僅為 0.60。在短短一年內,頂級模型的準確率提升了超過 50%,這是一個令人矚目的進步。更關鍵的是,性能排名前列的模型幾乎全部是大型推理模型(LRMs),這強烈暗示了為推理任務進行專門優化的架構,確實帶來了實質性的能力飛躍。 - API 供應商的差異:研究還發現一個有趣的現象,即通過不同云服務商(如 OpenAI API vs. Azure API)訪問同一個模型(如 GPT-4-Turbo),其性能存在統計學上的顯著差異。這為所有 LLM 基準測試研究敲響了警鐘:報告精確的模型版本號和供應商至關重要。
總體來看,LLM 在基數方向推理上的能力正以前所未有的速度發展,但距離人類水平的穩定和可靠仍有相當長的路要走。(圖 1)

3.2 推理過程探秘:從混淆矩陣到“推理代幣”
為了更深入地理解模型是如何出錯的,研究者進行了更細致的分析。
- 混淆矩陣揭示的非對稱性錯誤:以表現最好的?
?o1?? 模型為例,其混淆矩陣(如圖 2 所示)揭示了幾個關鍵信息。首先,模型的錯誤主要集中在中間基數方向(如東北、西南)上,而對基本基數方向(東、南、西、北)的判斷要準確得多。其次,錯誤分布是不對稱的。例如,當正確答案是“西北”時,模型有 8% 的概率會錯誤地回答為“東北”;但當正確答案是“東北”時,模型幾乎不會錯答成“西北”。這種非對稱性非常耐人尋味,它表明模型的“推理”過程并非一個像人類一樣基于對稱性公理的邏輯系統,而可能是一種更復雜的、路徑依賴的模式匹配過程。 - “推理代幣”作為“思考努力”的代理指標:對于 LRMs,研究者分析了它們在回答問題時消耗的“推理代幣”數量,并發現了兩個驚人的規律:
- 中間方向需要更多“思考”:如圖 3 所示,對于所有 LRMs,處理涉及中間基數方向的問題時,所消耗的推理代幣中位數和分布范圍,都顯著高于處理基本基數方向的問題。研究者推斷,推理代幣的數量可以被視為模型“推理努力程度”(reasoning effort)的一個代理指標。這似乎表明,在模型的“認知”中,中間方向(如“東北”)因為是由兩個基本方向復合而成,所以需要更復雜的處理步驟。
- 錯誤答案消耗更多“思考”:更令人驚訝的是,如圖 4 所示,對于?
?o1???、??o3-mini High??? 和??Deepseek R1?? 這三個 LRM,它們在給出錯誤答案時,消耗的推理代幣中位數反而顯著高于給出正確答案時。這顛覆了我們直覺上的“思考越久、答案越準”的印象。一種可能的解釋是,當模型遇到難題時,它會陷入一種無效的、冗長的“思考循環”中,消耗了大量計算資源,但最終卻得出了錯誤的結論。這為我們觀察和理解 LLM 的“思維”過程提供了一個全新的、量化的視角。


(圖 2, 圖 3, 圖 4)
3.3 多維度變量下的性能波動:泛化能力的“試金石”
該研究最精彩的部分,莫過于對不同變量如何影響模型性能的深入剖析(如圖 5 所示)。這部分結果是衡量模型是否真正具備抽象推理能力的關鍵。
- 基數方向 vs. 中間方向:幾乎所有模型在處理基本基數方向時都比中間基數方向表現更好。研究者將其與人類認知中的“傾斜效應”(oblique effect,即人類對水平和垂直方向的感知比對傾斜方向更敏銳)進行了類比。但他們也提出了一個更符合 LLM 特點的解釋:在英語等許多語言中,中間方向的名稱是由兩個基本方向的詞匯復合而成(如 "north-east"),這種語言上的復雜性可能直接導致了模型在處理上的困惑。
- 人稱形式(Person Form):頂級模型(如?
?o1???)在不同人稱下的表現非常穩定,其在雷達圖上呈現出近乎完美的“同心六邊形”,顯示出良好的泛化能力。然而,性能較差的模型(如??Llama-3-70b??? 和??Mistral-24B???)則表現出明顯的波動。特別值得注意的是,??GPT-3.5T?? 等模型在處理“She is”(她是)時的準確率低于“He is”(他是),這清晰地揭示了模型可能從訓練數據中習得并放大了性別偏見。 - 運動方式(Locomotion Form):如前所述,這個變量在邏輯上是無關的。頂級模型的表現再次印證了其強大的泛化能力,在雷達圖上形成了規則的“同心十邊形”。但其他模型,特別是?
?Deepseek-chat??? 和??Mistral-small-24b???,則在不同運動方式下表現出顯著的性能起伏。例如,??Mistral??? 在“徒步”(hiking)上的表現優于??Llama-3-70b??,但在其他方面則不然。這種對無關信息的敏感性,是模型尚未形成真正抽象推理能力的有力證據。 - 問題模板(Question Template):這是最具戲劇性的結果。
a.T4 模板的“集體滑鐵盧”:幾乎所有模型在處理 T4(道路場景)時,準確率都出現了斷崖式下跌,遠遠差于其他五個模板。這表明模型處理線性對象和面狀對象的空間關系時,可能采用了完全不同且效果更差的內部機制。
b.GPT-4.5-preview 的驚天異象:??openai-gpt-4.5-preview-2025-02-27?? 這個模型表現出了極度異常的行為:它在 T1, T2, T3, T5, T6 這五個模板上的準確率是 100%,但在 T4 上的準確率是 0%!這種“全對或全錯”的二極管式表現,在概率模型中幾乎是不可能的。研究者據此提出了一個合理的懷疑:該模型很可能在訓練數據中“見過”這個基準測試集(或其早期版本),從而“記住”了大部分問題的答案,但唯獨在 T4 這個最棘手的模板上未能成功泛化或記憶。這一發現對整個 LLM 評測生態提出了嚴峻的挑戰——如何確保評測的“純潔性”,防止“數據污染”?
c.細微變化的敏感性:T2 相較于 T1 增加了“轉身”的動作,導致了所有模型準確率的輕微下降。T5/T6(島嶼)與 T1/T2(湖泊)的答案方向正好相反,研究發現,許多模型最常見的錯誤并非是混淆 180 度(即將島嶼當成湖泊),反而是混淆 90 度,這再次說明模型的錯誤模式并非系統性的邏輯混淆。

(圖 5)
綜合來看,這份詳盡的評測結果如同一面高清的鏡子,映照出當前大語言模型在空間推理能力上的真實面貌:它們在特定模式上表現出色,甚至超越了舊模型,但其知識和能力是“脆弱的”、“有偏見的”,并且在面對與已見模式稍有不同的新情況時,其泛化能力會急劇下降。
四、 討論與展望:從當前局限到未來路徑
在詳盡地呈現了實驗數據之后,研究報告進入了更深層次的討論,并為未來的研究指明了方向。這部分內容濃縮了該研究的核心洞見與長遠價值。
核心結論與反思
研究者首先對整個評測結果進行了總結,得出了幾個關鍵結論:
- 可靠性仍是奢望:沒有任何一個模型能夠完全可靠地進行基數方向推理。即便是準確率高達 0.92 的?
?o1??,也意味著在每 12 個問題中就可能答錯 1 個。在自動駕駛、機器人導航等對安全性要求極高的領域,這樣的錯誤率是不可接受的。 - 泛化能力是最大軟肋:模型無法在“人稱”和“運動方式”這些邏輯無關的變量上實現完全泛化,這是其尚未掌握抽象推理能力的鐵證。它們的“知識”在很大程度上仍與特定的詞匯和語境綁定,而非真正理解了其背后的空間幾何關系。
- LRMs 代表了未來方向:大型推理模型(LRMs)的優異表現,證明了在模型架構和訓練方法上針對“推理”進行優化的路徑是正確且有效的。“推理代幣”的分析也為我們打開了一扇觀察模型“思考”過程的窗戶。
- 基準測試的“污染”警報:?
?GPT-4.5-preview?? 的異常表現是一個強烈的警告信號。隨著 LLM 競爭的白熱化,模型開發者可能會無意或有意地將各種公開的基準測試集納入訓練數據,這將嚴重損害這些基準的評估價值。未來的評測工作必須考慮如何應對這種“數據污染”或“過擬合”問題。
需要進一步研究的九個關鍵問題
該研究不僅診斷了當前的問題,更極具建設性地提出了九個具體的未來研究方向,為該領域的后續發展繪制了一幅清晰的路線圖:
- 優化問題設計:承認當前模板(特別是 T4)可能存在措辭模糊之處,并提出需要設計更清晰、無歧義的評測問題。
- 探索提示策略:本次研究為測定“裸機性能”而排除了提示工程,但未來可以系統研究思維鏈(CoT)、思維樹(ToT)乃至專為空間任務設計的“思維可視化”(Visualization-of-Thought)等策略,能在多大程度上提升模型的推理表現。
- 持續擴大評測范圍:隨著新模型的不斷涌現,需要持續地對它們進行評估,并對現有模型進行微調(fine-tuning)實驗。
- 構建更全面的方向推理基準:目前的測試只涉及絕對的基數方向。未來的基準應擴展到以自我為中心的相對方向(左、右、前、后)和以物體為中心的相對方向。
- 開展跨語言實驗:研究一個非常有趣的問題——對于那些中間基數方向不是由基本方向詞匯復合而成的語言(如芬蘭語、布列塔尼語),LLM 是否還會表現出對中間方向的“處理困難”?這能幫助我們判斷性能瓶頸究竟是源于語言還是源于模型內在的空間表征。
- 建立更廣泛的空間推理基準:將評測范圍從方向推理擴展到拓撲關系(如包含、相交)、距離關系等其他空間推理領域。
- 測試更復雜的場景:引入涉及多個對象的組合推理(如 A 在 B 的東邊,B 在 C 的北邊,問 A 和 C 的關系),以及對運動軌跡的推理。
- 進軍多模態推理:將文本描述與圖像、地圖等視覺信息結合起來,在多模態的設定下考察模型的空間推理能力。
- 連接真實地理與認知偏差:構建基于真實世界地理實體的測試集(如“里諾市在圣地亞哥市的東邊還是西邊?”),并研究 LLM 是否會像人類一樣,表現出某些系統性的認知偏差。
結語
這份對大語言模型基數方向推理能力的再審視,是一次里程碑式的研究。它通過一個前所未有的大規模、精細化、可復現的評測框架,為我們提供了一幅關于當前 LLM 空間認知能力的超高分辨率圖像。
研究結果清晰地表明,盡管 LLM 的發展日新月異,其在看似簡單的空間推理任務上所展現的能力,仍然是局部、脆弱且缺乏泛化性的。它們或許能夠通過強大的模式匹配能力“模仿”推理,但距離真正“理解”物理世界的空間法則,仍有遙遠的距離。
然而,悲觀并非這項研究的主旋律。恰恰相反,通過精確地定位問題、量化能力的邊界,該研究為我們指明了通往更強大、更可靠的人工智能的道路。它所揭示的 LRMs 的潛力、對無關信息的敏感性、對特定模板的“偏科”現象,以及“推理代幣”所反映的“思考”痕跡,都為未來模型的改進提供了寶貴的線索。
最終,這項工作告訴我們,通往通用人工智能(AGI)的征途,需要的不僅僅是更大的模型和更多的數據,更需要像這樣嚴謹、深入、甚至帶有“對抗性”的科學評測。只有不斷地用精心設計的難題去挑戰模型,我們才能真正理解它們的所能與所不能,并最終推動人工智能從“鸚鵡學舌”式的模仿,邁向真正意義上的認知與推理。
參考論文: https://arxiv.org/abs/2507.12059v1
本文轉載自??上堵吟??,作者:一路到底的孟子敬

















