「一只手有幾根手指」,你的GPT-5答對了嗎?
「一只手有幾根手指?」
這個看似簡單的問題,強如 GPT-5 卻并不能總是答對。
今天,CMU 博士生、英偉達 GEAR(通用具身智能體研究)團隊成員 Tairan He(何泰然)向 GPT-5 詢問了這個問題,結果模型回答錯了。

他接著延伸出一個論點:語言雖然是強大的工具,但卻很難完全滿足視覺與機器人領域的需求。
我們更需要以視覺為中心的視覺語言模型(VLM)以及以視覺-動作為中心的 VLA 模型。
看起來,這里 Tairan He 對 Fingers 的定義應該是「包括拇指在內所有的手指」。
在英文語境中(包括柯林斯詞典、詞源詞典等的解釋),Fingers 既可以指代除拇指以外的其余四指,也可以指代包括拇指在內的全部五指。

圖源:柯林斯詞典

圖源:詞源詞典
不只是 GPT-5,推理版本 GPT-5-Thinking 也犯錯了,「包括拇指在內 5 根手指,不包括拇指則 4 根手指」。

此前,在 Grok 4 推出之后,同樣有人用數手指問題來測試它,結果同樣翻車。
實測:
時對時錯,Gemini 2.5 Pro 也未能幸免
有趣的是,在認定手指(finger)包含拇指的前提下,編輯部也去測試了一下,結果發現 GPT-5 居然答對了,而且多次測試均回答正確。



不過,六指圖的中文語境中 GPT-5 卻總是回答錯誤。


我們又在 Gemini 2.5 Pro 上繼續測試,它貼心的單獨統計了 finger 和 thumb,但最終答案是錯的。


可以看到,在面對一些基礎常識性問題尤其存在語言先驗干擾(這里的 finger 本身就有歧義)時,即便是頂尖大模型也頻頻「翻車」。
這說明,模型雖然在語言推理方面很強,但對圖像的基礎視覺理解,包括目標檢測和語義分類等,仍然不夠穩健。模型中的視覺模塊可能并不是真正地「看」懂,而只是利用語言模式去猜。
為何回答不對?如何應對?
Tairan He 在后續評論中提到了謝賽寧團隊去年的一篇論文,這篇論文提出并實踐了一套系統、深入且以視覺為中心的研究與評估方法,展示了如何對多模態大語言模型(MLLM)的視覺基礎能力進行科學、嚴謹的評估。
Tairan He 認為,應該將這種嚴謹的評估思想和方法論應用到 VLA 模型研究中去。

- 論文標題:Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
- 論文地址:https://arxiv.org/pdf/2406.16860
論文指出,當前許多基準測試并不足以真實評估模型核心的視覺能力,部分測試甚至在沒有視覺輸入的情況下也能被解答。
團隊創建了一個名為 CV-Bench 的全新、更專注的基準測試集,專門用于檢驗模型在物體計數、空間關系判斷及深度感知等關鍵且基礎的 2D 和 3D 視覺理解能力,從而建立了一套更嚴格的評估標準。
論文系統性地評估了超過 20 種不同的視覺編碼器,并對訓練策略和數據配比進行了詳盡的研究,其成果如同一本可供參考的「公開食譜」,為領域內的后續工作提供了嚴謹的參照。
謝賽寧也參與了討論,表示多模態大型語言模型中的虛假相關性是一個棘手的基準測試問題。他認為,模型對語言先驗的依賴既是優勢也是陷阱,因為它可能導致模型忽視其他模態,成為一種「捷徑」。
從經濟角度看,這讓公司能在不進行大量實際多模態研究的情況下,宣稱在「多模態推理」上取得成功。然而,當這些系統被應用于機器人等現實世界時,這種捷徑的缺陷就會暴露,并付出巨大代價。

另一項研究也印證這種觀點。實驗顯示,最先進的 VLM 在識別常見物體圖像(例如,知道阿迪達斯標志有 3 條條紋,狗有 4 條腿)的數量時,準確率能達到 100%;但在計算反事實圖像(例如,計算一個有 4 條條紋的類阿迪達斯標志中的條紋數量,或一只 5 條腿的狗的腿數)時,準確率僅有約 17%。
- 項目主頁:https://vlmsarebiased.github.io/
該研究指出,VLM 實際上并不能真的「看到」,它們依賴于記憶的知識而不是視覺分析。

針對這一問題,密歇根大學的博士生 Martin Ziqiao Ma(馬子喬)也詳細闡述了自己的觀點。
他認為關鍵問題在于:用大語言模型來初始化視覺-語言(-動作)模型(VLA),是一個誘人的陷阱,看似取得了進展,但實際上并沒有真正實現突破。大多數基準測試都過于集中在推理和數字領域,而沒有從根本上解決感知問題,尤其是中、低層次的視覺能力。

人類在直覺物理和心理理解上,顯然有著前語言階段的認知根基,例如固體性、連續性、重力等基本原則。
2024 年,他及團隊在構建了 GroundHog 之后,花了一些時間反思 VLM 的核心問題。他再也無法說服自己,僅僅把 CLIP 和 DINO 疊加上幾層投影層就是「將視覺符號化」的終極方案。視覺-語言模型需要更強大的視覺基礎,或許必須從以視覺為中心的視角重新開始。
此后,他暫停 VLM 開發一年并探索了其他方向。并且真正從零開始,他開始研究 3D 基礎模型和視頻擴散模型,并暫時擱置了聯合視覺-語言擴散模型的可能性。他開發了 4D-LRM,目標是在完全沒有語言先驗的情況下,大規模學習 4D 先驗。
這只是第一步。未來某個時候,他會回到 VLM 工程領域。但下一次,他希望自己能先從世界模型入手,再在其之上解鎖語言模塊。
大語言模型什么時候能夠真正理解圖像等視覺信息,而不僅僅把視覺當作語言的附屬輸入?對此你怎么看呢?































