精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-5空間智能大考:簡單任務(wù)稱王,復(fù)雜挑戰(zhàn)平手,所有模型都輸給了人類

人工智能
一項(xiàng)覆蓋31K圖像的實(shí)證研究,為GPT-5的空間智能能力畫出精確坐標(biāo)。它在簡單任務(wù)上遙遙領(lǐng)先,卻在復(fù)雜挑戰(zhàn)前與開源模型并肩受阻。這不僅是對(duì)模型的評(píng)估,更是對(duì)通往AGI之路的深刻洞察。

大家好,我是肆〇柒。今天我們要探討一篇由 DeepMind 聯(lián)合 Stanford HAI(斯坦福以人為本人工智能研究院)共同發(fā)布的重磅實(shí)證研究報(bào)告。這份報(bào)告首次對(duì)GPT-5的空間智能能力進(jìn)行了系統(tǒng)性、標(biāo)準(zhǔn)化的全面評(píng)估,其結(jié)論可能會(huì)更加清晰我們對(duì)當(dāng)前AI能力邊界的認(rèn)知。

想想,當(dāng)一個(gè)機(jī)器人需要在真實(shí)環(huán)境中導(dǎo)航、抓取物體或理解空間關(guān)系時(shí),它依賴的不僅是視覺識(shí)別能力,更是對(duì)物理世界的空間理解與推理能力。這種被稱為"空間智能"的認(rèn)知能力,是實(shí)現(xiàn)真正人工智能(AGI)的關(guān)鍵卻常被忽視的維度。沒有空間智能,具身智能體(embodied agent)將無法完全在物理世界中操作、適應(yīng)或交互。

假設(shè)這樣一個(gè)場(chǎng)景:GPT-5被問及"如果將這張紙按虛線折疊,會(huì)形成什么形狀?"——這個(gè)對(duì)5歲兒童來說輕而易舉的任務(wù),卻讓號(hào)稱最強(qiáng)大的AI模型頻頻出錯(cuò)。 這不是虛構(gòu),而是最新研究中記錄的真實(shí)案例。隨著GPT-5的發(fā)布,這一問題變得尤為緊迫:號(hào)稱最強(qiáng)大AI模型的GPT-5,是否已經(jīng)攻克了這一基礎(chǔ)性難題?基于此,研究團(tuán)隊(duì)構(gòu)建了涵蓋六項(xiàng)基礎(chǔ)能力的評(píng)估體系,在八個(gè)最新發(fā)布的空間智能基準(zhǔn)上測(cè)試了約31K圖像、4.5K視頻和24K問題,總成本超過十億Token。這一嚴(yán)謹(jǐn)?shù)姆椒ㄕ摓榛卮?GPT-5是否實(shí)現(xiàn)空間智能"這一關(guān)鍵問題提供了堅(jiān)實(shí)證據(jù)。

GPT-5在復(fù)雜問題與基礎(chǔ)空間任務(wù)上的表現(xiàn)對(duì)比

上圖:GPT-5在解決人類認(rèn)為復(fù)雜的問題(左)表現(xiàn)出色,但在人類兒童能輕松理解的基礎(chǔ)空間任務(wù)(右)上失敗。

空間智能——通往 AGI 的"最后一公里"

空間理解與推理構(gòu)成了一種關(guān)鍵卻未被充分探索的智能維度,對(duì)實(shí)現(xiàn)人工通用智能(AGI)至關(guān)重要。正如研究明確指出,空間智能可以說是最未被探索的前沿領(lǐng)域之一。沒有空間智能,具身智能體將無法完全在物理世界中操作、適應(yīng)或交互。

空間智能代表著通往AGI道路上的關(guān)鍵瓶頸。沒有強(qiáng)大的空間理解能力,AI系統(tǒng)將僅限于符號(hào)操作,而無法真正理解物理世界。研究發(fā)現(xiàn)表明,克服這一瓶頸不僅需要擴(kuò)展現(xiàn)有架構(gòu),還需要開發(fā)3D表示和推理的根本性新方法。 這提示我們,空間智能的突破可能需要超越當(dāng)前MLLM范式的創(chuàng)新。

盡管多模態(tài)大語言模型(MLLM)近年來取得了顯著進(jìn)展,但即使是當(dāng)前最先進(jìn)的模型,在人類認(rèn)為簡單的空間任務(wù)上仍頻頻失敗。最新研究表明,空間智能(Spatial Intelligence, SI)是一項(xiàng)根本性不同的技能,與主流基準(zhǔn)測(cè)量的多模態(tài)能力相比具有獨(dú)特挑戰(zhàn)性。

隨著GPT-5的發(fā)布,整個(gè)AI圈自然好奇:它在這一維度上的表現(xiàn)如何?是否已經(jīng)實(shí)現(xiàn)了空間智能?一篇題為《Has GPT-5 Achieved Spatial Intelligence? An Empirical Study》的技術(shù)報(bào)告首次通過系統(tǒng)性、標(biāo)準(zhǔn)化的實(shí)證研究,對(duì)這一問題給出了嚴(yán)謹(jǐn)回答。

方法論:構(gòu)建統(tǒng)一的評(píng)估框架

六維能力模型:空間智能的科學(xué)解構(gòu)

現(xiàn)有空間智能評(píng)估基準(zhǔn)往往關(guān)注不同方面,并采用各異的分類體系。為整合這些分散的研究,該論文提煉出六項(xiàng)基礎(chǔ)能力,構(gòu)建了空間智能的統(tǒng)一評(píng)估框架:

六項(xiàng)空間智能基礎(chǔ)能力

  • MM(度量測(cè)量,Metric Measurement):從2D觀察推斷3D維度(如度量深度或長度)。由于缺乏相機(jī)內(nèi)參時(shí)這一推斷本質(zhì)上是模糊的,合理的估計(jì)反映了對(duì)物理尺度和典型物體尺寸的理解。
  • MR(心理重構(gòu),Mental Reconstruction):從一個(gè)或多個(gè)受限視角推斷物體的精細(xì)幾何結(jié)構(gòu),要求模型從有限2D觀察中推斷完整3D結(jié)構(gòu)并有時(shí)進(jìn)行虛擬操作。這類技能賦能現(xiàn)實(shí)工程應(yīng)用,包括解釋或生成三視圖。
  • PT(視角轉(zhuǎn)換,Perspective Taking):理解并推理不同視角之間的關(guān)系,包括相機(jī)-相機(jī)、物體-物體、區(qū)域-區(qū)域等視角轉(zhuǎn)換。這是具身智能體理解物理世界的基礎(chǔ)能力。
  • SR(空間關(guān)系,Spatial Relations):識(shí)別和理解物體之間的空間關(guān)系(如"在...上面"、"在...前面"等)。
  • DA(形變與裝配,Deformation and Assembly):理解物體形狀的變形(如折紙)和結(jié)構(gòu)的組裝(如積木搭建)。
  • CR(綜合推理,Comprehensive Reasoning):結(jié)合多種空間能力進(jìn)行復(fù)雜推理,如計(jì)算被遮擋物體數(shù)量、理解多步空間變換等。

這一六維框架將此前碎片化的評(píng)估基準(zhǔn)整合為系統(tǒng)性科學(xué)評(píng)估體系,為比較不同模型的空間能力提供了共同語言。圖2直觀展示了六項(xiàng)能力的層次關(guān)系,從基礎(chǔ)的MM(度量測(cè)量)到高級(jí)的CR(綜合推理),構(gòu)成一個(gè)遞進(jìn)的能力金字塔。值得注意的是,MR(心理重構(gòu))和PT(視角轉(zhuǎn)換)作為中間層能力,是連接基礎(chǔ)測(cè)量與高級(jí)推理的關(guān)鍵樞紐。

嚴(yán)謹(jǐn)?shù)脑u(píng)估協(xié)議:避免評(píng)估陷阱

研究評(píng)估了八項(xiàng)最新空間智能基準(zhǔn):VSI-Bench、SITE、MMSI、OmniSpatial、MindCube、STARE、CoreCognition和SpatialViz。這些基準(zhǔn)均在2024-2025年發(fā)布,反映了該領(lǐng)域研究的最新進(jìn)展。

空間智能評(píng)估基準(zhǔn)的關(guān)鍵要素

為確保評(píng)估的可靠性和公平性,研究團(tuán)隊(duì)建立了嚴(yán)格的評(píng)估協(xié)議。包括:

標(biāo)準(zhǔn)化提示(System Prompts):不同基準(zhǔn)采用不同的系統(tǒng)提示,而提示對(duì)模型性能影響顯著。為最大化模型空間推理能力,研究采用OmniSpatial提出的零樣本思維鏈(zero-shot CoT)方法,并遵循SpatialViz指定的答案模板。

Chance-Adjusted Accuracy (CAA)指標(biāo):研究采用CAA消除隨機(jī)猜測(cè)的混淆效應(yīng),確保評(píng)估不受選項(xiàng)數(shù)量影響,使不同基準(zhǔn)間的結(jié)果具有可比性。CAA通過數(shù)學(xué)公式校正結(jié)果,其中是隨機(jī)猜測(cè)的準(zhǔn)確率。

答案匹配方法:采用三步匹配流程:1)初始基于規(guī)則的匹配:提取"<answer></answer>"標(biāo)簽內(nèi)的答案;2)擴(kuò)展基于規(guī)則的匹配:若第一步失敗,使用額外模式如"<answer>"、"Answer:"等;3)LLM輔助提取:對(duì)規(guī)則方法失敗的情況,使用LLM提取答案。

循環(huán)測(cè)試(Circular Testing):為確保評(píng)估的穩(wěn)健性,研究團(tuán)隊(duì)對(duì)所有適用的基準(zhǔn)進(jìn)行了循環(huán)測(cè)試,通過測(cè)量同一圖像在多次旋轉(zhuǎn)下的性能,區(qū)分真正的空間理解與對(duì)答案選項(xiàng)位置的偏見。這一方法揭示了許多模型表面上的空間能力實(shí)際上主要?dú)w因于識(shí)別答案位置模式,而非真正的空間推理。硬循環(huán)評(píng)分作為更嚴(yán)格的任務(wù)能力度量,能有效揭示模型是否真正理解任務(wù),而非依賴選項(xiàng)位置的隨機(jī)猜測(cè)。

MindCube-Tiny的選擇:MindCube包含21K問題,但其三個(gè)子集(among、around、rotation)分布不均,其中'among'子集包含18K問題。因此,研究采用MindCube-Tiny進(jìn)行測(cè)試,包含1,050個(gè)QA對(duì)(among:around:rotatinotallow= 600:250:200)和428個(gè)獨(dú)特圖像。

評(píng)估總計(jì)涉及約31K圖像、4.5K視頻和24K問題,總成本超過十億Token。這種大規(guī)模、標(biāo)準(zhǔn)化的評(píng)估為結(jié)論提供了堅(jiān)實(shí)的統(tǒng)計(jì)基礎(chǔ),避免了小樣本評(píng)估可能帶來的偏差,也克服了不同基準(zhǔn)間評(píng)估方法差異帶來的可比性問題。

GPT-5與其他模型在空間智能基準(zhǔn)測(cè)試上的性能對(duì)比,展示了其在多數(shù)任務(wù)上的領(lǐng)先優(yōu)勢(shì),但在某些任務(wù)上與人類仍有顯著差距。

核心發(fā)現(xiàn):GPT-5 的能力全景與領(lǐng)域共性瓶頸

GPT-5 確立新 SOTA

研究結(jié)果顯示,GPT-5在空間智能方面確立了新的最先進(jìn)水平(state of the art),在絕大多數(shù)基準(zhǔn)上超越了Gemini-2.5-pro和InternVL3等強(qiáng)大基線。它在SITE、MindCube和STARE的大多數(shù)子類別中展現(xiàn)出明顯優(yōu)勢(shì),同時(shí)在其他基準(zhǔn)上保持高度競爭力。

在基礎(chǔ)幾何測(cè)量方面,GPT-5展現(xiàn)出前所未有的能力,甚至在某些MM子任務(wù)上超越了人類。如附錄B.2所示,在VSI-Bench基準(zhǔn)中,GPT-5在"物體尺寸"和"房間尺寸"任務(wù)上的表現(xiàn)已超過人類水平(人類:47.0和45.9分;GPT-5:50.53和63.73分),僅在"絕對(duì)距離"任務(wù)上略遜于人類(人類:94.3分;GPT-5:53.61分)。這一突破表明GPT-5可能通過大規(guī)模訓(xùn)練獲得了強(qiáng)大的幾何先驗(yàn)知識(shí),類似于人類依賴典型物體尺寸的啟發(fā)式假設(shè)。

GPT-5在SR任務(wù)上也表現(xiàn)優(yōu)異,在SITE和CoreCognition基準(zhǔn)的多個(gè)子任務(wù)中達(dá)到或接近人類水平。例如在SITE的"Counting & Existence"和"3D Information Understanding"任務(wù)上,GPT-5分別達(dá)到66.45和73.34分,與人類表現(xiàn)(66和83.3分)相當(dāng)。然而,值得注意的是,SITE是唯一一個(gè)報(bào)告人類表現(xiàn)約為67.5分的基準(zhǔn),而其他基準(zhǔn)的人類表現(xiàn)多在75分以上甚至接近90分,這凸顯了跨基準(zhǔn)比較的復(fù)雜性。

人類性能鴻溝依然顯著

盡管GPT-5在空間智能方面取得了顯著進(jìn)步,但研究明確指出,它仍未實(shí)現(xiàn)真正的空間智能。在多項(xiàng)基礎(chǔ)能力上,GPT-5與人類表現(xiàn)仍有明顯差距:

  • 心理重構(gòu)(MR):在8個(gè)基準(zhǔn)中的3個(gè)上表現(xiàn)不佳,特別是在SpatialViz的Mental Rotation和Mental Folding任務(wù)上,GPT-5僅得42.50和28.75分,遠(yuǎn)低于人類的90.00和79.16分
  • 視角轉(zhuǎn)換(PT):在8個(gè)基準(zhǔn)中的6個(gè)上存在明顯差距,在MMSI、OmniSpatial、STARE和CoreCognition中,PT任務(wù)與人類表現(xiàn)之間的差距尤為顯著
  • 綜合推理(CR):在8個(gè)基準(zhǔn)中的3個(gè)上表現(xiàn)欠佳,特別是在MMSI和SpatialViz中,模型在需要多階段推理的任務(wù)上表現(xiàn)薄弱
  • 形變與裝配(DA):在SpatialViz基準(zhǔn)上表現(xiàn)尤其薄弱,Paper Folding任務(wù)僅得28.81分(人類98.6分),差距達(dá)69.79分

特別是在MMSI這一高挑戰(zhàn)性、綜合性基準(zhǔn)上,即使是GPT-5也遠(yuǎn)未達(dá)到人類水平。MMSI要求模型處理7種類型的視角轉(zhuǎn)換(包括相機(jī)-相機(jī)、物體-物體、區(qū)域-區(qū)域等),這種綜合性使其成為真正的"壓力測(cè)試"。在OmniSpatial、STARE、CoreCognition和SpatialViz中,空間智能任務(wù)與人類表現(xiàn)之間的差距明顯大于非空間智能任務(wù)。這表明空間智能任務(wù)對(duì)當(dāng)前多模態(tài)模型構(gòu)成了獨(dú)特挑戰(zhàn)。

任務(wù)難度決定優(yōu)勢(shì)格局:簡單任務(wù)與復(fù)雜任務(wù)的模型表現(xiàn)差異

讓我們來理解一個(gè)非常有意思的發(fā)現(xiàn):AI模型在空間智能任務(wù)上的表現(xiàn)并非一成不變,而是取決于任務(wù)的難度。

想象一下,如果讓AI模型玩不同難度的拼圖游戲:

  • 簡單拼圖:只有幾塊大塊,圖案清晰
  • 復(fù)雜拼圖:數(shù)百塊小碎片,圖案模糊

研究發(fā)現(xiàn)了一個(gè)關(guān)鍵規(guī)律:在簡單任務(wù)上,商業(yè)閉源模型(如GPT-5)明顯優(yōu)于開源模型;但在真正復(fù)雜的任務(wù)上,所有模型都表現(xiàn)不佳,看上去差距大大縮小。

為什么會(huì)出現(xiàn)這種現(xiàn)象?

這就像讓不同水平的學(xué)生解數(shù)學(xué)題:對(duì)于基礎(chǔ)算術(shù)題(簡單任務(wù)),優(yōu)等生(GPT-5)能輕松得滿分,而普通學(xué)生(開源模型)可能得80分;但對(duì)于高難度的微積分題(復(fù)雜任務(wù)),即使是優(yōu)等生也只能得30分,普通學(xué)生得25分——兩者的差距從20分縮小到了5分

在空間智能領(lǐng)域,這種現(xiàn)象尤為明顯。研究團(tuán)隊(duì)測(cè)試了多種空間任務(wù),發(fā)現(xiàn):在簡單的空間判斷任務(wù)上,GPT-5等商業(yè)模型確實(shí)遙遙領(lǐng)先;但在需要綜合空間能力的高難度任務(wù)上(如理解物體被遮擋的部分、進(jìn)行多步空間變換等),所有模型——無論是否商業(yè)閉源——都表現(xiàn)不佳,且差距很小

一個(gè)典型例子:MindCube旋轉(zhuǎn)任務(wù)

為了更清楚地理解,讓我們看看MindCube的"旋轉(zhuǎn)"任務(wù)是什么。MindCube是一個(gè)評(píng)估空間智能的重要基準(zhǔn)測(cè)試,它包含三個(gè)主要子任務(wù):

  • Among(位置關(guān)系):判斷物體是否在其他物體"之間"
  • Around(環(huán)繞關(guān)系):判斷物體是否"環(huán)繞"其他物體
  • Rotation(旋轉(zhuǎn)判斷):判斷圖像旋轉(zhuǎn)了多少度

在Rotation任務(wù)中,模型看到的是同一個(gè)物體從不同角度拍攝的圖像,需要判斷圖像旋轉(zhuǎn)了90度還是180度。關(guān)鍵點(diǎn)在于:這個(gè)任務(wù)中"相機(jī)位置固定不動(dòng),僅原地旋轉(zhuǎn)",就像你把手機(jī)平放在桌上,然后原地轉(zhuǎn)動(dòng)它拍照,而不是圍繞物體走動(dòng)拍照。

這意味著模型不需要理解空間視角轉(zhuǎn)換,只需判斷圖像旋轉(zhuǎn)了90度還是180度——就像判斷一張照片是正著還是倒著。對(duì)人類來說,這太簡單了!GPT-5在這一任務(wù)上得分高達(dá)93.33分,看起來非常出色。

然而,真正的空間智能挑戰(zhàn)是這樣的:想象你站在房間一角,看到一個(gè)物體;然后你走到房間另一角,再看同一個(gè)物體。這時(shí),物體在圖像中的位置和形狀都發(fā)生了變化,你需要理解這是同一個(gè)物體,只是視角變了。這種需要在腦海中進(jìn)行視角轉(zhuǎn)換的能力,才是真正的空間智能。

所以,這就像只轉(zhuǎn)動(dòng)你的頭而不移動(dòng)位置看同一個(gè)物體,與實(shí)際在空間中移動(dòng)觀察物體有本質(zhì)區(qū)別。

為什么這個(gè)發(fā)現(xiàn)如此重要?

這一發(fā)現(xiàn)對(duì)AI研究社區(qū)具有重大意義:

  • 開源社區(qū)的機(jī)遇:在空間智能的最前沿領(lǐng)域,開源模型與閉源模型表現(xiàn)相當(dāng),這意味著開源社區(qū)有平等的機(jī)會(huì)取得突破
  • 研究方向的啟示:如果所有頂級(jí)模型在最難任務(wù)上都表現(xiàn)不佳,說明這不是簡單的數(shù)據(jù)或算力問題,而是需要根本性的方法創(chuàng)新
  • 避免誤判AI能力:不能因?yàn)槟P驮诤唵稳蝿?wù)上表現(xiàn)好,就認(rèn)為它真正理解了空間概念

也就是說,任務(wù)難度就像一把尺子,能更準(zhǔn)確地衡量模型的真實(shí)空間智能水平。當(dāng)任務(wù)足夠復(fù)雜時(shí),那些看似強(qiáng)大的模型優(yōu)勢(shì)就會(huì)消失,暴露出所有模型共同面臨的基礎(chǔ)性挑戰(zhàn)。

推理深度的雙刃劍效應(yīng)

研究通過消融實(shí)驗(yàn)考察了GPT-5的"thinking mode"對(duì)性能的影響。在SpatialViz-Tiny測(cè)試集上,四種推理模式(Minimal、Low、Medium、High)的結(jié)果顯示:

  • Minimal模式:準(zhǔn)確率48.31%,推理token為0
  • Low模式:準(zhǔn)確率54.24%,平均推理token 1899
  • Medium模式:準(zhǔn)確率56.78%,平均推理token 5860
  • High模式:準(zhǔn)確率52.54%,平均推理token 8567(排除超時(shí)/截?cái)鄦栴}后為68.89%)

這一結(jié)果表明,適度的推理能提升性能,證明了鏈?zhǔn)酵评淼挠行浴H欢贖igh模式下,28個(gè)問題(占118個(gè)測(cè)試問題的23.7%)因超過15分鐘時(shí)間限制或達(dá)到token上限而被計(jì)為錯(cuò)誤,導(dǎo)致準(zhǔn)確率下降。這暴露了當(dāng)前架構(gòu)在執(zhí)行長程、復(fù)雜空間推理任務(wù)時(shí)的穩(wěn)定性缺陷,是導(dǎo)致CR任務(wù)表現(xiàn)不佳的重要原因。

這一發(fā)現(xiàn)具有重要啟示:空間推理不僅需要深度思考,還需要在思考深度與執(zhí)行穩(wěn)定性之間取得平衡。當(dāng)前模型在Medium模式下達(dá)到最佳性能,暗示著未來模型設(shè)計(jì)需要優(yōu)化推理過程的穩(wěn)定性和效率,而非簡單增加推理深度。

案例分析:GPT-5 的空間認(rèn)知局限

MR4:心理重構(gòu)的根本缺陷

MR4:GPT-5在心理重構(gòu)任務(wù)中的失敗案例-無法正確推斷3D結(jié)構(gòu)的俯視投影

在"根據(jù)前視圖、側(cè)視圖和俯視圖重建3D結(jié)構(gòu)"的任務(wù)中,GPT-5選擇了A,而正確答案是B。該任務(wù)要求模型理解3D立方體結(jié)構(gòu)的俯視投影,但模型似乎無法正確推斷隱藏面的幾何關(guān)系。

從GPT-5的思維過程可見,它嘗試分析3D結(jié)構(gòu):

然鵝,它錯(cuò)誤地認(rèn)為"Option A correctly shows green above orange",而實(shí)際上在正確答案B中,綠色方塊應(yīng)位于L形結(jié)構(gòu)的頂部角落。

這一錯(cuò)誤表明GPT-5未能正確理解立方體堆疊的空間約束——它無法在心理上模擬3D結(jié)構(gòu)的投影變換,僅能進(jìn)行表面的模式匹配。這種根本性局限揭示了模型缺乏真正的3D心智模型構(gòu)建能力,無法在腦海中進(jìn)行動(dòng)態(tài)的空間操作。

PT6:視角轉(zhuǎn)換的根本局限

PT6:GPT-5在視角轉(zhuǎn)換任務(wù)中的失敗案例-誤判相機(jī)移動(dòng)方向

在這一任務(wù)中,模型需要根據(jù)視頻前后幀判斷相機(jī)運(yùn)動(dòng)方向。

人類能輕松看出相機(jī)向左移動(dòng),但GPT-5判斷為向右。從其思維過程可見:"In the first image, we see more of the label's left side and a small circle '72'. In the second image, the front label ('每益添') faces more towards us. This suggests the camera moved clockwise to the right, revealing more of the bottle's front."

GPT-5錯(cuò)誤地將物體在圖像中的相對(duì)位置變化解讀為相機(jī)向右移動(dòng),而實(shí)際上相機(jī)向左移動(dòng)會(huì)導(dǎo)致右側(cè)物體更突出。這與人類的空間推理能力形成鮮明對(duì)比——人類能直觀理解視角變化與物體空間位置的關(guān)系。

DA7/8:形變與裝配的認(rèn)知斷層

DA7/8:GPT-5在形變與裝配任務(wù)中的失敗案例-折紙與結(jié)構(gòu)組裝

在"將2D形狀折疊成3D立方體"(DA7)和"旋轉(zhuǎn)并組合3D結(jié)構(gòu)"(DA8)任務(wù)中,GPT-5均表現(xiàn)不佳。這些任務(wù)要求模型理解形狀的變形和結(jié)構(gòu)關(guān)系,但模型似乎無法在心理上模擬這一過程。

在DA7任務(wù)中,GPT-5選擇Image 2而非正確的Image 4。從思維過程可見,它嘗試分析折疊過程:"The correct option is the one where the triangle is not mirrored across the pivot edge."

然而,它未能正確理解展開圖中各面的空間對(duì)應(yīng)關(guān)系,特別是忽略了立方體折疊時(shí)相鄰面的約束條件。

在DA8任務(wù)中,GPT-5錯(cuò)誤地認(rèn)為"Which of A, B, C is possible to be built when rotating and combining the two 3D structure in image 1? Answer: B",而正確答案是C。

這表明模型缺乏對(duì)剛體變換和結(jié)構(gòu)約束的深層理解,無法正確模擬3D結(jié)構(gòu)的組合過程。

這些失敗共同揭示了一個(gè)核心問題:當(dāng)前MLLMs的根本局限在于無法構(gòu)建和操作持久的3D心智模型。雖然它們?cè)谀J阶R(shí)別和符號(hào)推理方面表現(xiàn)出色,但缺乏人類空間智能所具有的動(dòng)態(tài)空間模擬能力。 這種能力缺失使它們?cè)谛枰呱砘J(rèn)知的任務(wù)上表現(xiàn)不佳,而這些任務(wù)對(duì)人類來說往往是直覺性的。

CR9:綜合推理的短板

CR9:GPT-5在綜合推理任務(wù)中的失敗案例-無法推斷被遮擋方塊

在計(jì)算部分被遮擋物體數(shù)量的任務(wù)中,GPT-5能識(shí)別可見方塊,但無法推斷被遮擋方塊的存在。人類能通過空間推理推斷出總共8個(gè)方塊,而GPT-5只識(shí)別出9個(gè)可見方塊(實(shí)際應(yīng)為8個(gè),GT標(biāo)注為8)。

從GPT-5的思維過程可見,它能夠描述可見結(jié)構(gòu):"I can see nine cubes in the image..."但它未能進(jìn)一步推理被遮擋部分:"I cannot see any cubes behind the visible ones."

這種局限性表明模型在多階段空間推理、擴(kuò)展記憶和邏輯推導(dǎo)方面存在根本缺陷,特別是在需要構(gòu)建完整3D場(chǎng)景表示的任務(wù)上。 這解釋了為什么GPT-5在CR9任務(wù)中能夠識(shí)別可見方塊,卻無法推斷被遮擋方塊的存在——它缺乏構(gòu)建完整3D場(chǎng)景表示的能力。

值得注意的是,當(dāng)提供視覺模擬(VSim)時(shí),GPT-5在STARE的Cube Net任務(wù)上表現(xiàn)顯著提升(從47.06分提升至88.89分)。這表明適當(dāng)?shù)囊曈X輔助能有效彌補(bǔ)模型的空間推理缺陷,也暗示了未來改進(jìn)方向:結(jié)合更強(qiáng)的視覺表示與空間推理能力。

總結(jié):從評(píng)估到進(jìn)化

研究清晰地展示出GPT-5在空間智能領(lǐng)域的全景:在MM(度量測(cè)量)和SR(空間關(guān)系)任務(wù)上,它已接近甚至超越人類水平;但在MR(心理重構(gòu))、PT(視角轉(zhuǎn)換)、DA(形變與裝配)和CR(綜合推理)這四項(xiàng)核心能力上,與人類表現(xiàn)仍有顯著差距,特別是在MMSI和SpatialViz等高挑戰(zhàn)性基準(zhǔn)上。

尤為關(guān)鍵的是,研究揭示了"任務(wù)難度決定優(yōu)勢(shì)格局"的現(xiàn)象——在最困難的空間任務(wù)上,閉源模型并未展現(xiàn)出決定性優(yōu)勢(shì),這為開源社區(qū)提供了平等的突破機(jī)會(huì)。

表14 GPT-5在SpatialViz基準(zhǔn)上的表現(xiàn)與人類差距

上表:GPT-5在SpatialViz基準(zhǔn)上的表現(xiàn),展示了其在心理重構(gòu)(MR)、形變與裝配(DA)等關(guān)鍵空間能力上與人類的巨大差距,特別是在復(fù)雜任務(wù)如Mental Folding(人類90.00分 vs GPT-5 28.75分)上。

簡而言之,GPT-5在空間智能方面的真實(shí)表現(xiàn)可以總結(jié)為:

  1. 它在基礎(chǔ)測(cè)量任務(wù)上表現(xiàn)出色,甚至在某些MM任務(wù)上超越人類,表明其已獲得強(qiáng)大的幾何先驗(yàn)知識(shí)
  2. 但在需要構(gòu)建3D心智模型的核心任務(wù)上,它仍然落后,特別是在心理重構(gòu)、視角轉(zhuǎn)換、形變與裝配和綜合推理方面
  3. 任務(wù)難度決定了模型優(yōu)勢(shì):在簡單任務(wù)上GPT-5領(lǐng)先明顯,但在最具挑戰(zhàn)性的任務(wù)上,所有模型都面臨相似的局限
  4. 推理深度需要平衡:過度思考反而導(dǎo)致性能下降,揭示了當(dāng)前架構(gòu)在執(zhí)行長程空間推理時(shí)的穩(wěn)定性缺陷

這一研究揭示了空間智能領(lǐng)域的幾個(gè)關(guān)鍵點(diǎn):

空間智能的根本瓶頸是領(lǐng)域共性難題,而非簡單的資源或數(shù)據(jù)壁壘。研究發(fā)現(xiàn),在復(fù)雜的語音識(shí)別(SI)任務(wù)中,專有模型并沒有顯示出比開源模型顯著的優(yōu)勢(shì)。這一發(fā)現(xiàn)可能重塑空間智能研究的格局。在MMSI、OmniSpatial、STARE和SpatialViz等最具挑戰(zhàn)性的基準(zhǔn)上,所有先進(jìn)模型都面臨相似的局限。

任務(wù)難度決定了模型優(yōu)勢(shì)格局。在低難度任務(wù)上,閉源模型優(yōu)勢(shì)明顯;但在高難度任務(wù)上,所有模型都面臨根本性挑戰(zhàn)。這一發(fā)現(xiàn)提示我們,空間智能可能需要超越當(dāng)前MLLM架構(gòu)的特定能力,如真正的3D心智模型構(gòu)建。

推理深度與穩(wěn)定性需要平衡。GPT-5的消融研究表明,適度的推理能提升性能,但過度推理反而導(dǎo)致穩(wěn)定性下降。這對(duì)未來模型設(shè)計(jì)具有重要啟示:空間推理不僅需要深度思考,還需要優(yōu)化推理過程的效率和可靠性。

基于這些發(fā)現(xiàn),未來:

開發(fā)顯式3D心智模型表示:未來研究應(yīng)致力于在MLLMs中開發(fā)顯式的3D心智模型表示,使模型能夠構(gòu)建和操作物理世界的內(nèi)部表征。這需要突破當(dāng)前架構(gòu)的限制,實(shí)現(xiàn)真正的3D空間表征能力。

設(shè)計(jì)針對(duì)性訓(xùn)練目標(biāo):應(yīng)設(shè)計(jì)專門針對(duì)空間推理能力的訓(xùn)練目標(biāo),而非依賴通用多模態(tài)訓(xùn)練。這可能包括空間關(guān)系預(yù)測(cè)、視角轉(zhuǎn)換任務(wù)和3D結(jié)構(gòu)重建等特定任務(wù)。研究表明,通用訓(xùn)練不足以發(fā)展出強(qiáng)大的空間推理能力。

整合基于物理的模擬:將基于物理的模擬與空間推理相結(jié)合顯示出巨大潛力。研究已證明,當(dāng)提供視覺模擬輸入時(shí),GPT-5在Cube Net任務(wù)上的表現(xiàn)顯著提升(從47.06分提升至88.89分),這為未來研究指明了方向。物理模擬可以作為模型空間推理的"外掛",彌補(bǔ)其內(nèi)在能力的不足。

采納標(biāo)準(zhǔn)化評(píng)估:研究提出的六維能力框架和公平評(píng)估協(xié)議為領(lǐng)域提供了重要基礎(chǔ)。采納這些標(biāo)準(zhǔn)將促進(jìn)可比、可復(fù)現(xiàn)和累積性的研究進(jìn)展,避免"基準(zhǔn)過擬合"問題。未來研究應(yīng)關(guān)注任務(wù)難度的梯度設(shè)計(jì),區(qū)分基礎(chǔ)能力和高級(jí)能力。

這項(xiàng)研究的發(fā)現(xiàn)為不同領(lǐng)域的實(shí)踐者提供了清晰的指引。對(duì)于AI研究者,GPT-5在復(fù)雜空間任務(wù)上的局限表明,單純擴(kuò)大模型規(guī)模已接近瓶頸,未來的關(guān)鍵在于讓模型具備構(gòu)建和操作3D心智模型的能力。對(duì)開源社區(qū)而言,研究發(fā)現(xiàn)頂尖模型在最難任務(wù)上差距不大,這意味著開源項(xiàng)目在空間智能的前沿探索中擁有與閉源模型同等的機(jī)遇,創(chuàng)新和協(xié)作可能成為突破的關(guān)鍵。對(duì)于應(yīng)用開發(fā)者,研究提醒我們,在機(jī)器人或AR/VR等依賴空間理解的場(chǎng)景中,不應(yīng)完全依賴模型的推理能力;引入視覺輔助或簡化任務(wù)流程是當(dāng)前更可靠的解決方案。對(duì)于所有關(guān)注AI進(jìn)展的人,理解AI在基礎(chǔ)空間任務(wù)上的這些根本性局限,有助于我們更客觀地看待其能力,避免被過度宣傳所誤導(dǎo),從而更理性地評(píng)估技術(shù)發(fā)展的現(xiàn)狀與未來。

空間智能作為通往AGI道路上的關(guān)鍵瓶頸。沒有強(qiáng)大的空間理解能力,AI系統(tǒng)將僅限于符號(hào)操作,而無法真正理解物理世界。這項(xiàng)研究最大的價(jià)值,在于清晰揭示了AI空間認(rèn)知的"卡殼點(diǎn)":GPT-5能解復(fù)雜的數(shù)學(xué)題,卻搞不定一張折紙;能寫文章、編代碼,卻數(shù)不清被遮擋的方塊。這種反差表明,AI智能并非單一維度,而是由多個(gè)能力模塊組成的拼圖。當(dāng)前AI在語言和知識(shí)領(lǐng)域已堆砌得很高,但空間認(rèn)知能力仍顯薄弱。

問題的核心在于:當(dāng)前MLLM的根本局限是無法構(gòu)建和操作持久的3D心智模型。雖然它們?cè)谀J阶R(shí)別和符號(hào)推理方面表現(xiàn)出色,但缺乏人類空間智能所具有的動(dòng)態(tài)空間模擬能力。它們更像是"猜"答案而非"想"出答案,沒有能在腦海中反復(fù)操作、推演的"3D小模型"。

然而,這一局限也帶來了希望:當(dāng)任務(wù)難度達(dá)到最高時(shí),閉源與開源模型的差距顯著縮小,所有模型都面臨相似的挑戰(zhàn)。這表明空間智能的突破不在于算力堆砌,而在于創(chuàng)新性的架構(gòu)設(shè)計(jì)。這為研究社區(qū)提供了公平的競技場(chǎng),無論資源多寡,都有機(jī)會(huì)在這一關(guān)鍵領(lǐng)域取得突破。

未來的突破點(diǎn)可能在于三個(gè)方向:開發(fā)顯式的3D心智模型表示、設(shè)計(jì)專門針對(duì)空間推理的訓(xùn)練目標(biāo),以及整合基于物理的模擬。特別是當(dāng)視覺模擬與空間推理結(jié)合時(shí)展現(xiàn)出的巨大潛力(如Cube Net任務(wù)中從47.06分提升至88.89分),提示我們物理模擬可作為彌補(bǔ)模型內(nèi)在能力不足的有效"外掛"。

當(dāng)AI能夠像人類一樣自然地理解并推理物理空間時(shí),它將不再僅僅是信息處理工具,而成為能在現(xiàn)實(shí)世界中自如行動(dòng)的智能伙伴。跨越空間智能這一關(guān)鍵障礙,或許是通往真正AGI的必經(jīng)之路。這項(xiàng)研究不僅評(píng)估了當(dāng)前技術(shù)的邊界,更為未來研究鋪設(shè)了道路——當(dāng)AI能夠真正理解并推理物理世界時(shí),它將開啟人機(jī)協(xié)作的新時(shí)代。

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2025-08-14 09:31:24

GPT-5AI

2025-09-10 08:31:00

2024-01-09 12:53:16

模型訓(xùn)練

2025-09-16 09:05:14

2022-04-02 10:18:04

AI棋牌程序

2025-06-19 09:06:00

2024-04-01 00:50:00

吳恩達(dá)智能體

2025-11-10 09:15:43

2025-08-13 08:55:00

大模型AI數(shù)據(jù)

2024-01-22 13:57:00

模型訓(xùn)練

2025-08-14 10:13:19

2023-04-25 14:00:00

GPTAI

2025-09-01 17:14:00

AI模型訓(xùn)練

2024-08-28 13:00:42

2025-09-04 09:04:13

2025-08-15 12:50:19

2025-08-19 08:08:05

2024-06-24 07:00:00

2024-02-19 00:00:00

OpenAIChatGPT功能

2025-08-15 14:53:43

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

战狼4完整免费观看在线播放版| 免费高清在线观看免费| 99久久久久成人国产免费 | 久久精品无码中文字幕| 深夜福利免费在线观看| 免费看欧美女人艹b| 美女视频久久黄| 好男人香蕉影院| 久久av日韩| 五月天网站亚洲| 亚洲欧美日韩在线综合| 动漫av一区二区三区| 日韩精品成人一区二区在线| 欧美日韩国产二区| 亚洲一级片在线播放| 精品三级av在线导航| 日本韩国一区二区三区视频| 乱熟女高潮一区二区在线| 搞黄视频免费在线观看| 成人在线一区二区三区| 国产精品久久婷婷六月丁香| 国产主播在线观看| 日韩欧美一区免费| 日韩电影中文字幕在线| 国内精品国产三级国产aⅴ久| 韩国久久久久久| 亚洲一区在线免费观看| 一区二区三区国产福利| 美国成人毛片| 成熟亚洲日本毛茸茸凸凹| 国产伦精品一区二区三区精品视频 | 911美女片黄在线观看游戏| 一区二区三区成人精品| 九九热r在线视频精品| 日本 欧美 国产| 亚洲自拍都市欧美小说| 亚洲精品一区二区三区蜜桃下载| gogogo高清免费观看在线视频| 欧美男男tv网站在线播放| 亚洲美女在线国产| 亚洲午夜精品一区二区三区| 少妇荡乳情欲办公室456视频| 国产在线精品一区二区夜色| 国产精品成人播放| 国产成人无码av| 99视频一区| 久久久久久中文字幕| 欧美丰满艳妇bbwbbw| 国产国产精品| 精品激情国产视频| 公肉吊粗大爽色翁浪妇视频| 日韩精品丝袜美腿| 亚洲精品xxxx| 成人h动漫精品一区| 午夜精品福利影院| 精品国精品国产| 涩视频在线观看| 国产 日韩 欧美 综合 一区| 日韩美女一区二区三区四区| 欧美国产日韩在线视频| 国产精久久一区二区| 欧美一区二区视频观看视频| 亚洲xxx在线观看| 日本久久久久| 日韩三级av在线播放| 男人添女人荫蒂国产| 成人免费在线电影网| 欧美一区二区黄色| 亚洲精品国产成人av在线| 国产精品传媒| 亚洲美女黄色片| www.av欧美| 三级精品视频| 国产一区二区三区在线免费观看| av女人的天堂| 97久久视频| 欧美成人精品xxx| 国产一卡二卡在线播放| 亚洲一区不卡| 国产欧美日韩精品在线观看| 亚洲手机在线观看| 国产成人在线免费观看| 国产一级二级三级精品| 黄色在线视频观看网站| 国产精品三级视频| av在线免费观看国产| 欧美aaaaa性bbbbb小妇| 91国内精品野花午夜精品| 欧美成人乱码一二三四区免费| 久久久精品区| 日韩电视剧在线观看免费网站| 男人舔女人下部高潮全视频| 91tv精品福利国产在线观看| 国外成人在线视频| 免费一级a毛片| 国产成人在线电影| 欧洲一区二区在线| 污视频在线免费观看网站| 欧美色videos| 亚洲丝袜在线观看| 网曝91综合精品门事件在线| 久久综合伊人77777| 成人毛片18女人毛片| 精品在线观看免费| 久久大香伊蕉在人线观看热2| 在线看黄色av| 天天亚洲美女在线视频| 特黄视频免费观看| 亚洲精品中文字幕99999| 精品自在线视频| 波多野结衣二区三区| 国产精品888| 伊人狠狠色丁香综合尤物| 98色花堂精品视频在线观看| 在线91免费看| 亚洲一区二区自偷自拍| 亚洲午夜激情在线| 91青草视频久久| 精品视频二区| 午夜亚洲国产au精品一区二区 | 国产高清久久久| 日韩欧美亚洲日产国| www成人免费观看| 日韩一区二区影院| 国产精品免费无码| 亚洲精品在线二区| 99电影在线观看| 98在线视频| 色婷婷av久久久久久久| 星空大象在线观看免费播放| 欧美不卡在线| 国产九九精品视频| 番号集在线观看| 欧美性猛交xxxx免费看| 日本在线不卡一区二区| 欧美激情aⅴ一区二区三区| 国产日本欧美视频| www.国产精品.com| 91国内精品野花午夜精品| 国产肉体xxxx裸体784大胆| 亚洲午夜极品| 国产女主播一区二区| 深夜国产在线播放| 日韩欧美区一区二| 国产精品白嫩白嫩大学美女| 老色鬼精品视频在线观看播放| 日韩一区不卡| 日韩网站中文字幕| 夜夜嗨av一区二区三区四区 | 欧美日韩国产精品一区二区| 一个人www视频在线免费观看| 亚洲国产天堂久久综合网| 日本少妇吞精囗交| 91偷拍与自偷拍精品| 人妻精品无码一区二区三区| 亚洲婷婷影院| 国产精品video| 超碰在线国产| 欧美精品日韩精品| 色哟哟一一国产精品| 国内成人精品2018免费看| 黄色高清视频网站| 精品国产鲁一鲁****| 欧美激情极品视频| 日本精品久久久久| 91福利精品视频| 中文字幕第二区| 国产在线精品视频| 欧美一级欧美一级| 精品国产aⅴ| 国产主播欧美精品| 精精国产xxxx视频在线中文版| 亚洲成人黄色在线| 日本免费在线观看视频| 欧美国产日韩精品免费观看| 亚洲妇熟xx妇色黄蜜桃| 欧美不卡一区| 欧美日韩电影一区二区三区| 免费成人黄色网| 欧美日韩爱爱视频| 色视频在线观看免费| 欧美日韩一区二区三区四区五区| 一区二区视频免费看| 91在线视频播放地址| 日韩一级免费片| 国产精品a级| 欧美精品一区二区三区四区五区| yy6080久久伦理一区二区| 久久亚洲精品中文字幕冲田杏梨| 日本精品999| 欧美日韩一区小说| 国产精品9191| 国产精品国产三级国产专播品爱网| 男人操女人下面视频| 先锋a资源在线看亚洲| 桥本有菜av在线| 欧美挤奶吃奶水xxxxx| 国产日韩欧美在线播放| sm性调教片在线观看| 日韩小视频网址| 亚州视频一区二区三区| 777精品伊人久久久久大香线蕉| 日产精品久久久久| 成人欧美一区二区三区在线播放| 黄色片视频免费观看| 激情五月婷婷综合网| 97国产精东麻豆人妻电影| 91精品二区| 色之综合天天综合色天天棕色| 激情亚洲另类图片区小说区| 成人黄色免费在线观看| a一区二区三区| 欧美精品久久久久| 老司机午夜在线| 亚洲一区www| 午夜在线视频免费| 日韩欧美的一区| 国产原创中文av| 色婷婷久久综合| 日本三级小视频| 一区二区三区中文字幕精品精品| 级毛片内射视频| 99精品在线观看视频| 少妇愉情理伦片bd| 久久国产精品一区二区| 丁香啪啪综合成人亚洲| 日韩午夜在线电影| 成人免费a级片| 亚洲综合中文| 国产日产欧美一区二区| 日韩一区电影| 亚洲精品在线观看免费| 啪啪亚洲精品| 欧美不卡在线一区二区三区| 精品在线网站观看| 亚洲伊人一本大道中文字幕| 亚洲视频在线观看免费视频| 一区二区高清免费观看影视大全| 蜜臀av一区二区三区有限公司| 成人小视频在线观看| 亚洲女人在线观看| 国产一区二区三区观看| 国产三级生活片| 狠狠久久亚洲欧美| 亚洲妇熟xx妇色黄蜜桃| 国产一区二区三区国产| 极品人妻一区二区| 国产成人啪午夜精品网站男同| 欧美视频亚洲图片| 国产一区二区精品久久91| 污污视频在线免费| 国产一区二区久久| 香蕉视频免费网站| 成人av在线资源| 北岛玲一区二区| 91丨porny丨蝌蚪视频| 素人fc2av清纯18岁| xfplay精品久久| 免费视频91蜜桃| 中文字幕亚洲欧美在线不卡| 欧美日韩色视频| 亚洲综合另类小说| 日本一区二区三区四区五区| 色偷偷久久人人79超碰人人澡| 久久久精品视频网站| 欧美午夜电影网| 国产人妖一区二区三区| 精品国产精品一区二区夜夜嗨| 西西人体44www大胆无码| 一本色道久久综合狠狠躁篇怎么玩| av在线之家电影网站| 久久视频在线免费观看| 国产一线二线在线观看| 亲子乱一区二区三区电影 | 免费观看一级一片| 国产欧美综合在线| 天天操天天操天天操天天操天天操| 亚洲黄色小视频| 色播视频在线播放| 欧美视频一二三区| www.国产黄色| 亚洲男人天天操| 精品国产丝袜高跟鞋| 国内精品国产三级国产在线专| 日本免费久久| 亚洲va欧美va国产综合久久| 精品国产乱子伦一区二区| 日韩视频专区| 激情欧美丁香| www.精品在线| 不卡的av电影| 日本美女黄色一级片| 亚洲一区二区三区四区在线| 奴色虐av一区二区三区| 日韩亚洲国产中文字幕欧美| 欧美高清电影在线| 九九热这里只有精品6| 日本欧美一区| 狠狠爱一区二区三区| 99精品视频精品精品视频| 18岁网站在线观看| 国产乱对白刺激视频不卡 | 一区二区在线看| 日韩人妻精品中文字幕| 无码人妻丰满熟妇精品区| 日韩午夜av一区| av电影在线网| 欧美亚州一区二区三区| 麻豆精品国产| 五月婷婷一区| 性一交一乱一区二区洋洋av| 一区二区三区人妻| 亚洲国产成人自拍| 国产精品久久久免费视频| 日韩午夜在线观看视频| 成人在线免费公开观看视频| 97视频色精品| 成人午夜大片| 蜜桃网站在线观看| 激情综合色综合久久| 亚洲色成人网站www永久四虎 | 国产乱码一区二区| 伊人久久久久久久久久久| 欧美sm一区| 国产视频99| 欧美日韩国产综合网| 亚欧激情乱码久久久久久久久| 久久蜜臀中文字幕| 国产成人亚洲欧洲在线| 欧美精品一区二区精品网| www久久日com| 亚洲一区二区三区毛片| 外国成人激情视频| 女人高潮一级片| 国产精品国产三级国产普通话99| 亚洲午夜无码久久久久| 亚洲美女av在线| 成人做爰视频www网站小优视频| 激情欧美一区二区三区中文字幕| 亚洲国产裸拍裸体视频在线观看乱了中文| 奇米777在线| 亚洲综合成人在线| www三级免费| 欧美极品少妇xxxxⅹ喷水| 91精品啪在线观看国产手机| 亚洲精品国产suv一区88| 国产精品一区三区| 青青草手机视频在线观看| 日韩欧美一区二区视频| 日韩少妇视频| 国产精品久久久久久久久久直播| 亚洲视频久久| 国产熟女高潮一区二区三区| 婷婷开心久久网| 无码精品一区二区三区在线| 欧美怡红院视频一区二区三区| 综合伊思人在钱三区| www.超碰com| 国产精品免费aⅴ片在线观看| 97人妻精品一区二区三区动漫| 精品国偷自产在线视频| 51亚洲精品| 日本成年人网址| 中文字幕精品—区二区四季| 91无套直看片红桃| 欧美巨大黑人极品精男| 激情亚洲另类图片区小说区| 国产精品第12页| 国产精品久久免费看| av在线资源观看| 亚州av一区二区| 精品国精品国产自在久国产应用| 亚洲另类第一页| 亚洲一区二区三区精品在线| 四虎精品成人免费网站| 国产精品久久久久久久久借妻 | 久久成人综合视频| 国产成人在线中文字幕| 国产精品亚洲a| 亚洲人成在线播放网站岛国| 色香蕉在线视频| 国产精品一区二区久久久| 综合久久十次| 色噜噜日韩精品欧美一区二区| 欧美日韩免费一区二区三区| 色噜噜狠狠狠综合欧洲色8| 欧美不卡三区| 国产精品中文字幕日韩精品| 国产成人无码一区二区在线播放| 久久在线精品视频| 伊人久久大香线蕉| 国产精品熟女一区二区不卡| 色悠悠亚洲一区二区| а√天堂资源地址在线下载| 欧美婷婷久久| 国产成人免费在线观看| 中文在线字幕av| 久久乐国产精品| 99久久九九| 9.1成人看片免费版|