AI看不到的愛心,成了最棒的AI檢測器 精華
這兩天在網上刷到了一張圖,很有意思。

其實就是一張經典的視覺錯覺圖,做了個漂浮的心形圖案。
如果你用電腦打開這篇文章的話,沒看到這個圖動起來的話,那就就用手機打開或者直接把頁面縮小。
瞬間,你就能看到這個圖里的愛心,直接左右橫跳起來了。。。
看到的兄弟可以把公屏打在彈幕上。
這哥們說,這是最好的AI探測器,說,沒有AI能看到這個圖中間還有個愛心。
我順手找了幾個模型試試,結果無一例外,果然,沒一個AI認出來。
比如Gemini 2.5 Pro,率先翻車。

給我扯了一堆有的沒的,然后說了一句,圓圈。
圈你妹= =
GPT-5-Thinking,想了2分多分鐘,直接陣亡。

甚至,我還試了一下豪華版GPT-5 Pro。
在長達7分鐘的花里胡哨之后,宣布直接躺平。

國產三巨頭,豆包、Qwen、元寶,也都倒在了這張圖的淫威之下。

DeepSeek因為沒有多模態,所以反而逃過一劫。
在這測試過程中,我一度產生了一種錯覺,就是,不會這些模型,不知道啥叫心形吧。
導致我非常智障的還去問了一下。。。

認識,看來沒啥問題。。。
你們也能看到,我用的都是同一套提示詞。
我覺得,同樣的問題交給隨便的一個人,應該都是能得出正確答案的。
所以,我就產生了很強的好奇。
這到底是什么?
再抽空花了一晚上的時間,去DeepReaserch和研究之后,我看到了一篇AI這塊超級好玩的論文。
是今年5月發的,叫《Time Blindness: Why Video-Language Models Can’t See What Humans Can?》

真的,AI研究到后面,怎么發現,研究的全是人類。。。
這個標題翻譯過來大概就是:
為什么視覺語言模型看不到人類能看到的東西?
雖然文中的例子是視頻,跟我們上文的愛心圖有點不太一樣,但是底層原理,其實在我讀完以后看來,是完全一脈相通的。
這項研究設置了一個基準,叫做SpookyBench,合成了一堆由噪點組成的視頻,是黑白的。

但是播放的時候,我們可以非常明確的看到一只鹿。
這個鹿我甚至都沒法截圖給大家看,只要截圖出來就必是噪點圖。
這玩意,跟最近X上流行的一個視覺錯覺的寶劍視頻還挺像的。

你只要一暫停,就啥也看不到了。
還有很多類似的。

這篇論文就拿451個這樣的視頻,組成了一個基準,去視覺大模型進行測試。

結果就是,非常的喜聞樂見。
人類可以毫不費力地識別出這些視頻中的形狀、文本和圖案,準確率超過98%。
而大模型的準確率,為0%。
全軍覆沒,無一幸免。

我已經很久很久沒見過這么多的0分了。
太特么赤雞了。
無論模型架構大小、訓練數據規模、是否經過微調或采用何種提示策略,AI從未答對任何一段視頻的內容。
我也拿幾個模型去試了一下,同樣的那頭鹿的視頻,Gemini2.5-Pro同樣無法識別。

原因其實特別簡單。
AI是空間維度上的王者,但卻是時間維度上的瞎子。
我這么說可能會有點難以理解。
我們可以先想想,現在所有的大模型,包括GPT-5、Gemini 2.5 Pro,它們是怎么看視頻的。
很多人以為他們跟人一樣,就是搬個小板凳擱那坐著,目不轉睛的看完了整個視頻?
錯了,不是這樣的。
現在大模型的主流做法,本質上不是看視頻,是看照片。
它們會從視頻里,每隔一段時間抽幀,也就是截取幾張靜態的圖片。 比如,第1秒截一張,第1.5秒截一張,第2秒截一張等等等等。
然后,AI會用它那分析靜態圖片(也就是空間信息)的能力,去分析這些所有的照片。
“哦,這張照片里有噪點。” “哦,這張照片里還是噪點。” “哦,這張照片里依然是噪點。”
最后,它得出結論: “這特么就是個噪點視頻。”
這就是最本質的問題所有,AI徹底丟掉了所有的幀與幀之間的信息。
而那個“漂浮的心形”和“噪點中的鹿”,其實本質上,它們的信息恰恰只存在于幀與幀之間。
這其實,就是,時間維度。
在任何一個單獨的瞬間,心形和鹿都是不存在的,都是不可見的。
你只有把這些瞬間連續播放,讓時間流動起來,你才能看到他們。
突然想起了以前做交互設計的時候,有一個幾乎刻在我血液里的心理學,這玩意,叫格式塔心理學。
幾乎就是用戶體驗行業的基石之一。

里面有一個非常牛逼的原則,叫“共同命運法則”(Law of Common Fate)。
這個法則是說,我們的大腦會本能地、自動地、不講道理地,把朝著同一方向運動的物體,識別為一個整體。

這玩意幾乎就是刻在我們的史前基因里面的。
比如在幾萬年前的草原上,我們的老祖宗“智人坤坤”,正蹲在草叢里。
他眼前是一片隨風擺動的、雜亂的灌木。
突然,在灌木叢中,有一小片葉子的擺動方式,跟周圍所有的葉子都不一樣,它們在以一個相同的規律,朝著同一個方向(比如坤坤的方向)緩慢移動。
坤坤的大腦,甚至不需要他思考,就會立刻拉響警報: “臥槽!快跑!老虎來了!!!有危險!!”
那些“共同運動”的像素點,在坤坤的大腦里自動組合成了老虎這個整體。
所以,你看,當你看到那個“噪點鹿”的視頻時,你根本不需要努力,你大腦里的共同命運法則就自動啟動了。
它幫你把所有一起往上移動的噪點歸為一類,識別為“鹿”,把所有一起往下移動的噪點歸為另一類,識別為“背景”。
你之所以能看到鹿,不是因為你看見了鹿,而是因為你看見了運動本身。
但AI不行。它沒有我們這套“共同命運法則”的視覺系統。
它的架構,論文里叫 "Spatial Bias"空間偏見,決定了它只能先去識別空間上的特征。
它看每一幀,都是一堆雜亂無章的噪點。
但它無法從時間的維度上,去發現這些噪點之間“共同的命運”,所以,它看不到那只鹿。
這個問題,在論文中,被稱為。
時間盲視,Time Blindness。
目前看,好像沒有啥解決辦法,不僅僅是一個技術漏洞了,或者一個可以喂數據就能解決的小bug,論文里也試了,微調訓練也沒用。
我們活在流中,而AI活在幀中。
這個世界對我們來說,首先是連續的、流動的、充滿過程的。
而對AI來說,這個世界首先是離散的、靜態的、充滿物體的。
太有意思了,這是我最近,看到的最哲學最讓我喜歡的一段表述。
我們現在理解了噪點,讓我們回到最開始的愛心。
這時候,我其實又產生了問題,不對啊,運動這事,是時間維度的,但是那個愛心,明明就是一張圖,根本沒有時間屬性,那這玩意,到底為啥也能讓人感覺到,動呢???

我沒理解,于是,我又進行了新一輪的研究。。。
結果,答案居然讓我有點無語。。。
答案特別簡單,就是因為:
因為我們自己會動。
還是,不受控制地動。。。
在20世紀50年代,眼動領域有一個實驗證明了一個事情,就是,人眼在注視時并非完全靜止,而是不斷進行微小的運動。
正是這些不自主的眼球運動,保證了我們對靜止圖像的持續感知。
這樣的視錯覺圖,基本上都是利用了我們這個會自己運動的特征,來做出動態效果的。

為了使人類能夠看見,視網膜上的圖像必須持續發生一定程度的運動。
反過來講,如果某個視野(無論其大小、顏色或亮度)保持嚴格的靜止,那么在1~3秒內,該區域就會在視野中逐漸消失。
視覺科學里有個差不多的理論是特克斯勒消逝效應,說的是當人們長時間注視一個固定點時,周邊視野中不變的刺激會逐漸淡化甚至消失。
聽起來挺繞的,但如果你想試一下,刻意控制眼球靜止不動的話,你可以放大這張圖,然后刻意的牢牢盯住中間的十字。
應該可以感覺到十字周圍的顏色在慢慢消失,然后變成一片灰白色。

這就是著名的特克斯勒消逝效應的哲學。
沒有變化,則等于沒有信息。
這篇文章寫著寫著,突然感覺回到了7、8年前還在做用戶體驗設計的時候,天天研究認知心理學的日子。
那時候,我們天天在研究人,研究認知心理學,研究人的行為、研究人的眼動路線、研究人的注意力、研究人的記憶,就想著,我們的產品,怎么讓用戶體驗更絲滑一點,讓他更爽一點,我們的轉化率更高一點。。。
沒想到這么多年以后,天天研究AI,發現到頭來。
又回到了當年。
原來當年研究了那么久的知識,在如今的時代,又以另一種路徑,穿越了時空,散發出了新的光彩。
AI跟人,也真的都是超級有趣的物種。
在無數路徑上殊途同歸,卻又在各自的路線上,分道揚鑣。
但我還是更喜歡人一點。
畢竟,我們不僅能看到噪點中的鹿,我們還能看到沉默中的愛,看到無常中的美。
還有,那時間。
流逝的本身。
本文轉載自??數字生命卡茲克??,作者:數字生命卡茲克

















