蘋(píng)果炮轟AI推理遭打臉,GitHub大佬神怒懟!復(fù)雜任務(wù)≠推理能力
最近,蘋(píng)果公司發(fā)表了預(yù)印本論文,指出推理大模型存在重大缺陷。
昨天,Ruben Hassid發(fā)布了相關(guān)解讀的X帖子,認(rèn)為這是項(xiàng)突破性研究:
蘋(píng)果證明了Claude等AI推理模型,根本不會(huì)思考。
這種解讀在社交平臺(tái)上廣泛傳播,瀏覽量已超過(guò)1000萬(wàn),且仍在持續(xù)增長(zhǎng)。

但這種解讀翻車了!
在Reddit和黑客新聞,網(wǎng)友紛紛表示論文爭(zhēng)議太大。





GitHub高級(jí)工程師Sean Goedecke,對(duì)該論文持保留態(tài)度,盡管他也認(rèn)為語(yǔ)言模型不是通往超級(jí)智能(ASI)的理想路徑。
最直接的例證是:當(dāng)用DeepSeek-V3測(cè)試時(shí),模型直接拒絕了要執(zhí)行上千步的謎題推演。
——這并非推理能力崩潰,反而說(shuō)明模型具備對(duì)自身能力邊界的認(rèn)知!

值得注意的是,「深度學(xué)習(xí)三巨頭」Yoshua Bengio的兄弟Samy Bengio也參與了這次的研究。
雖然Samy沒(méi)有獲得圖靈獎(jiǎng),聲望不及Yoshua,但其在谷歌學(xué)術(shù)上的引用次數(shù)已超過(guò)九萬(wàn)次,是Jeff Dean等知名學(xué)者的合作者。

這也不是蘋(píng)果第一次指出LLM推理有問(wèn)題,但這次在各大社交平臺(tái)上得到了廣泛傳播。



那么蘋(píng)果的新論文到底展示了什么?我們又該如何看待語(yǔ)言模型?
要理解這場(chǎng)爭(zhēng)議的核心,我們先看看蘋(píng)果論文到底說(shuō)了什么。
蘋(píng)果到底說(shuō)了什么?
這篇論文開(kāi)篇就提出,在數(shù)學(xué)和編程基準(zhǔn)測(cè)試中,大家不要太在意推理模型的表現(xiàn),因?yàn)椋?/span>
(a)這些基準(zhǔn)測(cè)試存在污染;
(b)在數(shù)學(xué)和編程任務(wù)上,無(wú)法運(yùn)行高質(zhì)量實(shí)驗(yàn),因?yàn)檫@些任務(wù)缺乏簡(jiǎn)明的復(fù)雜度量標(biāo)準(zhǔn)。
因此,蘋(píng)果的研究團(tuán)隊(duì)選擇使用四種人工謎題(puzzle)環(huán)境(漢諾塔的變體),再次評(píng)估了推理模型,難度從最簡(jiǎn)單的單盤(pán)漢諾塔逐步上升到二十盤(pán)漢諾塔。

漢諾塔(Tower of Hanoi)是根據(jù)一個(gè)傳說(shuō)形成的數(shù)學(xué)問(wèn)題:
有三根桿子A,B,C。A桿上有N個(gè)(N>1)穿孔圓盤(pán),盤(pán)的尺寸由下到上依次變小。
要求按下列規(guī)則將所有圓盤(pán)移至C桿:
(1)每次只能移動(dòng)一個(gè)圓盤(pán);
(2)大盤(pán)不能疊在小盤(pán)上面??蓪A盤(pán)臨時(shí)置于B桿,也可將從A桿移出的圓盤(pán)重新移回A桿,但都必須遵循上述兩條規(guī)則。
問(wèn)題為:應(yīng)該以何種方式移動(dòng)?最少要移動(dòng)多少次?
例如,他們對(duì)比了非推理模型DeepSeek-V3與推理模型DeepSeek-R1:

這個(gè)對(duì)比模式在所有推理/非推理模型對(duì)、以及所有謎題任務(wù)中基本一致。
論文得出以下幾個(gè)核心結(jié)論:
- 對(duì)非常簡(jiǎn)單的謎題,非推理模型表現(xiàn)相當(dāng)甚至更好,因?yàn)橥评砟P陀袝r(shí)會(huì)「想太多」而導(dǎo)致錯(cuò)誤。
- 對(duì)中等難度的謎題,推理模型明顯更強(qiáng)。
- 一旦任務(wù)復(fù)雜度足夠高,即使是推理模型也無(wú)法給出正確答案,不管你給它多長(zhǎng)時(shí)間。
接下來(lái),論文分析了推理模型的內(nèi)部思維軌跡,驗(yàn)證了上述結(jié)論:
- 在簡(jiǎn)單問(wèn)題中,正確答案幾乎立刻出現(xiàn);
- 在中等問(wèn)題中,需要更多推理步驟;
- 而在最困難的問(wèn)題中,則根本不會(huì)出現(xiàn)。
論文還指出,隨著問(wèn)題復(fù)雜度增加,一旦模型無(wú)法解決問(wèn)題,開(kāi)始「躺平摸魚(yú)」:
模型不會(huì)繼續(xù)投入更多token來(lái)解題,而是直接「放棄」,停止推理。
最后,論文嘗試直接將正確的謎題求解算法輸入模型,期望這能提高其推理能力。
結(jié)果只是「有一點(diǎn)用」:部分模型可以多解出一個(gè)盤(pán),但整體效果并不顯著。
總結(jié)來(lái)看,該論文得出以下結(jié)論:
- 推理模型存在復(fù)雜度「天花板」,一旦超出,性能明顯下降。
- 推理模型可能存在「內(nèi)在計(jì)算擴(kuò)展上限」,證據(jù)是:模型在達(dá)到一定復(fù)雜度時(shí),會(huì)選擇放棄。
- 推理模型不擅長(zhǎng)計(jì)算性任務(wù),因?yàn)榧词箤⑺惴ㄖ苯咏o它們,也沒(méi)用。
這樣理解:不對(duì)
對(duì)蘋(píng)果的這篇論文,Sean Goedecke有三大質(zhì)疑:
首先,漢諾塔這類謎題不是判斷「推理能力」的好例子;
其次,推理模型的復(fù)雜性閾值,不一定是固定的;
最后,存在復(fù)雜度閾值≠模型「并不真正具備推理能力」。

謎題不是好例子
相比數(shù)學(xué)和編程,漢諾塔是一個(gè)更糟糕的推理測(cè)試案例。
如果擔(dān)心數(shù)學(xué)和編程基準(zhǔn)測(cè)試存在訓(xùn)練數(shù)據(jù)污染,那為何選擇訓(xùn)練數(shù)據(jù)中存在解法的知名謎題?

這是Sean Goedecke對(duì)論文最主要的不滿。
論文卻得出結(jié)論「給模型提供解法,也沒(méi)有提高效果」。
這件事讓他感到驚訝:
漢諾塔算法在模型訓(xùn)練數(shù)據(jù)中反復(fù)出現(xiàn)。
所以,給模型算法幫助當(dāng)然不大——
模型早已經(jīng)知道算法是什么了!
另外,推理模型是有針對(duì)性地被訓(xùn)練用于數(shù)學(xué)和編程任務(wù)的,而不是用于謎題。
也許謎題在某種程度上可以代表推理能力,但也可能根本不相關(guān)。
從另一個(gè)角度,他完全可以相信:模型在處理數(shù)學(xué)題或?qū)懘a時(shí)具備更完善的內(nèi)部工具鏈,而不具備用于謎題的工具。
用謎題來(lái)測(cè)推理能力,等同于說(shuō)「GPT-3.5之后,寫(xiě)彼特拉克式十四行詩(shī)沒(méi)有明顯進(jìn)步,所以語(yǔ)言模型并沒(méi)真正取得進(jìn)展」。

彼得拉克式十四行,又稱意大利十四行詩(shī)。詩(shī)標(biāo)準(zhǔn)意式十四行詩(shī)由14個(gè)十一音節(jié)詩(shī)行組成,分為前后兩部分:前八行(octave)與后六行(sestet)
漢諾塔確實(shí)比數(shù)學(xué)問(wèn)題更容易縮放復(fù)雜度,但正因?yàn)檫@個(gè)原因就選它,給人一種「路燈效應(yīng)」的感覺(jué)
——不是因?yàn)樗詈?,而是因?yàn)樗罘奖恪?/span>

路燈效應(yīng),指人們傾向于只在最容易尋找的地方進(jìn)行搜索
復(fù)雜度閾值未必固定
假設(shè)語(yǔ)言模型在超過(guò)一定復(fù)雜性點(diǎn)后確實(shí)會(huì)放棄,就像它們?cè)诔^(guò)十個(gè)盤(pán)子的漢諾塔時(shí)一樣。
換言之,假設(shè)之前對(duì)謎題作為測(cè)試?yán)拥馁|(zhì)疑是錯(cuò)誤的,而蘋(píng)果的論文確實(shí)具有普適性。
那么,這是否意味著模型無(wú)法處理超出某一復(fù)雜度的問(wèn)題?
Sean Goedecke將蘋(píng)果論文中的一些提示詞輸入DeepSeek-R1,以下是簡(jiǎn)化版的推理軌跡開(kāi)頭:
好的,我需要解一個(gè)有10個(gè)盤(pán)的漢諾塔問(wèn)題。
讓我思考如何處理這個(gè)問(wèn)題。我記得經(jīng)典解法是遞歸步驟……
n個(gè)盤(pán)的標(biāo)準(zhǔn)解法需要2^n-1步。對(duì)于10個(gè)盤(pán)是1023步。但手動(dòng)列出每一步幾乎不可能。
所以我需要一種系統(tǒng)化方法來(lái)逐步列出每一步。讓我回憶一下漢諾塔的迭代解法……
請(qǐng)注意,模型立即決定「手動(dòng)生成所有這些步驟是不可能的」,因?yàn)檫@需要跟蹤上千個(gè)步驟。
于是它開(kāi)始尋找「聰明的捷徑」,但最終失敗。
這里的關(guān)鍵見(jiàn)解是,超過(guò)一定復(fù)雜性閾值后,模型決定有太多的步驟需要推理,于是開(kāi)始尋找巧妙的捷徑。
模型所面對(duì)的任務(wù)其實(shí)已悄然轉(zhuǎn)變:從「逐步推理完成」變?yōu)椤赴l(fā)明一種能跳過(guò)推理的通用方案」。
從測(cè)試來(lái)看,即使在較低的盤(pán)子數(shù)量下,DeepSeek-R1也會(huì)抱怨幾句,說(shuō)「這會(huì)很繁瑣」,即使你明確要求它逐步列出解法。
這是可以理解的:推理模型是為推理而訓(xùn)練的,不是為執(zhí)行數(shù)千次機(jī)械步驟而訓(xùn)練的。
那么,對(duì)于漢諾塔謎題來(lái)說(shuō),真的存在復(fù)雜性閾值嗎?
實(shí)際上,大家并不知道模型是否能夠堅(jiān)持完成千步序列。
我們所知道的是,模型不想這樣做。
順帶一提,這也解釋了一個(gè)「奇怪」的發(fā)現(xiàn):
當(dāng)問(wèn)題變得更難時(shí),模型使用的推理token反而減少。
因?yàn)槿蝿?wù)如果只需幾十步,它會(huì)積極推理;如果需要幾百甚至上千步,它就選擇放棄。
注意:Sean Goedecke沒(méi)有訪問(wèn)其他推理模型軌跡的權(quán)限——
如果它們表現(xiàn)不同,那么他愿意承認(rèn)在這個(gè)觀點(diǎn)上他是錯(cuò)誤的。
復(fù)雜任務(wù)失敗≠0推理能力
假設(shè)到目前為止的一切都是錯(cuò)誤的:
謎題真的是測(cè)試推理的好例子,推理模型真的有個(gè)固定的復(fù)雜性閾值。
這是否意味著模型不能推理?
當(dāng)然,這并不意味著模型不能推理!
當(dāng)然不是!
看到網(wǎng)絡(luò)上的一些熱評(píng),Sean Goedecke情難自禁,簡(jiǎn)直要瘋了。
多少人能真正坐下來(lái),準(zhǔn)確寫(xiě)出一千步的漢諾塔解法?
肯定有一些人可以,但也有很多人完全不行。
我們會(huì)因此說(shuō)那些人「不具備推理能力」嗎?
當(dāng)然不會(huì)!
他們只是缺乏足夠的耐心與專注,從而無(wú)法做到手動(dòng)執(zhí)行一千次算法而已。
即便只能推理到第十步,未能完成第十一步,也依然體現(xiàn)了推理能力。
能推理三步,也依然是推理,哪怕你無(wú)法看清第四步。
這也許不是「超人級(jí)」的推理,但絕對(duì)屬于人類推理能力。
嚴(yán)格說(shuō)來(lái),這對(duì)論文可能不太公平——
它本身并沒(méi)有明確說(shuō)模型「根本不能推理」(除非你把標(biāo)題當(dāng)真)。
然而,互聯(lián)網(wǎng)上這么說(shuō)的人太多了,所以他認(rèn)為值得討論一下。
總結(jié)
蘋(píng)果的論文《思維的幻覺(jué)》,不是特別好。
Sean Goedecke的主要反對(duì)意見(jiàn)是,他不認(rèn)為推理模型像論文暗示的那樣不擅長(zhǎng)這些謎題:
從我自己的測(cè)試來(lái)看,模型早早決定幾百個(gè)算法步驟太多,甚至不值得嘗試,所以它們拒絕開(kāi)始。
你不能比較八盤(pán)漢諾塔和十盤(pán)漢諾塔,因?yàn)槟惚容^的是「模型能否完成算法」和「模型能否想出一個(gè)避免完成算法的解決方案」。
更加一般性地,他不相信謎題是評(píng)估推理能力的好試驗(yàn)場(chǎng),因?yàn)?/span>
(a)它們不是人工智能實(shí)驗(yàn)室的重點(diǎn)領(lǐng)域,
(b)它們需要像計(jì)算機(jī)一樣遵循算法,而不是需要解決數(shù)學(xué)問(wèn)題的那種推理。
Sean Goedecke認(rèn)為,推理模型并非像論文暗示的那樣不擅長(zhǎng)這類謎題。
在他的測(cè)試中,模型在面對(duì)上百步算法時(shí),往往主動(dòng)放棄,而非能力崩潰。
他強(qiáng)調(diào),放棄并不意味著無(wú)法推理——
就像人類在面對(duì)高度重復(fù)、枯燥任務(wù)時(shí)也可能選擇中止。
這種行為更多體現(xiàn)的是認(rèn)知邊界,而非思維能力的缺失。
因此,他不認(rèn)同將「未完成復(fù)雜任務(wù)」等同于「不具備推理能力」的觀點(diǎn)。
這篇論文并非一無(wú)是處,Sean Goedecke認(rèn)為它有下列亮點(diǎn):
- 推理模型在簡(jiǎn)單問(wèn)題上有時(shí)會(huì)「想太多」,表現(xiàn)不如非推理模型,這一點(diǎn)很有趣;
- 模型在長(zhǎng)算法執(zhí)行過(guò)程中「放棄」的現(xiàn)象也很有意思,盡管它可能并不能很好地說(shuō)明其普遍推理能力;
- 他喜歡「問(wèn)題三階段」這一觀點(diǎn):簡(jiǎn)單、中等可推理、以及復(fù)雜到模型會(huì)放棄的階段。如果某種模型可以被訓(xùn)練成「永不放棄」,那將非常有趣。
無(wú)論如何,蘋(píng)果的研究提供了重要提醒:
當(dāng)前語(yǔ)言模型的推理能力遠(yuǎn)非「通用智能」。
那么,該如何定義「推理」?
又如何測(cè)試「思維」?
這可能是下一代AI必須直面的核心問(wèn)題。





































