精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

當人工智能推理遭遇瓶頸:大型推理模型的崩潰

人工智能
OpenAI 的 o1 系列、DeepSeek 的 R1、Claude 的思維模型——這些“大型推理模型”聲勢浩大地問世,有望在機器解決復雜問題方面取得突破。與之前那些僅僅通過模式匹配完成任務的模型不同,這些系統顯然能夠進行“真正的”推理,甚至擁有與人類思維相符的內心獨白。

最近,我們聽說人工智能已經學會了思考。OpenAI 的 o1 系列、DeepSeek 的 R1、Claude 的思維模型——這些“大型推理模型”聲勢浩大地問世,有望在機器解決復雜問題方面取得突破。與之前那些僅僅通過模式匹配完成任務的模型不同,這些系統顯然能夠進行“真正的”推理,甚至擁有與人類思維相符的內心獨白。它們會停頓、思考、再三思量,最終通過看似真實的沉思得出答案。

對于我們這些構建智能代理人工智能系統的人來說,推理能力是真正自主的基石。在 Craine,我們將推理能力定位為遵循腳本的簡單自動化與能夠適應、制定戰略并協調復雜操作的真正人工智能代理之間的關鍵區別。例如,當我們談論自主基礎設施時,我們本質上依賴于這些系統推理新情況、權衡相互競爭的優先級并在壓力下做出合理決策的能力。推理革命有望提供這些能力——人工智能系統能夠像熟練的人類操作員一樣思考問題,但速度更快、更一致。這一承諾支撐了自主代理管理一切(從云基礎設施到業務運營)而無需持續人工監督的整個愿景。

但革命性的主張有一點需要革命性的證據。蘋果研究團隊的一項新研究《思考的幻覺》提供了這方面的證據,而這并不是我們所期望的。研究人員使用精心控制的謎題環境而不是通常的數學基準,系統地測試了這些推理模型是否真的能夠推理,或者它們是否只是非常復雜的模仿。他們的發現挑戰了我們所知的關于推理革命的一切。這些模型不僅會在問題變得越來越難時遇到性能瓶頸;它們還會做出一些更奇怪、更令人不安的事情:它們完全放棄思考,在應該最努力的時候減少推理努力。看著馬拉松運動員在接近比賽最陡峭的山坡時放棄并放棄,這真是一場悲劇。

為什么謎題比數學考試更勝一籌

蘋果的研究人員沒有向這些模型拋出更多 MATH-500 問題(這些基準問題可能會被訓練數據污染),而是構建了更好的東西:可控的謎題環境。我認為這就像在無法控制交通的公共道路上測試汽車性能,與在可以精確調整每個變量的封閉測試跑道上測試汽車性能之間的區別。研究人員需要干凈的實驗環境,他們可以像調節音量旋鈕一樣調節復雜性,同時保持底層邏輯的一致性。

他們使用了四個看似簡單的謎題:漢諾塔、西洋跳棋、渡河和積木世界。每個謎題都允許研究人員通過調整一個參數來控制復雜性:更多圓盤、更多西洋跳棋、更多人、更多積木。至關重要的是,這些謎題內置模擬器,不僅可以驗證最終答案,還可以驗證過程中的每一步。與要么正確要么錯誤的數學題不同,這些環境讓研究人員可以窺視推理過程本身,精確觀察模型在何處以及如何出錯。這基本上就像是批改期末考試和坐在學生旁邊看著他們解答每個試題之間的區別。

令人驚訝的表現前景

蘋果研究人員還發現了一些意料之外的發現:推理模型并不會隨著問題難度的增加而逐漸變差。相反,研究人員發現了三種截然不同的性能機制,顛覆了傳統觀念。在低復雜度水平下——你期望任何優秀的人工智能都能處理這類問題——標準大語言模型(LLM) 實際上表現優于那些所謂的高級推理模型。我們指的是更高的準確率和更高的效率。這就像發現福特福克斯比蘭博基尼能更快更便宜地帶你去雜貨店一樣。推理模型對簡單問題進行了過度思考,將計算資源浪費在了那些需要直接執行的任務的復雜內部思考上。

在中等復雜度范圍內,推理模型終于證明了其存在的合理性。所有額外的思考時間都在這里得到了回報,推理模型展現出比標準模型明顯的優勢。這是大多數基準測試和演示所關注的最佳點——復雜程度足以需要真正的問題解決,但又不會復雜到完全失效。這是一個“金發姑娘區”,推理模型看起來確實令人印象深刻,似乎也驗證了所有關于其功能的炒作。

但接下來是第三種情況,事情才真正令人不安。超過一定的復雜度閾值后,兩種模型都會經歷研究人員所說的“徹底崩潰”——不是逐漸退化,而是徹底失效。準確率降至零。這就像觸及事件視界,推理功能完全失效。尤其令人不安的是,無論模型有多少可用的計算預算,這種崩潰都會發生。它們并非耗盡了令牌,也不是達到了上下文限制;而是觸及了更根本的問題——在復雜性增加的情況下,維持連貫推理的能力受到了阻礙。

違反直覺的崩潰:解決更難的問題需要更少的思考

隨著謎題復雜度的增加,推理模型不僅性能下降,反而減少了思考的投入。盡管擁有充足的令牌預算和計算資源,但當問題需要更仔細的思考時,這些模型的推理軌跡卻開始縮短。這就像一位外科醫生在復雜的手術中途因為情況變得過于復雜而放下手術刀一樣。

研究人員在多個前沿模型(o3-mini、DeepSeek-R1、Claude-3.7-Sonnet with thinking)中追蹤了這一“擴展限制”,發現其規律始終如一。隨著問題變得越來越復雜,模型最初會增加推理工作量,這與人們預期的直觀模式一致。但隨后,當接近研究人員設定的各模型的臨界復雜性閾值時,發生了一些奇怪的事情:即使問題客觀上變得更加困難,推理工作量也開始下降。這些模型并沒有達到技術極限——它們的運行速度遠低于其代數限制,并且剩余充足的推理預算。

就像之前討論過的“對齊偽造”一樣,這種違反直覺的行為引發了人們對自主系統信任的深刻質疑。如果我們最先進的推理模型在面對真正的復雜性時都能系統地減少工作量,那么當我們將它們部署到現實世界中,而問題并沒有明確的難度標簽時,會發生什么?在關鍵任務應用中——無論是管理云基礎設施、協調應急響應,還是做出財務決策——我們需要的是能夠在情況艱難時挺身而出的系統,而不是在推理能力最關鍵的時候默默放棄的系統。其影響遠超學術基準,涉及到我們日益依賴的人工智能系統的基本可靠性。

深入探究:“思想”內部發生了什么

蘋果的研究人員做了大多數人工智能評估完全忽略的事情——他們打開了黑匣子,探究這些模型推理過程中究竟發生了什么。通過分析模型在“思考”過程中生成的中間解,他們揭示了我們剛才討論的那些性能模式背后的機制。簡單問題中的過度思考行為?事實證明,模型通常會在早期識別出正確的解決方案,但隨后仍會繼續探索錯誤的路徑,將剩余的計算資源浪費在無用的思考上。與此同時,對于模型完全崩潰的復雜問題,推理軌跡顯示出更令人不安的情況——它們在整個思考過程中根本無法生成任何正確的解決方案。

研究人員進行了一項實驗,這本應是推理模型的一次突破:他們提供了解決漢諾塔難題的完整、循序漸進的算法。想象一下食譜式的說明,模型只需遵循菜譜,而無需發明一道新菜。然而,這些模型在與從頭開始解決問題時完全相同的復雜度閾值下失敗了。這種限制比創造力或策略更深,指向了更根本的東西。即使解決了問題,這些模型也無法在更長的序列中保持邏輯一致性。當數字填色和抽象推理在同樣的點上失敗時,我們看到的是架構限制,而不是問題解決的限制。

這對人工智能機構意味著什么

這些發現對我來說尤其令人震驚,尤其是考慮到我們邁向人工智能代理(AI Agency)的軌跡——能夠自我修復、自我維持、無需人工干預即可適應和響應的系統。在最近發表的關于 AgentOps 的論文中,預測距離自主代理成為從云基礎設施到業務運營等所有領域管理的主流還需要 24-36 個月的時間。但蘋果的研究揭示了這一基礎中的一個根本性漏洞:如果我們最先進的推理系統在面對真正的復雜性時能夠系統地減少工作量,我們又如何能相信它們能夠協調運行我們關鍵系統的自主代理呢?

我們必須思考這對我們正在構建的代理未來意味著什么。當您的工程機構需要排除跨多個微服務的級聯故障時,或者當您的安全機構必須應對復雜的攻擊媒介時,這些都不是簡單且有解決方案的問題。它們正是蘋果研究表明推理模型會完全崩潰的那種高復雜性場景。當您依賴自治系統來維持正常運行時間、保護數據或協調應急響應時,隨著問題變得越來越困難,推理工作量的減少變得令人恐懼。其影響遠遠超出了學術基準,還涉及到我們越來越信任的關鍵業務運營自治系統的可靠性。如果驅動這些自治機構的推理引擎在最需要仔細思考的時候放棄思考,那么整個 AgentOps 愿景將面臨一個根本性的瓶頸,無論框架多么復雜都無法克服。

重新調整預期

蘋果的研究迫使我們直面一個令人不安的事實:當前的推理模型不僅僅是遇到了性能瓶頸——它們還表現出根本性的擴展限制,這表明它們處理復雜問題的方式存在缺陷。我們面臨的并非我們可以通過工程手段規避的逐漸退化,而是隨著挑戰的加劇,推理工作實際上會減少,這是一個硬性上限。當我們最復雜的人工智能系統在思考最關鍵的時候系統性地放棄思考時,這并非軟件缺陷或訓練數據問題。我們面臨的是架構約束,它挑戰了當前設計的整個推理模型的前提。

其更廣泛的影響遠不止學術難題,而是我們正在關鍵基礎設施中快速部署的自主系統的基礎。如果推理模型無法在復雜場景中保持邏輯一致性——即使提供了明確的算法——這對我們通往真正自主人工智能的道路意味著什么?或許,推理革命并非我們所想的突破,而是一個代價高昂的彎路,它讓我們看到當前方法的根本缺陷。問題不在于我們能否突破這些限制,而在于我們是否建立在正確的基礎上。當最先進的推理系統隨著復雜性的增加而減少工作量時,我們或許需要重新思考的不僅僅是如何構建人工智能,還有我們期望它能夠可靠地實現什么。

責任編輯:龐桂玉 來源: 數據驅動智能
相關推薦

2025-04-10 08:23:11

2021-01-27 17:41:11

人工智能AI邊緣人工智能

2025-06-10 03:30:00

2025-06-17 08:40:44

2025-02-07 16:45:21

無服務器AI推理

2025-06-27 08:40:00

模型推理AI

2025-03-05 00:22:00

2025-09-15 09:43:33

分層推理模型循環網絡推理

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-05-30 02:00:00

獎勵模型RRMAI

2025-06-11 14:39:50

AILLMMistral

2022-07-31 23:46:57

人工智能語言模型感知力

2024-09-24 11:01:03

2025-05-28 10:10:20

2025-10-10 09:02:16

2025-05-13 05:11:00

推理模型微調

2018-03-23 09:14:46

人工智能云計算機器學習

2025-01-15 13:01:07

2020-05-11 19:43:21

AI人工智能存儲性能
點贊
收藏

51CTO技術棧公眾號

国产精品美女在线播放| 国产视频999| 亚洲成人av免费在线观看| 中文在线免费二区三区| 国产欧美日韩中文久久| 亚洲一区国产精品| 国产精品久免费的黄网站| 国产精品精品| 亚洲黄色有码视频| 国产三级三级看三级| 日本三级在线观看网站| 久久人人97超碰com| 国产一区红桃视频| 国产精品一区二区三区四| 欧美电影免费播放| 日韩成人中文电影| 在线观看视频你懂得| 免费成人动漫| 亚洲已满18点击进入久久| 日韩福利一区二区三区| 后进极品白嫩翘臀在线视频| 蜜桃久久精品一区二区| 97久久精品视频| 国产美女久久久久久| 午夜精品福利影院| 欧美成人video| 久久这里只精品| av资源亚洲| 亚洲成人av电影| 国产高清不卡无码视频| 四虎久久免费| 国产欧美综合在线观看第十页 | 成人在线视频播放| 一区二区免费视频| 超碰免费在线公开| 最新国产在线观看| 日本一区二区视频在线| 欧美日韩天天操| 欧性猛交ⅹxxx乱大交| 国产乱一区二区| 成人a在线视频| 亚洲影视一区二区| 人人狠狠综合久久亚洲| 茄子视频成人在线| 久久精品视频7| 国产精品普通话对白| 久久久久久国产精品美女| 国产精品久久久精品四季影院| 久久免费av| 中文字幕亚洲综合久久筱田步美| 极品蜜桃臀肥臀-x88av| 精品99在线| 在线性视频日韩欧美| 国产一二三av| 97精品一区二区| 久久久97精品| 青青青在线免费观看| 中文字幕一区二区三区欧美日韩 | 国产一区二区三区日韩| 成人免费高清完整版在线观看| 中文字幕第2页| 久久精品久久综合| 91在线视频成人| 99re只有精品| 成人性视频免费网站| 国产精品免费观看高清| 亚洲aⅴ在线观看| 久久综合九色综合97_久久久| 久热这里只精品99re8久| 人人九九精品| 日本一区二区不卡视频| 中文字幕不卡每日更新1区2区| 欧美性videos| 亚洲综合一区二区| 国产二级片在线观看| 亚洲欧洲自拍| 欧美日韩黄色影视| 国产91在线免费观看| 农村少妇一区二区三区四区五区| 亚洲精品视频二区| 影音先锋男人资源在线观看| 欧美在线三区| 欧美中文字幕第一页| 中文字幕一区二区人妻| 国产精品77777| 另类小说综合网| 天堂中文8资源在线8| 亚洲亚洲精品在线观看| 免费日韩视频在线观看| 曰本一区二区| 日韩av在线电影网| 欧美一区二区三区观看| 在线欧美日韩| 国产精品欧美一区二区| 一本到在线视频| 99精品在线观看视频| 先锋影音一区二区三区| 国产黄色大片在线观看| 在线视频一区二区三区| 国产a√精品区二区三区四区| 国产精品网在线观看| 正在播放欧美一区| 妺妺窝人体色www在线下载| 欧美综合国产| 动漫一区二区在线| 999在线视频| 精品久久久久久电影| 玖玖爱视频在线| 网红女主播少妇精品视频| 久久久精品美女| 无码人妻一区二区三区线| 国产69精品一区二区亚洲孕妇| 日韩电影大全在线观看| 国产精品高颜值在线观看| 欧美精品自拍偷拍| 久久久久久久久久久国产精品| 综合久久99| 国产精品jvid在线观看蜜臀| 你懂的网站在线| 亚洲图片欧美激情| 亚洲成人av免费看| 一区二区三区在线资源| 日韩亚洲欧美中文高清在线| 最近免费中文字幕大全免费版视频| 国产福利精品一区二区| 一本色道婷婷久久欧美| 国产成人精品一区二三区在线观看 | 欧美黄色免费影院| 一区二区三区视频播放| 久久最新资源网| 在线免费观看一级片| 久久久蜜臀国产一区二区| 欧美二区在线视频| 国产主播性色av福利精品一区| 精品国偷自产在线视频| 国内av在线播放| 久久久久久久久久久久久久久99| 欧美一级视频在线播放| 9国产精品午夜| 欧美日韩高清区| 国产丰满果冻videossex| 国产精品久久久久影视| 污视频免费在线观看网站| 亚洲婷婷丁香| 日韩av电影中文字幕| 免费福利在线观看| 欧美这里有精品| 亚洲国产精品一区二区久久hs| 免播放器亚洲一区| 亚洲欧美成人一区| 91精品福利观看| 久久婷婷国产麻豆91天堂| 国产精品综合在线| 亚洲伦理在线精品| 国产视频精品视频| 亚洲男人影院| 日本高清一区| 亚洲高清影院| 久久影院在线观看| 成人免费一级视频| 午夜欧美视频在线观看| 亚洲欧美视频在线播放| 久久先锋影音| 色婷婷精品国产一区二区三区| 国产91亚洲精品久久久| 久久精品久久久久电影| 亚洲第一色视频| 精品久久久国产精品999| 97伦伦午夜电影理伦片| 久久这里只有| 亚洲综合首页| 2020最新国产精品| 欧日韩在线观看| 137大胆人体在线观看| 91精品国产福利| 国产精品99无码一区二区| 久久香蕉国产线看观看99| 视色视频在线观看| 欧美日韩专区| 欧美日韩大片一区二区三区| 成人日韩av| 欧美精品18videos性欧| 日本电影一区二区在线观看| 欧美精品日韩精品| 香蕉免费毛片视频| 中文字幕第一页久久| 亚洲成人av免费观看| 在线亚洲成人| mm131午夜| 日韩精品免费一区二区三区竹菊| 国产精品福利网| 在线电影福利片| 亚洲全黄一级网站| www.av在线.com| 91福利在线播放| 特级片在线观看| 国产午夜精品理论片a级大结局 | 国产日韩欧美电影| 成人三级做爰av| 秋霞成人午夜伦在线观看| 欧美视频在线观看视频| 国产精品久久久久久久免费观看| 国产中文一区二区| 亚洲香蕉久久| 国产精品99导航| 美女av在线免费看| 欧美老肥婆性猛交视频| 成人在线免费公开观看视频| 亚洲精品一区二区三区福利| 在线播放一级片| 欧美日韩亚洲高清| 欧美极品视频在线观看| 国产精品国产馆在线真实露脸 | 成人av无码一区二区三区| 日本电影亚洲天堂一区| 精品在线视频免费| 亚洲欧美一区二区三区国产精品| 在线免费看黄视频| av电影天堂一区二区在线| 中文字幕第10页| 精品一区二区三区视频在线观看 | 国产自产v一区二区三区c| 男女av免费观看| 亚洲日本视频| 国内少妇毛片视频| 综合久久综合| 在线丝袜欧美日韩制服| 精品国产欧美日韩| 欧美一二三四五区| 色88888久久久久久影院| 国产a一区二区| 欧美日韩黄色| 亚洲在线观看视频| 伊人久久一区| 91网站在线看| 国内不卡的一区二区三区中文字幕| 国产精品v片在线观看不卡| 玛雅亚洲电影| 日本中文字幕不卡免费| 涩涩视频在线播放| 91精品国产91久久久久久久久| 波多野结衣中文在线| 欧美放荡办公室videos4k| 日本一本在线免费福利| 欧美福利在线观看| 男女在线视频| 国内精品一区二区三区四区| 69av成人| 欧美亚洲另类激情另类| 在线观看v片| 日本一区二区不卡| 精品亚洲美女网站| 国产精品手机播放| 在线日韩三级| 亚洲最大福利视频网| 亚洲一区二区三区中文字幕在线观看 | 亚洲国产精品ⅴa在线观看| 欧美 日韩 国产 成人 在线观看| 久久精品欧美一区二区三区不卡 | 亚洲春色一区二区三区| 欧美成人精品3d动漫h| 蜜桃av噜噜一区二区三区麻豆| 精品国产一区二区三区av性色| 成人精品在线播放| 精品无人区乱码1区2区3区在线| 欧美女同网站| 精品国产一区二区三区四区在线观看 | 国产精品欧美亚洲777777 | 久久久久网址| 国产亚洲一卡2卡3卡4卡新区| 午夜精品福利一区二区| 欧美在线影院| 69堂免费视频| 日韩精品成人一区二区在线| 亚洲精品永久视频| 成人午夜电影小说| 亚洲精品国产91| 一色屋精品亚洲香蕉网站| 久久精品国产亚洲av无码娇色| 狠狠躁18三区二区一区| 在线黄色av网站| 精品乱人伦一区二区三区| 伦理片一区二区三区| 精品国产欧美一区二区五十路| aaa在线播放视频| 国产精品福利在线观看| 日韩区欧美区| 日韩wuma| 亚洲五月婷婷| 午夜宅男在线视频| www.亚洲人| 国产美女高潮视频| 黑人巨大精品欧美一区二区一视频 | 亚洲第一成人网站| 综合久久一区二区三区| 手机看片久久久| 欧美一级日韩免费不卡| 久青草国产在线| 欧美丰满片xxx777| 欧洲av一区二区| 国外成人免费视频| 91tv精品福利国产在线观看| 91免费视频网站在线观看| 国产麻豆精品视频| 欧美三级视频网站| 偷拍一区二区三区四区| 亚洲天堂手机在线| 亚洲人a成www在线影院| 成人性生交大片免费看在线播放| 国产精品久久久久秋霞鲁丝| 九色丨蝌蚪丨成人| 成人毛片100部免费看| 日本不卡一区二区| av无码av天天av天天爽| 一区二区三区在线影院| 91免费视频播放| 国产一区二区欧美日韩| 成人免费网站观看| 国产精品久久亚洲7777| 久久久五月天| 欧美婷婷精品激情| 国产亚洲成年网址在线观看| 国产精彩视频在线| 欧美一级二级在线观看| 黄网站免费在线观看| 国产精品免费久久久| 国产99久久精品一区二区300| 黄网站欧美内射| 丁香桃色午夜亚洲一区二区三区| 亚洲一二三在线观看| 欧美日韩一二区| 成人性生交大片免费看午夜| 日本欧美一级片| 一本色道久久综合亚洲精品酒店| 青青草精品视频在线| 国产成a人无v码亚洲福利| 99视频只有精品| 欧美一区二区日韩| av毛片在线免费| 91最新在线免费观看| 天天做天天爱综合| 激情黄色小视频| 成人欧美一区二区三区黑人麻豆 | 国产精品日日夜夜| 精品日韩一区二区| 人人澡人人添人人爽一区二区| av一区观看| 亚洲国产精品一区制服丝袜| 怡红院一区二区| 天天射综合影视| 色视频免费在线观看| 日本中文字幕成人| 日韩精品永久网址| 亚洲第一色av| 一区二区三区在线观看视频| 成人1区2区3区| 久久久久中文字幕| 亚洲人成伊人成综合图片| 欧美日韩一区二区在线免费观看 | 亚洲激情第一页| 亚洲美女尤物影院| 日韩电影在线播放| 九一久久久久久| 久久午夜无码鲁丝片| 亚洲国产精品成人精品| 日韩精品极品| 亚洲va韩国va欧美va精四季| 激情综合色丁香一区二区| 男人与禽猛交狂配| 日韩精品中文字幕在线播放| 日本一区免费网站| 2025韩国大尺度电影| 国产99精品国产| 免费av中文字幕| 久久影院模特热| 外国成人在线视频| 看看黄色一级片| 五月天亚洲婷婷| 在线免费观看黄| 国产亚洲欧美另类一区二区三区| 久久久久.com| 污污的视频在线免费观看| 日韩av网站在线| 亚州精品国产| 日韩免费一级视频| 中文字幕一区二区视频| 日韩一级免费视频| 国产欧美精品一区二区三区-老狼| 国产精品chinese| 欧美成人国产精品一区二区| 日韩网站在线看片你懂的| 成人性生交大片免费观看网站| 伊人精品久久久久7777| 99久久er热在这里只有精品15 | 国产另类ts人妖一区二区| 久久久久99精品成人片毛片| 亚洲色图色老头| 中文字幕亚洲在线观看| 污污的网站18| 精品久久久久久久久久久久久|