你急它不急:GPT-5先判斷,再決定「速答」還是「深想」
十年前,人類教機器「算」;如今,機器開始學會「想」。
OpenAI副總裁Jerry Tworek在一次訪談里,隨口提到一句話:
GPT-5可以自己決定要思考多久。

這句話讓AI圈炸開了鍋。
因為這意味著,AI不再只是被動接收指令的工具,而是開始調控自己的思維節奏。
有的問題,它幾秒就能答出;有的問題,它會「猶豫」、停頓、再推幾步。仿佛第一次擁有了時間感。
而這,可能是從生成答案的機器到真正會思考的智能體之間,最關鍵的一步。
從「算」到「想」
AI也該學會先想再答
當我們向GPT-5提問時,它并不總是最先給出答案。有時,它會停一停,先把內部的邏輯梳理清楚,再做選擇。
這個停頓并非性能拉胯,而是其思考能力成熟的信號:AI不再是盲目輸出,而是在思考要輸出什么、如何輸出最優解。
在Matt Turck的訪談中,Jerry Tworek提出了一個核心觀點:
AI的「推理」,并不是邏輯或數學證明,而是在語言空間中學習搜索與組合模式。
他認為,AI的思考發生在語言的概率空間中。模型在生成每一個詞(token)時,都會進行無數次隱形的比較與判斷,這種語言層面的搜索,構成了它的推理過程。

為讓這種「思考」更易于理解,研究者們在2022年提出了Chain of Thought(思維鏈) 技術。

簡單來說,就是在提示詞中要求模型「一步步思考再回答」,從而顯著提升復雜推理任務的正確率。
GPT-5則在此基礎上更進一步。Tworek提到,GPT-5不僅會展開推理鏈,還能「判斷自己要思考多久」。
我們發現,模型能根據問題的難度動態決定思考時間——難題思考更久,簡單題思考更短。
這意味著,GPT-5的升級不只是推理更強,而是讓機器第一次擁有了時間感。
它會在每一步內部問自己:「要不要再想一想?」、「這一步夠了嗎?」
這種控制思維深度的機制,被研究者稱為Dynamic Reasoning Depth(動態推理深度)。
就像人解數學題,GPT-3可能秒回,GPT-5 卻選擇斟酌:它會先想清思路,再回答問題。
這不是遲緩,而是一種更高層次的克制。
AI的「猶豫」
機器如何學會自己決定思考多久?
在過去的語言模型里,AI的推理都是一口氣完成的。
輸入問題,模型沿著概率最高的路徑一路生成,直到遇到結束符號。
這就像一個不會停下來的學生:無論題目多難,都用同樣的時間、同樣的思維方式作答。
而GPT-5的關鍵進化,是讓機器學會了「猶豫」:它能判斷自己是否「想得夠不夠」,要不要再推幾步。
Jerry Tworek在與Matt Turck的訪談中提到:
我們一直在實驗一種機制,讓模型自己決定要思考多久。你幾乎能看到它在復雜問題上分配更多步驟來推理。

這種機制的原理,與2024年一項研究提出的思路相似。
一篇論文曾提出:模型可以在生成過程中「在線評估」當前答案的置信度,并據此選擇繼續推理或提前終止。
作者在論文中寫道:
模型可以在推理階段自適應地決定推理步數,從而同時提升效率與準確度。
換句話說,GPT-5不是在死記硬背,而是在分配思考預算:它會用更多計算資源處理邏輯鏈更長、變量更多的問題,在較簡單的輸入上則快速收斂。

這樣的「時間自控力」,讓AI從一個被動的應答者,變成了有節奏的思考者。
它不再一次性輸出結果,而是像人一樣先審題,再推理,再決定:「我是不是該再想一想?」
目前,OpenAI內部稱這一思路為Controlled Deliberation(受控思考)。
在實踐中,這種機制不僅提升了復雜任務的正確率,也減少了幻覺的出現,因為模型有更多機會在中間步驟中自我驗證。
根據2024年OpenAI的一份技術備忘錄,這種動態推理模型在數學與邏輯類benchmark上的平均準確率提升了約18%。
當我們重新看向GPT-5的「猶豫」,會發現那其實是一種成熟。
它不再追求立刻回答,而是學會了——在正確之前,先想清楚。
從o1到GPT-5
OpenAI如何教出一臺會思考的機器?
如果說GPT-5的猶豫是它的新能力,那么這場蛻變的起點,來自OpenAI內部的一系列試驗模型。
在訪談中,Jerry Tworek首次公開提到一個很少見的版本序列:O1→O3→GPT-5。
這不是單純的命名升級,而是一條清晰的演化線——每一代,都在回答一個問題:機器能不能更好地「想」?
Tworek解釋道:
o1是我們第一次看到模型真正展現出推理能力的時候。o3讓它能更穩定地使用中間步驟,而GPT-5則讓整個思考過程變得可控。
這一演化路徑,代表著 OpenAI在「讓模型思考」這件事上從啟蒙到自覺的過程:
- o1階段:模型開始顯露出零星的推理跡象,能夠在算術、邏輯題中表現出超出「模仿」層面的理解。
- o3階段:通過強化學習和思維鏈優化,模型能更系統地展開中間步驟,不再輕易跳步或遺忘關鍵邏輯。
- GPT-5階段:引入「動態推理深度控制」,讓模型在推理過程中具備時間自我管理的能力。
從技術角度看,GPT-5很可能使用了一種結合Reinforcement Learning with Deliberation (RLD) 的框架,即在訓練階段為模型引入獎勵信號,不僅評估「答對沒」,還評估「思考得好不好」。
在這方面,一篇具有代表性的論文——Let’s Verify Step by Step提出了「過程監督(process supervision)」的概念。

論文指出:
在具有挑戰性的MATH數據集上,用過程監督訓練模型,顯著優于只監督最終結果的方法。
OpenAI此后也在官方博客中多次提到,他們正在探索利用「中間步驟獎勵」來改進推理模型的訓練,以減少幻覺并增強模型在數學和邏輯任務上的可靠性。
從o1的「會想」,到o3的「想得穩」,再到GPT-5的「懂得停」, OpenAI完成了一次看似微小卻決定性的飛躍:
智能,不只是計算力,更是對思考過程的調控力。
機器的耐心,人類的焦慮
GPT-5的進化,讓機器第一次學會了慢下來。
它不再以最快速度給出答案,而是懂得分配推理時間、驗證中間步驟、再謹慎地輸出結果。
這種「克制」,在技術語境中被稱作Controlled Deliberation(受控思考)。
換句話說,AI越能「克制」,越能「正確」。這是一種與人類思維截然相反的進化路徑。
在我們的時代,一切都在追求快:即時通訊、即時反饋、即時決策。
人類的思維越來越依賴短線反應,而機器卻在被訓練得越來越耐心。
OpenAI的研究人員在博客中寫道:
思考步數越多的模型往往更準確,但我們也必須教它們——何時該停下。
這句話更像是在對人類說的。我們同樣被效率困住,卻忘了「停下」也是一種智慧。
當AI開始擁有思考時間的自我管理能力,它反而比我們更像人。
它懂得在復雜中沉默,在不確定中思索,而我們則在碎片化中一次次打斷自己的思考。
有人將這種變化稱為「耐心的反轉」:
機器在學會慢,而人類卻越來越快。
也許有一天,我們不再問「AI什么時候比人聰明」,而是會開始反思——我們是不是還配得上「思考」這個詞。
從o1的稚嫩,到o3的沉穩,再到GPT-5的自控,OpenAI用十年時間,讓一臺機器學會了「慢」。
它不再只是追求速度的算子,而是一個有節奏的思考者。
它能判斷問題的復雜度,分配自己的「思考預算」,甚至懂得在恰當的時刻停下。
而這一切的背后,是人類第一次教出了一種懂得克制的智能。
也許,這才是真正的「推理」起點。
當機器在追求「想得更清楚」,而我們忙著「做得更快」,
那一刻,AI 不再只是鏡像我們的理性,它反而照出了我們早已遺忘的耐心。
人類讓機器思考,最后被提醒的,可能正是——如何去想。




































