OpenAI發布新模型：o1系列模型，更像理科生的模型精華

大語言模型論文跟蹤

發布于 2024-9-14 13:34

瀏覽

0收藏

本來今天準備發一篇金融相關的Agent論文

結果一大早上，各大群就都開始流傳著各種聊天記錄

原來是凌晨OpenAI發布了新的 o1 系列模型（以下簡稱 o1模型或o1），所以迫不及待的找了些資料趕緊學習下。

OpenAI發布新模型：o1系列模型，更像理科生的模型-AI.x社區圖片

看上去，這個 o1 系列模型在數學、編碼、科學等一系列理科生擅長的事情上，表現比GPT4還好。

目前，各大微信群的討論大致分為兩種觀點：

? o1 太牛逼了，GPT5來了，AGI立馬到來！

? o1 這不就是個 Workflow + Agent嗎？

收集了各方的【小道消息】，其實就是是【X】上各種OpenAI發布的消息 + 微信群聊天記錄 + OpenAI官方文檔。

可以總結一下：

? o1模型最大的特點：輸出最終答案前，會進行深入思考，這種思考不是簡單的通過提示工程來注入的，而是通過強化學習實現的。

? o1模型的尺寸不會很大，是個小尺寸大模型（證據來自OpenAI研究院 Jason Wei的X，如下圖），但是到底多小？不知道。

OpenAI發布新模型：o1系列模型，更像理科生的模型-AI.x社區圖片

緊接著英偉達科學家 Jim Fan 也發了消息，對 o1 模型做了一些解讀，我們匯總一下要點：

? 模型的大多數參數只是用來記憶事實，而推理核心不需要太多參數。可以從知識中分離出一個小的“推理核心”，這樣可以減少大量的預訓練計算。

? 大量計算由原來的訓練階段，轉移到了服務推理階段。

? o1在實際應用落地的難度遠比學術基準測評要更難，這一塊還有待后續大家進一步探索。

? o1模型也會像之前ChatGPT一樣，形成數據飛輪，催生更多訓練數據和模型的出現。

o1是不是GPT5？

目前，根據各方消息看來，o1并不是部分自媒體吹噓的GPT5。

至少從OpenAI官方文檔中，看不到任何描述能將GPT5和o1模型聯系在一起的。

o1算是strawberry / Q* 項目的一個產出。

OpenAI發布新模型：o1系列模型，更像理科生的模型-AI.x社區圖片

雖然沒有被宣稱為GPT5，但是o1是一個不同于傳統的GPT3.5和GPT4的新范式。在OpenAI的開發者文檔中，我們可以發現，o1模型被單獨列為推理模型（Reasonging Models），這是否意味著之前 Altman 宣稱的將數據與推理引擎分離的構想已經實現，或者已經邁出實質性的一步？

這也與前面英偉達科學家 Jim Fan 提到的觀點相呼應：模型的大多數參數只是用來記憶事實，而推理核心不需要太多參數，可以從知識中分離出一個小的“推理核心”。

o1模型是不是一個Agentic Workflow？

這是今天很多群里充斥的觀點之一，在大家非常興奮的體驗了o1模型后，部分同學，包括一些自媒體也紛紛得出這樣的結論，甚至開始唱衰OpenAI。

比如，有的自媒體開始【大膽】的猜測：這次的草莓o1有可能是 gpt-4o 在進行一些微調/對齊后的 agent。

包括說：

這有沒有可能就是封裝了workflow而已？

在仔細閱讀了各種資料后，我的猜測， o1模型肯定不是 agent，原因如下：

1、o1是經過強化學習的推理模型

在官方文檔中，o1模型被定義為推理模型，而且是經過強化學習訓練的模型，使用了思維鏈進行推理。o1模型的一個顯著區別就是o1模型引入了一個成為推理token的概念，對用戶提出的問題，探索多種生成回答的方法，最后模型以一種被稱為可見token的方式輸出答案。

這種token的設計，也導致了一些與之前的模型的區別，比如：

?實際生成的token數與系統返回的token數存在差異：甚至一個很簡單的問題，也會消耗大量token。比如，當回答一個簡單的提示詞“你好”的時候（雖然個人認為，這樣的提示詞并不是推理模型所擅長的），模型消耗了 400 多個token。PS：在OpenAI的官方文檔中，明確提出大家在使用o1模型的時候要預留窗口空間給推理token。比如下圖，當輸出長度超出了限制時，可見輸出就看不到了。

OpenAI發布新模型：o1系列模型，更像理科生的模型-AI.x社區圖片

?模型耗時增加：因為中間多了一個推理過程（多方式推理，可能通過一種類似MCTS的方法來進行最佳路徑搜索），所以模型輸出會比其他模型消耗更多的時間（如下圖）。

OpenAI發布新模型：o1系列模型，更像理科生的模型-AI.x社區圖片

2、沒有多模態、沒有系統提示詞、沒有工具調用、沒有stream輸出等等

如果o1只是一個Agent應用，那么為什么不把這些系統提示詞、工具調用、stream輸出加上？這些對OpenAI的工程師來說是個難題？咱們國內的組合式創新團隊都能做的事情，OpenAI居然做不了？

3、完全不同的提示詞策略

在OpenAI的官方文檔中，我們可以發現，OpenAI給出了針對推理模型的提示詞建議：

? 由于模型內部已經進行推理，過去的few shot或者zero shot cot（要求模型逐步思考）的提示詞技巧，可能并不會提升性能，反而可能會降低性能。

? 保持提示簡潔明了：模型擅長理解并回應簡短而清晰的指令，無需過多指導。

? 利用分隔符提高清晰度：使用三重引號、XML標簽或小節標題等分隔符，明確區分輸入的不同部分，幫助模型更準確地解讀。

? 在檢索增強生成（RAG）中限制額外上下文：提供額外上下文或文檔時，只包含最相關的信息，以免模型的回應過于復雜。

綜上，o1模型應該并不是一個Agentic Workflow應用，而是一個確確實實的新的模型范式。而且這應該只是OpenAI在這個事情上踏出的第一步（也許我們從代號1就可以看出，重新命名，而不是繼承），而不是最后一步，目前的o1模型也不打算取代GPT4\GPT4-o等模型的地位。

o1模型到底強還是弱？

答案是，o1肯定強，但是也沒有強到無與倫比。

目前流傳的各種體驗，測試結果來看，o1肯定是強的，特別是在需要推理的STEM領域（STEM是Science、Technology、Engineering、Mathematics 四個英文單詞首字母的縮寫）。

各種數據我就不羅列了，應該鋪天蓋地都是。

但是o1仍然是不強的，比如，o1還是無法完全正確回答一些問題，比如大家都在嘗試問他9.11和9.8到底誰大的問題。

這側面說明，即使o1是一個推理引擎，但他始終還是利用語言來模擬自然世界，與規則的方法不一樣。

所以，對于o1模型，我們需要客觀的看待，即使o1模型很強，但是也仍然是有幻覺的。

OpenAI發布新模型：o1系列模型，更像理科生的模型-AI.x社區圖片

當然，有人我們未來可能遇到號稱比 o1 強69倍的GPT-5模型，但是如果范式不變，我想仍然是無法從根本上解決 9.11和9.8 誰大這類問題的。

為什么說o1是一個更像理科生的模型？

不知道大家有沒有關注到，OpenAI的文檔里，花了很大篇幅描述o1模型在STEM和安全方面的評估。

以及，在 Greg Brockman 發的消息里可以看到，OpenAI是認可 o1 模型實際上是使模型從 System1 向 System 2 靠近的動作（之所以說靠近，是因為個人認為System1和System2邊界并不明顯）。

OpenAI發布新模型：o1系列模型，更像理科生的模型-AI.x社區圖片

在之前的論文里我們也討論過，System1和System2的區別在于：

System1：快速，不加思考、不做計算、僅憑直覺就做出判斷。比如，當我們回答1+1這個問題的時候，我們的大腦可以不加思考的回答出等于2。所以系統一的特點是：快思考、熱啟動、直覺判斷。

System2：速度，需要做復雜的計算、推理，但回答準確度高。比如，當我們回答123乘以879的時候，我們無法通過我們的快思考來回答，我們需要調用大腦的計算模塊，對這個問題進行復雜的計算后才能回答。所以系統二的特點是：慢思考、啟動慢、耗費能量高、判斷準確。

而o1則是試圖使用內置的CoT來引導模型生成更加準確的答案，而需要這些嚴格推理邏輯的則是STEM里的這幾門學科。所以我們可以認為，相比過去的大語言模型（真快，這才2年不到，就可以說過去了），o1更加像一個理科生思考。這并不是說o1是理科生，而是說，大語言模型過去更像一個文科生，特別是zero shot的時候，而現在的o1則是在彌補理科生這個短板。

是否要馬上把o1模型用起來？

對于這塊，我的答案是謹慎！

1、模型仍不完善

o1模型并非一個成熟的產品，這點從官方文檔、X上的討論都可以看得出。目前還處于beta狀態，而且各種功能的缺失，比如System Prompt、tool調用、參數設置等等。以及 o1-mini 所涉及的知識、領域仍然比較有限。

2、推理速度限制

雖然o1模型是個新模型，是新一代模型范式，是大家眼中的未來。但是o1模型因為自身設計的原因，會導致比其他模型消耗更長的時間。所以在很多應用中，特別是對時間敏感的應用，需要謹慎考慮：我們的產品、應用能否接受這樣的響應時間？

3、也許更高的成本

因為o1模型在推理過程中，會消耗大量的推理token，很多人稱之為OpenAI的扣費陷阱。當然，o1模型也帶來一個新的優勢，就是我們可以不用傳few shot案例，也許可以減少一些token的輸入，但是這一增一減，到底是增加了成本還是降低了成本，目前還不是特別明朗，推薦大家多多測試后，再做定論。

4、新的提示詞結構

o1模型因為設計的原因，帶來了一些新的提示詞范式，過去的提示詞在 o1模型上不一定適用了。

比如過去的 few shot 或者 COT 提示詞，根據官方建議，這些技巧不僅不能帶來收益，還會降低效果。

所以，綜上，是否要使用o1模型來替換我們現有應用的模型，我們需要謹慎對待，需要做充分的測試評估。這與過去的模型參數增加不一樣，這次是一個范式的變化。

雖然有這么多不利因素，但是有利因素也是顯而易見：推理能力增強了，過去做不到、或者無法實現的應用，也許會成為可能。

會有新的一輪大模型風潮嗎？

過去，ChatGPT的出現，隨之而來的是合成數據帶來了一大批新的模型出現。那么這次，還會是這樣嗎？

不敢做非常確定性的答復，但是我想這次可能有點不一樣。

這次帶來的合成數據不會那么容易，按照OpenAI官方文檔，推理token是不可見的，所以至少推理token大家應該是拿不到的。那么，后續的合成數據訓練新模型這條路看上去被堵死了。

但是，事情也不是絕對的。一件事情最難的部分往往是“證明這件事可行”，所以OpenAI證明了這個路徑是可行的，也讓大家關注到了這個新的路徑，即使沒有合成數據的幫助，但是也會有其他辦法來貢獻這些數據。期待開源社區進一步的表現。

本文轉載自??大語言模型論文跟蹤??，作者： HuggingAGI ????

標簽

OpenAI

模型

o1 系列

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

OpenAI發布新模型：o1系列模型，更像理科生的模型精華

o1是不是GPT5？

o1模型是不是一個Agentic Workflow？

o1模型到底強還是弱？

為什么說o1是一個更像理科生的模型？

是否要馬上把o1模型用起來？

會有新的一輪大模型風潮嗎？

目錄

51CTO

51CTO博客

51CTO學堂

OpenAI發布新模型：o1系列模型，更像理科生的模型 精華

o1是不是GPT5？

o1模型是不是一個Agentic Workflow？

o1模型到底強還是弱？

為什么說o1是一個更像理科生的模型？

是否要馬上把o1模型用起來？

會有新的一輪大模型風潮嗎？

目錄

OpenAI發布新模型：o1系列模型，更像理科生的模型精華