精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OpenAI草莓o1深夜炸場,一眾大佬博主熬夜實測:有坑,很難說

原創 精選
人工智能
在OpenAI官方的演示視頻中,o1已經在玩量子物理、奧賽數學了,但在實際的測評中,面對9.11和9.8哪個大的“經典老題”時,o1依然自顧自的重復著“wait,9.8 is 9.80”……。不由得讓人長嘆,“理想很豐滿,現實很骨感”。

編輯 | 言征、伊風

出品 | 51CTO技術棧(微信號:blog51cto)

在炒作將近9個月后,OpenAI代號“草莓”的模型o1終于深夜突然亮相,一時間具備試用資格的大牛紛紛開始了測評,業內許多AI項目、公司的大佬如英偉達高級研究經理JimFan、Devin的DeepWisdom創始人紛紛發表了自己對于o1的使用感受。

整體上看分兩派:一派認為o1代表著Scaling Law以外的新賽道的開啟,另一派則認為——

“炒作大于實際”、“有坑”、“很難說”。

這里不再花篇幅去介紹這款主打“慢思考”的模型的官宣能力。僅僅長話短說地列舉開發者最關心的幾個信息。

一、開啟復雜任務推理新賽道

通用模型GPT5發布前,開啟復雜推理模型賽道OpenAI o1。o1在回答前,會反復的思考、拆解、理解、推理,然后給出最終答案。

通過Self-play RL,o1學會了回溯、打磨自己的思維鏈并完善所使用的策略,學會了將復雜步驟拆解為更簡單的子步驟,并能識別和糾正自己的錯誤。

o1工作原理:先思考,再總結輸出 圖源:賽博禪心o1工作原理:先思考,再總結輸出 圖源:賽博禪心


二、兩款:preview主打強推理,mini主打代碼

o1-preview:預覽版具有很強的推理能力和廣闊的世界知識,但還沒有達到滿血o1的性能,還會持續更新和改進;

o1-mini:更快、更便宜(o1-mini 比 o1-preview 便宜 80%),在代碼方面特別有效,特別適合開發人員使用。

三、速率限制和價格

不過主打“慢思考”的草莓,OpenAI對外開放的相當吝嗇:竟然以周為單位來計算對話條數:

  • o1-preview 的每周速率限制為 30 條消息
  • o1-mini 的每周速率限制為 50 條消息

而對于開發者而言,只面向Tier5級別(付費超過1000美元)的用戶開放,每分鐘并發限制20次。

不過,價格上面卻是個令人頭疼的家伙。

API的價格上,o1預覽版每百萬輸入15美元,每百萬輸出60美元,o1-mini會便宜一些,每百萬輸入3美元,每百萬輸出12美元。

而對于這個價格,賽博禪心認為這個模型有坑:在正常使用中,o1 的開銷,會比 4o 貴百倍!因為,從 pricing table 上看,o1 的價格是 4o 的 6 倍,但這是有迷惑性的!o1 計費并不按最終輸出,其中間思考過程所消耗的 token,并被視作 output tokens,這意味著 100 tokens 的內容輸出,可能會被按 10000 tokens 計費。

這一點也得了“NLP工作站”博主劉聰NLP的認證:內在思維鏈比思維鏈長的多。

o1展示的外部思維鏈:

圖片圖片

但內部隱藏的未對齊的思維鏈卻非常長:

圖片圖片

四、幕后團隊

可以看到在基礎貢獻一欄里,大佬Ilya赫然在列。完整表單見:

https://openai.com/openai-o1-contributions/

圖片圖片

此次,OpenAI還特別發布了一支幕后團隊的特別短片,來聊聊他們對o1的想法。

圖片圖片

第一個發言的男生就是華人面孔,領導了整個o1研發的Mark Chen,他解釋了o1的命名背后的原因:“與GPT-4o等以前的型號相比,您可能會感到不同。正如其他人稍后會解釋的那樣,o1是一個推理模型,因此它會思考更多?!?/p>

他從麻省理工大學畢業,已經在OpenAI工作了6年之久,現任研究副總裁一職。

圖片圖片

五、網友實測

1.9.8和9.11的無限反思

小紅書網友@小水剛醒 反饋,“一上難度就崩潰……讓模型比較9.8和9.11的大小,結果無限循環發瘋般CoT”

圖片圖片

另一位網友@ChRlesWaa在評論區吐槽o1依舊沒主見,“很垃圾,和以前一樣一反問就改答案”。

圖片圖片

2.卡茲克:“中秋國慶調休”問題沒有翻車

“這是中國2024年9月9日(星期一)開始到10月13日的放假調休安排:上6休3上3休2上5休1上2休7再上5休1。

請你告訴我除了我本來該休的周末,我因為放假多休息了幾天?”

在o1思考了整整30秒以后,給出了一天不差的極度精準的答案。

圖片圖片

圖片圖片

不過據小編觀察,卡茲克這次的提問應該有運氣的成分,因為有其他博主測試了同樣的問題,翻車了:最后的回答是多休了2天~

圖片圖片

3.賽博禪心:有坑,更像是工程優化

賽博禪心隨后進行了與其說是模型優化,不如說是工程優化

圖片圖片

因為他從訓練數據和訓練時間發現,o1的截止時間是2023年10月,而GPT-4-turbo的時間則更晚是2023年12月,新舊立見了~ GPT-4在o1之后。

此外,o1與4o的輸出語言風格高度類似,可以猜測是草莓視4o進行對齊之后的agent版本。

圖片圖片

4.預訓練工程師:小修小補,很難說是突破

小紅書上的一位大模型預訓練算法工程師,則發表了更為消極的看法,“深夜看到o1發布,感覺我的職業生涯結束了”,他認為o1實際還在做“小修小補”,并且也將難以看到范式上的其他突破了。他說,未來的方向也許是“功能專精模型和多模態真正融合”。

圖片圖片

六、Devin:自我反思與傳統提示詞的革新時刻

過去幾周跟OpenAI有密切合作的Cognition團隊也第一時間對o1的推理能力進行了測試。

團隊使用簡化版本的Devin進行了測試,與4o相比,o1具有驚人的反思和分析能力。它通常會回溯并考慮不同的選擇,然后才能得出正確的答案,并且產生幻覺或自信的錯誤的概率也很低。

并透露:使用o1-preview時,Devin更容易正確診斷問題的根本原因,而不是解決問題的癥狀。

并舉了一個例子:Devin遇到了一個錯誤,o1就像人類一樣搜索互聯網,并經過幾步后找到了與其問題相關的Github問題。

但是,o1需要的提示詞明顯更加密集,對混亂和不必要的token也會更加敏感。傳統的提示詞方法通常會有冗余,這會對o1的性能造成負面影響。

不過關于這一點,有人士發表了不同的看法,AI沃茨體驗o1后表示:以前的提示詞模版還能繼續沿用幾個月。

圖片圖片

七、JimFan:o1的飛躍不再是Scaling Law,而是搜索

英偉達大佬Jim Fan透露o1的重點從此前的“學習”轉向了“搜索”,也就是說,此次讓o1能力飛躍的不再是scaling law了。他的完整貼文翻譯如下:

OpenAI Strawberry (o1) 發布了!我們終于看到推理時間縮放的范式在生產中流行并得到部署。正如Sutton在《苦澀的教訓》中所說,只有兩種技術可以無限擴展計算:學習和搜索?,F在是轉向后者的時候了。

1.你不需要一個巨大的模型來進行推理。很多參數都專門用來記憶事實,以便在像智力問答這樣的基準測試中表現良好。可以將推理與知識分開,即一個小的“推理核心”,它知道如何調用瀏覽器和代碼驗證器等工具。預訓練的計算量可以減少。

2.大量的計算資源轉移到了服務推理,而不是預/后訓練。LLMs是基于文本的模擬器。通過在模擬器中推出許多可能的策略和情景,模型最終會收斂到良好的解決方案。這個過程就像AlphaGo的蒙特卡洛樹搜索(MCTS)一樣,是一個被廣泛研究的問題。

3.OpenAI 很久以前就已經掌握了推理縮放定律,而學術界最近才剛剛發現。上個月Arxiv上相隔一周發表了兩篇論文:

  • 大語言猴子:使用重復采樣擴展推理計算。Brown等人發現DeepSeek-Coder在SWE-Bench上從一個樣本增加到250個樣本時,性能從15.9%提升到56%,超過了Sonnet-3.5。有關論文可以移步:

  https://arxiv.org/abs/2407.21787v1

  • 在推理時最優地擴展LLM的計算比擴展模型參數更有效。Snell等人發現,在MATH上,PaLM 2-S 在測試時搜索上擊敗了一個體積大14倍的模型。

4.將 o1 投入生產要比達到學術基準更加困難。對于野外的推理問題,如何決定何時停止搜索?獎勵函數是什么?成功標準是什么?何時調用代碼解釋器等工具?如何考慮這些CPU進程的計算成本?他們的研究文章中沒有分享太多相關信息。

5.Strawberry 很容易變成一個數據的飛輪。如果答案是正確的,整個搜索跟蹤就成為一個小型的訓練樣本數據集,其中包含正面和負面的獎勵。這反過來會改進未來版本的GPT的推理核心,就像AlphaGo的價值網絡——用來評估每個棋盤位置的質量——隨著MCTS生成越來越精細的訓練數據而改進一樣。

圖片圖片

八、MetaGPT創始人吳承霖:沒有其他秘密,最簡單的自我博弈

DeepWisdom公司CEO吳承霖深夜發出了自己的想法:(裸推理極限)

1.self-play 可行,設計空間也不大

2.OpenAI 只做了最簡單的 self-play

3.記憶模塊仍然沒有任何突破

4.思維模式仍然難以琢磨,很難說 o1 是好的思維模式

5.沒有其他秘密,這就是現在的裸推理極限,所以 OpenAI 核心成員都去了其他公司

self-play是一種強化學習手段,可以理解為:智能體通過與自身副本或歷史版本進行自我博弈而進行演化的方法。

圖片圖片

九、寫在最后

其實,就連奧特曼自己也承認o1并非完美之作。

圖片圖片

不過,當人們實際上手o1時,巨大的落差感可能在所難免。

在OpenAI官方的演示視頻中,o1已經在玩量子物理、奧賽數學了,但在實際的測評中,面對9.11和9.8哪個大的“經典老題”時,o1依然自顧自的重復著“wait,9.8 is 9.80”……。不由得讓人長嘆,“理想很豐滿,現實很骨感”。

圖片圖片

這體現了模型能力發展中巨大的不平衡,也提醒著我們,即使AI已經看起來如此的聰明,但通往AGI的道路仍然撲朔迷離。

然而,OpenAI找到了一個尚可前進的方向。

在看到o1的命名法則時,有人調侃說,“原來GPT-5永遠不會來了”。但是,由o1生成數據進行訓練的下一代模型“獵戶座”,終將會與人們見面,不是嗎?

也許,科技最有魅力的地方,也許不是當下的成果有多么驚艷。而是告訴我們:邊界尚未抵達,這里仍有無限期待。

想了解更多AIGC的內容,請訪問:

51CTO AI.x社區

http://www.jxzklqfsx.com/aigc/

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2024-12-06 08:23:40

2025-01-21 13:15:15

2024-09-24 11:01:03

2024-12-06 08:49:59

2024-12-12 11:29:51

2024-10-05 00:00:00

2024-11-07 15:40:00

2025-04-29 09:06:00

2024-09-18 09:17:00

OpenAI模型開源

2024-09-19 18:03:31

2024-11-29 13:57:38

2024-12-05 10:16:14

2024-09-14 12:51:16

2024-09-13 10:06:21

2024-12-09 11:06:31

2025-02-03 14:17:27

2024-10-10 13:01:43

2024-11-25 15:50:00

模型訓練

2024-09-25 09:30:16

2024-12-16 16:05:34

點贊
收藏

51CTO技術棧公眾號

一区二区三区在线视频看| 日韩av色在线| 伊人网综合视频| 成人线上视频| 国产精品天干天干在观线| 国产精品永久免费视频| 中文字幕亚洲欧美日韩| 欧美jizz19性欧美| 欧美午夜精品理论片a级按摩| 黄色www在线观看| 五月天婷婷视频| 麻豆91在线观看| 久久久久久久久久久久av| 国产成人无码精品久久二区三| 色8久久久久| 欧美日韩国产丝袜美女| 韩国黄色一级大片| 日本精品专区| 国产精品一区一区三区| 日韩美女写真福利在线观看| 日韩一区二区三区四区在线| 精品国产乱码久久久久久果冻传媒| 日韩精品影音先锋| 日本www.色| 国产免费拔擦拔擦8x高清在线人| 国产精品免费丝袜| 久久综合精品一区| 国产高清免费在线观看| 男女激情视频一区| 992tv成人免费视频| 欧美日韩午夜视频| 欧美裸体在线版观看完整版| 亚洲国产精品嫩草影院久久| 亚洲一区二区三区四区精品| 日本精品在线中文字幕| 亚洲成人一区二区| 国产爆乳无码一区二区麻豆| 免费在线观看av| 中文字幕欧美区| 精品国产第一页| 亚洲成人一二三区| 国产精品资源站在线| 国产精品视频公开费视频| 91视频免费网址| 国产韩日影视精品| 在线看日韩欧美| av网站免费在线播放| 久久久国产精品网站| 91久久精品一区二区三区| 男人操女人免费软件| xxx在线免费观看| 一区二区免费看| 国产精品啪啪啪视频| 欧美a免费在线| 一色屋精品亚洲香蕉网站| 亚洲mv在线看| 日p在线观看| 国产精品卡一卡二卡三| 亚洲人成影视在线观看| 欧美日本高清| 亚洲人成精品久久久久| 少妇熟女一区二区| 日本激情视频在线观看| 国产精品对白交换视频 | 国产av无码专区亚洲a∨毛片| 日本不卡视频一二三区| 国产精品自拍视频| 国产人妻精品一区二区三区| 国产激情视频一区二区在线观看 | 网红女主播少妇精品视频| 亚洲国产小视频| 亚洲永久精品ww.7491进入| 尤物tv在线精品| 伊人伊成久久人综合网站| 丁香六月激情综合| 亚洲电影影音先锋| 欧美激情手机在线视频| 国产成人亚洲精品自产在线| 噜噜噜躁狠狠躁狠狠精品视频| 日韩av片免费在线观看| 亚洲性生活大片| 国产激情视频一区二区在线观看| 国外成人免费视频| porn视频在线观看| 亚洲精品少妇30p| 你懂的av在线| 本网站久久精品| 777久久久精品| 在线看黄色的网站| 精品日本12videosex| 在线观看免费高清视频97| 成人免费黄色小视频| 亚洲人成人一区二区三区| 国产精品r级在线| 国产视频在线一区| 久久亚洲一区二区三区四区| 一区二区免费在线观看| av伦理在线| 欧美日韩精品是欧美日韩精品| 蜜桃视频无码区在线观看| 日韩av网站在线免费观看| 综合网日日天干夜夜久久| 久久久久久蜜桃| 石原莉奈一区二区三区在线观看| 亚洲一区二区免费| 青青草在线免费观看| 亚洲欧美日韩中文播放| aaa毛片在线观看| 日韩在线观看中文字幕| 亚洲午夜久久久影院| 久草网在线观看| 麻豆91在线看| 欧美激情导航| 牛牛精品在线| 欧美熟乱第一页| 日韩www视频| 91成人精品| 国产精品久久久久久久久男| 国产国语亲子伦亲子| 国产精品素人一区二区| 国内外成人激情视频| caoporn成人| 久久av.com| 在线免费av网| 久久精品欧美一区二区三区不卡 | 日韩欧美电影一区二区| 不卡av免费观看| 日韩欧美国产系列| 国产探花在线视频| 免费视频最近日韩| 欧洲成人一区二区| 校园春色亚洲| 亚洲精品理论电影| 日本特黄特色aaa大片免费| 国产一区二区三区四| 日韩精品第一页| 亚洲成人人体| 亚洲欧洲日产国码av系列天堂| 福利一区二区三区四区| 国产精品系列在线播放| 亚洲AV无码成人精品一区| 久久婷婷五月综合色丁香| 亚洲少妇中文在线| 日韩美一区二区| 久久人人爽人人爽| 成人一级片网站| 亚洲专区视频| 日本欧美黄网站| 国产视频三级在线观看播放| 日本乱人伦aⅴ精品| 久久久久久久久久久久| 石原莉奈在线亚洲二区| 日韩激情久久| 日韩久久一区| 久久国产精品久久精品| 99热这里是精品| 一区二区三区不卡在线观看| 国产女主播在线播放| 影音先锋久久精品| 黑人另类av| 欧美大胆成人| 色妞在线综合亚洲欧美| 国产精品久久婷婷| 一区二区三区中文在线| 国产高潮失禁喷水爽到抽搐| 亚洲国产精品一区| 欧美日韩在线高清| 成人在线观看免费视频| 久久伊人精品天天| 色噜噜在线播放| 欧美日韩中文字幕| 日韩一级av毛片| 六月丁香综合在线视频| 日韩中文字幕在线不卡| 精品久久ai电影| 欧美一区在线直播| 成人77777| 欧美一区日本一区韩国一区| 久草视频精品在线| 久久久久久久久蜜桃| 午夜免费看毛片| 精品99视频| 色99中文字幕| 免费精品一区| 26uuu亚洲伊人春色| 91.xxx.高清在线| 欧美一区二区在线视频| 久久久午夜影院| 国产精品欧美综合在线| 岛国大片在线免费观看| 香蕉成人久久| 国产免费xxx| 要久久爱电视剧全集完整观看| 国产精品一区专区欧美日韩| 国产一线二线在线观看| 在线视频欧美性高潮| 亚洲欧美国产高清va在线播放| 日本精品视频一区二区| 久久av高潮av无码av喷吹| 国产亚洲欧美日韩在线一区| 能看毛片的网站| 亚洲天堂网视频| 99在线热播精品免费| 在线观看av网页| 亚洲日韩视频| 成年人免费观看的视频| 亚洲国产精品嫩草影院久久av| 成人亲热视频网站| 日本免费一区二区三区四区| 色综合久久88| av在线免费观看网站| 亚洲第一区中文99精品| 国产尤物视频在线观看| 一本大道久久a久久精二百| 久久久精品视频免费观看| 久久精品在线免费观看| 国产视频精品视频| 国内外成人在线| 宅男噜噜噜66国产免费观看| 狠狠入ady亚洲精品经典电影| 亚洲欧美日韩精品在线| 蜜桃视频欧美| 精品视频一区二区| 99久久人爽人人添人人澡| 国产欧美日韩中文字幕在线| 久久婷婷综合国产| 欧美午夜久久| 一区二区视频国产| 红桃视频在线观看一区二区| 精品国产一区二区三区麻豆小说| 一区二区在线免费播放| 91在线视频精品| 成人av色网站| 国产脚交av在线一区二区| 日本三级一区| 97精品久久久| yellow字幕网在线| 国外色69视频在线观看| 大桥未久在线播放| 欧美国产日韩一区二区三区| a视频在线观看| 久久久精品久久久| 国产一区久久精品| 久久精品亚洲精品| 国产激情小视频在线| 日韩视频一区在线| 精品麻豆一区二区三区| 中文字幕日韩欧美| 永久免费av片在线观看全网站| 国产午夜精品全部视频播放| 国产高清一级毛片在线不卡| 国产午夜精品美女视频明星a级| 成年人在线观看网站| 国产亚洲精品va在线观看| 国产日韩精品在线看| 在线不卡国产精品| 欧美一级二级三级区| 久久精品国产91精品亚洲| 国产成人高清精品| 欧美另类第一页| 超碰97免费在线| 97欧美精品一区二区三区| 日本а中文在线天堂| 日本a级片电影一区二区| 精品三区视频| 成人午夜在线视频一区| 成人看片爽爽爽| 久久久神马电影| 欧美手机视频| 国产精品99久久久久久大便| 欧美日本国产| 黄色动漫在线免费看| 日韩精品欧美成人高清一区二区| 香蕉视频网站入口| 国产麻豆视频精品| 国产精品久久AV无码| 国产亚洲欧美激情| 精品无码一区二区三区蜜臀| 一二三区精品视频| 日本一区二区三区精品| 欧美日韩色一区| www.爱爱.com| 亚洲欧美国产一区二区三区| 午夜在线视频播放| 欧美精品video| 欧美色网在线| 91精品久久久久久蜜桃| 制服丝袜日韩| 亚洲精品天堂成人片av在线播放| 一本色道88久久加勒比精品| 亚洲综合色在线观看| 大胆亚洲人体视频| 成人无码精品1区2区3区免费看| 一区二区三区免费网站| 久久久黄色大片| 欧美成人乱码一区二区三区| 久久电影中文字幕| 久久99青青精品免费观看| 天天综合网天天| av一本久道久久波多野结衣| 狠狠操综合网| 无码中文字幕色专区| 韩国一区二区三区| 性欧美成人播放77777| 最新热久久免费视频| 国产黄色免费观看| 精品噜噜噜噜久久久久久久久试看| 国产一区电影| 91国语精品自产拍在线观看性色| 亚洲男人在线| 日本一区高清不卡| 99成人在线| 性高潮免费视频| 亚洲视频图片小说| 夜夜躁日日躁狠狠久久av| 亚洲第五色综合网| 在线播放蜜桃麻豆| 国产噜噜噜噜久久久久久久久| 群体交乱之放荡娇妻一区二区| 三级在线免费观看| 免费精品视频最新在线| 老司机福利av| 欧美日韩免费观看中文| 性欧美18一19性猛交| 久久久精品视频成人| avav成人| 日产精品一线二线三线芒果| 国产亚洲精品bv在线观看| 深夜视频在线观看| 日韩a级大片| 亚洲欧美国产另类| 丁香花视频在线观看| 91综合免费在线| 欧美好骚综合网| 亚洲 欧美 日韩系列| 久久综合九色综合久久久精品综合| 久久久久久久中文字幕| 日韩欧美在线综合网| 久操视频在线| 91精品国产自产在线老师啪 | 亚洲午夜精品一区二区| 久久久精品午夜少妇| 黄色a一级视频| 日韩欧美国产高清91| 在线观看xxx| 欧美最猛性xxxxx亚洲精品| 欧美偷窥清纯综合图区| 5月婷婷6月丁香| 久久综合一区二区| 一区二区三区在线观看av| 亚洲开心激情网| 校园春色亚洲色图| 色爱区成人综合网| 看国产成人h片视频| 久久爱一区二区| 91精品国产手机| 丁香花在线电影| 鲁丝片一区二区三区| 爽爽淫人综合网网站| 天天干天天舔天天操| 欧美区视频在线观看| 4438x成人网全国最大| 动漫一区二区在线| 亚洲深夜影院| 免费看裸体网站| 51午夜精品国产| 国产网红女主播精品视频| 精品乱码一区| 日产国产欧美视频一区精品| 最新中文字幕av| 欧美一区二区三级| 6699嫩草久久久精品影院| 麻豆成人小视频| 久久电影网站中文字幕| 免费在线观看h片| 亚洲国产另类 国产精品国产免费| 亚洲一二三四| 一区二区三区四区五区视频| 国产成人精品综合在线观看| 久久青青草视频| 国产一区二区三区三区在线观看| 先锋影音网一区二区| 国产一二三区在线播放| 久久久久久久久99精品| 国产精品福利电影| 午夜精品久久久久久99热软件| 国产99精品| 97超碰免费在线观看| 日韩欧美成人免费视频| 高潮毛片在线观看| 久久草.com| 国产在线精品一区二区三区不卡| 日韩欧美亚洲国产| 色妞在线综合亚洲欧美| 日本天堂一区| 亚洲成人av免费观看| 色婷婷狠狠综合| 人妖欧美1区| 伊人久久大香线蕉成人综合网| 不卡一卡二卡三乱码免费网站|