OpenAI o1要跟，怎么跟？這個GitHub項目把解讀、博客、相關論文一網打盡

作者：機器之心 2024-09-18 09:08:00

人工智能新聞

優秀的 GitHub 項目啊！有關 OpenAI ο1 的一切都在這里

在 AI 領域，OpenAI 已經成了指路明燈一般的存在。隨著 o1 模型的發布，全世界的 AI 工程師都開始了新一輪的學習。

為了幫助大家盡快抓住重點，機器之心一直在跟進報道相關的解讀，包括：

北大對齊團隊獨家解讀：OpenAI o1 開啟「后訓練」時代強化學習新范式
張俊林：OpenAI o1 的價值意義及強化學習的 Scaling Law

同時，我們也發現了其他一些有用的資源，比如在一個 Github 項目中，有人匯總了最近的高質量技術解讀博客以及「可能」與 o1 技術路線相關的論文。相關資源列表會一直更新，

項目鏈接：https://github.com/hijkzzz/Awesome-LLM-Strawberry

這些博客、論文有些是大家都讀過的，還有些可能被淹沒在平時的眾多資源中。或許從中大家可以找到復現 OpenAI o1 的有效方法。

博客

博客 1：Learning to Reason with LLMs
作者：OpenAI
鏈接：https://openai.com/index/learning-to-reason-with-llms/

博客概述：這篇博客簡單介紹了 OpenAI o1 模型的訓練方法，比如思維鏈的采用、模型安全性的提升等。

博客 2：OpenAI o1-mini
作者：OpenAI
鏈接：https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

博客概述：這篇博客介紹了 OpenAI o1-mini 模型的概況。

博客 3：Finding GPT-4’s mistakes with GPT-4
作者：OpenAI
鏈接：https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

博客概述：這篇博客介紹了 CriticGPT——OpenAI 基于 GPT-4 訓練的一個專門給 ChatGPT 挑毛病的新模型。它通過精準地分析 ChatGPT 的回答并提出建設性的批評，幫助人類訓練師更準確地評估模型生成的代碼，并識別其中的錯誤或潛在問題。據介紹，在 CriticGPT 的輔助下，人們審查 ChatGPT 代碼的準確率提高了 60%。研究人員還發現，CriticGPT 在很多情況下比人類專家更擅長發現錯誤，它們甚至能在一些被認為是「完美無缺」的任務中找出問題，盡管這些任務大多數并不是代碼任務，對 CriticGPT 來說有點超綱。

由于該研究發表時，Jan Leike 等 OpenAI 超級對齊團隊成員已經離職，因此也被稱為對齊團隊「遺作」。

博客 4：Summary of what we have learned during AMA hour with the OpenAI o1 team
作者：Tibor Blaho
鏈接：https://twitter-thread.com/t/1834686946846597281
推文鏈接：https://x.com/btibor91/status/1834686946846597281

博客概述：最近，OpenAI o1 團隊開展了一次答疑活動，這個帖子總結了答疑的概要，包括模型命名和推理范式，o1 模型的尺寸和性能，輸入 token 上下文和模型能力，工具、功能和即將推出的特性，CoT 推理，API 和使用限制，定價、微調與擴展，模型開發和研究見解，提示技術和最佳實踐等幾個模塊。每個模塊的總結都比較簡短，感興趣的讀者可以參見原文。

博客 5：OpenAI’s Strawberry, LM self-talk, inference scaling laws, and spending more on inference
作者：Nathan Lambert（Allen AI 研究科學家）
鏈接：https://www.interconnects.ai/p/openai-strawberry-and-inference-scaling-laws

博客概述：在文章中，作者討論了 OpenAI 的新方法「Strawberry」及推理 scaling law，強調了推理計算的投入對 AI 能力提升的重要性。作者指出，擴大推理計算比單純擴大模型規模更有效，類似 AlphaGo 的推理技術能夠顯著提升模型表現。文章呼吁未來 AI 開發要更多關注推理技術。

這篇博客發布于 9 月初，當時 OpenAI 還沒有發布 o1 模型，因此現在看起來非常有前瞻性。

博客 6：Reverse engineering OpenAI’s o1
作者：Nathan Lambert（Allen AI 研究科學家）
鏈接：https://www.interconnects.ai/p/reverse-engineering-openai-o1

博客概述：這篇博客系統討論了 OpenAI o1。o1 通過訓練新模型處理長推理鏈，并使用大量強化學習來實現。與自回歸語言模型不同，o1 在線為用戶搜索答案，展示了新的 scaling law—— 推理 scaling law。博客還討論了 o1 的一些技術細節，包括其如何使用強化學習進行訓練，以及它在推理時的高成本。此外，博客還探討了 o1 對未來 AI 領域的影響，包括它如何改變 AI 產品的部署堆棧和期望，以及它如何作為一個模型，通過不同的生成策略來實現復雜的任務。最后，博客提出了一些關于 o1 結構和功能的問題，并討論了在開源領域復制這種系統所面臨的挑戰。作者還對 AI 未來的發展方向表示了期待，認為 AI 的進步將繼續獎勵那些敢于想象不可能很快變為可能的人。

論文

OpenAI o1 貢獻者參與撰寫的論文

論文 1：Training Verifiers to Solve Math Word Problems
機構：OpenAI
作者：Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, John Schulman
鏈接：https://arxiv.org/abs/2110.14168

論文概述：這篇論文發布于 2021 年 10 月。論文指出，盡管最先進的語言模型在很多任務上表現優異，但在處理多步驟數學推理時仍有困難。為了解決這個問題，作者創建了 GSM8K 數據集，包含 8500 個多樣化的小學數學問題。研究發現，即使是大型 Transformer 模型也難以在這些任務上取得好成績。為了提高性能，作者建議訓練驗證器來評估模型答案的正確性。通過在測試時生成多個答案并選擇驗證器評分最高的答案，這種方法顯著提升了模型在 GSM8K 上的表現，并證明了這種方法比傳統的微調方法更有效。

論文 2：Generative Language Modeling for Automated Theorem Proving
機構：OpenAI
作者：Stanislas Polu, Ilya Sutskever
鏈接：https://arxiv.org/abs/2009.03393

論文概述：這篇論文發布于 2020 年 9 月，Ilya Sutskever 是作者之一。論文探討了基于 Transformer 的語言模型在自動定理證明中的應用。研究的動機是，自動定理證明器與人類相比的一個主要限制 —— 生成原創的數學術語 —— 可能可以通過語言模型的生成來解決。作者介紹了一個名為 GPT-f 的自動證明器和證明助手，用于 Metamath 形式化語言，并分析了其性能。GPT-f 發現了被 Metamath 主要庫接受的新短證明，據作者所知，這是基于深度學習系統首次為形式數學社區貢獻并被采納的證明。

論文 3：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
機構：谷歌大腦
作者：Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou
鏈接：https://arxiv.org/abs/2201.11903

論文概述：這篇論文發布于 2022 年 1 月。論文探討了如何通過生成一系列中間推理步驟（即「思維鏈」）來顯著提高大型語言模型進行復雜推理的能力。具體來說，作者提出了思維鏈提示的方法，即在提示中提供幾個思維鏈的示例，以此來引導模型進行更深入的推理。實驗表明，這種方法在三個大型語言模型上提高了算術、常識和符號推理任務的性能。

論文 4：Let's Verify Step by Step
機構：OpenAI
作者：Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe
鏈接：https://arxiv.org/abs/2305.20050

論文概述：這篇論文發布于 2023 年 5 月。論文探討了大型語言模型在復雜多步推理任務中的表現及其可靠性問題。作者比較了兩種訓練方法：結果監督（outcome supervision）和過程監督（process supervision），前者僅對最終結果提供反饋，后者則對每個推理步驟提供反饋。研究發現，過程監督在訓練模型解決 MATH 數據集中的問題時，顯著優于結果監督。具體來說，采用過程監督的模型在 MATH 測試集的一個代表性子集中解決問題的成功率為 78%。此外，論文還展示了主動學習（active learning）在提高過程監督效率方面的重要性。為了支持相關研究，作者還發布了 PRM800K 數據集，這是一個包含 800,000 個步驟級人類反饋標簽的完整數據集，用于訓練他們的最佳獎勵模型。

由于包括 Ilya 在內的多位 o1 核心貢獻者都參與了這篇論文，有人猜測這是 o1 模型訓練的方法論。

論文 5：LLM Critics Help Catch LLM Bugs
機構：OpenAI
作者：Nat McAleese, Rai Michael Pokorny, Juan Felipe Ceron Uribe, Evgenia Nitishinskaya, Maja Trebacz, Jan Leike
鏈接：https://arxiv.org/abs/2407.00215

論文概述：這篇論文發布于 2024 年 6 月。論文介紹了一種通過訓練「批評者」模型（即前面提到的 CriticGPT ）來提高人類評估機器學習模型輸出的方法。這些批評者模型是大型語言模型，它們被訓練來提供自然語言反饋，指出代碼中的問題。研究表明，這些模型在識別代碼錯誤方面比人類更有效，甚至能夠發現人類審查者未發現的錯誤。盡管存在局限性，如可能產生誤導的幻覺錯誤，但結合人類和機器的團隊可以減少這種誤導，同時保持錯誤檢測的效率。

論文 6：Self-critiquing models for assisting human evaluators
機構：OpenAI
作者：William Saunders, Catherine Yeh, Jeff Wu, Steven Bills, Long Ouyang, Jonathan Ward, Jan Leike
鏈接：https://arxiv.org/pdf/2206.05802

論文概述：這篇論文發布于 2022 年 6 月。論文研究了如何通過微調大型語言模型，使用行為克隆來生成自然語言的批評性評論，以幫助人類發現摘要中的缺陷。實驗表明，這些模型生成的評論能夠揭示人類和機器生成摘要中的問題，包括故意誤導的錯誤。研究發現，更大的模型在撰寫有幫助的評論和自我批評方面表現更好，并且能夠利用自我批評來改進自己的摘要。論文還提出了一個比較批評能力、生成能力和辨別能力的框架，并指出即使是大型模型也可能有未表達的知識。這項研究為使用人工智能輔助的人類反饋來監督機器學習系統提供了概念驗證，并公開了訓練數據集和實驗樣本。

其他論文

除了以上論文，作者還按照年份列出了一些可能與 OpenAI o1 相關的論文，列表如下：

2024 年：