精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

斯坦福大學CS25:大語言模型推理(Reasoning)

發布于 2025-6-4 06:52
瀏覽
0收藏

?核心觀點

1. 大語言模型推理的定義

常規觀點:大語言模型(LLM)的推理被視為類似人類的高級能力,定義模糊,常引發爭論。  

Zhou的觀點:推理爭論因缺乏明確定義而無意義;Zhou將推理定義為輸入與輸出之間的中間Token(推理步驟),僅是模型輸出的可預測行為,而非神秘過程。

2. 預訓練模型的推理能力

常規觀點:預訓練模型需通過思維鏈(CoT)提示或微調才能具備推理能力。  

Zhou的觀點:預訓練模型已具備推理能力,推理路徑存在于輸出空間中;問題在于解碼方式,例如通過探索更多候選而非貪心解碼即可挖掘推理,無需額外提示或微調。

3. 思維鏈提示的作用

常規觀點:思維鏈提示通過教模型逐步思考來啟用或增強推理能力。  

Zhou的觀點:思維鏈提示不增加推理能力,而是重塑輸出分布,將已存在的含推理步驟的響應提升至首位,使貪心解碼可直接選擇,屬于解碼優化而非能力增強。

4. 機器生成數據優于人類數據

常規觀點:人類標注數據是微調模型的最佳選擇,尤其適用于復雜推理任務。  

Zhou的觀點:在迭代微調中,機器生成的數據優于人類數據,因其分布更貼近訓練目標,直接優化輸出質量(如數學問題的正確性),符合機器學習第一原理。

5. 推理擴展的方向

常規觀點:提升推理能力主要靠擴大模型規模(如參數數量)。  

Zhou的觀點:理論表明,固定大小的Transformer模型通過生成足夠長的思維鏈(中間Token)即可解決布爾電路問題,擴展推理步驟長度而非模型規模是關鍵方向。

6. 自一致性的適用條件

常規觀點:自一致性(Self-Consistency)是一種通用技術,通過多次采樣并選擇最常見答案提升模型可靠性。  

Zhou的觀點:自一致性僅在模型生成中間推理步驟時有用,通過對推理路徑的概率邊緣化選擇最可能答案;若直接輸出答案,只需查看模型概率,無需自一致性。

7. 推理無需依賴搜索

常規觀點:推理任務(如數學或邏輯問題)依賴類似經典AI的窮舉搜索。  

Zhou的觀點:LLM推理從Token到Token的預測中涌現,無需顯式搜索;學習是可擴展的核心,搜索僅作為輔助工具而非推理本質。

8. 迭代微調的局限性

常規觀點:迭代微調是提升推理能力的通用方法,適用于大多數任務。  

Zhou的觀點:迭代微調依賴自動驗證器,僅適用于可驗證任務(如數學),對不可自動驗證的任務(如創意寫作)效果有限,限制其通用性。

9. 驗證器的重要性

常規觀點:強化學習算法(如PPO)是提升推理能力的關鍵技術。  

Zhou的觀點:驗證器是迭代微調和AI訓練的核心,遠超復雜算法的重要性;可靠驗證器決定數據質量和模型性能,是AI成功的基石。

10. AGI時間表的懷疑

常規觀點:AI社區普遍樂觀,認為通用人工智能(AGI)可能在2-5年內實現。  

Zhou的觀點:Zhou對AGI在短期內實現的說法持懷疑態度,認為當前方法有顯著局限,真正的挑戰是避免研究停滯而非過快達到AGI。

大語言模型推理(Reasoning)的定義


斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

很高興看到大家已經認為LLM很強大。你們可能會好奇,我對LLM是否能推理的看法是什么?我的答案是:這取決于推理(reasoning)的定義。今天我們將圍繞一個具體的推理定義展開討論。我從不參與關于LLM能否推理的爭論,因為沒有明確的推理定義,這些討論毫無意義。在LLM推理中,我們特指輸入與輸出之間的中間Token(intermediate tokens),這些Token被稱為推理或中間步驟。

這個概念并不新鮮。早在2017年,Deman發表了一篇論文,探討如何利用中間Token解決數學問題。當時,學術界對AlphaGo和AlphaZero的熱情高漲,但這篇論文極具開創性。如果你還沒讀過,我強烈推薦一讀。他們引入了自然語言來解決數學問題,而當時文獻中普遍采用符號方法或搜索。這在神經符號(neurosymbolic)研究中也很常見,通常使用中間過程來解決推理問題。

舉個例子說明LLM推理的用法。當我在Google Brain創立推理團隊時,我設計了一個任務:Last Letter Concatenation(末字母拼接)。這個任務作為激勵示例,可以用Transformer模型解決。例如,輸入“artificial intelligence”,輸出是將每個單詞末字母拼接的結果。如果沒有推理過程,模型可能直接輸出“LE”。但若有推理過程,模型會輸出:“‘artificial’的末字母是L,‘intelligence’的末字母是E,拼接L和E得到LE。”這里高亮的文本就是推理(reasoning),這就是我所說的推理。

如果你熟悉程序合成或神經符號推理,這個任務設計并不意外。我也嘗試過其他方案,比如拼接首字母,但所有大型模型都能輕松解決,因為網上有大量首字母拼接的例子,模型早已學會。但當我改為末字母拼接時,所有模型都失敗了。很多人會說:“這很自然,我們需要中間步驟,就像人類一樣。”如今LLM看似與人類很像,但作為研究者,我們要牢記:LLM只是預測模型(predictive models),不是人類。保持這個認知有助于理解許多新技術。

推理的理論基礎

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

為什么中間Token或推理重要?我們與斯坦福的Tima教授及其學生合作開展了理論研究。研究表明,對于任何可以用大小為\( T \)的布爾電路解決的問題,固定大小的Transformer模型通過生成\( O(T) \)個中間Token即可解決。這是一個強有力的結果。這里的“大小”指邏輯門的數量。例如,若使用GPU集群,\( T \)可能達到百萬、十億甚至萬億。如果直接生成最終答案,模型要么需要極深的網絡,要么根本無法解決問題。這就是我們從理論角度理解推理的依據,后續我會再回到這個理論論點。

解碼與思維鏈推理

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

有一種普遍觀點認為,預訓練模型(pre-trained models)若不經過CoT提示(Chain-of-Thought prompting)或微調(fine-tuning),無法進行推理。過去,大家熱衷于討論微調。這種觀點正確嗎?你們同意嗎?我認為這是錯誤的,非常錯誤。預訓練模型已經具備推理能力,我們需要的只是解碼(decoding),僅與解碼過程相關,無論那些技術看起來多么復雜。

舉個例子:我有三個蘋果,我爸比我多兩個蘋果,我們總共有多少個蘋果?如果你用預訓練模型(如LLaMA、DeepSeek或Chinchilla,我沒試過這些模型),輸入這個問題,模型很可能會輸出“5個蘋果”。顯然,這個答案是錯的。這是因為默認使用了貪心解碼(greedy decoding),問題出在解碼方式上。

如果查看第一個Token的第二候選(因為詞匯表很大),繼續解碼,你會看到:“我有三個蘋果,我爸比我多兩個蘋果,所以他有五個蘋果,3 + 5 = 8。”完美,對吧?我們只需探索更多候選。另一個選擇是第一個Token的第三候選“we”,解碼后得到:“我們總共有八個蘋果。”這也正確。第四候選可能是“you”,繼續解碼,依然能看到正確的CoT推理,最終答案正確。第五候選可能是“five”,那是錯誤的。

可以看到,推理路徑(reasoning path)已經存在于輸出空間(output space)中。特別是,第二和第四個回應基于CoT推理。問題在于如何選擇最佳回應。你可能認為可以根據輸出長度選擇,因為包含推理Token的輸出更長。但我們有更好的方法:根據答案置信度(answer confidence)選擇。置信度指模型預測Token的概率。對于包含CoT推理的回應,最終答案Token的置信度遠高于其他。例如,對于“8”這個Token,模型置信度接近98%,這在巨大詞匯表中非常高,通常每個Token的概率幾乎為零。

這個過程稱為Chain-of-Thought Decoding(思維鏈解碼),包含兩步:  

1. 超越貪心解碼,檢查更多生成候選;  

2. 選擇最終答案置信度最高的候選。

CoT解碼方法簡單,但仍需編程實現。聽說過去大家只想用自然語言,不寫代碼。當然,你們是例外。所以我們想:能否重塑模型的輸出分布,讓深思熟慮的回應自然排在首位?如果CoT回應排在首位,貪心解碼就能自然找到它。

思維鏈提示

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

現在來看CoT提示(Chain-of-Thought prompting)。如果你了解CoT提示,就能明白其工作原理。這是一個簡單方法。給定一個問題,你可能用一個相似問題作為示例,放在問題前,模型就會神奇地模仿推理風格,生成逐步解決方案。現在可以理解CoT提示為何有效:它改變輸出分布,將輸出空間中原有的CoT解決方案推到首位。

還有更簡單的方法:“Let's Think Step by Step”(讓我們一步步思考)。這在推理研究中是個驚艷的工作。論文發布時,我以為是玩笑,怎么可能?當時Google Brain團隊開發了PaLM模型,我在PaLM上試了這個方法。我知道PaLM的構建過程,絕對與這個“魔法”無關。但結果它竟然有效,我非常震驚。這篇論文極大啟發了我的推理研究。

這些提示方法簡單,且確實有效,但也有缺陷。CoT提示需要特定任務的示例,我對此不太滿意。如果我知道相似問題,我自己就能解決,為什么還要問別人?“Let's Think Step by Step”更通用,無需找相似示例,只需說“讓我們一步步思考”,魔法就出現了。但遺憾的是,其表現比少樣本提示(few-shot prompting)差得多。兩種方法看起來都不錯,但如果我問問題還得說“請一步步思考”,否則對方不會思考,這不符合預期。

監督微調

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

如何解決?一種流行方法是監督微調(Supervised Fine-Tuning, SFT)。思路簡單:收集一組問題及其人類標注的逐步解決方案,然后最大化人類解決方案的似然(likelihood)。對于LLM訓練,這只是最大化似然,之后模型可廣泛應用。

我提到2017年的Deman論文,他們正是這樣做的:收集數學字面問題及人類標注的逐步解決方案,訓練序列模型解決數學問題。2021年,OpenAI進一步擴展此方法,構建了更大的數據集GSM8K(小學數學問題),用它微調GPT-3模型。

舉例說明:可以用Last Letter Concatenation或蘋果數學問題作為訓練數據微調模型,然后用新問題測試,如“草莓里有多少小時?”我特意選這個問題,因為社交媒體上很多人認為這是測試AGI是否到來的好問題。

SFT是個通用的方法,一旦訓練好模型,就能廣泛應用。如果這能解決推理問題,我的講座到此結束——收集更多斯坦福的優秀示例,訓練模型即可。但實際上,SFT泛化能力不佳。2021年夏天,我們發現SFT在推理任務上表現不佳。怎么辦?擴展,擴展,再擴展——獲取更多數據訓練模型,看效果如何。教訓是:不要盲目擴展。一旦范式錯誤,無論如何擴展,都無效。

迭代微調與自我改進

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

如何解決SFT的泛化失敗?看看SFT流程:僅兩步。問題出在哪?出在人類數據上。如果你之前不知道,會很驚訝。如果人類數據有問題,Scale AI怎么賺錢?我團隊的一員發明了迭代微調(Iterative Fine-Tuning)。他告訴我,機器生成的數據可能比人類數據更適合訓練,我一開始非常驚訝。

首個嘗試稱為Self-Improve(自我改進)。不再從人類收集數據,而是讓模型生成數據。收集一組問題,讓模型生成逐步解決方案,然后最大化正確答案的似然。對于數學問題,你可能知道最終答案,但不知道逐步解決方案。模型生成解決方案后,檢查答案正確性:正確則選用,錯誤則丟棄。然后用此數據集微調模型,與SFT類似,唯一區別是數據來自模型而非人類。

這一方法由Eric、Tony和Noah提出,論文名為STAR,非常出色。STAR論文最初考慮用此方法節省標注成本,因為人類標注成本高。但后來我們從不同角度理解:一旦訓練數據由更優模型生成,模型就能自我改進。改進后,再次收集數據,重復此過程。這就是迭代微調。

我列了一篇2024年1月由BAAI研究者發表的論文,標題為“Reasoning with Reinforced Fine-Tuning”,這是我注意到的最早學術出版的迭代微調研究。在OpenAI流行后,大家開始公開討論迭代微調。我相信多家機構獨立發現了這個簡單但非常有效的想法。

在這個訓練循環中,驗證器(verifier)至關重要,用于判斷哪個回應正確。因為我們知道最終答案,只需用它選擇正確的推理路徑。可靠的驗證器是迭代微調的核心,而非算法。我知道很多人討論不同的算法,如PPO或強化學習的各種變體。如果有人發現顯著優于其他的方法,請告訴我,我可能錯過了什么。我很喜歡Richard Sutton的說法:“驗證:AI的關鍵”(Verification: The Key to AI),這是他2021年的文章標題。

為什么用模型生成的數據而非人類數據?不僅僅是為了節省成本,而是為了性能。有人有想法嗎?  

觀眾:是CoT結構的連貫性,還是人類解決問題方式的多樣性?  

Denny Zhou:模型生成的數據分布更接近訓練目標,訓練更有效。這與機器學習的第一原理相關:直接優化我們想要的目標。

推理優化的數學原理

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

若要構建推理或生成有趣內容的模型,需優化衡量生成質量的指標。指標因任務而異,例如數學問題的正確性、機器翻譯的BLEU分數或生成質量。有了指標,計算其梯度并進行反向傳播。數學上,我們定義一個函數\( R \),給定問題和模型參數\( \theta \),衡量回應質量。\( R \)可以是正確率、BLEU分數或任何目標。然后計算梯度,最大化指標的期望值。

為此,需通過采樣計算期望,這就是策略梯度(policy gradient)的由來。如果你理解數學原理,就沒啥神秘的。有人說要激勵模型思考或推理,我不用這些詞,我用標準的機器學習術語:定義指標,計算梯度,反向傳播。

一旦找到有效路徑,就需擴展方法。有趣的是,對于這種微調方法,我們擴展輸出長度或CoT長度。也可以擴展模型深度,因為分析表明,只要CoT足夠長,模型幾乎能解決所有可計算問題。這很驚人——無需擴展模型大小,只需最小固定大小的Transformer模型。

類人推理的涌現

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

我想強調LLM推理的美妙之處:類人推理過程從Token到Token的預測中涌現,而非依賴經典AI的窮舉搜索。Garry Kasparov在1997年輸給Deep Blue后說:“Deep Blue的智能就像程序化的鬧鐘。”我同意,但LLM推理不同,我們不做顯式搜索。講座前,有人引用了我的推文,說搜索已無關緊要,我很高興聽到這個。實際上,我用了你的代碼,發現搜索仍有用途。

舉個例子說明LLM推理與經典AI的區別。2024年12月,Google發布Gemini 2.0 Thinking Mode(思考模式)。雖然2.5 Pro更強大,但我選這個模型有原因。模型發布后,我試了一個2025年的數學問題,確保不在訓練集中:“用1到10的數字組成2025,每個數字用一次,僅用加法和乘法。”可以用Python寫窮舉搜索程序得到結果。看看模型的思考過程。

Gemini模型支持查看思考過程,非常有趣。一開始,模型說:“2025是個大數,暗示乘法占主導。”這很像人類思維。它注意到2025是45的平方(45 × 45)。我設計問題時沒意識到這點,這是重要線索。模型開始思考如何用乘法得到接近2025平方根(45)的大中間結果。思考過程很長,這正是我們微調時使用長CoT的原因。最終,模型給出答案:“(10 × 4 + 5) = 45,45 × 45 = 2025。”太棒了,無需任何搜索。

還有一篇關于CoT提示的論文,提到Game 24問題。這個問題比Game 24難得多。他們結合搜索和提示解決,但現在完全不需要,模型僅用自然語言就能解決Game 24。這就是迭代微調的強大之處。

我想再次引用Richard Sutton:“基于已有發現構建,只會讓發現過程更難看到。”他在加入Google DeepMind,看到AlphaGo和AlphaZero的成功后說,只有學習和搜索是可擴展的。但我強調:學習是可擴展的,我們只需學習。

迭代微調的局限性

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

迭代微調的巨大優勢是泛化能力強,但僅適用于可自動驗證的任務,因為訓練循環需要驗證器,無法納入人類驗證。并非所有任務都可自動驗證。有人能舉例說明不可驗證的任務嗎?  

觀眾:創意寫作。  

Denny Zhou:很好的例子。這是當前微調的重大限制。我知道很多人致力于改進RL算法。我希望看到更多研究解決不可驗證任務,如創意寫作或編碼。有人說AI幾年內會解決編碼問題,但我認為很具挑戰性。他們說的是競技編程,不是日常編程。我們關心設計、可讀性和協作,而不僅是最終答案。

自一致性與聚合

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

所有想法始于CoT解碼:推理路徑已存在于輸出空間,我們只需重塑輸出分布,讓貪心解碼找到它。然后討論了CoT提示和“Let's Think Step by Step”,它們重塑輸出分布,接著是SFT和迭代微調,非常強大。但我們仍有改進空間。

我想談兩個關鍵思路:聚合(aggregation)和檢索(retrieval)。我們看到LLM很強大,但生成推理Token然后輸出最終答案的解碼范式有問題。看起來很自然,對吧?給定問題,生成中間Token,然后是最終答案。有人看到問題嗎?  

觀眾:挑戰在于模型預測下一個Token的方式,導致結果與預期不一致。  

Denny Zhou:模型最初設計僅為預測下一個Token。我們要記住,LLM是預測模型,不是人類。

數學上,LLM解碼做什么?給定問題,生成推理,然后最終答案,通過貪心解碼找到回應。貪心解碼意味著最大化概率。但我們需選擇最自信的答案,二者不一致。簡單的條件概率數學很有用,理解解碼過程。我們可以修復:生成推理路徑后,需對所有推理路徑求和,計算最終答案的概率。這在機器學習中稱為邊緣化(marginalization),推理路徑本質上是隱變量。

這啟發了自一致性(self-consistency)方法:通過隨機采樣生成多個回應,選擇出現最頻繁的答案。例如,數學問題采樣多次,第一個回應可能是“18”,第二個“26”,再次“18”,選擇最頻繁的。這正是概率邊緣化的實現。我們不看推理路徑,只選最頻繁的答案,而非最頻繁的推理路徑,這是關鍵。

實證上,自一致性顯著提升性能。在GSM8K問題上,微調的GPT-3模型準確率33%,OpenAI用驗證器達到55%。PaLM模型加CoT得到58%,與驗證器相當。但應用自一致性后,準確率躍升至75%,相對提升近50%。PaLM 2甚至達到92%。o1模型(去年10月發布)通過聚合得到66.4%,自一致性仍有顯著提升。

采樣更多回應成本更高,但這是推理時擴展(inference-time scaling)的一種方式。推理時擴展有很多方式,如延長CoT也增加推理時間。有人說推理時擴展,我得知道具體擴展什么。自一致性顯然是一種擴展方式。

自一致性天然自校準(self-calibrated)。一致性越高,準確率越高。在GSM8K上,自一致性超80%時,準確率接近100%。關心預測不確定性或置信度的人可以多次采樣。

確保大家理解自一致性的關鍵:  

1. 當LLM不生成中間步驟直接輸出答案時,我們多次采樣,選擇最常見答案。有人有想法嗎?  

觀眾:可以直接獲取概率。  

Denny Zhou:對,就像經典機器學習,用邏輯回歸得到\( P(y|x) \),最大化概率。這就是傳統機器學習文獻中看不到自一致性的原因,它沒必要,僅對推理有用。

2. 可否改自一致性,讓LLM生成多個回應而非多次采樣,然后選最常見答案?可以試試。這稱為最大邊緣推理(maximum marginal inference),選擇概率最大的最終答案。數學是我們所需的一切。

自一致性有個問題:假設答案是單個Token。對于一般問題,答案可能不同。我們擴展為Universal Self-Consistency。例如,某問題第二個回應是“日本、中國、印度”,因這些國家在其他答案中出現最多,被選為最一致回應。

推理中的檢索

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

另一個方法是檢索。關于推理的爭論很多,有人說:“或許只是檢索,而非推理。”我在社交媒體上看到這些爭論。對我來說,區分檢索和推理很難。主持會議時,我們討論每篇論文的新穎性,與檢索-推理爭論類似。

觀眾:我試過并行運行不同模型,如Gemini 2.5,四個模型同時回答同一問題,然后用驗證器找最一致結果。  

Denny Zhou:對,這更像集成模型(ensemble model),類似隨機森林。數學原理與自一致性不同,但實現類似。好觀點。

我不關心檢索與推理的爭論。我在工業界,只關心性能。對我來說,檢索加推理最好,何必爭論?2024年我們發表了關于類比推理(analogical reasoning)的論文。舉個小例子說明檢索在推理中的重要性:“求一個正方形四頂點的面積……”我加了提示:“回憶一個相關問題,然后解決這個問題。”當時我試了GPT-3.5和我們自己的模型,都失敗了。加了提示后,模型解決了。它找到相關問題——計算坐標平面兩點間的距離,然后用公式計算距離和面積。

另一個例子是物理問題的Step-Back(回退)。解決前,給予少樣本示例,指導模型回退,考慮更抽象的問題,獲取原理,然后解決。這就是檢索在推理中的作用。現在大家知道Deep Research(深度研究),原理相同。我們有Gemini Deep Research,OpenAI也有。OpenAI的Deep Research負責人是我之前的實習生,博士畢業后加入OpenAI,發明了Deep Research。基本思路簡單:找到相似問題或知識解決問題。

總結與未來方向

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

別糾結LLM能否推理的爭論。有推理總比沒推理好。迭代微調優于SFT。聚合多個答案優于單一答案,盡管成本更高。檢索加推理優于單獨推理。

未來突破,我想看到如何解決非唯一可驗證答案的任務。過去,我也希望看到人們構建真實應用,而非僅解決基準測試。我認為所有基準測試很快會飽和。你們對AGI或構建熱情高漲,我想引用Richard Feynman:“真相總是比你想的更簡單。”這在研究中尤其正確。我看到很多學術論文試圖復雜化,所以我盡量讓講座簡單——確實很簡單。就這樣。

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

問答環節

觀眾:你提到置信度,通常是取輸出Token序列的平均對數概率。你認為有更好的方法嗎?這對幻覺(hallucination)是好指標嗎?  

Denny Zhou:我說的置信度是指生成條件的概率。可以查看模型的log probs,看到概率。從實證觀察,推理路徑后,最終答案的置信度大幅提升。

觀眾:你提到Richard Sutton說擴展學習和搜索,但你認為擴展學習就夠了。能否展開為什么搜索不那么必要?  

Denny Zhou:我得更具體。構建模型時,不必考慮搜索。模型建成后,搜索可作為工具使用的一種特例,如CoT提示整合符號搜索。對于推理研究,我關心基本能力。模型可寫Python程序用搜索解決問題,但推理過程無需搜索。

觀眾:若無推理,你說無需采樣,因為可查看logits。但如果最可能的下一個Token導致分布擴散,而較不可能的Token導致更尖銳分布,采樣不會收斂于不同分布嗎?  

Denny Zhou:好問題。我們仍不清楚訓練中分布如何重塑,很不明確。很難回答,因為我們對最終分布缺乏好的解釋。

觀眾:如何區分推理和答案?需要從最終輸出字符串提取數字嗎?如果答案是程序怎么辦?  

Denny Zhou:好問題。如果答案是程序,提取更難。所以人們用微調解決數學或競技編程問題。對于一般情況,需為最終答案寫小心解析器。如果問題很具挑戰,低置信度答案可能是正確的,自一致性不完美。

觀眾:考慮到AGI可能在2-5年內到來,若90%工作自動化,你會培養孩子哪些技能讓他們生存?  

Denny Zhou:大問題。誰說AGI五年內到來?去年ICLR有人問AI風險,我說最可怕的是我回不去丟了工作。當前方法有很多限制。我真想看到AI研究的真正殺手級應用。AI模型擅長編程,是編碼的好助手,但我只知道這些。

本文轉載自????Andy730????,作者:常華?

收藏
回復
舉報
回復
相關推薦
男女裸体影院高潮| 国产精品扒开腿爽爽爽视频| 涩视频在线观看| av剧情在线观看| 久久理论电影网| 91在线视频精品| 波多野结衣视频网站| 婷婷中文字幕一区| 亚洲激情在线观看| 中文字幕亚洲影院| 男人av在线播放| 国产精品久久久久久久久免费相片 | 精品九九九九| 国产乱码久久久久| 久久国产精品99国产| 欧美精品生活片| av网在线播放| 久久狠狠久久| 538在线一区二区精品国产| 黄色激情在线视频| 黄页视频在线播放| 久久精品一区二区三区四区| 99在线看视频| 91麻豆成人精品国产免费网站| 国产欧美日本| 欧美激情中文字幕在线| 午夜三级在线观看| 欧美一级精品| 国产视频精品自拍| 欧产日产国产精品98| 久久9999免费视频| 欧美精品免费视频| 韩国视频一区二区三区| 国产高清不卡| 欧美视频在线观看 亚洲欧| 亚洲啊啊啊啊啊| 国产日产一区二区三区| 国产精品污www在线观看| 欧美久久综合性欧美| 天堂在线中文| 99久久99久久综合| 韩国一区二区三区美女美女秀| av手机免费看| 国产精品一区二区久激情瑜伽| 成人女保姆的销魂服务| 亚洲综合精品国产一区二区三区 | 国产91色在线观看| 韩国成人漫画| 欧美性xxxxx| 青青艹视频在线| 狠狠躁少妇一区二区三区| 亚洲一区二区精品3399| 中文字幕无码精品亚洲资源网久久| 污污网站在线观看| 一区二区免费在线播放| 黄色网在线视频| 92久久精品| 黑人与娇小精品av专区| 久久无码高潮喷水| 午夜欧美巨大性欧美巨大 | 窝窝社区一区二区| 亚洲精品一二区| 人妻一区二区视频| 日韩国产一区二区三区| 日韩中文字幕网址| 亚洲色婷婷一区二区三区| 欧美天天视频| 78色国产精品| 国产一级免费视频| 日韩av中文字幕一区二区 | 国产极品模特精品一二| 亚洲精品美女久久| 蜜桃无码一区二区三区| 欧美成人激情| 久久久久久久久久av| 特黄视频免费看| 久久电影网站中文字幕| 国产成人女人毛片视频在线| 亚洲欧美日韩动漫| 中文字幕av一区二区三区免费看| 国产高潮呻吟久久久| 丰乳肥臀在线| 日本高清不卡在线观看| 午夜不卡福利视频| 日本欧美三级| 深夜福利一区二区| 国产手机在线视频| 麻豆成人av在线| 国产精品污www一区二区三区| 国内精品一区视频| 亚洲最大的成人av| 亚洲老女人av| 久久99精品国产自在现线| 色偷偷综合社区| 黄色小视频在线免费看| 日韩国产欧美在线观看| 成人羞羞视频免费| 成人免费高清在线播放| 一区二区久久久| 韩国视频一区二区三区| 男人的天堂久久| 精品国产欧美一区二区五十路| 国产在线观看99| 青青草国产成人99久久| 九色91国产| 成年人网站在线| 欧美自拍丝袜亚洲| 国模私拍在线观看| 你懂的成人av| 国产女精品视频网站免费| 日本高清视频免费看| 国产精品久久久久久户外露出 | 亚洲精品午夜久久久久久久| 美女久久久精品| 久久久一本精品99久久精品66 | 一区二区三区四区电影| 日本va欧美va瓶| 99九九电视剧免费观看| √新版天堂资源在线资源| 午夜精品久久久久久久99樱桃| 亚洲精品免费一区亚洲精品免费精品一区 | 韩国中文字幕在线| 在线观看av不卡| 内射中出日韩无国产剧情| 好看不卡的中文字幕| 91麻豆国产精品| 91精品专区| 日本道色综合久久| 少妇大叫太粗太大爽一区二区| 好看不卡的中文字幕| 99re在线国产| caoporn免费在线视频| 欧美性猛交xxxx乱大交退制版| 精品夜夜澡人妻无码av | 亚洲欧美色一区| 免费av不卡在线| 久久精品高清| 国产精品免费在线免费| 国产一二三区在线视频| 色天使色偷偷av一区二区| 91视频免费观看网站| 日韩精品dvd| 国产女精品视频网站免费| 91网在线播放| 欧美日韩免费一区二区三区视频| 久久av无码精品人妻系列试探| 男女精品网站| 欧美精品在线一区| 香蕉久久免费电影| 中文字幕精品一区二区精品| 91porny九色| 国产欧美日本一区视频| 激情 小说 亚洲 图片: 伦| 欧美一区二区三区高清视频| 国产精品视频一| 日本电影全部在线观看网站视频| 欧美日韩精品一区二区三区| 国产稀缺精品盗摄盗拍| 国产成人在线免费观看| 亚洲黄色成人网| 操bbb操bbb| 99亚洲乱人伦aⅴ精品| 欧美国产欧美亚洲国产日韩mv天天看完整| av官网在线观看| 五月天久久比比资源色| 91网站免费视频| 久久99热这里只有精品| 强开小嫩苞一区二区三区网站| 亚洲va欧美va人人爽成人影院| 久久久久中文字幕2018| 飘雪影院手机免费高清版在线观看| 色婷婷激情久久| 亚洲一级二级片| 国产99精品视频| 日本在线视频www| 婷婷久久国产对白刺激五月99| 97久久夜色精品国产九色| 色综合桃花网| 在线国产精品播放| 亚洲精品国产精品国| 欧美性猛交xxxx| 国产探花在线视频| av电影在线观看一区| 日本中文字幕高清| 欧美日韩国产免费观看| 欧美一区三区二区在线观看| 在线日韩三级| 国外成人在线直播| 一区二区三区视频网站 | 欧美一乱一性一交一视频| 国产女人18毛片18精品| 婷婷综合另类小说色区| 日韩av毛片在线观看| 风流少妇一区二区| 一级特黄性色生活片| 欧美色一级片| 亚洲国产精品www| 国产精品欧美大片| 国产欧美日韩免费看aⅴ视频| 狂野欧美激情性xxxx欧美| 国产一区二区精品丝袜| 成人午夜福利视频| 7777女厕盗摄久久久| 亚洲精品男人天堂| 亚洲综合激情网| 九九这里只有精品视频| 久久免费电影网| 久久精品aⅴ无码中文字字幕重口| 丝袜亚洲另类欧美| 日韩久久久久久久久久久久| 欧美一级精品| 你懂的视频在线一区二区| 欧美日韩黄网站| 国产精品丝袜视频| 牛牛精品一区二区| 九九精品在线视频| 日本中文字幕在线观看| 亚洲片av在线| 日本福利午夜视频在线| 日韩精品自拍偷拍| 浓精h攵女乱爱av| 成人影院免费观看| 欧美日韩精品一区二区| 一级片视频在线观看| 亚洲国产综合在线| 国产女人被狂躁到高潮小说| 国产精品理论在线观看| 无码人妻精品一区二区中文| 成人蜜臀av电影| xxxx国产视频| 国产乱码一区二区三区| 午夜激情影院在线观看| 激情综合色丁香一区二区| 污污动漫在线观看| 免费观看在线综合| 天天干在线影院| 青娱乐精品视频在线| 无码内射中文字幕岛国片| 久久精品人人| 精品国产成人av在线免| 蜜桃久久av| www.色就是色| 日av在线不卡| 国产探花在线看| 国产一区二区调教| 天堂av手机在线| 国产精品一区二区无线| 日本中文字幕有码| 成人免费黄色在线| www.日本高清| 久久精品亚洲精品国产欧美kt∨| 日本高清www| 国产拍揄自揄精品视频麻豆| 欧美激情 一区| 国产精品对白交换视频| 性欧美疯狂猛交69hd| 超清av在线| 欧美白人最猛性xxxxx69交| 精品国精品国产自在久不卡| 日韩一区二区三区视频在线观看| 国产草草影院ccyycom| 精品欧美一区二区久久| 人妻一区二区三区| 亚洲欧美国产制服动漫| h视频在线免费| 欧美成人四级hd版| 美女搞黄视频在线观看| 欧洲成人免费视频| 97人人做人人爽香蕉精品| 成人妇女淫片aaaa视频| 电影一区二区在线观看| 欧洲亚洲一区二区| 亚欧美无遮挡hd高清在线视频| 国产精品igao激情视频| 国产精品一级| 色www免费视频| 成人丝袜高跟foot| 免费看裸体网站| 一区二区高清视频在线观看| 天堂中文字幕在线观看| 欧美日韩第一区日日骚| 日本波多野结衣在线| 亚洲一区二区福利| 色女人在线视频| 国产成人av在线播放| 日本亚州欧洲精品不卡| 欧美日韩成人一区二区三区| 99久久激情| 91视频 -- 69xx| 国内外成人在线| 国产精品久久无码| 国产精品乱人伦| 国产美女激情视频| 欧美一级理论性理论a| 久久这里精品| 欧美国产视频日韩| jizz亚洲女人高潮大叫| 国产一区免费在线| 国产精品99久久| 免费观看日韩毛片| 国产精品一二一区| 成人做爰69片免网站| 精品久久久久久中文字幕大豆网| 伊人网免费视频| 日韩精品在线免费播放| 综合久久2019| 国产主播精品在线| 国产最新精品| 欧美三级一级片| 国产不卡视频一区二区三区| 国产91丝袜美女在线播放| 天天综合网天天综合色| 99久久久久久久| 宅男66日本亚洲欧美视频| 日本在线高清| 国产精品国模大尺度私拍| 日本不卡电影| 日韩欧美在线免费观看视频| 成人免费视频caoporn| 精品久久久999| fc2ppv国产精品久久| 国产精品白嫩初高中害羞小美女| 第四色在线一区二区| 欧美日韩激情四射| 激情av综合网| 国产精品一区二区亚洲| 欧美专区在线观看一区| 日韩在线免费看| 性色av一区二区三区在线观看 | 亚洲永久视频| 野战少妇38p| 一区二区三区精品在线| 国产精品久久久久久免费播放| 最近免费中文字幕视频2019| 电影久久久久久| 四虎影院一区二区三区 | 尤物在线精品| 中文字幕一区二区三区人妻在线视频| ...xxx性欧美| 国产男女无套免费网站| 久久久精品国产亚洲| 亚洲免费一区| 特色特色大片在线| 国产传媒日韩欧美成人| 免费无码毛片一区二区app| 日韩一级片在线播放| 手机在线免费看av| 99在线看视频| 宅男噜噜噜66国产日韩在线观看| 亚洲自拍偷拍精品| 岛国视频午夜一区免费在线观看| 日本精品一区二区在线观看| 97不卡在线视频| 天天做夜夜做人人爱精品 | 亚洲系列中文字幕| 国产成人福利夜色影视| 在线视频91| 国产乱码字幕精品高清av| 精品无码人妻一区二区三| 日韩国产在线播放| 精品欧美一区二区三区在线观看| 视频一区二区三区在线观看 | 色综合久久久久综合99| 国产系列电影在线播放网址| 国产日韩av在线播放| 911久久香蕉国产线看观看| 性感美女一区二区三区| 欧美日韩国产综合新一区| 国产资源在线播放| 成人网在线观看| 亚洲人www| 欧美人妻一区二区三区| 日韩一区二区三区在线| а√天堂中文在线资源8| 欧美在线播放一区二区| 久久 天天综合| 国产成人综合精品| 99视频免费在线观看| 丁香五月网久久综合| 午夜在线一区| 殴美一级黄色片| 精品粉嫩aⅴ一区二区三区四区| 日韩脚交footjobhd| 亚洲日本精品国产第一区| 粉嫩13p一区二区三区| 91视频在线视频| 欧美日韩成人在线视频| 神马影视一区二区| 日本成人在线免费观看| 欧美午夜性色大片在线观看| 日本电影在线观看网站| 国产精品久久久久免费| 人人超碰91尤物精品国产| 久久久国产精品人人片| 一区二区三区精品99久久| 91欧美极品| www.日本一区| 欧美午夜片在线免费观看| 青青在线视频| 一区二区不卡在线观看|