精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

思考、思考、思考不停歇,思維樹ToT「軍訓」LLM

人工智能 新聞
本文引入了一種名為 ToT(Tree of Thoughts)的新型語言模型推理框架,使用 LLM 模擬人類的決策過程,以解決復雜問題。

GPT 和 PaLM 等大型語言模型在處理數學、符號、常識和知識推理等任務時正變得越來越熟練。也許令人驚訝的是,所有這些進展的基礎仍然是生成文本的原始自回歸機制。它逐個 token 地進行決策,并按從左到右的方式生成文本。這樣簡單的機制是否足以構建一個通用問題求解器的語言模型呢?如果不行,哪些問題將挑戰當前的范式,應該采用什么樣的替代機制呢?

有關人類認知的文獻提供了一些線索來回答這些問題。關于「雙過程(dual process)」模型的研究表明,人們在進行決策時有兩種模式:一種是快速、自動、無意識的模式(System 1),另一種是緩慢、深思熟慮、有意識的模式(System 2)。這兩種模式以前與機器學習中使用的各種數學模型聯系在一起。例如,對人類和其他動物的強化學習的研究探討了他們進行聯想式的「無模型」學習或更加深思熟慮的「基于模型」的規劃的情況。語言模型的簡單聯想式 token 級選擇也類似于「System 1」,因此可能受益于更深思熟慮的「System 2」規劃過程的增強,該過程保持并探索當前選擇的多種替代方案,而不僅僅是選擇一個。此外,它會評估其當前狀態,并積極地展望或回溯以進行更全局的決策。

為了設計這樣一個規劃過程,來自普林斯頓大學、 Google DeepMind 的研究者選擇先回顧一下人工智能(和認知科學)的起源,汲取 Newell、Shaw 和 Simon 在上世紀 50 年代探索的規劃過程的靈感。Newell 和他的同事將問題解決描述為對組合式問題空間的搜索,這個空間被表示為一棵樹。因此,他們提出了適用于語言模型的思維樹(ToT)框架,用于通用問題求解。

圖片

論文鏈接:https://arxiv.org/pdf/2305.10601.pdf

項目地址:https://github.com/ysymyth/tree-of-thought-llm

正如圖 1 所示,現有的方法通過對連續語言序列進行采樣來解決問題,而 ToT 則積極地維護一棵思維樹,其中每個思維都是一個連貫的語言序列,作為解決問題的中間步驟(表 1)。

圖片

圖片

這樣一個高級語義單元使 LM 能夠通過深思熟慮的推理過程來自我評估不同中間思維對解決問題的進展貢獻情況(圖 2、4、6)。通過 LM 的自我評估和深思熟慮來實現搜索啟發式是一種新穎的方法,因為以前的搜索啟發式要么是編程的,要么是學習得來的。

圖片

圖片

最后,研究者將這種基于語言的生成和評估多樣思維的能力與搜索算法相結合,例如廣度優先搜索(BFS)或深度優先搜索(DFS),這些算法允許對思維樹進行系統性的探索,并具備展望和回溯功能。

在實驗階段,研究者設置了三項任務,即 24 點游戲、創意寫作和填字游戲(表 1),這些問題對現有的 LM 推理方法來說頗具挑戰性,即使對于 GPT-4 來說也不例外。這些任務要求具備演繹、數學、常識、詞匯推理能力,以及一種融入系統性規劃或搜索的方式。實驗結果表明,ToT 在這三個任務上取得了優越的成績,因為它具備足夠的通用性和靈活性,可以支持不同層次的思維、不同生成和評估思維的方式,以及適應不同問題性質的不同搜索算法。通過系統的實驗消融分析,作者還探討了這些選擇如何影響模型性能,并討論了未來訓練和使用 LM 的方向。

思維樹:利用語言模型進行深思熟慮的問題求解

一個真正的問題求解過程涉及反復使用可用信息來啟動探索,進而揭示更多信息,直到最終發現實現解決方案的方法。—— Newell 等

對人類問題求解的研究表明,人類通過搜索一個組合式問題空間來解決問題。這可以看作一棵樹,其中節點表示部分解,分支對應修改它們的運算符。選擇哪個分支是由啟發式決定的,這些啟發式幫助導航問題空間并引導問題解決者朝著解決方案的方向前進。這個觀點突出了使用語言模型來解決通用問題的現有方法的兩個關鍵缺點:1)局部上,它們不探索思維過程中的不同延續 —— 樹的分支。2)全局上,它們不包括任何類型的規劃、展望或回溯來幫助評估這些不同的選擇 —— 這種啟發式引導的搜索似乎是人類問題求解的特征。

為了解決這些問題,作者引入了思維樹(ToT),這是一種讓語言模型能夠在思維路徑上探索多種推理方式的范式(圖 1 (c))。ToT 將任何問題框架化為對樹的搜索,其中每個節點是一個狀態 s = [x, z_1???i ],表示帶有輸入和迄今為止的思維序列的部分解。ToT 的具體實例包括回答以下四個問題:

  • 1. 如何將中間過程分解為思維步驟;
  • 2. 如何從每個狀態生成潛在思維;
  • 3. 如何啟發式地評估狀態;
  • 4. 使用什么搜索算法。

1. 思維分解。雖然 CoT 在沒有明確分解的情況下對思維進行連貫的采樣,但 ToT 利用問題屬性來設計和分解中間思維步驟。如表 1 所示,根據不同的問題,思維可以是幾個單詞(填字游戲),一個等式(24 點游戲),或者是一段寫作計劃(創意寫作)。一般來說,思維應該足夠「小(small)」,以便 LM 能生成預期多樣化的樣本(如生成太「大(big)」而不連貫一本書),但思維又應該足夠「大」,以便 LM 可以評估其解決問題的前景(例如,生成一個 token 通常太小而無法評估)。

2. 思維生成器 G (p_θ, s, k)。給定樹狀態 s = [x, z_1???i],該研究利用兩種策略來為下一步思維 step 生成 k 個候選對象。

3. 狀態評估器 V (p_θ, S)。給定不同狀態的邊界,狀態評估器評估它們在解決問題方面的進展,以確定哪些狀態應該繼續探索,以及以何種順序進行探索。雖然啟發式是解決搜索問題的標準方法,但它們通常要么是編程式的(例如 DeepBlue),要么是需要經過學習的(例如 AlphaGo)。本文提出第三種替代方法,通過使用語言來有意地推理狀態。在適用的情況下,這種深思熟慮的啟發式方法可能比編程規則更靈活,比學習模型更有效。

與思維生成器類似,考慮兩種策略來單獨或一起評估狀態:

  • (1)獨立評估每個狀態
  • (2)跨狀態投票

這兩種策略,可以多次提示 LM 來整合價值或投票結果,用時間、資源、成本換得更加可靠、魯棒的啟發式。

4. 搜索算法。最后,在 ToT 框架內,可以根據樹結構即插即用不同的搜索算法。本文探索了兩個相對簡單的搜索算法,并將更高級的算法留作以后進行研究:

  • (1)廣度優先搜索(BFS)(算法 1)
  • (2)深度優先搜索(DFS)(算法 2)

從概念上講,ToT 作為語言模型解決一般問題的方法有幾個好處:

  • (1)通用性。IO、CoT、CoT- sc 和自我細化可以看作 ToT 的特殊情況(即深度和廣度有限的樹;圖 1);
  • (2)模塊化。基本的 LM 以及思維分解、生成、評估和搜索過程都可以獨立變化;
  • (3)適應性。可以適應不同的問題屬性、LM 能力和資源約束;
  • (4)便捷性。無需額外的訓練,只需要一個預訓練的 LM 就足夠了。

實驗結果

該研究提出了三個任務,即便使用最先進的語言模型 GPT-4,通過標準的 IO prompting 或思維鏈(CoT)prompting 進行采樣,這些任務仍然具有挑戰性。

24 點數學游戲 

給定四個數字,玩家需要在限定的時間內使用這四個數字和基本數學運算符號(加號、減號、乘號、除號)來創建一個表達式,使其結果為 24。比如,給定數字:4、6、8、2,一個可能的解法是:(8 ÷ (4 - 2)) × 6 = 24。

如表 2 所示,使用 IO、CoT 和 CoT-SC prompting 方法在任務上表現不佳,僅實現了 7.3%、4.0% 和 9.0% 的成功率。相比之下,b(breadth) = 1 的 ToT 已經實現了 45% 的成功率,而 b = 5 時則達到了 74%。他們還考慮了 IO/CoT 的 oracle 設置,通過使用 k 個樣本中的最佳值來計算成功率 (1 ≤ k ≤ 100)。

為了將 IO/CoT(k 個最佳結果)與 ToT 進行比較,研究者考慮在 ToT 中計算每個任務中訪問的樹節點數量,其中 b = 1???5,并將 5 個成功率映射在圖 3 (a) 中,將 IO/CoT(k 個最佳結果)視為在賭博機中訪問 k 個節點。毫不奇怪,CoT 比 IO 更具擴展性,而最好的 100 個 CoT 樣本實現了 49% 的成功率,但仍遠遠不及在 ToT 中探索更多節點(b > 1)。

圖片

下圖 3 (b) 分解了 CoT 和 ToT 樣本在任務失敗時的情況。值得注意的是,大約 60% 的 CoT 樣本在生成第一步,相當于生成前三個單詞 (例如 “4 + 9”) 后就已經失敗了。這讓直接從左到右解碼的問題更加凸顯了。

圖片

創意寫作

研究者還發明了一個創意寫作任務,輸入 4 個隨機句子,輸出一篇包含四段的連貫文章,每段分別以 4 個輸入句子結尾。這樣的任務是開放式和探索性的,挑戰了創造性思維和高級規劃。

下圖 5 (a) 顯示了 GPT-4 在 100 個任務中的平均分數,其中 ToT (7.56) 比 IO (6.19) 和 CoT (6.93) 生成了更連貫的段落。雖然這樣的自動度量可能會有噪聲,但圖 5 (b) 證實,人類在 100 passage 對中有 41 對更喜歡 ToT 而不是 CoT,而只有 21 對更喜歡 CoT 而不是 ToT (其他 38 對被發現 “相似連貫”)。

最后,迭代優化算法在該自然語言任務上取得了更好效果,IO 一致性得分從 6.19 提高到 7.67,ToT 一致性得分從 7.56 提高到了 7.91。研究者認為,這可以看作是 ToT 框架中思維生成的第三種方法,新思維可以從細化舊思維中產生,而不是順序生成。

圖片

迷你填字游戲

在《24 點數學游戲》和創意寫作中,ToT 是比較淺顯的 —— 最多需要 3 個思考步驟就能達到最終的輸出。研究者將探索 5×5 迷你填字游戲作為有關自然語言的更難一層的搜索問題。同樣,這次的目標不僅僅是解決任務,因為一般填字游戲可以通過專門的 NLP pipeline 輕松解決,該 pipeline 利用大規模檢索而不是 LM。相反,研究者的目標是探索語言模型作為一個通用問題求解器的極限,探索它自身的思維,并以嚴謹的推理作為啟發式來指導自己的探索。

如下表 3 所示,IO 和 CoT 提示方法表現不佳,單詞級別的成功率低于 16%,而 ToT 顯著提高了所有指標,實現了 60% 的單詞級別成功率,在 20 個游戲中解決了 4 個。考慮到 IO 和 CoT 缺乏嘗試不同線索、更改決策或回溯的機制,這樣的提升并不令人驚訝。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-06-26 07:42:39

2023-05-22 15:17:02

谷歌AI

2013-11-11 09:26:50

編程思考

2022-09-01 09:52:18

應用解決方案

2017-06-27 14:49:20

深度學習機器學習

2025-08-11 07:00:00

2012-11-08 11:19:38

2020-09-17 09:37:36

云計算公共云

2009-11-30 18:00:33

Suse Linux

2013-09-12 15:51:04

編程文化垃圾代碼移動開發

2013-06-05 09:04:00

SDN集中控制數據中心

2022-10-24 13:17:46

大數據云計算移動計算

2009-12-10 09:37:31

Linuxdriver編寫思考

2025-04-27 08:55:00

2015-04-09 11:27:34

2025-03-21 13:25:14

2015-04-20 11:09:55

2024-05-28 08:46:50

遞歸算法題函數

2025-09-04 08:53:38

2015-07-17 10:05:03

面試思考
點贊
收藏

51CTO技術棧公眾號

亚洲日本欧美中文幕| 偷拍与自拍一区| 成人免费淫片视频软件| 91porn在线视频| 精品深夜福利视频| 91国在线观看| 日本道在线视频| 亚洲色图 校园春色| 欧美aⅴ一区二区三区视频| 久久综合九色九九| 日本免费福利视频| 亚洲欧美久久精品| 欧美天堂在线观看| 国产91av视频在线观看| 日韩中文字幕免费观看| 日本不卡高清视频| 久久免费高清视频| 影音先锋男人资源在线观看| 国产精品x8x8一区二区| 欧美午夜精品一区二区蜜桃| 800av在线免费观看| 国产小视频在线| 国产成人激情av| 国产成人一区二区三区电影| 九九视频免费看| 日本不卡二三区| 日韩不卡中文字幕| 熟妇无码乱子成人精品| 69堂精品视频在线播放| 调教+趴+乳夹+国产+精品| 一区一区视频| 大地资源中文在线观看免费版| 国产精品一区二区三区99| 国产精品国产三级国产aⅴ浪潮| 国产在线综合网| 91精品国产91久久综合| 中文字幕日本欧美| 国产全是老熟女太爽了| 成人偷拍自拍| 日韩一级片网址| 国产一伦一伦一伦| 欧美在线va视频| 一道本成人在线| 国自产拍偷拍精品啪啪一区二区| 亚洲夜夜综合| 亚洲日本丝袜连裤袜办公室| 亚洲国产午夜伦理片大全在线观看网站 | 欧美优质美女网站| 久久久久久久久久久免费视频| 韩国成人免费视频| 一区二区三区免费观看| 韩国黄色一级大片| 91最新在线视频| 亚洲欧美一区二区三区国产精品 | 日本a级在线| 欧美韩国日本不卡| 欧美亚洲另类在线一区二区三区| 日韩中文字幕免费观看| 不卡大黄网站免费看| 成人动漫在线视频| 色欲av永久无码精品无码蜜桃 | 一本色道久久综合亚洲精品高清| 欧美俄罗斯乱妇| 91人成网站www| 波多野结衣绝顶大高潮| 男人的天堂亚洲| 日韩av理论片| 自拍偷拍精品视频| 久久99久久精品| 成人美女av在线直播| 国产精品无码久久av| 国产资源在线一区| 91国产在线播放| 蜜臀久久99精品久久久| 成人av网址在线| 欧美激情专区| 北岛玲一区二区三区| 国产精品嫩草99a| 97精品国产97久久久久久粉红| 尤物视频在线看| 精品久久久久久中文字幕大豆网| 91传媒久久久| 成人毛片免费| 日韩欧美一区二区不卡| 男女性杂交内射妇女bbwxz| 免费福利视频一区| 亚洲午夜av电影| 美国一级片在线观看| 国产精品vip| 欧美性视频精品| 一区二区三区免费在线视频| 国产成人av电影在线播放| 久久大香伊蕉在人线观看热2| 超碰免费97在线观看| 一区二区三区中文在线观看| 少妇性饥渴无码a区免费| 欧美色片在线观看| 日韩欧美另类在线| 免费污网站在线观看| 无码一区二区三区视频| 97精品久久久中文字幕免费| 黄色大全在线观看| 成人午夜视频在线观看| 日日夜夜精品网站| 欧美hdxxxx| 在线精品国精品国产尤物884a| 亚洲精品视频三区| 天堂俺去俺来也www久久婷婷| 中文字幕日韩免费视频| 精品小视频在线观看| 男女激情视频一区| 久久精品成人一区二区三区蜜臀| 精品孕妇一区二区三区| 色综合久久综合网欧美综合网 | 久久精品99国产国产精| 国产aⅴ精品一区二区三区黄| 国产综合视频一区二区三区免费| 亚洲乱码国产乱码精品精可以看| 大肉大捧一进一出好爽视频| 国产一区二区av在线| 国产性色av一区二区| 日韩伦人妻无码| 国产乱子伦一区二区三区国色天香 | 69视频免费看| jiyouzz国产精品久久| 中文字幕综合在线观看| 国产综合色在线观看| 日韩av综合网| www.av视频在线观看| 精品午夜一区二区三区在线观看| 热re99久久精品国99热蜜月| 动漫一区二区| 精品乱人伦小说| 欧美日韩免费做爰视频| 国产在线不卡视频| 中日韩在线视频| 欧美风情在线视频| 在线播放日韩av| 国产99久久久久久免费看| 久久这里只精品最新地址| 成人黄色av片| 国产精品中文字幕制服诱惑| 欧美成人三级视频网站| 亚洲视频一区在线播放| 国产精品美女久久久久aⅴ| 成人毛片视频网站| 精品国产一区二区三区不卡蜜臂 | 亚洲三级欧美| 日韩精品久久久久| 天堂中文在线网| 久久影院视频免费| 欧美一级黄色片视频| 首页亚洲中字| 国产成人精品综合| 粉嫩av一区| 欧美色偷偷大香| 992在线观看| 国产一区二区伦理片| 久久香蕉视频网站| 国产精品超碰| 7777精品视频| 日韩精品一区二区三区视频播放| 国产盗摄x88av| 成人av在线观| 欧美 国产 小说 另类| 黑丝美女一区二区| 国产精品一二三在线| 激情影院在线观看| 欧美不卡视频一区| 欧美啪啪小视频| 中文字幕高清一区| 亚洲精品国产久| 亚洲午夜一级| 欧美日韩天天操| 亚洲精品一区av| 欧美福利视频在线| 黄色小视频在线观看| 欧美久久婷婷综合色| 久久97人妻无码一区二区三区| eeuss影院一区二区三区| 国内外成人激情视频| 成人系列视频| 国产66精品久久久久999小说| 日韩av影片| 神马国产精品影院av| 国产裸体无遮挡| 午夜精品在线看| 手机免费观看av| 国产成人综合在线播放| 97在线播放视频| 亚洲五月综合| 久久99久久精品国产| 丰满少妇一区| 久久久久久久久国产精品| 精品999视频| 日韩免费电影一区| 亚洲男人天堂网址| 亚洲国产日日夜夜| 国产一区在线观看免费| 成人一级片网址| 色免费在线视频| 91久久视频| 中文字幕一区综合| 亚洲精品一级二级三级| 69堂成人精品视频免费| 日韩伦理三区| 久久久久久国产精品美女| av播放在线观看| 精品视频在线播放免| av在线免费在线观看| 在线区一区二视频| 国产精品7777| 亚洲视频在线一区| 黄色片网站免费| 91丨porny丨首页| 女人扒开双腿让男人捅| 麻豆精品精品国产自在97香蕉 | 男女男精品网站| 一区二区传媒有限公司| 自拍偷拍欧美专区| 一区二区免费在线观看| 精品在线播放| 精品久久蜜桃| 一区二区亚洲视频| 亚洲精品欧美极品| 欧美日韩视频免费看| 国产福利成人在线| 国产日韩电影| 69视频在线免费观看| 91超碰在线播放| 久久久久久久久中文字幕| 国产传媒在线播放| 久久精品国产一区二区三区| www视频在线观看免费| 亚洲欧美综合图区| 精品美女视频在线观看免费软件 | 亚洲在线国产日韩欧美| 中国丰满熟妇xxxx性| 欧美精品日本| 国产成人在线小视频| 欧美成人首页| 麻豆md0077饥渴少妇| 亚洲成人av| 国产日韩第一页| 亚洲最新色图| 国内精品国产三级国产99| 中文在线日韩| 欧美国产综合在线| 亚洲精品美女| 99精品视频在线看| 男女激情视频一区| 午夜精品久久久久久久99热影院| 麻豆国产欧美一区二区三区| 国产野外作爱视频播放| 久久国产精品无码网站| 久久99爱视频| 国产毛片精品国产一区二区三区| 99中文字幕在线| 国产精品一区二区黑丝| 88av在线播放| 久久综合久久鬼色| 女人裸体性做爰全过| 中文字幕在线一区二区三区| 麻豆精品国产免费| 一区二区三区四区乱视频| 日本在线视频免费观看| 疯狂欧美牲乱大交777| 一级片视频在线观看| 欧美影视一区在线| 国产一区二区波多野结衣| 日韩午夜激情电影| 五月天婷婷在线播放| 亚洲欧洲国产伦综合| 免费黄色电影在线观看| 欧美精品少妇videofree| av不卡高清| 国产大片精品免费永久看nba| 青青国产精品| 国产精品视频免费观看| 欧美人与动xxxxz0oz| 五月婷婷综合色| 欧美激情四色| 亚洲国产精品久久久久爰色欲| 男女男精品视频网| 国产精品嫩草69影院| 久久影院视频免费| 黄色一级片中国| 精品免费在线视频| 一区二区三区免费在线视频| 欧美xxx久久| а天堂8中文最新版在线官网| 久久亚洲影音av资源网| 韩国成人动漫| 51国产成人精品午夜福中文下载 | 亚洲欧洲av一区二区| 国产黄色小视频在线| 欧美中文字幕在线视频| 国产精久久一区二区| 久久综合狠狠综合久久综青草| 欧美wwwww| 美女福利视频在线| 国产成人av一区二区| 国产不卡在线观看视频| 亚洲成人免费电影| 国产精品无码在线播放| 亚洲欧美日韩中文在线制服| 二区在线播放| 国产精品成人国产乱一区| 9国产精品午夜| 乱子伦一区二区| 日产国产欧美视频一区精品| 超碰caoprom| 亚洲欧美国产三级| 中文字幕 人妻熟女| 亚洲国产天堂久久国产91 | 在线观看日本一区二区| 91在线免费视频观看| www.色小姐com| 欧美区一区二区三区| 你懂的视频在线播放| 欧美国产日韩一区二区| 亚洲91在线| 亚洲一区影院| 日韩黄色在线观看| 国内精品久久99人妻无码| 亚洲午夜在线视频| 国产肥老妇视频| 欧美成人三级视频网站| 另类一区二区| 色噜噜色狠狠狠狠狠综合色一| 亚洲一区二区成人| 国产草草浮力影院| 夜夜精品浪潮av一区二区三区| 国产麻豆一精品一男同| www.日韩免费| a一区二区三区亚洲| 伊人久久大香线蕉午夜av| 日本欧美大码aⅴ在线播放| 最近中文字幕免费| 91国偷自产一区二区使用方法| 男女污污视频在线观看| 国产91精品不卡视频| 亚洲图片久久| 国产精品99久久免费黑人人妻| 91蜜桃婷婷狠狠久久综合9色| 国产超碰人人爽人人做人人爱| 亚洲第一中文字幕在线观看| 青春草视频在线| 国产91aaa| 夜夜嗨一区二区三区| 蜜桃精品成人影片| 91福利国产精品| av男人的天堂在线| 成人美女免费网站视频| 中文精品久久| 日韩少妇一区二区| 黄网动漫久久久| 免费在线高清av| 国产欧美在线看| 欧美午夜精品| 精品中文字幕在线播放| 色哟哟欧美精品| 在线观看二区| 97人人模人人爽人人喊38tv| 韩国精品一区二区三区| 亚洲天堂资源在线| 欧日韩精品视频| 性国产高清在线观看| 国产精品三区四区| 日韩av二区在线播放| 青草影院在线观看| 亚洲第一福利在线观看| 美女日韩欧美| 中文字幕中文字幕99| 国产99久久精品| 6080午夜伦理| 久久精品青青大伊人av| 国产精品视屏| 亚洲黄色av网址| 亚洲成av人片| 1769视频在线播放免费观看| 5566av亚洲| 日韩精品视频网站| 69av视频在线| 亚洲一品av免费观看| 日本少妇精品亚洲第一区| 成人一级片网站| 一区二区三区国产| 免费人成在线观看网站| 亚洲永久在线观看| 久久天堂精品| 久久精品视频8| 色青青草原桃花久久综合| 国产精品自在| 中文字幕精品一区二区三区在线| 午夜视频在线观看一区二区三区| 在线免费av电影| 免费成人深夜夜行视频| 国产一区二区三区在线观看免费视频| 黄色片视频网站|