精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

沒想到!AlphaZero式樹搜索也能用來增強大語言模型推理與訓練

人工智能 新聞
研究團隊提出了大語言模型的樹搜索推理與訓練增強框架 TSLLM,在經驗結果上強調了可靠中間價值評估的重要性與樹搜索算法在不同問題上的效果與效率,驗證了 AlphaZero 式的蒙特卡洛樹搜索的高效性與進一步迭代優化大語言模型本身的可能。

萬梓煜是上海交通大學的三年級在讀博士生,導師為溫穎教授和張偉楠教授,主要研究興趣為強化學習與大語言模型、決策大模型。馮熙棟是倫敦大學學院四年級博士生,導師為汪軍老師。同時目前也是Google DeepMind的student researcher。主要研究方向是強化學習與大語言模型,多智能體以及元強化學習。

2016年 DeepMind 的 AlphaZero 展示了強大的學習和適應能力,登上《自然》雜志封面,并在之后通過自我對弈不斷提升自身水平,最終戰勝了人類冠軍,而這也為之后學者在大語言模型與樹搜索的結構化結合奠定了基礎。

大語言模型樹搜索

大語言模型與思維鏈(Chain-of-Thought, CoT)的結合增強了其復雜推理能力,使其在數學和邏輯推理等任務上表現更佳。然而,語言模型仍存在誤差:一方面,受數據數量和質量的影響,大語言模型在復雜任務上仍與專家系統和求解器有差距;另一方面,僅依靠大語言模型難以解決長程規劃(long-horizon planning)任務。

為解決這些問題,研究者提出了將結構化的樹/圖搜索與大語言模型結合的方式。思維樹(Tree of Thought, ToT)模仿人類認知中的慢系統,利用深度/廣度優先搜索顯著提升大語言模型的規劃能力。Reasoning via Planning (RAP) 則將大語言模型的思維鏈過程視作規劃(planning),使用其內在知識進行狀態評估,并結合傳統蒙特卡洛樹搜索(MCTS),從而增強語言模型的性能。這些方法利用大語言模型的多任務能力,通過提示工程(prompt engineering)對中間結果進行價值判斷。

然而,這種方法并不普遍適用。評估多步推理問題的中間狀態本身也是一個推理子問題,依賴CoT生成評估,無法保證評估的可靠性。此外,語言模型的自我評估能力和逆轉詛咒問題,以及子問題難度降低不顯著等因素,限制了這類方法的應用效果,尤其是對于較小規模、易部署的模型。

一個潛在的解決方案是參考AlphaZero。2016年,DeepMind通過AlphaZero在復雜多步推理問題如圍棋上取得突破性進展。AlphaZero結合了傳統MCTS和深度神經網絡的優勢,使用價值函數學習簡化了MCTS中的Simulation/Rollout過程,并通過蒸餾樹搜索增強策略的迭代優化,為大語言模型在樹搜索評估和長程規劃效率問題上提供了方向。

基于此,來自倫敦大學學院,上海交通大學,卡耐基梅隆大學的合作團隊將 AlphaZero 方法精髓與大語言模型的文本生成結合,提出了大語言模型樹搜索訓練增強框架 TSLLM。通過將這一任務建模為多步決策問題,引入強化學習中價值函數學習的概念,以訓練的方式微調一個價值函數以提供更為魯棒可靠的搜索中間價值評估。與此同時在 TSLLM 中也實現了不同樹搜索算法的對比,尤其是探究了價值函數結合的簡化 MCTS 在不同類型任務上的優缺點。最后,團隊探究了由樹搜索引導的迭代優化方式對大語言模型進一步優化的可能性。目前,該論文已被ICML 2024接收。

圖片

  • 論文名稱:AlphaZero-Like Tree-Search can Guide Large Language Model Decoding and Training
  • 論文鏈接:https://arxiv.org/abs/2309.17179
  • 代碼鏈接:https://github.com/waterhorse1/LLM_Tree_Search

TSLLM的基本框架如下:

圖片

圖一:TSLLM 基本框架一覽

TSLLM 有如下特點:

  • TSLLM 是一個普遍適用和可擴展的框架,通過學習價值函數可應用于幾乎任何任務,以及任何大小的語言模型。
  • TSLLM 在不同問題上驗證了樹搜索能增強大語言模型推理階段表現的同時,也進一步驗證了其迭代增強語言模型作為一個語言模型訓練新范式的潛力。
  • 在設計上,TSLLM 支持逐句/詞元細粒度的搜索。
  • 使用可靠魯棒的價值函數作為狀態評估,TSLLM 支持包括簡單的 BFS/DFS,傳統 MCTS,AlphaZero 式的 MCTS-α,MCTS-Rollout 等算法。
  • TSLLM進行了全面且公平的對比。例如,為了實現與非搜索算法(如 CoT/CoT-SC)的公平對比,TSLLM 通過統計總體計算量的方式衡量不同算法的效果與效率。

AlphaZero 式的樹搜索增強的大語言模型

研究團隊將大語言模型的自回歸生成過程建模為一個多步決策問題,定義詞元/句級的語言生成過程的概率建模。對于給定的自然語言任務,他們通過學習的價值函數估計與最終獎勵估計,建模自然語言任務生成過程中的期望回報與稀疏獎勵。并通過樹搜索的方式在推理與訓練階段增強大語言模型的能力。

大語言模型推理階段增強:

基于學習得到的價值函數,TSLLM 中實現了不同的樹搜索算法,從簡單的價值函數引導的廣度/深度搜索(DFS/BFS-V)到傳統 MCTS,該團隊基于 AlphaZero 的中間價值回傳思想實現了 MCTS-α,以及提出離線搜索變種MCTS-Rollout。下圖比較了傳統 MCTS 與 AlphaZero 式的 MCTS 的主要區別,如圖所示,傳統 MCTS 需要通過模擬(Simulation)達到停止節點,才會開始價值回傳。另外,在 TSLLM 中,他們還討論并實現了多條搜索路徑的聚合形式,以及提出了考慮計算量的公平比較方式。

圖片

圖二:傳統蒙特卡洛樹搜索(左)與AlphaZero 式的蒙特卡洛樹搜索(右)對比。

大語言模型迭代訓練增強:

最后,在 TSLLM 中,研究團隊指出樹搜索還能夠進一步強化大語言模型本身。他們將結構化搜索作為一個策略增強算子( Policy Improvement Operator),利用這個算子本身,可以迭代式的優化語言模型策略與價值/獎勵估計函數。在 TSLLM 中,研究團隊類比 AlphaZero/Expert Iteration 中的迭代式優化方法:一方面通過 supervised finetuning 蒸餾這一更好表現的策略分布,而另一方面持續微調價值函數估計。通過這樣的方式不斷持續增強大語言模型策略本身的任務解決能力與價值函數指導的搜索增強策略的能力。

實驗結果

在實驗過程中,團隊非常重視樹搜索算法和基線算法的合理對比。針對于一些算法評估的不合理現象,團隊強調了:

  • 算法的合理對比。樹搜索算法天生會帶來更高的計算復雜度,合理的算法對比應在相似的計算量上進行。
  • 選擇合理基線和設定。例如,團隊發現一個經常被忽略的基線算法:Majority-Vote + Outcome Reward Model。實驗中團隊發現其可以作為簡單卻非常強大的基線,在GSM8K上甚至可以超過樹搜索算法。同時團隊嚴格避免了不合理的實驗設定:如利用測試集的真值進行樹搜索回溯。

在實驗中,團隊在數學推理/規劃,邏輯推理任務,價值對齊的文本生成以及文本化的決策推理任務上進行了豐富的實驗與對比,在搜索深度上最大達到了 64,顯著深于之前的算法。

圖片

微調學習的價值函數有更可靠、更好的泛化能力:

團隊首先就基于學習的價值函數與大語言模型自我評估的方式進行對比。下表實驗結果表明基于學習的價值函數無論是在 GSM8k還是 Game24 問題上都優于 ChatGPT,即使在評估 ChatGPT 本身作為策略的中間狀態時,表現依舊優于 ChatGPT 本身,充分說明了基于學習的價值函數的可靠性與魯棒性。

圖片

不同的搜索算法具有其不同適應性:

團隊比較TSLLM 中不同樹搜索算法在類似計算量下的結果,發現 MCTS-α與 MCTS-Rollout的搜索算法主要在長程推理(搜索樹深度較大,如 Alignment,Endgame)問題上,顯著優于其他搜索算法。但對于輕量級或搜索深度較低的問題,BFS/DFS也具有較強的性能。

圖片

樹搜索算法的Scaling(擴展)性質受限:

同時,團隊也嘗試了對樹搜索的采樣次數進行scaling。結果發現,絕大部分樹搜算算法都可以隨著路徑搜索次數的增加而獲得性能提升。但同時團隊也發現,一些簡單的baseline (如COT-SC+ORM)具有更好的scaling性質。例如在GSM8K中, COT-SC+ORM的baseline可以取得比樹搜索更優越的性能與擴展屬性。基于這個結果,團隊認為如何獲得更為優越的擴展性能將成為樹搜索算法未來的重要研究方向。 

圖片


團隊的實驗也驗證了迭代優化可以進一步提升大語言模型的能力:

下文左圖展示了 TSLLM 通過 MCTS-α在訓練問題集上搜索迭代的結果,在 GSM8k 上相比于初始的策略模型圖片,通過一輪樹搜索算法的搜索迭代優化后的策略圖片的表現優于在 5、10 倍采樣數據上進行 Rejection Sampling 優化的結果;然后也可以發現,在RLHF 數據集上,圖片的表現依舊不如 PPO,這主要是由于 PPO 對語言模型參數進行了多次在線迭代優化。當對比迭代后的價值函數圖片我們也可以發現,其能夠進一步增強圖片的樹搜索結果。

圖片

總結

總結來說,在這一工作中,研究團隊提出了大語言模型的樹搜索推理與訓練增強框架 TSLLM,在經驗結果上強調了可靠中間價值評估的重要性與樹搜索算法在不同問題上的效果與效率,驗證了 AlphaZero 式的蒙特卡洛樹搜索的高效性與進一步迭代優化大語言模型本身的可能。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2021-08-12 06:52:02

谷歌面試ArrayList

2015-07-15 13:00:31

英特爾開源

2023-08-10 08:00:00

2021-01-27 18:13:35

日志nginx信息

2019-04-12 09:24:46

Spring Clou服務注冊

2017-12-26 15:41:26

2018-01-26 23:23:23

JDBC MySQL數據庫

2012-12-28 13:47:36

Raspberry PGeek

2017-02-09 17:00:00

iOSSwiftKVC

2022-01-05 17:13:28

監控HTTPS網站

2021-11-29 05:37:24

Windows Def操作系統微軟

2020-08-14 08:19:25

Shell命令行數據

2009-04-28 07:48:29

蓋茨打工基金會

2022-03-21 08:55:53

RocketMQ客戶端過濾機制

2023-10-31 12:29:25

模型訓練

2020-11-24 09:55:37

編程語言C ++Vasa

2023-02-26 00:00:02

字符串分割String

2019-03-08 10:08:41

網絡程序猿代碼

2024-08-27 09:35:47

2018-12-26 09:44:02

分布式緩存本地緩存
點贊
收藏

51CTO技術棧公眾號

四季av一区二区三区免费观看| 成人影院入口| 成人va在线观看| 国产999在线观看| 久久精品亚洲a| 精品午夜电影| 在线播放中文一区| 欧美黑人在线观看| eeuss影院在线观看| 国产福利91精品| 国产精品日韩久久久久| 国产乡下妇女做爰视频| 91九色精品国产一区二区| 亚洲黄一区二区| 中文字幕 欧美日韩| 中国字幕a在线看韩国电影| 亚洲欧洲精品一区二区三区| 蜜桃日韩视频| 草逼视频免费看| 蜜桃免费网站一区二区三区| 午夜精品免费视频| 亚洲av无码一区二区三区在线| 蜜桃一区二区| 精品国产免费人成电影在线观看四季 | 黄色欧美网站| 欧美一级久久久久久久大片| 成年人网站大全| 97蜜桃久久| 玉米视频成人免费看| 午夜视频久久久| 四虎影视精品成人| 丁香激情综合国产| 亚洲综合中文字幕在线观看| 夜夜嗨aⅴ一区二区三区| 美女日韩在线中文字幕| 久久久日本电影| 欧美三根一起进三p| 999久久久免费精品国产| 精品无人区乱码1区2区3区在线 | 日本免费一区二区三区视频| 欧美三级日韩三级国产三级| 91av在线免费播放| 小早川怜子影音先锋在线观看| 亚洲一区二区三区激情| 91麻豆天美传媒在线| 亚洲s色大片| 国产精品视频在线看| 欧美资源一区| 男男激情在线| 久久久久国产精品麻豆ai换脸 | www.污网站| 青草综合视频| 欧美高清一级片在线| 久久久久久久久久一区| 日日夜夜亚洲| 69久久99精品久久久久婷婷| 亚洲娇小娇小娇小| 亚洲免费一区| 欧美一级夜夜爽| 国产ts在线观看| 成人福利一区| 日韩成人黄色av| 亚洲综合色一区| 精品国产一区二区三区久久久樱花 | 午夜精品视频一区| 久久亚洲中文字幕无码| 狼人综合视频| 在线精品视频免费观看| 亚洲欧美自拍另类日韩| 国产日韩一区二区三免费高清| 欧美一区二区日韩| 97人妻精品一区二区三区免费| 久久久久观看| 在线观看日韩视频| 日本天堂中文字幕| 一本色道久久综合亚洲精品不| 欧美一区二区.| 精品国产青草久久久久96| 久久se精品一区二区| 成人动漫视频在线观看免费| 无码精品黑人一区二区三区| 国产亚洲综合性久久久影院| 亚洲综合网中心| 欧美videossex另类| 日韩欧美国产一区二区| 日本超碰在线观看| 国产精品对白久久久久粗| 亚洲免费精彩视频| 蜜臀av午夜精品久久| 亚洲国内精品| 国产精品一区二区三区久久| 国产黄色片网站| 久久综合资源网| 26uuu成人| 色在线免费观看| 欧美日本国产一区| 中文字幕乱码一区| 97欧美在线视频| 欧美在线视频免费观看| 国产又粗又猛又爽又黄的| 成人免费电影视频| 亚洲乱码一区二区三区| av电影免费在线看| 欧美日韩激情一区二区| 在线免费观看污视频| 91精品一区二区三区综合| 欧美一级淫片丝袜脚交| 精品女同一区二区三区| 国产午夜亚洲精品羞羞网站| www.亚洲成人网| av成人亚洲| 亚洲黄色www| √天堂中文官网8在线| 丝袜诱惑亚洲看片| 国产精品区一区| caoporm免费视频在线| 在线观看网站黄不卡| 日本性生活一级片| 最新精品国产| 国产精品天天狠天天看| 欧洲天堂在线观看| 亚洲国产精品尤物yw在线观看| 在线能看的av网站| 欧美极品中文字幕| 久久久久久伊人| 精品人妻一区二区三区浪潮在线 | 主播大秀视频在线观看一区二区| 精品国产伦一区二区三区观看方式 | 国产伦精品一区二区三区妓女下载| 黑人操亚洲人| 欧美一性一乱一交一视频| 亚洲国产精品国自产拍久久| 亚洲私人黄色宅男| 国产成人美女视频| 色综合色综合| 国产精品一区电影| 婷婷成人激情| 欧美喷潮久久久xxxxx| 三年中国中文观看免费播放| 亚洲欧美激情诱惑| 欧美日本国产精品| 桃花岛tv亚洲品质| 亚洲欧洲日韩国产| 无码视频一区二区三区| 国产色综合一区| 黄色一级免费大片| 成人写真视频| 国产精品一区二区三区成人| 日本不卡在线| 6080国产精品一区二区| 人人艹在线视频| 国内精品在线播放| 欧美 亚洲 视频| 亚洲视频国产| 国产91av在线| 黄色av免费在线看| 欧美日韩精品一区二区天天拍小说| 欧美人与性囗牲恔配| 麻豆视频观看网址久久| 自拍另类欧美| 伊色综合久久之综合久久| 欧美激情一区二区三区久久久 | 在线免费观看一级片| 国产精品福利一区二区三区| 爱豆国产剧免费观看大全剧苏畅| 99精品电影| av成人午夜| 日韩伦理在线| 在线看片第一页欧美| 99热精品在线播放| 婷婷丁香久久五月婷婷| www..com.cn蕾丝视频在线观看免费版| 日韩中文字幕区一区有砖一区 | 国产精品视频一区二区三区经| 成人在线app| 日韩电影大片中文字幕| www毛片com| 亚洲婷婷综合久久一本伊一区| 中文字幕欧美视频| 亚洲一区自拍| 小说区视频区图片区| 精品按摩偷拍| 国产精品日韩在线播放| 久草免费在线色站| 夜夜躁日日躁狠狠久久88av| 精品乱子伦一区二区| 色综合久久88色综合天天免费| 国产三级aaa| 成人国产精品免费观看动漫| 91最新在线观看| 欧美日韩18| 日本一区二区三区四区高清视频| 国产精品一区二区精品| 欧美孕妇与黑人孕交| 欧美成人hd| 日韩av在线网| a在线观看免费| 日本精品视频一区二区| 九九精品在线观看视频| 中文天堂在线一区| 韩国三级hd两男一女| 麻豆精品新av中文字幕| 欧美日本视频在线观看| 欧美在线观看天堂一区二区三区| 日本公妇乱淫免费视频一区三区| 视频在线一区| 国产欧美精品久久久| 中文字幕高清在线播放| 欧美美女15p| 毛片激情在线观看| 亚洲人成五月天| 日本波多野结衣在线| 欧美高清激情brazzers| 午夜精品免费观看| 精品久久久国产| 欧美日韩三级在线观看| 国产精品电影一区二区三区| 无码人妻aⅴ一区二区三区| 国产成人午夜99999| 蜜臀av免费观看| 麻豆91精品| 国产va亚洲va在线va| 亚洲国产一成人久久精品| 日韩欧美亚洲v片| 亚洲aaa级| 国模精品娜娜一二三区| 北条麻妃一区二区三区在线| 亚洲自拍另类欧美丝袜| 在线不卡一区| 成人h片在线播放免费网站| 刘亦菲一区二区三区免费看| 亚洲**2019国产| av资源中文在线天堂| 欧美激情极品视频| 色帝国亚洲欧美在线| 欧美高清电影在线看| 在线黄色网页| 久久91亚洲人成电影网站| 2024最新电影免费在线观看| 久久精品中文字幕免费mv| 久操视频在线观看| 久久久国产精品x99av| 成人福利在线观看视频| 久久久国产一区| 成人a在线视频免费观看| 久久天天躁夜夜躁狠狠躁2022| 欧美精品电影| 不用播放器成人网| 怡红院在线播放| 韩国美女主播一区| 天天综合av| 国产精品美女主播| 亚洲图片小说区| 亚洲伊人成综合成人网| 51vv免费精品视频一区二区| 国产欧美精品一区二区三区| 天海翼精品一区二区三区| 久久国产精品-国产精品| 国产成人精品三级高清久久91| 欧美日韩中文国产一区发布| 青青草91久久久久久久久| 亚洲午夜精品久久久中文影院av| 999精品色在线播放| 97超碰在线视| 亚洲精品三级| 欧美日韩大尺度| 久久99精品国产.久久久久| 欧美性猛交乱大交| 91免费看`日韩一区二区| 亚洲最大成人综合网| 亚洲视频一区在线| 国产精品6666| 欧美这里有精品| 国产哺乳奶水91在线播放| 日韩av在线电影网| 日本美女高清在线观看免费| 欧美区在线播放| 毛片无码国产| 91成人伦理在线电影| 亚洲精品一级二级三级| 亚洲一区二区在线看| 欧美日韩福利| 99色精品视频| 国产一区二区成人久久免费影院| 亚洲精品第二页| 国产精品丝袜久久久久久app| 久久久久久久久久99| 日本高清视频一区二区| 国产欧美久久久精品免费| 亚洲激情中文字幕| 精品麻豆一区二区三区| 性视频1819p久久| 新片速递亚洲合集欧美合集| 亚洲一区二区三区视频| 国产精品手机在线播放| 人妻av无码专区| 美女www一区二区| 成人免费毛片日本片视频| 亚洲三级视频在线观看| 中文字幕在线播| 精品对白一区国产伦| 四虎久久免费| 日本高清视频一区| av综合网址| 中文字幕久精品免| 麻豆成人在线| 50一60岁老妇女毛片| 亚洲乱码国产乱码精品精98午夜| 福利网址在线观看| 亚洲国产精品人久久电影| 黄色成年人视频在线观看| 国产91色在线| 日韩av字幕| 亚洲 欧美 综合 另类 中字| 精品无人码麻豆乱码1区2区| 中字幕一区二区三区乱码| 激情懂色av一区av二区av| www.超碰在线.com| 日韩视频在线观看免费| a∨色狠狠一区二区三区| 欧美精品一区二区三区四区五区| 国产精品九九| 免费黄视频在线观看| 中文字幕一区二区三| 一级片在线免费播放| 亚洲人成在线观看| 竹内纱里奈兽皇系列在线观看 | 精品久久影视| a√天堂在线观看| www.亚洲在线| 国产精品二区一区二区aⅴ| 日韩免费福利电影在线观看| 国产精品扒开做爽爽爽的视频| 国产精品视频公开费视频| 国产日产一区| 国产成人av影视| 国产亚洲精品超碰| 人人妻人人爽人人澡人人精品| 日韩精品福利网站| 樱桃视频成人在线观看| 久久精品人成| 六月天综合网| 韩国三级hd中文字幕| 欧美性猛交xxxxxx富婆| 超碰免费在线观看| 国产精品视频久久| 欧美hentaied在线观看| 中文字幕精品一区二区三区在线| 亚洲日韩欧美一区二区在线| 国产99久一区二区三区a片| 理论片在线不卡免费观看| 伊人久久噜噜噜躁狠狠躁| 亚洲 欧美 日韩 国产综合 在线| 99视频有精品| 自拍偷拍18p| 深夜成人在线观看| 精品国产亚洲一区二区在线观看 | 免费看成人片| 日韩国产成人精品| 久久精品色妇熟妇丰满人妻| 欧美精品aⅴ在线视频| 亚洲第一图区| 国产自产精品| 日产欧产美韩系列久久99| 激情高潮到大叫狂喷水| 日韩一二三四区| 男人的天堂免费在线视频| 欧美最大成人综合网| 久久成人18免费观看| 久久精品国产亚洲av麻豆色欲| 亚洲精品一区二三区不卡| 88xx成人网| 亚洲中文字幕无码一区二区三区| 国产成人免费网站| 丰满人妻老熟妇伦人精品| xvideos亚洲| 粉嫩精品导航导航| 日本老熟妇毛茸茸| 亚洲欧美电影一区二区| 无码精品黑人一区二区三区| 国产精品久久9| 亚洲国产高清一区| 亚洲第一综合网| 欧美成人精品二区三区99精品| 亚洲国产欧美日本视频| 亚洲五码在线观看视频| 久久美女高清视频| 国产高清在线观看视频| 欧美在线激情网| 亚洲深深色噜噜狠狠爱网站| 国产白嫩美女无套久久| 欧美二区在线观看| 在线观看特色大片免费视频| 男女h黄动漫啪啪无遮挡软件| 91美女福利视频| 午夜免费福利视频| 国产精品久久久久久搜索| 亚洲高清二区| 日韩成人毛片视频| 一区二区欧美日韩视频|