精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Llama3-8B秒殺700億巨獸?北大博士生等全新「BoT」框架推理暴漲70倍,24點(diǎn)圖形推理一步成神

人工智能 新聞
24點(diǎn)游戲、幾何圖形、一步將死問題,這些推理密集型任務(wù),難倒了一片大模型,怎么破?北大、UC伯克利、斯坦福研究者最近提出了一種全新的BoT方法,用思維模板大幅增強(qiáng)了推理性能。而Llama3-8B在BoT的加持下,竟多次超越Llama3-70B!

大語言模型不擅長推理怎么辦?

用思維緩沖區(qū)(Buffer of Thoughts,BoT)來解決!

最近,北大、UC伯克利、斯坦福的研究人員提出了一種元緩沖區(qū)(meta-buffer)。它可以存儲(chǔ)一系列信息豐富的高級(jí)思維,也就是所謂的「思維模板」,它是從各種任務(wù)的問題解決過程中蒸餾出來的。

圖片

論文地址:https://arxiv.org/abs/2406.04271

然后,對(duì)于每個(gè)問題,都可以檢索相關(guān)的思維模板,然后用特定的推理結(jié)構(gòu)讓它自適應(yīng),這樣就可以進(jìn)行有效的推理了!

在以往,24點(diǎn)游戲(Game of 24)、幾何圖形任務(wù)(Geometric Shapes)、一步將死問題(Checkmate-in-One)這些推理密集型任務(wù),難倒了不少LLM。

圖片

24點(diǎn)游戲

而使用思維緩沖區(qū)(BoT)后,與之前的SOTA相比,LLM在24點(diǎn)游戲的性能提升了11%,幾何圖形任務(wù)的性能提升了20%,一步將死問題的性能則一舉提升了50%。

分析顯示,BoT具有卓越的泛化能力和模型魯棒性。

甚至,原本在各項(xiàng)任務(wù)中慘敗的Llama3-8B小模型, 在BoT的加持下,竟然性能大升級(jí),在多項(xiàng)任務(wù)上一舉超越了Llama3-70B!

圖片

在實(shí)驗(yàn)過程中,團(tuán)隊(duì)設(shè)計(jì)了一種緩沖區(qū)管理器(buffer-manager)。這種管理器可以從各種解決方案中,蒸餾出思維模板,而隨著LLM解決的任務(wù)越來越多,元緩沖區(qū)的容量也在不斷增大。

而且,BoT的成本也很香,平均只需要多查詢提示方法成本的12%。

圖片

幾何圖形推理任務(wù)

LLM推理難,兩種方法均有局限

咱們都知道,GPT-4、PaLM、Llama這些大模型選手,都是完成推理任務(wù)的佼佼者了。

怎么能讓它們的推理性能變強(qiáng),更上一層樓呢?

除了擴(kuò)大模型規(guī)模,還有一個(gè)辦法,就是通過更有效的提示方法。

具體來說,這些方法分為兩類。

1. 單查詢推理

這類方法主要是靠提示工程,讓推理過程在單個(gè)查詢中完成,比如CoT的「讓我們一步一步思考」。

或者Few-shot Prompting,能提供與任務(wù)相關(guān)的示例來幫助生成答案。

圖片

然而,單查詢推理通常需要事先假設(shè)或推理過程的相關(guān)示例,逐個(gè)任務(wù)地手動(dòng)設(shè)計(jì),顯然是不切實(shí)際的。因而它缺乏普適性和泛化性。

2. 多查詢推理

包括Least-to-Most、ToT、GoT等,它們側(cè)重于利用多個(gè)LLM查詢,來引出不同的合理推理路徑,從而將復(fù)雜問題分解為一系列更簡單的子問題。

圖片

然而,由于推理路徑的遞歸擴(kuò)展,多查詢推理在為每個(gè)特定任務(wù)找到推理過程背后唯一的內(nèi)在結(jié)構(gòu)時(shí),通常是計(jì)算密集型的。

另外,這兩種方法都受限于設(shè)計(jì)范例和推理結(jié)構(gòu)的限制,而且之前的任務(wù)做完了就做完了,它們不會(huì)從中得到高級(jí)的指導(dǎo)方針和思維。再遇到類似問題時(shí),它們依然效率很低。

因此,BoT誕生了!

這種新穎、多功能的思維增強(qiáng)框架,能夠規(guī)避上述兩種方法的弱點(diǎn)。

圖片

單查詢、多查詢都和BoT方法之間的比較

BoT有三個(gè)關(guān)鍵優(yōu)勢(shì)——

1. 準(zhǔn)確性:通過共享的思維模板,LLM可以自適應(yīng)地實(shí)例化高層次思維來解決不同任務(wù),由于期間無需從頭構(gòu)建推理結(jié)構(gòu),因此推理的準(zhǔn)確性便得到了提高。

2. 推理效率:通過思維增強(qiáng)推理,LLM能夠直接利用信息豐富的歷史推理結(jié)構(gòu)進(jìn)行推理,由于期間無需復(fù)雜的多查詢過程,因此推理的效率便得到了提高。

3. 魯棒性:從思維檢索到思維實(shí)例化的過程,類似于人類的思維過程,這就讓LLM能夠以一致的方式解決類似問題,從而顯著增強(qiáng)了模型的魯棒性。

圖片

國際象棋中的「一步將死」

Buffer of Thoughts

從圖2中,可以看出BoT是怎樣用核心思維增強(qiáng)推理任務(wù)的。

對(duì)于給定的特定任務(wù),團(tuán)隊(duì)首先會(huì)用問題蒸餾器來提取關(guān)鍵認(rèn)為的具體信息,以及相關(guān)限制。

蒸餾出這些信息后,就可以在包含了一系列高級(jí)思維(思維模板)的元緩沖區(qū)中進(jìn)行搜索了。這個(gè)過程中,會(huì)檢索到與任務(wù)最相關(guān)的思維模板。

圖片

隨后,就可以用更多特定任務(wù)的推理結(jié)構(gòu),實(shí)例化搜索到的思維模板,進(jìn)行推理過程。

最后一步,就是使用緩沖區(qū)管理器來總結(jié)整個(gè)問題解決過程,并且蒸餾出增加其容量的高層思維。

圖片

不同推理過程的示意圖(橙色為思維模板,藍(lán)色為實(shí)例化的思維)

問題蒸餾器

大多數(shù)復(fù)雜任務(wù),都包含隱含的約束、復(fù)雜的對(duì)象關(guān)系以及上下文中的復(fù)雜變量和參數(shù)。

因此,在推理階段,LLM需要克服三個(gè)主要挑戰(zhàn):提取重要信息、識(shí)別潛在約束以及進(jìn)行準(zhǔn)確推理。

對(duì)于單個(gè)LLM,這些挑戰(zhàn)會(huì)造成顯著的負(fù)擔(dān)。

因此,團(tuán)隊(duì)選擇將任務(wù)信息的提取和理解階段與最終的推理階段分開,通過在推理過程中添加一個(gè)問題蒸餾器來實(shí)現(xiàn)。

為此,他們?cè)O(shè)計(jì)了一個(gè)元提示(meta prompt)φ,用于首先蒸餾和形式化任務(wù)信息。

蒸餾后的任務(wù)信息可以表示為:

圖片

問題蒸餾器的詳細(xì)元提示如下:

圖片

作為信息蒸餾領(lǐng)域的高度專業(yè)和智能專家,你擅長從用戶輸入查詢中提取關(guān)鍵信息以解決問題。你能夠熟練地將提取的信息轉(zhuǎn)化為適合相應(yīng)問題類型的格式。

請(qǐng)分類并提取解決問題所需的關(guān)鍵信息,包括:

1. 關(guān)鍵信息:從用戶輸入中提取的關(guān)鍵變量的值和信息,這些信息將交給相應(yīng)的專家進(jìn)行任務(wù)解決,確保提供解決問題所需的所有必要信息。

2. 限制條件:問題的目標(biāo)和相應(yīng)的約束。

3. 蒸餾任務(wù):基于1和2擴(kuò)展問題,總結(jié)一個(gè)可以解決用戶查詢并處理更多輸入和輸出變化的元問題。結(jié)合擴(kuò)展問題的真實(shí)場(chǎng)景以及原始問題中的關(guān)鍵變量類型和信息約束來限制擴(kuò)展問題中的關(guān)鍵變量。之后,使用用戶查詢輸入的關(guān)鍵信息作為輸入來解決問題作為示例。

用元緩沖區(qū),讓思維推理增強(qiáng)

- 動(dòng)機(jī)

人類在解決問題時(shí),常常總結(jié)和歸納出高層次的指導(dǎo)方針,然后將其應(yīng)用于相關(guān)問題。

正是受此啟發(fā),團(tuán)隊(duì)提出了元緩沖區(qū)(meta-buffer),這是一種包含一系列高層次思維(思維模板)的輕量級(jí)庫,用于解決各種類型的問題。

與傳統(tǒng)方法不同,這種高層次思維模板可以在解決不同問題時(shí)自適應(yīng)地實(shí)例化,從而為LLM提供更高的精度和靈活性。

- 思維模板

作為一種高層次的指導(dǎo)方針,思維模板存儲(chǔ)在元緩沖區(qū)中,并由緩沖區(qū)管理器從各種問題解決過程中獲取。

為了讓BoT能夠?yàn)楦鞣N任務(wù)提供通用的推理方法,團(tuán)隊(duì)相應(yīng)地將思維模板分類為六類:文本理解、創(chuàng)造性語言生成、常識(shí)推理、數(shù)學(xué)推理、代碼編程和應(yīng)用調(diào)度。

這樣的思維模板分類,可以促進(jìn)模板檢索,找到最適合解決不同問題的方案。

其中,思維模板、模板描述及其對(duì)應(yīng)的類別表示為 (Ti, D_Ti, Ck),其中i表示元模板的索引,k∈Z^+且1≤k≤6。

以下就是六個(gè)不同類別的思維模板示例。

1. 文本理解

在這個(gè)任務(wù)中,LLM需要分析一張涉及企鵝各種屬性(如姓名、年齡、身高、體重)的表格,然后回答有關(guān)這些屬性的問題。

圖片

解決方案描述:

為了準(zhǔn)確回答有關(guān)企鵝屬性的問題,必須能夠解釋表格形式的數(shù)據(jù),理解自然語言提供的附加信息,并運(yùn)用邏輯推理來識(shí)別正確的屬性。

思維模板:

步驟 1:解析初始表格,提取標(biāo)題信息和每只企鵝的屬性到結(jié)構(gòu)化格式中(例如,一個(gè)字典列表)。

步驟 2:閱讀并整合任何更新或添加到表格中的自然語言信息,確保數(shù)據(jù)保持一致。

步驟 3:識(shí)別所問的屬性(例如,最老的企鵝、最重的企鵝)和表格中的相應(yīng)列。

步驟 4:運(yùn)用邏輯推理比較所有條目的相關(guān)屬性,以找到正確答案(例如,最老的企鵝的最高年齡)。

步驟 5:從提供的選項(xiàng)中選擇與邏輯比較結(jié)果相匹配的答案。

圖片

2. 創(chuàng)造性語言生成

在這項(xiàng)任務(wù)中,LLM需要生成一首十四行詩,遵循傳統(tǒng)的押韻模式「ABAB CDCD EFEF GG」,并在詩中逐字包含三個(gè)特定的詞。

圖片

解決方案描述:

寫十四行詩需要?jiǎng)?chuàng)作14行詩歌,遵循特定的押韻模式。這些詩行通常采用抑揚(yáng)格五音步,但為了創(chuàng)意可以在節(jié)奏上進(jìn)行適當(dāng)調(diào)整。給定的押韻模式規(guī)定了每行的結(jié)尾音,以確保詩歌的結(jié)構(gòu)性。逐字包含提供的三個(gè)詞需要在詩行中進(jìn)行巧妙安排,以保持詩歌的連貫性和主題一致性。

思維模板:

步驟1:確定必須包含在十四行詩中的三個(gè)詞。

步驟2:理解押韻模式「ABAB CDCD EFEF GG」,并準(zhǔn)備一份可以使用的押韻詞列表。

步驟3:為十四行詩設(shè)計(jì)一個(gè)可以自然包含這三個(gè)詞的主題或故事。

步驟4:開始起草十四行詩,按照「ABAB」押韻模式寫第一節(jié)(四行),確保包含一個(gè)或多個(gè)提供的詞。

步驟5:繼續(xù)寫第二節(jié)「CDCD」,第三節(jié)「EFEF」,最后是結(jié)束的對(duì)聯(lián)「GG」,每次根據(jù)需要包含提供的詞。

步驟6:檢查十四行詩的連貫性、流暢性和對(duì)押韻模式的遵循情況,并根據(jù)需要進(jìn)行調(diào)整。

圖片

3. 常識(shí)推理

在這項(xiàng)任務(wù)中,會(huì)給出任務(wù)的日期和事件(例如假期或歷史事件),讓LLM確定日期。

圖片

解決方案描述:

要確定下一個(gè)日期,我們需要考慮日歷的結(jié)構(gòu)、每個(gè)月的天數(shù)以及是否是閏年。通常,每月的天數(shù)是固定的,但二月可能因閏年而有所不同。一年中的第二天通常是日期增加一天,除非是月底,那么第二天將是下個(gè)月的第一天。對(duì)于年底第二天將是下一年的1月1日。

思維模板:

步驟1:識(shí)別給定日期的月份和日期。

步驟2:檢查是否是月底;如果是,則確認(rèn)下個(gè)月的開始日期。

步驟3:如果不是月底,只需在日數(shù)上加一即可。

步驟4:特別注意年底,確保年份遞增。

圖片

4. 數(shù)學(xué)推理

在這項(xiàng)任務(wù)中,LLM需要解決形式為ax^2 + bx + c = 0的二次方程,并考慮所有可能的情況。

圖片

圖片

5. 代碼編程

在這項(xiàng)任務(wù)中,會(huì)給定一組數(shù)字,此時(shí)LLM需要嘗試?yán)盟姆N基本數(shù)學(xué)運(yùn)算(加、減、乘、除)來得到目標(biāo)數(shù)字。

圖片

圖片

6. 應(yīng)用調(diào)度

在這項(xiàng)任務(wù)中,LLM需要根據(jù)給定的國際象棋的標(biāo)準(zhǔn)代數(shù)記譜法(SAN)棋步,更新棋盤狀態(tài)。

圖片

圖片

- 模板檢索

對(duì)于每個(gè)任務(wù),BoT會(huì)通過計(jì)算描述D_Ti和蒸餾問題xd之間的嵌入相似性,檢索出與蒸餾問題xd高度相似的思維模板Ti。

其中,檢索過程可以表述為:

圖片

- 實(shí)例化推理

第一種情況是BoT成功為任務(wù)檢索到一個(gè)思維模板Tj。

這時(shí),BoT將使用團(tuán)隊(duì)設(shè)計(jì)的實(shí)例化提示自適應(yīng)地實(shí)例化為合適的推理結(jié)構(gòu)。

例如,在一步將死問題中,就會(huì)使用蒸餾信息xd和檢索到的模板Tj對(duì)任務(wù)x進(jìn)行實(shí)例化推理,并生成其解決方案Sx,如下所示:

圖片

第二種情況是BoT將該任務(wù)被識(shí)別為一個(gè)新的任務(wù)。

為此,團(tuán)隊(duì)準(zhǔn)備了三個(gè)通用的粗粒度思維模板,而BoT則會(huì)基于蒸餾的任務(wù)信息xd,自動(dòng)分配一個(gè)合適的思維模板到推理過程中。

圖片

你是一位元推理者,精通各個(gè)領(lǐng)域的知識(shí),包括計(jì)算機(jī)科學(xué)、數(shù)學(xué)、物理、文學(xué)、歷史、化學(xué)、邏輯推理、文化、語言等。你還能根據(jù)不同任務(wù)找到合適的高級(jí)思維方式。以下是三種推理結(jié)構(gòu):

i) 基于提示的結(jié)構(gòu):在處理常識(shí)推理、應(yīng)用調(diào)度等問題時(shí)表現(xiàn)良好。

ii) 基于過程的結(jié)構(gòu):在處理創(chuàng)造性任務(wù)如創(chuàng)造性語言生成和文本理解時(shí)表現(xiàn)良好。

iii) 基于編程的結(jié)構(gòu):在處理數(shù)學(xué)推理和代碼編程時(shí)表現(xiàn)良好,還可以將現(xiàn)實(shí)世界的問題轉(zhuǎn)化為編程問題,從而高效地解決問題。

(推理實(shí)例化)

你的任務(wù)是:

1. 深思熟慮地考慮上下文和問題蒸餾器蒸餾出的響應(yīng)中的問題,并利用你對(duì)問題的理解找到適合解決問題的領(lǐng)域?qū)<摇?/span>

2. 考慮蒸餾的信息,為問題選擇一種推理結(jié)構(gòu)。

3. 如果提供了思維模板,請(qǐng)直接按照思維模板實(shí)例化給定問題。

緩沖區(qū)管理器

緩沖區(qū)管理器(buffer-manager)的作用是,總結(jié)從每個(gè)問題解決過程中獲得的高層次指導(dǎo)方針和思維。

它可以將每個(gè)具體解決方案推廣到更多問題中,并以思維模板的形式將關(guān)鍵的蒸餾知識(shí)存儲(chǔ)在元緩沖區(qū)中。

與為每個(gè)問題臨時(shí)生成示例或指令的方法不同,緩沖區(qū)管理器可以確保在準(zhǔn)確性、效率和魯棒性方面的永久性提升。

圖片

模板蒸餾提示:

用戶:[問題描述]+[解決方案步驟或代碼]

要提取和總結(jié)解決此類問題的高級(jí)范例和一般方法,請(qǐng)按照以下步驟進(jìn)行回復(fù):

1. 核心任務(wù)總結(jié):

識(shí)別并描述問題的基本類型和核心挑戰(zhàn),例如將其分類為數(shù)學(xué)問題(例如,求解二次方程)、數(shù)據(jù)結(jié)構(gòu)問題(例如,數(shù)組排序)、算法問題(例如,搜索算法)等,并分析解決問題的最有效方法。

2. 求解步驟描述:概述求解的一般步驟,包括如何定義問題、確定變量、列出關(guān)鍵方程或約束、選擇合適的求解策略和方法,以及如何驗(yàn)證結(jié)果的正確性。

3. 通用答案模板:根據(jù)上述分析,提出一個(gè)可以泛應(yīng)用于此類問題的模板或方法,包括可能的變量、函數(shù)、類定義等如果是編程問題,提供一組基類和接口可用于構(gòu)建具體問題的解決方案。

請(qǐng)確保你的回答高度簡潔和結(jié)構(gòu)化,以便具體解決方案可以轉(zhuǎn)化為可推廣的方法。

[可選]以下是思想模板的一些示例:(選擇跨任務(wù)或-基于核心任務(wù)總結(jié)分析的任務(wù)范例。)

- 模板蒸餾

為了提取通用的思維模板,團(tuán)隊(duì)提出了一個(gè)三步法:

(1)核心任務(wù)總結(jié):識(shí)別并描述問題的基本類型和核心挑戰(zhàn);

(2)解決步驟描述:總結(jié)解決問題的一般步驟;

(3)通用回答模板:基于上述分析,提出一個(gè)可以廣泛應(yīng)用于類似問題的解決模板或方法。

此外,為了提高模板蒸餾的泛化能力和穩(wěn)定性,團(tuán)隊(duì)精心設(shè)計(jì)了兩種上下文示例來生成思維模板——任務(wù)內(nèi)示例和跨任務(wù)示例。

跨任務(wù)示是指,選擇從某個(gè)任務(wù)中蒸餾出的模板,來解決其他任務(wù)的問題。例如,用與代碼相關(guān)的思維模板來解決數(shù)學(xué)問題。

從輸入任務(wù)x中蒸餾出的新模板可以表示為:

圖片

- 元緩沖區(qū)的動(dòng)態(tài)更新

在模板蒸餾之后,需要考慮是否將蒸餾的模板更新到元緩沖區(qū)中。

- 如果初始化了一個(gè)空的元緩沖區(qū)或遇到?jīng)]有合適思維模板的問題,蒸餾的思維模板將直接存儲(chǔ)在元緩沖區(qū)中;

- 如果是用了檢索到的思維模板解決的問題,也可能會(huì)在實(shí)例化某個(gè)思維模板的過程中會(huì)產(chǎn)生新的見解。

因此,為了在保持新生成有用思維的同時(shí)避免元緩沖區(qū)的冗余,需要計(jì)算圖片圖片

的嵌入向量之間的相似性,并根據(jù)以下規(guī)則更新元緩沖區(qū):

圖片

否則,這意味著元緩沖區(qū)已經(jīng)具備解決此任務(wù)所需的知識(shí),不需要進(jìn)行更新。

這種動(dòng)態(tài)更新策略有效減少了模板檢索的計(jì)算負(fù)擔(dān),同時(shí)確保了元緩沖區(qū)的輕量化特性。

實(shí)驗(yàn)結(jié)果

- 數(shù)據(jù)集和任務(wù)

為了評(píng)估BoT的有效性,并與之前的方法進(jìn)行比較,團(tuán)隊(duì)選擇了一組多樣化的任務(wù)和數(shù)據(jù)集。

這些任務(wù)和數(shù)據(jù)集需要不同程度的數(shù)學(xué)和算法推理、特定領(lǐng)域知識(shí)以及文學(xué)創(chuàng)造力:

1. 來自ToT的24點(diǎn)游戲(Game of 24)

2. 三個(gè)BIG-Bench Hard (BBH)任務(wù):幾何圖形(Geometric Shapes),多步算術(shù)二(Multi-Step Arithmetic Two),和單詞排序(Word Sorting);

圖片

3. 直接從BIG-Bench中獲得的三個(gè)推理任務(wù):一步將死(Checkmate-in-One)、企鵝(Penguins),以及日期理解(DateUnderstanding);

4. Python編程題(P3),一組用Python編寫的具有不同難度級(jí)別的挑戰(zhàn)性編程題;

5. 多語言小學(xué)數(shù)學(xué)(MGSM),GSM8K數(shù)據(jù)集的多語言版本,包含十種語言類型(包括孟加拉語、日語和斯瓦希里語);

6. 根據(jù)元提示進(jìn)行的莎士比亞十四行詩寫作(Sonnet Writing)。

圖片

- 實(shí)現(xiàn)和基線

為了與之前的方法進(jìn)行公平比較,團(tuán)隊(duì)選擇了GPT-4作為BoT的基線模型。

并且還在NVIDIA A100-PCIE-40GB GPU上使用Llama3-8B和Llama3-70B進(jìn)行了分析。

更好的準(zhǔn)確性、效率和魯棒性

- 推理準(zhǔn)確性

結(jié)果顯示,BoT在多個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試中始終優(yōu)于所有之前的提示方法,特別是在諸如如24點(diǎn)游戲和一步將死這類的復(fù)雜推理任務(wù)上。

在24點(diǎn)游戲中,與原始GPT-4相比,BoT的準(zhǔn)確性實(shí)現(xiàn)了高達(dá)79.4%的驚人提升;而與該項(xiàng)之前的SOTA——ToT相比,BoT也實(shí)現(xiàn)了8.4%的提升。

與最近提出的元提示相比,BoT在24點(diǎn)游戲中提高了23%的準(zhǔn)確性,在幾何圖形中提高了20%,在一步將死中提高了51%。

現(xiàn)有方法需要復(fù)雜的、迭代的和啟發(fā)式的搜索策略來逐個(gè)解決這些問題。

而BoT則會(huì)利用思維模板中的歷史見解和信息性指導(dǎo)方針,并自適應(yīng)地實(shí)例化一個(gè)更優(yōu)的推理結(jié)構(gòu)來解決這些復(fù)雜問題。

圖片

- 推理效率

除了在準(zhǔn)確性上有著顯著提升之外,作為一種多查詢方法,BoT在各種任務(wù)中還可以實(shí)現(xiàn)與單查詢方法相當(dāng)?shù)耐评頃r(shí)間,同時(shí)顯著少于傳統(tǒng)的多查詢方法(如ToT)。

例如,在24點(diǎn)游戲中,單查詢和多查詢方法都需要迭代和啟發(fā)式搜索來找到可行的解決方案。

這個(gè)過程特別耗時(shí)且效率低下,尤其是對(duì)于多查詢方法,它涉及進(jìn)行多次查詢搜索和回溯階段。

相比之下,BoT能夠直接檢索代碼格式的思維模板,從而實(shí)例化一個(gè)程序來遍歷數(shù)字和符號(hào)的組合,從而無需從頭構(gòu)建推理結(jié)構(gòu)。

這使得在調(diào)用問題蒸餾器后,僅用一次查詢即可解決問題,顯著減少了復(fù)雜推理所需的時(shí)間。

值得注意的是,BoT平均僅需多查詢方法12%的成本。

圖片

- 推理魯棒性

為了更好地評(píng)估BoT,團(tuán)隊(duì)設(shè)計(jì)了一種用于評(píng)估推理魯棒性的新指標(biāo)——成功率。

首先,從各種基準(zhǔn)中隨機(jī)抽取1000個(gè)示例作為測(cè)試子集,并在該子集上評(píng)估不同的方法。其次,重復(fù)這一評(píng)估過程10次,并將平均準(zhǔn)確率作為不同方法在每個(gè)基準(zhǔn)上的成功率。

結(jié)果顯示,與其他方法相比,BoT在各種任務(wù)中都保持著最高的成功率——

不僅在平均成績上,比ToT高出了10%;甚至在24點(diǎn)游戲中,比原始的GPT-4高出了71%之多。

這是因?yàn)锽oT在不同任務(wù)中蒸餾的思維模板,有著出色的泛化能力。通過利用思維模板中提供高層次思維,BoT在不同任務(wù)中的穩(wěn)定性得到了極大提升。

圖片

模型分析

- 思維模板的分布分析

測(cè)試結(jié)果顯示,在包含更多多樣化場(chǎng)景的MGSM任務(wù)中,BoT生成了更多的思維模板。而在相對(duì)簡單的任務(wù)中,則生成了更具針對(duì)性的固定思維模板。

模板的分布表明,BoT可以有效地為不同的基準(zhǔn)發(fā)現(xiàn)合適的思維模板。

- 時(shí)間成本分布分析

在時(shí)間成本方面,蒸餾任務(wù)信息和模板檢索所需的時(shí)間相對(duì)較短,而實(shí)例化推理所需的時(shí)間較長。

考慮到不同組件的復(fù)雜性,BoT整體上還是實(shí)現(xiàn)了相對(duì)平衡的時(shí)間成本分布,展示出了新框架的高效。

圖片

思維模板和時(shí)間的分布分析(左為思維模板;右為時(shí)間成本)

- 更好的規(guī)模與性能權(quán)衡

可以看到,原始Llama3-8B和Llama3-70B模型在測(cè)試任務(wù)中的表現(xiàn)很差,但在獲得BoT的加持之后,它們的準(zhǔn)確性都有顯著提升。

不僅如此,BoT+Llama3-8B還在24點(diǎn)游戲和一步將死任務(wù)中成功實(shí)現(xiàn)了對(duì)Llama3-70B的大幅超越。

圖片

消融研究

- 問題蒸餾器的影響

當(dāng)問題蒸餾器被禁用時(shí),Llama3-70B和GPT-4的準(zhǔn)確性都有所下降。

其中,在諸如24點(diǎn)游戲和一步將死這類更為復(fù)雜的問題上,降幅更為明顯。而在諸如單詞排序和MGSM這類相對(duì)簡單的問題上,降幅較小。

這是因?yàn)椋谔幚韽?fù)雜問題時(shí),提取關(guān)鍵信息和潛在約束更具挑戰(zhàn)性,由此使得問題蒸餾器的作用更加突出。

圖片

- 元緩沖區(qū)的影響

當(dāng)元緩沖區(qū)被禁用時(shí),Llama3-70B和GPT-4模型的性能顯著下降,特別是在需要復(fù)雜推理的基準(zhǔn)測(cè)試中,如24點(diǎn)游戲和一步將死。

這進(jìn)一步強(qiáng)調(diào)了我們?cè)彌_區(qū)在解決復(fù)雜問題上的優(yōu)勢(shì)。

圖片

- 緩沖區(qū)管理器的影響

實(shí)驗(yàn)共分4輪,每一輪都會(huì)從各個(gè)基準(zhǔn)中隨機(jī)抽取50個(gè)問題并進(jìn)行推理。

隨著輪次的增加,帶有緩沖區(qū)管理器的模型不斷擴(kuò)展元緩沖區(qū),同時(shí)利用從先前解決的問題中獲得的思維模板來幫助解決后續(xù)類似的問題。

因此可以看到,BoT的準(zhǔn)確性在每一輪中穩(wěn)步提高。相反,沒有緩沖區(qū)管理器的模型未能表現(xiàn)出上升趨勢(shì)。

圖片

推理時(shí)間方面,當(dāng)輪次增加時(shí),帶有緩沖區(qū)管理器的模型的推理效率會(huì)持續(xù)提高。

這是因?yàn)殡S著元緩沖區(qū)的不斷擴(kuò)展,檢索到合適思維模板的可能性也增加。因此,模型可以避免從頭構(gòu)建推理結(jié)構(gòu),從而相應(yīng)地提高推理效率。

圖片

作者介紹

Ling Yang

論文的共同一作Ling Yang目前是北京大學(xué)的三年級(jí)博士生,導(dǎo)師是Bin Cui、Luxia Zhang和Ming-Hsuan Yang。

他的研究興趣包括擴(kuò)散模型(Diffusion Models)、多模態(tài)學(xué)習(xí)(Multimodal Learning)和AI for Science。

他曾擔(dān)任多個(gè)國際會(huì)議和期刊的程序委員會(huì)成員或?qū)徃迦耍⊿IGGRAPH、TPAMI、ICML、ICLR、NeurIPS、CVPR、KDD、AAAI。

崔斌(Bin Cui)

崔斌現(xiàn)為北京大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師,擔(dān)任數(shù)據(jù)科學(xué)與工程研究所長。在相關(guān)領(lǐng)域頂級(jí)會(huì)議和期刊發(fā)表學(xué)術(shù)論文300多篇。

他主持和承擔(dān)多個(gè)科研項(xiàng)目,如國家自然科學(xué)基金、國家重點(diǎn)研發(fā)計(jì)劃、核高基項(xiàng)目、863計(jì)劃等。

他擔(dān)任/曾擔(dān)任中國計(jì)算機(jī)學(xué)會(huì)理事、數(shù)據(jù)庫專委會(huì)副主任,VLDB理事會(huì)理事,DSE期刊主編,IEEE TKDE、VLDB Journal、DAPD等國際期刊編委,擔(dān)任過數(shù)十個(gè)國際會(huì)議的程序委員會(huì)委員,包括一流國際會(huì)議SIGMOD、VLDB、ICDE、KDD等。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-10-21 12:31:13

2023-07-18 14:19:00

模型AI

2024-06-26 13:15:40

2025-02-25 14:50:16

2024-01-17 13:32:46

AI代碼代碼生成工具

2023-07-31 09:28:22

開源框架

2025-01-20 07:58:51

2024-09-05 12:27:17

2025-10-29 02:11:00

2023-12-12 13:51:00

AI訓(xùn)練

2025-04-21 09:07:00

2025-11-07 09:28:08

2021-01-15 09:30:36

算法技術(shù)數(shù)據(jù)

2024-07-29 08:19:00

服務(wù)引擎

2023-09-12 14:45:18

2024-06-05 08:33:29

2023-06-21 13:20:14

系統(tǒng)模型

2023-12-13 12:55:39

模型數(shù)據(jù)

2025-04-09 10:40:32

2024-04-19 10:32:08

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产精品短视频| 欧美亚洲一区| 精品国产乱码久久久久久图片 | 天天影视欧美综合在线观看| 日韩欧美国产一二三区| 亚洲人精品午夜射精日韩| 黄色软件在线| 国产精品77777竹菊影视小说| 高清欧美性猛交xxxx| 国产精品无码无卡无需播放器| 激情视频亚洲| 色综合色狠狠天天综合色| 欧美日韩在线免费观看视频| 午夜激情在线视频| 激情久久五月天| 欧美影院在线播放| 久久久久久久久久99| 国产精品一区2区3区| 欧美成人三级电影在线| 韩国视频一区二区三区| www成人免费观看| 亚洲欧洲日韩在线| 日本一区不卡| 免费国产精品视频| 国产麻豆视频一区二区| 国产精品91在线| 日本少妇在线观看| 51精产品一区一区三区| 亚洲性无码av在线| 国产老熟女伦老熟妇露脸| 精品一区二区三区亚洲| 欧美日韩中字一区| 99爱视频在线| 超碰97免费在线| 亚洲日本va在线观看| 日韩国产欧美精品| 青春草在线观看| 成人午夜av电影| 99视频在线| 国产av一区二区三区| 看片的网站亚洲| 国产精品美女网站| 男人的天堂av网站| 久久久人人人| 欧美中文在线免费| 毛片视频网站在线观看| 亚洲人成免费| 国产最新精品视频| 国产一级视频在线观看| 黄色成人精品网站| 欧美激情一区二区三区在线视频观看 | 成人国产亚洲欧美成人综合网| 成人在线精品视频| 亚洲一区精品在线观看| 麻豆成人在线观看| 国产日韩欧美影视| 一区二区视频在线免费观看| 日韩av一区二区三区| 国产精品精品视频| 人妻中文字幕一区二区三区| 日本不卡在线视频| 国产精品男人爽免费视频1| 中文字幕在线观看免费| 捆绑紧缚一区二区三区视频| 91久久国产婷婷一区二区| 国产美女www爽爽爽视频| 狠狠v欧美v日韩v亚洲ⅴ| 亚洲精品欧美极品| 丰满熟女一区二区三区| 成人中文字幕电影| 美乳视频一区二区| av在线电影院| 亚洲视频狠狠干| 欧美日韩不卡在线视频| 黑森林国产精品av| 日韩欧美在线第一页| 中文字幕天天干| japansex久久高清精品| 欧美xxxxxxxxx| a视频免费观看| 成人在线免费小视频| 日韩有码在线电影| 久久这里只有精品国产| 午夜在线视频一区二区区别| 国产精品日韩在线观看| 性中国xxx极品hd| 91女人视频在线观看| 亚洲mv在线看| 韩国日本一区| 日本道精品一区二区三区| 91欧美视频在线| 国产女人18毛片水真多18精品| 亚洲欧美国产另类| 亚洲二区在线播放| 欧美一区=区| 91精品视频观看| 天天干天天舔天天射| 中文字幕av一区二区三区| 99视频精品全部免费看| 中文字幕在线直播| 欧美精品日韩综合在线| 日韩免费高清一区二区| 91精品综合| 国产成人精品免高潮费视频| va视频在线观看| 久久久美女毛片| 国产一级大片免费看| 97欧美成人| 亚洲高清免费观看高清完整版| 欧美激情 一区| 亚洲成人原创| 91精品久久久久久久久中文字幕| 日本一区二区三区在线观看视频| 综合久久综合久久| 狠狠操精品视频| 中文字幕一区二区三区四区久久 | 91黄色国产视频| 岛国视频免费在线观看| 亚洲成av人片在线观看无码| 亚洲一区二区在线视频观看| 日韩伦理一区二区三区| 久久99精品久久久久久琪琪| 亚洲天堂aaa| 91丨九色丨尤物| 无码 制服 丝袜 国产 另类| 国产精品成人**免费视频| 在线播放精品一区二区三区| 国产免费观看av| 成人av在线资源网| 91亚洲精品国产| 国产亚洲高清一区| 久久精品国产免费观看| 国产精品51麻豆cm传媒| 久久精品免费在线观看| 久久久免费视频网站| jizz性欧美23| 欧美激情精品久久久久久大尺度| 国产精品九九九九| 中文字幕第一区二区| 中文字幕第80页| 欧美日韩一二三四| 国产精品aaa| av在线1区2区| 欧美性生活大片视频| 国产高潮呻吟久久| 日韩高清不卡一区二区三区| 欧美一区二区高清在线观看| 97久久香蕉国产线看观看| 亚洲毛片一区二区| 激情综合网五月婷婷| 国产精品456| 日韩在线视频在线| 亚洲视频精选| 久久久久久久香蕉网| 视频一区 中文字幕| 香蕉加勒比综合久久 | 久久精品夜色噜噜亚洲a∨| wwwxxx黄色片| 成人综合久久| 91久久精品美女高潮| а√天堂8资源在线官网| 欧美一区二区三区不卡| 久久黄色小视频| www.成人在线| 欧美成人免费高清视频| 欧美自拍偷拍| 91网站在线免费观看| 免费网站在线观看人| 亚洲电影第1页| 国产精品久久久久久人| 欧美激情一区二区在线| 九九九九九伊人| 国产精品xvideos88| 激情小说网站亚洲综合网| 欧美粗大gay| 少妇高潮久久77777| 国产视频第二页| 亚洲成人www| 中文字幕免费高清| 国产一区二区三区香蕉| 免费看国产一级片| 精品国产不卡| 99re在线观看| 写真福利精品福利在线观看| 久久中文字幕视频| 日韩在线无毛| 91精品国产综合久久精品性色| 国产精品6666| 国产色爱av资源综合区| gogo亚洲国模私拍人体| 美女国产一区| 国产成人一二三区| 视频一区在线观看| 成人动漫在线视频| 激情亚洲影院在线观看| 欧美精品性视频| 黄色av网站在线| 欧美哺乳videos| 91精品无人成人www| 8x国产一区二区三区精品推荐| 97在线观看视频国产| 一级毛片视频在线| 亚洲成人在线网| 中文字幕自拍偷拍| 亚洲午夜激情av| 亚洲欧美综合7777色婷婷| 99久久国产综合精品色伊| 日本中文字幕精品—区二区| 亚洲精品极品| 日韩精品手机在线观看| 精品国产123区| 国产亚洲欧美一区二区三区| 欧美亚洲黄色| 日本精品久久中文字幕佐佐木| 成人av福利| 中文字幕最新精品| 韩国中文字幕2020精品| 日韩av影视综合网| www.国产免费| 3d动漫精品啪啪一区二区竹菊| 国产伦精品一区二区三区视频我| 亚洲一区二区高清| 国产精品丝袜一区二区| 亚洲国产精品传媒在线观看| 在线观看国产网站| 风间由美一区二区三区在线观看| 欧美午夜aaaaaa免费视频| 亚洲免费在线| 少妇人妻无码专区视频| 欧美涩涩网站| 97av中文字幕| 天天做综合网| 国产又黄又爽免费视频| 久久一区二区中文字幕| 日韩一区免费观看| 欧美精选视频在线观看| 欧美日韩一区在线观看视频| 日韩精品欧美大片| 久久精品美女| 色哟哟精品丝袜一区二区| 国产69精品久久久久9999apgf| 精品一区91| 亚洲一区二区久久久久久| 伊人久久大香伊蕉在人线观看热v 伊人久久大香线蕉综合影院首页 伊人久久大香 | 午夜精品福利在线视频| 国产精品国产三级国产aⅴ原创| www..com.cn蕾丝视频在线观看免费版| 91美女福利视频| 精品久久久久久中文字幕人妻最新| 不卡视频在线观看| 亚洲男人在线天堂| 久久午夜色播影院免费高清 | 国产精品久久久久久久免费看 | 国产精品超碰97尤物18| 黄色精品视频在线观看| 亚洲免费观看高清完整版在线观看 | 91日韩一区二区三区| 亚洲欧美色图视频| 国产亚洲精品aa| 1024手机在线观看你懂的| 国产精品视频一区二区三区不卡| 国产精品成人在线视频| 国产精品视频一二三区| 日韩在线视频网址| 亚洲精品欧美激情| 国产一级二级三级视频| 欧美日韩国产一区二区三区| 国产精品乱子伦| 欧洲精品中文字幕| 国产女同91疯狂高潮互磨| 日韩欧美一级精品久久| 午夜成人免费影院| 中文字幕亚洲天堂| 欧美大片黄色| 欧美在线激情视频| 久久精品资源| 国产精品二区在线| 欧美**vk| 青青视频免费在线| 亚洲一区日韩在线| 999在线观看| 国产成人免费xxxxxxxx| 无码人妻精品一区二区三应用大全| 国产喂奶挤奶一区二区三区| 亚洲二区在线播放| 欧美日韩在线视频一区二区| 中文字幕视频一区二区| 日韩欧美成人一区二区| 青青草超碰在线| 久色乳综合思思在线视频| 神马午夜在线视频| 91久久精品在线| 天堂网av成人| 91免费视频黄| 裸体一区二区| 亚洲女则毛耸耸bbw| 国产日产欧产精品推荐色 | www国产视频| 国产精品成人免费精品自在线观看 | 欧美性猛交 xxxx| 色偷偷噜噜噜亚洲男人| 国产精选在线| 成人综合网网址| 国产精品亚洲片在线播放| 国产91视频一区| 日本成人中文字幕| xxxxxx黄色| 综合久久国产九一剧情麻豆| 国产又大又黑又粗免费视频| 7777精品伊人久久久大香线蕉的| 亚洲欧美综合一区二区| 欧美大胆在线视频| 成人全视频免费观看在线看| 国产欧美日韩综合一区在线观看 | 中文字幕久热精品在线视频| 福利写真视频网站在线| 成人激情av在线| 精品视频网站| 国产xxxxx在线观看| 成人av午夜电影| 欧美成人黄色网| 精品视频在线看| 日本中文字幕一区二区有码在线 | 日韩大片免费在线观看| 欧美男生操女生| 成人在线免费电影| 国产精欧美一区二区三区| 国产精品极品| 国产精品免费看久久久无码| 久久99国产精品尤物| 国产一二三四视频| 日本大香伊一区二区三区| 嫩草精品影院| 欧美中文在线观看| 香蕉人人精品| 丝袜老师办公室里做好紧好爽| 成人自拍视频在线观看| 国产在线观看免费av| 日韩精品一区二区三区四区| 污污视频在线| 1区1区3区4区产品乱码芒果精品| 欧美3p在线观看| 国内外成人免费在线视频| 国产精品美女久久久久av爽李琼 | 久久精品一区二区国产| 性欧美丰满熟妇xxxx性久久久| 亚洲国产精品一区二区尤物区| 亚洲成人一级片| 欧美日韩爱爱视频| 一区二区精彩视频| 无码熟妇人妻av在线电影| 成人三级在线视频| www.天天色| 日韩av最新在线| 日本成人伦理电影| 日日噜噜噜噜夜夜爽亚洲精品| 日本少妇一区二区| 日韩av手机在线免费观看| 日韩一级片网站| www在线看| 欧美人xxxxx| 麻豆91在线播放免费| 免费看特级毛片| 亚洲成人aaa| 在线女人免费视频| 亚洲激情一区二区| 国产精品一二三四五| 国产一级片播放| 亚洲精品自拍第一页| 美女网站视频一区| 中文精品视频一区二区在线观看| 国产毛片精品国产一区二区三区| 日本免费一二三区| 亚洲人成电影在线观看天堂色| 韩国精品视频在线观看| 永久免费网站视频在线观看| 波多野结衣精品在线| 成人小视频在线播放| 久久影视电视剧免费网站清宫辞电视| 日韩一区二区三区高清在线观看| 国产精品入口芒果| 久久精品无码一区二区三区| 97国产成人无码精品久久久| 久久久亚洲国产天美传媒修理工| 在线一级成人| 五月六月丁香婷婷| 日韩欧美在线观看视频| 黄色网址免费在线观看| 久久人人九九| 久久97超碰国产精品超碰| 日韩欧美亚洲一区二区三区| 视频直播国产精品| 久久97精品| 色婷婷激情视频| 色综合久久综合| 国产桃色电影在线播放| 亚洲精品日韩精品| 波多野结衣在线一区| 国产美女精品视频国产| 国产91网红主播在线观看|