精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

擊敗思維鏈(CoT),草稿鏈(CoD)稱王!推理成本降低近94%,低時延,準確率更高!

原創 精選
人工智能
推理 LLM 是當今 AI 研究中的熱門話題。我們從?GPT-1?開始,一直到像?Grok-3?這樣的高級推理器。這段旅程非常了不起,一路上發現了一些非常重要的推理方法。其中之一是思維鏈 (CoT) 提示(Few-shot?和?Zero-shot),導致了我們今天看到的大部分?LLM 推理革命。

編輯 | 言征

作者 | Ashish Bamania

出品 | 51CTO技術棧(微信號:blog51cto)

推理 LLM 是當今 AI 研究中的熱門話題。我們從 GPT-1 開始,一直到像 Grok-3 這樣的高級推理器。這段旅程非常了不起,一路上發現了一些非常重要的推理方法。其中之一是思維鏈 (CoT) 提示(Few-shot 和 Zero-shot),導致了我們今天看到的大部分 LLM 推理革命。

令人興奮的是,Zoom Communications 的研究人員現在發布了一種更好的技術。

這種技術稱為 Chain-of-Draft (CoD) Prompting,在準確性上優于 CoT Prompting,在回答查詢時僅使用所有推理Token的 7.6%。

使用直接答案 (Standard)、思維鏈 (CoT) 和草稿鏈 (CoD) 提示 Claude 3.5 Sonnet時的準確性和標記使用比較,以解決不同推理領域的任務

這對于推理目前非常冗長、需要大量計算時間且具有高延遲的 LLM 來說是一個巨大的勝利,這是許多實際時間關鍵型應用程序中的瓶頸。

接下來,我們深入探討了草稿鏈 (CoD) 提示的工作原理,以及如何使用它來使您的 LLM 比以往任何時候都更加準確和Token效率。

提示研究員如何發現大模型的新方法的?

首先,讓我們談談提示研究人員不斷在 LLM 中發現新的方法。

Transformers 將我們帶到了生成式預訓練 Transformers 或 GPT,我們很快發現將其擴展到 GPT-2(15 億個參數)使其充當無監督的多任務學習器(在沒有監督學習/微調任務特定數據集的情況下執行多項任務)。

隨著進一步擴展到 GPT-3(1750 億個參數),發現該模型可以快速適應并在新任務上表現良好,只需在輸入提示中提供幾個示例(Few-shot Prompting)。

然后發現,將解決問題分解為中間推理步驟并促使大型語言模型 (LLM) 生成這些步驟,可以在算術、常識和符號推理任務中實現最先進的性能。

這種方法稱為思維鏈 (CoT) 提示。

標準和思維鏈提示的示例(圖片來自 ArXiv 研究論文,標題為“Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”)

在 CoT 之后,很快發現 LLM 是zero-shot推理器。

與原始的 CoT 提示方法一樣,他們不需要使用小樣本推理示例來提示他們以獲得更好的性能。

只需在提示中添加短語“Let's think step by step”就可以讓他們在解決問題時逐步推理。

這種方法稱為 Zero-shot Chain of Thought Prompting。

標準 Zero-shot 和 Few-shot 提示、原始 CoT 提示(顯示為“(b) Few-shot-CoT”)和 Zero-shot CoT 提示之間的比較(圖片來自題為‘Large Language Models are Zero-Shot Reasoners’)

研究人員隨后意識到,鏈式推理和對答案的貪婪解碼是不夠的。

復雜的推理任務可能有多個推理路徑可以得出正確的答案,如果多條路徑導致相同的答案,我們可以確信最終答案是正確的。

這導致了一種稱為 Self-Consistency 的新解碼策略,該策略對模型進行采樣以生成多個推理路徑,并從中選擇最一致的答案。

CoT 提示中的貪心解碼與自洽性(圖片來自 ArXiv 研究論文,標題為“Self-Consistency Improves Chain of Thought Reasoning in Language Models”)

各種思維架構的提出

遵循這種在解決問題時考慮多種推理路徑的方法,引入了 Tree-of-Thoughts (ToT) 框架,它使用樹狀思維過程探索解決方案空間。

Tree-of-Thought 框架(圖片來自 ArXiv 研究論文,標題為“Large Language Model Guided Tree-of-Thought”)

它使用稱為 “Thoughts” 的語言序列作為解決問題的中間步驟。這些是在需要時使用具有 lookahead 和 backtracking 的搜索算法進行評估和探索的。

各種推理方法的比較(圖片來自 ArXiv 研究論文,標題為“‘Tree of Thoughts: Deliberate Problem Solving with Large Language Models’”)

Tree 架構被 Graph 取代,從而產生了 Graph-of-Thoughts 框架,可以更好地對解決方案空間進行建模。

CoD與其他推理方法的比較(圖片來自 ArXiv 研究論文,標題為“Graph of Thoughts: Solving Elaborate Problems with Large Language Models”)

但這還不是全部!

提示并不是幫助 LLM 更好地推理的唯一方法,還有很多其他技術,在下面這篇論文中還有很多新方法的提出。

但是延遲呢?

探索推理空間是一項計算成本高昂的任務,會增加響應延遲。

引入了一種稱為 Skeleton-of-Thought (SoT) 的減少延遲的解決方法,它首先指導 LLM 生成答案的框架/大綱。

然后,它進行并行 API 調用/批量解碼,以并行完成每個骨架點的內容。

Skeleton-of-Thought (SoT) 與標準解碼的比較概述(圖片來自題為“Skeleton-of-Thought:Prompting LLMs for Efficient Parallel Generation”的 ArXiv 研究論文)

推理模型還可能過度思考簡單的問題,生成不必要的推理Token,從而導致查詢到響應時間過長。

在問題 “2 加 3 的答案是什么?(圖片來自 ArXiv 研究論文,標題為“Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs’

QwQ-32-B-Preview 模型如何解決這個加 2 和 3 的簡單問題,這不是很瘋狂嗎?

QwQ-32-B-Preview 對一個簡單的算術問題過度思考(圖片來自 ArXiv 研究論文,標題為“不要為 2+3=想那么多?關于類似 o1 的 LLM 的過度思考')

研究人員試圖通過限制推理token預算來解決這個問題,但 LLM 通常無法遵守這一點。

在回答問題之前,還使用了額外的 LLM 根據問題的復雜性動態估計不同問題的代幣預算,但這進一步增加了響應延遲。

帶有估計和提示的代幣預算感知 LLM 推理 (TALE) 概述(圖片來自題為“‘Token-Budget-Aware LLM Reasoning”的 ArXiv 研究論文)

我們能否將所有這些見解結合起來,并以某種方式簡化它們以達到單一的方法?

草稿鏈“Chain-of-Draft” 提示的靈感

回到基礎,思維鏈 (CoT) 是一種非常了不起的提示方法,可以更好地進行 LLM 推理。

然而,它是冗長的,LLM 在得出答案之前會產生數千個推理Token。

這與人類的思考和推理方式大不相同。

我們通常不會用冗長的語言進行推理,而是在思考時記下最重要的中間點(草稿)。

這就是 Chain-of-Draft (CoD) Prompting 的靈感來源。

它只是要求模型逐步思考,并將每個推理步驟限制為最多五個單詞。

為了確保模型理解這一點,研究人員手動編寫了這種 Chain-of-Drafts 的 Few-shot 示例,并在提示中給出。

令人驚訝的是,這樣的限制并沒有以任何方式強制執行,模型只是作為一般準則來提示。

這與標準的 few-shot prompting 形成鮮明對比,后者在提示中給出查詢-響應對,并要求模型直接返回最終答案,而無需任何推理或解釋。

這也不同于 Chain-of-Thought 提示,后者在提示的查詢-響應對中給出了中間推理步驟,并要求模型回答問題。

在下圖中,可以更好地理解這些方法之間的差異,其中要求 LLM 解決一個簡單的算術問題。

圖片

CoD 提示的效果如何?

為了評估 CoD 提示,GPT-4o 和 Claude 3.5 Sonnet 使用上述三種方法進行提示。

下圖顯示了每種提示方法為這些模型提供的系統提示。

標準、CoT 和 CoD 提示效果對比

CoD 在算術推理 GSM8K 數據集上實現了 91% 的準確率,同時使用的Token比 CoT 少 80%,減少了延遲而沒有任何重大的準確率損失(CoD 為 91.1%,而 GPT-4o 為 CoT 為 95.4%)。

不同提示技術的 GSM8K 評估結果不同提示技術的 GSM8K 評估結果

在對日期和體育理解的BIG-Bench任務進行常識推理測試后,CoD顯著減少了延遲和Token的使用量,同時與CoT具有相同/更高的準確性。


日期理解 BIG-Bench任務的評估結果日期理解 BIG-Bench任務的評估結果

請注意,當與 Claude 3.5 Sonnet 一起用于體育理解任務時,CoD 表現非常令人印象深刻,直接將 CoT 提示的平均輸出token從 189.4 降低到 14.3(減少 92.4%)!

體育理解 BIG Bench任務的評估結果體育理解 BIG Bench任務的評估結果

最后,當對拋硬幣的符號推理任務(預測一系列拋硬幣后的最終硬幣狀態)進行評估時,CoD 會產生 100% 的準確率,并且Token比其他方法少得多。

研究人員創建的 Coin-flipping 數據集中的問題示例研究人員創建的 Coin-flipping 數據集中的問題示例

在研究人員創建的包含 250 個測試用例的定制數據集上進行硬幣翻轉評估

這些成績絕對是驚人的!

CoD 提示以最小的延遲實現驚人的高準確性,從而減少響應時間并有利于時間/計算關鍵型應用程序。

此類 CoD 數據還可用于訓練 LLM 更好地推理(基于 DeepSeek-R1 強化學習訓練方法),使其更快、更便宜、更高效、更具可擴展性。

想了解更多AIGC的內容,請訪問:

51CTO AI.x社區

http://www.jxzklqfsx.com/aigc/

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2025-03-13 10:40:00

2025-03-10 11:55:10

2025-10-23 12:46:39

2025-03-11 08:50:00

2024-12-18 14:53:28

2025-06-09 15:26:53

ChatGPTGPT-4o4o-mini

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-04-18 08:42:52

模型推理AI

2025-03-12 09:48:19

2020-10-09 08:31:00

AI

2025-07-10 09:06:13

2024-11-04 14:26:14

2024-12-12 17:30:00

模型測評AI

2025-10-09 09:15:11

2024-12-12 09:00:00

2025-05-29 09:18:20

2025-01-13 01:00:00

數據訓練AI

2023-10-26 08:40:15

模型隱私推理

2025-07-29 08:45:00

AI模型應用

2024-12-19 09:48:07

點贊
收藏

51CTO技術棧公眾號

国产不卡一区| 成人免费网站www网站高清| 成人黄色小视频在线观看| 久久久久久噜噜噜久久久精品| 青青草视频播放| 久久国内精品| 五月综合激情网| 视频一区二区精品| 精品人妻一区二区三区麻豆91| 亚洲三级毛片| www.日韩.com| 在线观看国产免费视频| 欧洲午夜精品| 欧美性xxxx在线播放| 一区二区三区四区久久| 香蕉人妻av久久久久天天| 久久成人综合网| 91高清免费在线观看| 女同久久另类69精品国产| 久久精品亚洲成在人线av网址| 欧美丝袜丝交足nylons图片| 奇米影视亚洲色图| 国产成人l区| 久久久久99精品一区| 成人欧美一区二区三区视频xxx | 亚洲中国最大av网站| 日韩偷拍一区二区| 三级理论午夜在线观看| 成人综合激情网| 91久久久久久久| 一级一级黄色片| 国产欧美短视频| 久久视频精品在线| 日本高清黄色片| 深爱激情综合网| 亚洲精品456在线播放狼人| 亚洲天堂av一区二区三区| 国产精品字幕| 91福利国产精品| 成人av一级片| 小草在线视频免费播放| 亚洲国产裸拍裸体视频在线观看乱了 | 欧美亚洲国产一区在线观看网站| 中文字幕色一区二区| 黄色片在线免费看| 久久美女高清视频| 欧美凹凸一区二区三区视频| 人人妻人人澡人人爽精品日本| 国产麻豆成人精品| 91最新国产视频| 国产精品视频一区二区三区,| 蜜臀av一级做a爰片久久| 国产91免费看片| 亚洲欧美自拍视频| 久久亚洲风情| 国产精品18久久久久久首页狼| 天天做天天爱夜夜爽| 国产欧美日韩亚洲一区二区三区| 91精品国产99| 午夜影院免费在线观看| 久久经典综合| 国产精品久久久久久久久久新婚| 人妻中文字幕一区二区三区| 日韩1区2区3区| 国产美女精彩久久| 国产精品久久久久久免费免熟 | 色视频在线免费观看| 中国av一区二区三区| 一本久道久久综合| 99在线视频观看| 亚洲福利一区二区三区| 黄页网站在线观看视频| 原纱央莉成人av片| 在线视频欧美精品| 男女污污视频网站| 538任你躁精品视频网免费| 亚洲黄页视频免费观看| 久久久久久国产精品无码| 欧美丝袜激情| 久久艹在线视频| 奇米影视第四色777| 久久视频一区| 91麻豆国产精品| 天天干天天爽天天操| 久久先锋影音av鲁色资源| 一级做a爰片久久| 国产后进白嫩翘臀在线观看视频| 狠狠久久亚洲欧美专区| 国产免费又粗又猛又爽| 视频一区日韩| 亚洲网址你懂得| 唐朝av高清盛宴| 国产精品免费看| 国产日韩视频在线观看| 六月婷婷中文字幕| 国产精品视频线看| 久久这里只有精品18| 欧美××××黑人××性爽| 91精品在线一区二区| 日本少妇毛茸茸| 国产精品久久久久蜜臀| 午夜精品久久久久久久99热浪潮 | 欧美成人女星排名| 法国空姐电影在线观看| 欧美日韩亚洲一区三区 | 天天爱天天做天天爽| 国产乱色国产精品免费视频| 久久精品成人一区二区三区蜜臀| 在线观看免费高清完整| 精品久久香蕉国产线看观看gif| 中文字幕av专区| 牛牛影视久久网| 免费97视频在线精品国自产拍| 精品免费囯产一区二区三区| 国产激情一区二区三区桃花岛亚洲| 欧美高清视频一区二区三区在线观看| 大片免费在线看视频| 91国偷自产一区二区三区观看| 佐佐木明希电影| 91蜜臀精品国产自偷在线| 欧美一级大片在线观看| 亚洲第一页在线观看| 国产精品久久久久久久久免费樱桃| 免费一级特黄特色毛片久久看| 青草伊人久久| 久久精品国产一区二区三区 | 337p亚洲精品色噜噜狠狠| 亚洲AV无码国产成人久久| 亚洲国产三级| 国产精品xxxx| 在线观看电影av| 欧美丰满嫩嫩电影| 在线免费看视频| 久久久精品网| 久久偷窥视频| 国产不卡人人| 亚洲精品一区二区精华| 久久久久无码精品国产| 国产精品99久| 久久男人资源站| 亚洲欧美日本国产| 欧美黑人一区二区三区| www.中文字幕| 一片黄亚洲嫩模| 人妻av一区二区三区| 欧美激情亚洲| 97夜夜澡人人双人人人喊| 高清免费电影在线观看| 91精品国产黑色紧身裤美女| 亚洲xxxx3d动漫| 精品一区二区在线免费观看| 中文字幕一区二区三区四区五区| 精品免费av一区二区三区 | 亚洲国产精品精华素| 91精品国产一区二区人妖| 色老板免费视频| 国产一区二区在线视频| 男人天堂网站在线| 91成人福利| 久久久久免费精品国产| 午夜视频在线播放| 色综合天天综合网天天狠天天| 黄瓜视频污在线观看| 日日欢夜夜爽一区| 亚洲精品一区二| 免费观看在线一区二区三区| 欧美黑人巨大xxx极品| 欧美一级特黄aaaaaa| 欧美日韩激情网| 久久精品视频18| 美女精品自拍一二三四| 国产三级中文字幕| 澳门精品久久国产| 欧美一级片在线播放| 国产理论电影在线观看| 777亚洲妇女| 国产无套粉嫩白浆内谢| 久久精品人人做人人综合| 久久国产精品国产精品| 午夜精品久久99蜜桃的功能介绍| 国产青春久久久国产毛片| 日韩免费福利视频| 久久久精品久久久| 手机看片福利永久| 欧美午夜寂寞影院| 欧美日韩一级大片| 久久人人97超碰com| 天天干天天色天天干| 激情久久五月| 色噜噜狠狠一区二区三区| 久久久久久久久成人| 538国产精品视频一区二区| 中文日本在线观看| 亚洲国产精品小视频| 国产情侣免费视频| 亚洲国产欧美在线人成| 欧美aaa级片| 97se亚洲国产综合自在线不卡| 美女网站视频黄色| 亚洲精品视频啊美女在线直播| 亚洲精品在线视频观看| 成人影院中文字幕| 国产在线观看不卡| 午夜久久中文| 欧美日韩成人网| 成人在线免费视频| 日韩av在线网站| 99久久国产免费| 欧美天天综合网| 国产成人在线播放视频| 日韩美女久久久| 男人的天堂官网| 97国产一区二区| 少妇熟女视频一区二区三区 | 亚洲无毛电影| 综合视频免费看| jiujiure精品视频播放| 国产尤物99| 亚洲日本va午夜在线电影| 国产久一一精品| 伊人久久高清| 青青a在线精品免费观看| 99爱在线观看| 欧美极品少妇xxxxⅹ裸体艺术 | 综合久久一区二区三区| 欧美 日韩 成人| 91理论电影在线观看| 黑森林av导航| 国产麻豆精品久久一二三| 天天干天天爽天天射| 肉丝袜脚交视频一区二区| 免费国产a级片| 在线精品一区| av在线观看地址| 国精品一区二区三区| 欧美黄色免费网址| 中国精品18videos性欧美| 伊人久久大香线蕉午夜av| 国产日韩视频在线| 日韩精品伦理第一区| 自拍自偷一区二区三区| 精品一区二区日本| 欧美黑人做爰爽爽爽| 国内一区在线| 欧美日韩看看2015永久免费 | 91精品久久久久久久久久久| 欧美成人app| 国产日韩欧美在线看| 青青在线精品| 成人免费观看a| 国产精品亚洲欧美日韩一区在线 | 亚洲视频香蕉人妖| 国产精品嫩草影院俄罗斯| 综合色天天鬼久久鬼色| 日韩a级片在线观看| 一区二区在线观看av| 久久国产在线视频| 午夜国产精品影院在线观看| 91av在线免费视频| 色女孩综合影院| 一本大道伊人av久久综合| 3d成人动漫网站| 亚洲精品一区二区三区区别| 亚洲精品国产精品国产自| 男人的天堂在线| 色狠狠久久aa北条麻妃| а√天堂在线官网| 97国产成人精品视频| 快播电影网址老女人久久| 国产欧美久久久久久| 一区二区网站| 久久久久久欧美精品色一二三四| 国产精品美女久久久久久不卡| 手机在线观看国产精品| **女人18毛片一区二区| 蜜臀av色欲a片无码精品一区| 国产欧美69| 亚洲欧美日韩三级| aaa欧美色吧激情视频| 一级黄色片网址| 亚洲精品视频在线| 在线免费黄色av| 91麻豆精品国产91久久久久久久久| 日韩一区免费视频| 中文字幕av一区中文字幕天堂| caopo在线| 日本精品性网站在线观看| 不卡的国产精品| 精品国产91亚洲一区二区三区www| 综合综合综合综合综合网| 最新av在线免费观看| 国产精品一国产精品k频道56| 国产小视频精品| 成人av网站在线观看免费| 超碰人人人人人人人| 亚洲成人在线网站| 国产精品女人久久久| 日韩麻豆第一页| 中文字幕有码在线观看| 日韩av理论片| 大伊香蕉精品在线品播放| 一本久久a久久精品vr综合| 国产精品综合| 色欲无码人妻久久精品| 国产欧美一区二区精品性| 日本熟妇乱子伦xxxx| 91精品视频网| 国产精品免费观看| 97视频免费在线看| 日韩精品成人在线观看| 五月天综合网| 国产精品普通话对白| 亚洲av综合色区无码另类小说| 国产精品亲子乱子伦xxxx裸| 国产又黄又粗又爽| 亚洲爱爱爱爱爱| 国产鲁鲁视频在线观看特色| 国产精品久久久久久久7电影| 久久a爱视频| 妺妺窝人体色777777| 国产麻豆一精品一av一免费 | 国产精品观看在线亚洲人成网| 国产精品视频3p| 国产精品国产三级国产专区51| 久久99久久精品欧美| 亚洲成人黄色av| 色综合久久综合网欧美综合网| 丰满岳乱妇国产精品一区| 久久香蕉国产线看观看av| 国产精品亚洲成在人线| 日本一区二区精品| 久久精品观看| aaaaa级少妇高潮大片免费看| 亚洲成在人线免费| 午夜精品一二三区| 免费av一区二区| 日韩视频一区二区三区四区| 亚洲国产精品影视| 精品一区二区三区在线视频| 91禁男男在线观看| 欧美区一区二区三区| 超碰免费在线观看| 国产精品视频午夜| 久久影院100000精品| 国产精品久久a| 中文字幕亚洲不卡| 国产高清在线免费| 欧美超级乱淫片喷水| 日韩一二三区在线观看| 女人床在线观看| 高清久久久久久| 国产精品黄色网| 亚洲摸下面视频| 国产精品字幕| 欧美精品一区二区性色a+v| 国产毛片精品视频| 日韩三级免费看| 亚洲欧美www| 黄色精品视频| 91手机视频在线| 国产69精品一区二区亚洲孕妇| 国产精品99re| 亚洲人成绝费网站色www| 国产亚洲人成a在线v网站| 在线成人av电影| 粉嫩嫩av羞羞动漫久久久| 日韩三级视频在线播放| 亚洲人成网站777色婷婷| jizz久久久久久| 8x8ⅹ国产精品一区二区二区| 成人av动漫在线| 日韩精品一区二区亚洲av观看| 最近更新的2019中文字幕| 亚洲国产一区二区三区网站| 缅甸午夜性猛交xxxx| 国产色爱av资源综合区| 97人妻精品一区二区三区动漫| 欧美激情18p| 日韩人妻无码一区二区三区| 国产三级一区二区三区| 91影院在线播放| 久久噜噜噜精品国产亚洲综合 | 亚洲第一偷拍网| 精品免费av在线| 欧美日韩dvd| 久久久精品中文字幕麻豆发布| 国产又粗又长又黄| 韩国v欧美v日本v亚洲| 精品国产1区| 亚洲成年人av| 欧美性感一类影片在线播放| 在线观看a级片| 日本亚洲自拍| 成人性生交大合| 国产又黄又粗又长| 欧美亚洲国产日韩2020| 在线中文字幕第一区| 瑟瑟视频在线观看| 欧美不卡一区二区三区四区| 精品欧美日韩精品|