精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

o1帶火的CoT到底行不行?新論文引發了論戰

人工智能 新聞
對于許多數據集和模型而言,僅僅有規劃不足以帶來明顯的性能增益。與直接回答相比,CoT 或規劃+ CoT 求解器是實現強大性能所必需的。

OpenAI ο1 的誕生極大地提升了人們對 LLM 推理能力和思維鏈(CoT)的興趣。一時之間,似乎思維鏈很快就會成為所有 LLM 的標配,但思維鏈并非萬能,就連 OpenAI 自己也提到 o1 在某些任務上的表現并不比 GPT-4o 強,尤其是以語言為中心的任務。

近日,一篇來自德克薩斯大學奧斯汀分校、約翰·霍普金斯大學和普林斯頓大學的論文引發了熱議,其模仿莎士比亞《哈姆雷特》的臺詞提出了一個對 AI 研究者和實踐者來說至關重要的問題:To CoT or not to CoT?

圖片

論文標題:To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

論文地址:https://arxiv.org/pdf/2409.12183

GitHub 庫:https://github.com/Zayne-sprague/To-CoT-or-not-to-CoT (待更新)

簡單來說,這篇論文研究了思維鏈(CoT)技術幫助 LLM 解決各式問題的有效性。

首先,該團隊分析了近期的相關文獻,比較了 CoT 與直接回答方法(DA)的性能表現。

之后,他們使用 20 個數據集和 14 個當今主流的 LLM 在零樣本提示和少樣本提示設置下進行了實驗。

圖 1 簡單總結了這兩項研究的結果。

圖片

結果表明,CoT 能極大助益 LLM 解決涉及數學和符號推理的任務,至于其它任務,CoT 的效果并不顯著甚至可能有損模型性能。

另一個發現是 CoT 能幫助提升執行計算和符號操作的執行步驟,但卻比不上能使用外部工具的 LLM。這是什么意思呢?該團隊發現,相比于使用直接回答方法,使用 CoT 時 LLM 能更好地生成可執行的形式化方案規劃;但如果使用語言模型來生成方案規劃,然后再使用外部符號解算器來求解該規劃,性能表現還會更好一些。

這樣的結果忽然讓 CoT 的處境變得有點尷尬:在 CoT 有用的問題上,我們能使用外部工具做得更好;在另一些問題上,CoT 的能力又有限。

因此,該團隊認為:「第一,很多廣泛使用 CoT 解決的問題其實根本沒必要使用 CoT:現在已有更高效方法,能以遠遠更低的推理成本取得相近的性能。第二,基于提示詞的 CoT 不夠用了,我們看到人們迫切地需要更復雜精妙的方法,比如基于搜索、交互式智能體或針對 CoT 進行過更好微調的模型的方法。」

文獻研究

首先,該團隊調研了近期的相關文獻,比較了使用或不用 CoT 的提示詞的效果。

具體指標和流程這里就不多介紹了。總之,他們從 110 篇論文(35 篇 ICLR 論文和 75 篇 NAACL 和 EACL 論文)中整理出了 1218 個實驗結果,涉及 264 個數據集。之后,他們將這些相關任務分成了 14 類,表 1 展示了其中幾類的定義。

圖片

文獻研究結果

圖 2 展示了 CoT 為不同類型的任務帶來的性能增量,即使用 CoT 提示法取得的性能減去使用直接回答法取得的性能。

圖片

可以看到,在這些任務上,CoT 平均僅能帶來 3.75% 的提升。其中 CoT 帶來增益最大的三類任務分別是:符號推理、數學、邏輯推理。在這三個任務上,CoT 實現的平均性能為 56.9,而不使用 CoT 的表現為 45.5。而在其它任務上表現較好的個例(圖中用黃色高亮標記出了 10 個),也或多或少與這三個任務有關。

但在其它任務上,CoT 的表現就沒什么亮點了,平均成績僅有 56.8,而就算不使用 CoT,直接回答法也能得到 56.1。該團隊認為,這一點點提升甚至不能算作是提升,畢竟 CoT 的計算成本明顯更高。

實驗研究

除了研究近期文獻,該團隊也執行了實驗,其中涉及到 20 個數據集和 14 個模型,并測試了零樣本提示和少樣本提示兩種設置,見表 2。

圖片

實驗研究結果

下面我們通過對一系列問題的解答來了解實驗結果。

1.在哪些任務上,零樣本 CoT 優于直接提示?

圖 3 左展示了 CoT 在五個推理類別(見圖 1 右)上帶來的平均性能增益;圖 3 右則是 CoT 在每個數據集上帶來的平均性能增益。

圖片

可以看到,在非符號推理類別和數據集上,特別是那些主要包含常識(CSQA、PIQA、SiQA)、語言理解(WinoGrande)和閱讀理解(AGI LSAT、ARC-Easy、ARC-Challenge)的問題上,零樣本 CoT 和零樣本直接回答的性能幾乎沒有區別。盡管這些數據集涉及推理,但 CoT 并沒有帶來增益。

相比之下,數學和符號類別(以及符號和半符號數據集)獲得了更大的提升。CoT 在 MATH 和 GSM8k 上帶來的增益分別高達 41.6% 和 66.9%。在 ContextHub 和 MuSR Murder Mysteries 等半符號數據集上,CoT 表現出了中等程度的增益。這些數據集需要應用邏輯規則才能得出答案,例如從簡單的自然語言(ContextHub)或更復雜的常識性陳述(MuSR Murder Mysteries)中解析得到的一階邏輯。

在少樣本設置下得到的實驗結果類似。

2.回答格式是否會影響 CoT 的有用性?

除了數學之外,許多常用的數據集都是多項選擇題。該團隊指出,對于兩個非多項選擇題的數據集(MuSiQue 和 BiGGen Bench,并且它們需要不同層級的非符號推理才能給出回答),CoT 的表現與直接回答相近。

因此,可以說回答格式對 CoT 的有用性的影響不大。并且,該團隊還表示,預先針對正確響應進行規劃或推理甚至可能妨礙 LLM 自由響應的能力。

3.CoT 在知識、軟推理和常識推理方面帶來的提升是否顯著?

在 13 個涉及知識、軟推理和常識推理的數據集上,該團隊測試了 CoT 的表現,結果發現:答案是否定的,但 MMLU、StrategyQA 和 MuSR 是例外。在這三個數據集上,CoT 可以帶來比較顯著的增益。

詳細研究 MMLU 和 MMLU Pro

MMLU 和 MMLU Pro 是兩個范圍廣泛的數據集,因此很難簡單地描述它們的特征。該團隊詳細研究了 CoT 在 MMLU 中每個類別上的性能表現,以了解 CoT 在不同領域的性能差異。

表 3 給出了 CoT 能為 Llama 3.1 8B 和 70B 在 MMLU 和 MMLU Pro 上帶來最顯著提升的三個類別。

圖片

可以看到,其中一些與數學有關,這不出人意料,但也有的屬于「商業」等類別。不過更進一步研究發現,這些類別通常也涉及數學(比如資產計算等)。

因此,該團隊對 MMLU 進行了更細粒度的研究(實例級)。他們發現問題或生成的響應中是否包含 = 這個符號非常關鍵,可以說是「符號推理的一個強有力的標志」。結果見圖 4。

圖片

可以看到,當有 = 時,CoT 在 MMLU 和 MMLU Pro 上的表現明顯會更好。該團隊認為這是因為 = 通常出現在數學問題中。所以歸根結底,CoT 依然是能在數學問題上為 MMLU 和 MMLU Pro 帶來助益。

CoT 在形式推理方面的優勢和劣勢

下面來解釋 CoT 有助于符號推理任務的原因。很多符號和半符號推理任務都可以分成兩個階段:規劃與執行。該團隊也基于此思路進行了分析。

設置 1 和 2:少樣本直接回答和 CoT:使用之前的少樣本直接回答和 CoT 作為基線。圖 5 給出了在 GSM8K 上每個設置的示例。

圖片

設置 3 和 4:規劃 + 直接求解器以及計劃 + CoT 求解器。

設置 5:規劃+工具求解器。

評估結果

圖 6 展示了選出的代表性模型的結果。

圖片

可以看到,對于許多數據集和模型而言,僅僅有規劃不足以帶來明顯的性能增益。與直接回答相比,CoT 或規劃+ CoT 求解器是實現強大性能所必需的。使用其中一種方法跟蹤執行情況可帶來最大的準確性優勢,尤其是對于含有大量數學內容的數據集。

盡管 CoT 或規劃+ CoT 求解器比直接回答和規劃+直接回答更強,但規劃+工具求解器在大多數情況下還要更優。也就是說,很多時候,使用 CoT 還不如讓 LLM 使用工具。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2012-05-01 20:52:40

2019-10-25 15:45:00

Linux操作系統Windows

2020-09-10 17:22:15

機器人人工智能系統

2024-10-12 13:51:22

2011-04-21 11:47:21

P2000P105

2024-09-23 09:20:00

2024-09-20 15:35:33

2018-09-27 13:56:22

iPhone XS信號手機

2021-01-27 07:33:11

手機充電快充芯片

2024-11-07 15:40:00

2025-01-28 00:00:00

OOMSpringCglib

2024-09-24 11:01:03

2014-06-10 11:21:07

技術侮辱技術

2025-01-20 09:28:00

AI工具模型

2024-10-05 00:00:00

2024-09-19 18:03:31

2025-04-29 09:06:00

2025-01-08 13:08:55

點贊
收藏

51CTO技術棧公眾號

国产精品一区二区三区免费| 欧美成人小视频| 在线观看国产一级片| 国产精品久久久久久福利| 国产做a爰片久久毛片| 欧美激情一区二区三区高清视频| 熟女人妻在线视频| av成人在线看| 婷婷久久综合九色综合伊人色| 日本一区二区久久精品| av手机免费看| 水野朝阳av一区二区三区| 美日韩精品免费视频| 久久久精品人妻无码专区| 国产一区二区三区精品在线观看| 天天色综合天天| 女同性恋一区二区| 黄色小视频在线观看| 国产成人午夜视频| 国产欧美一区二区三区在线看 | 国产日韩在线看| 日操夜操天天操| 91精品综合久久久久久久久久久 | 变态另类丨国产精品| 国产精品一区二区美女视频免费看| 岛国av在线不卡| 久久这里只有精品8| 午夜视频在线观看免费视频| 91欧美激情一区二区三区成人| 51成人做爰www免费看网站| 狠狠狠狠狠狠狠| 91久久亚洲| 欧美黑人巨大xxx极品| 快灬快灬一下爽蜜桃在线观看| 欧美精品中文字幕亚洲专区| 欧美va亚洲va香蕉在线| 在线视频一二区| 欧美成人高清视频在线观看| 色天使久久综合网天天| 国产精品入口芒果| 电影k8一区二区三区久久| 亚洲日本欧美天堂| 视色,视色影院,视色影库,视色网| 一本一道波多野毛片中文在线| 久久综合网色—综合色88| 精品国产一区二区三区麻豆免费观看完整版 | 日韩在线播放av| 国产一区二区三区四区在线| 欧美在线观看视频一区| 一区二区欧美久久| 亚洲色成人网站www永久四虎| 天堂日韩电影| 日韩精品视频在线播放| 久久国产精品无码一级毛片| 秋霞在线一区| 亚洲美女自拍视频| 91激情视频在线观看| 欧美极品在线观看| 伊人久久久久久久久久久久久| 国产真实乱人偷精品人妻| 欧美精美视频| 日韩最新中文字幕电影免费看| 国产黄色大片免费看| 日韩精品不卡一区二区| 色爱精品视频一区| 久草网站在线观看| 亚洲承认在线| 日韩av免费在线观看| 精品无码一区二区三区的天堂| 日韩高清欧美激情| 成人免费xxxxx在线观看| 国产成人麻豆精品午夜在线| 丁香婷婷综合激情五月色| 国产伦精品一区二区三区四区视频| 高清毛片aaaaaaaaa片| 99精品久久99久久久久| 色综合久久av| 污污视频在线看| 亚洲成人精品影院| 免费看污污网站| 国产精品一区三区在线观看| 亚洲国产欧美久久| 国产黄色三级网站| 欧美丝袜一区| 久久久亚洲福利精品午夜| 国产精品视频免费播放| 麻豆中文一区二区| 国产欧美日本在线| 成年人免费在线视频| 一区二区欧美国产| 动漫av免费观看| 精品国产乱码久久久久久樱花| 欧美精品一区二区三| 林心如三级全黄裸体| 午夜久久久久| 国产精品第二页| 亚洲伦理在线观看| 国产拍欧美日韩视频二区| av 日韩 人妻 黑人 综合 无码| 人人草在线视频| 欧美一区二区三区喷汁尤物| 醉酒壮男gay强迫野外xx| 婷婷亚洲图片| 国产成人在线视频| 丰满人妻一区二区三区四区53 | 在线视频欧美日韩精品| 国产精彩视频在线观看| 久久福利视频一区二区| 久久精品五月婷婷| 18av在线播放| 欧美日韩国产综合草草| chinese麻豆新拍video| 欧美一区成人| 91精品国产综合久久久久久蜜臀 | 最近2019免费中文字幕视频三| 精品一区免费观看| 国产一区二区不卡| 亚洲一区免费看| 美脚恋feet久草欧美| 日韩精品一区二区三区老鸭窝| 久久免费手机视频| 天堂蜜桃一区二区三区| 精品福利影视| 丰满诱人av在线播放| 91精品婷婷国产综合久久 | 亚洲综合色成人| а 天堂 在线| 久久中文亚洲字幕| 国产精品久久久久久网站| 婷婷久久久久久| 亚洲永久免费视频| 不卡的一区二区| 91精品国产自产在线观看永久∴| 国产精品久久久久免费a∨| 日本啊v在线| 欧美视频二区36p| 欧美夫妇交换xxx| 99视频一区| 国产欧美欧洲| 一个人www视频在线免费观看| 亚洲第一精品夜夜躁人人躁| 久久综合久久鬼| 成人在线视频首页| 国自产拍偷拍精品啪啪一区二区 | 美国av一区二区三区| 国产精品yjizz视频网| 亚洲第一中文字幕| 中文在线观看免费网站| www..com久久爱| 国产男女无遮挡| 奇米狠狠一区二区三区| 国产91在线播放九色快色| 国产一二三区在线| 欧美性色欧美a在线播放| 精品熟妇无码av免费久久| 日本欧美韩国一区三区| 视频一区国产精品| 亚洲男女网站| 欧美日韩高清区| 天天干天天插天天操| 色综合婷婷久久| 国产极品视频在线观看| 精品一区二区三区免费毛片爱| 好色先生视频污| 国产精品99久久免费观看| 久久久久久国产| 日韩电影在线观看完整版| 91福利国产精品| 最新日韩免费视频| 国产成a人亚洲| 欧美 日韩 国产在线观看| 免费成人网www| 91精品国产综合久久男男| 欧美黑人xx片| 亚洲男人天堂手机在线| 一级片视频网站| 亚洲图片欧美综合| 中文字幕成人动漫| 国产一区中文字幕| 国产伦精品一区二区三区四区视频_| 亚洲成人一品| 成人欧美一区二区三区黑人| heyzo在线播放| 尤物99国产成人精品视频 | 亚洲欧美在线x视频| 波多野结衣日韩| 亚洲女人****多毛耸耸8| 538国产视频| 精品一区二区免费视频| 久久久久免费看黄a片app| 欧美精品系列| 国产精品日韩一区二区| 中文.日本.精品| 欧美黑人国产人伦爽爽爽| 成人免费高清在线播放| 欧美成人三级电影在线| 日本丰满少妇做爰爽爽| 亚洲国产中文字幕| 国产人与禽zoz0性伦| 91老师国产黑色丝袜在线| 亚洲男人天堂2021| 日韩av一区二区三区| 精品国产一区三区| 一区二区三区午夜视频| 日本视频一区二区不卡| 国产精品巨作av| 91久久久久久久久久久| 精品91久久| 隔壁老王国产在线精品| 黄网站免费在线播放| 中文字幕亚洲情99在线| 亚洲欧美日韩免费| 精品剧情v国产在线观看在线| 最好看的日本字幕mv视频大全| 懂色av影视一区二区三区| 欧美激情一区二区视频| 中文字幕日本不卡| 一区二区三区久久久久| 久久综合国产精品| 中文在线观看免费视频| 国产成人免费高清| 欧美大片久久久| 蜜臀av一区二区在线免费观看| av免费观看网| 99精品久久| 国产真实老熟女无套内射| 88国产精品视频一区二区三区| 亚洲不卡一卡2卡三卡4卡5卡精品| 日韩中文字幕视频网| 91免费电影网站| 57pao成人永久免费| 国产精品久久久久久久久久久新郎| 中国色在线日|韩| 午夜精品蜜臀一区二区三区免费| 里番在线播放| 欧美极品欧美精品欧美视频| 污视频网站在线免费| 久久亚洲精品小早川怜子66| 麻豆网站在线免费观看| 日韩视频一区在线| 超碰最新在线| 欧美大片网站在线观看| 欧美6一10sex性hd| 欧美国产亚洲视频| 国产一二三在线| 性色av一区二区咪爱| 天堂av在线| 国产精品91久久| 玖玖精品在线| 91探花福利精品国产自产在线| 综合久久av| 成人欧美一区二区| 国产另类在线| 欧美一进一出视频| 日韩精品电影| 蜜桃网站在线观看| 国产精品99免费看| 欧美日本视频在线观看| 日韩高清一区二区| 天堂在线一区二区三区| 成人免费毛片app| 成年人网站免费看| 中文无字幕一区二区三区 | 精品久久久久久久久久久| 黄色片中文字幕| 欧美日韩久久久久久| 国产高清视频免费观看| 日韩av网站大全| 91最新在线| 欧美日韩xxxxx| 周于希免费高清在线观看 | 欧美日日夜夜| 日韩aⅴ视频一区二区三区| 999国产精品视频| 岛国大片在线播放| 老司机精品久久| 男生和女生一起差差差视频| 91在线一区二区| 中文字幕美女视频| 亚洲一区欧美一区| 免费黄色片视频| 日韩三级视频在线看| 欧美拍拍视频| 两个人的视频www国产精品| 僵尸再翻生在线观看免费国语| 国产精品久久久久不卡| av综合网站| 午夜精品福利一区二区| 黄色日韩在线| 三上悠亚av一区二区三区| 成人免费观看av| 亚洲毛片亚洲毛片亚洲毛片| 亚洲影院久久精品| 天天爱天天做天天爽| 日韩成人影音| 在线成人免费视频| 亚洲av成人无码久久精品老人| 上原亚衣av一区二区三区| 成人免费图片免费观看| 国产日韩精品电影| 亚洲制服欧美另类| 在线观看污视频| 秋霞电影网一区二区| 妖精视频一区二区| 亚洲欧洲精品成人久久奇米网| www.国产高清| 日韩精品中文字幕在线不卡尤物| 二区三区在线| 91成人国产在线观看| 麻豆久久一区| 在线一区日本视频| 日本vs亚洲vs韩国一区三区二区| 日韩av无码一区二区三区不卡 | 欧美激情喷水| 国产乱码精品一区二区三区日韩精品 | 欧美一级片免费播放| 精品亚洲欧美一区| 一级黄色片网址| 91久久一区二区| 欧美日韩在线精品一区二区三区激情综| 欧美人与性动交a欧美精品| 另类一区二区三区| 婷婷精品国产一区二区三区日韩| 国产精品久久久亚洲一区| 中文字幕人妻一区| 亚洲国产一区视频| 国产成人精品亚洲精品色欲| 久久婷婷国产麻豆91天堂| 成人涩涩视频| 色爱区成人综合网| 日韩av一级片| 五月天精品在线| 欧美日韩国产经典色站一区二区三区 | 51社区在线成人免费视频| 91麻豆天美传媒在线| 狠狠色丁香久久婷婷综| 秋霞欧美一区二区三区视频免费| 欧美色图第一页| 91sp网站在线观看入口| 国产精品视频免费观看www| 欧美亚洲国产一区| 91精品无人成人www| 国产精品久久久久毛片软件| 中文字幕在线观看1| 色婷婷成人综合| 亚洲精品自拍| 日韩视频 中文字幕| 高清免费成人av| 日本五十熟hd丰满| 日韩的一区二区| 成人免费看视频网站| 日本三级中国三级99人妇网站| 日本成人在线不卡视频| 精品女人久久久| 日韩免费福利电影在线观看| 美女精品导航| 欧美极品一区二区| 日本不卡高清视频| 91视频免费在线看| 亚洲国产精品va在线观看黑人| 自拍网站在线观看| 午夜欧美性电影| 国产精品一区二区久激情瑜伽 | 国产激情视频在线观看| 成人影片在线播放| 午夜在线精品| 久久免费手机视频| 精品国产乱码久久久久久久久 | 91麻豆桃色免费看| 在线精品亚洲| www.黄色在线| 日韩限制级电影在线观看| 蜜桃视频m3u8在线观看| 亚洲精品成人a8198a| 国产高清不卡二三区| 欧美一级特黄视频| 久久九九精品99国产精品| 狠狠久久伊人| 视频二区在线播放| 亚洲国产精品一区二区久久恐怖片 | 国产制服91一区二区三区制服| 99久精品国产| 国产精品久久久久久久久毛片 | www.com日本| 色国产综合视频| 在线免费观看的av| 欧美日韩精品免费观看| 久久av资源网| 国产无套丰满白嫩对白| 久久精品国产一区二区电影| 久久a爱视频| 亚洲激情在线看| 色哟哟精品一区| 另类视频在线| 最新黄色av网站| 久久久久久久性| 亚洲国产精品一| 成人疯狂猛交xxx| 久久av在线| 精品少妇一二三区|