精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

CoT神話破滅,并非LLM標配!三大學府機構聯手證實,CoT僅在數學符號推理有用

人工智能 新聞
CoT只對數學、符號推理才起作用,其他的任務幾乎沒什么卵用!這是來自UT-Austin、霍普金斯、普林斯頓三大機構研究人員聯手,分析了100+篇論文14類任務得出的結論。看來,CoT并非是所有大模型標配。

谷歌CoT開山之作,再次成為OpenAI o1模型的利器。

LLM復雜推理能力的實現,就離不開一步一步思考,但是這種「思考」究竟對于什么類型的任務有幫助呢?

來自UT-Austin、霍普金斯、普林斯頓的研究人員,使用CoT對100多篇論文,進行了定量元分析。

圖片

論文地址:https://arxiv.org/abs/2409.12183

同時,他們還對14個模型的20個數據集,進行了評估。

結果顯示,CoT在涉及數學、邏輯任務中,能夠增強LLM性能,但在其他類型任務上,收益較小。

圖片

在MMLU中,除非問題或模型回答中包含“=”(表示符號運算和推理),否則直接生成答案,而不使用CoT,能達到與使用CoT相同的準確率。

基于這一發現,作者通過分離「規劃」和「執行」,并工具增強的LLM進行比較,來分析CoT在這些任務中的行為。

結果證實,CoT的大部分收益,來自于符號執行的改進,但相對于使用符號求解器來說,表現較差。

圖片

總而言之,作者希望通過研究告訴我們,CoT并非是萬能的。

「CoT可以有選擇性地應用,以平衡性能和推理計算成本」。

另外,未來研究中還需超越基于提示的CoT,轉向利用整個LLM中間計算的新范式。

用CoT,還是不用CoT,這是一個問題

o1成為當紅炸子雞,一大原因便是采用了CoT架構。

但是,千萬不要被OpenAI誤導了。

圖片

其實,先前就有研究稱,CoT在數學以外的領域,并沒有那么有用,甚至有時會損害模型性能。

最新研究中,作者的目標是去評估,基于提示的CoT在哪些領域發揮作用最大,以及具體的原因。

110篇論文,14大類別

對此,研究人員從機器學習頂會ICLR 2024、兩個NLP頂會EACL 2024和NAACL 2024中,篩選了所有4642篇論文(2259篇來自ICLR 2024,2,382篇來自兩個ACL附屬會議)。

在這些論文中,通過自動篩選出現CoT、chain-of-thought或chain of thought兩次的文章,共得到516個樣本。

然后,下一步通過手動篩選,得到對「CoT提示與直接提示進行比較」的論文。

經過一系列排除,最終收集了110篇論文樣本,涵蓋了264個數據集。

最后,研究人員將所獲得樣本中的不同任務,分成14個類別。

圖片

圖片

如下圖2所示,在不文獻中,作者發現CoT在任務分類中的性能增益。

可見,CoT在符號推理、數學、邏輯推理三大類別任務中,性能最優,平均提高分別為14.2%、12.3%和6.9%。

使用CoT的前三項任務,平均性能為56.9%,而沒有CoT的性能為45.5%。

對于其他類別任務,使用CoT的平均性能為56.8%,而沒有使用CoT的平均性能為56.1%。

圖片

圖2右側顯示了,在數學、符號或邏輯推理以外的任務實驗中,平均CoT增量較高10個異常值。

雖然這些論文沒有被歸類為數學邏輯,但其中一些在某種程度上與邏輯、數學或符號推理相關。

從這個列表中可以看出,從CoT中獲益最多的數據集是BIG-bench Hard。還有BIG-bench Temporal、MMLU-Moral Scenarios都涉及到了基本簡單問題的組合。

圖片

同時,還有幾個異常值,也隱約遵循這一趨勢。比如,ScienceQ是由一系列自然和社會科學科學選擇題組成,但如果不按學科/問題類型細分成績,很難解釋其收益。

其次,在一些論文分析中,其他論文評分結果并未顯示出CoT帶來的改進。

實驗結果

更進一步的,團隊在零樣本學習和少樣本學習的設置下,對14個模型的20個數據集進行了一系列實驗,以比較性能。

與CoT相比,零樣本CoT有何改進?

如下圖3所示,具體顯示了圖1中,每個推理類別的平均CoT性能改進。右側呈現的是,對每個數據集使用CoT所帶來的性能增益,這是所有模型和單個模型選擇的平均值。

在非符號推理類別和數據集上,特別是那些包含主要涉及常識(CSOA、PIOA、SiOA)、語言理解(WinoGrande)和閱讀理解((AGILSAT、ARC-Easy、ARC-Challenge)問題的數據集。

零樣本CoT和零樣本直接回答的性能之間,幾乎沒有區別。

盡管這些數據集中涉及推理,但是CoT并沒有帶來顯著的改進。

圖片

相較之下,數學和符號類別,與符號和許多符號數據集一起得到了大幅改進。

MATH和GSM8k的增幅分別高達41.6%和66.9%。對于半符號數據集如Mvsteries等,結果顯示出適度的增幅。

例如,從簡單的自然語言(ContextHub)或更復雜的常識陳述(MuSR 謀殺之謎)解析出一階邏輯。所有結果均顯示在附錄 C.1中,表7中還顯示了 CoT 和直接答案提示的完整數字結果列表。我們還探索了少數鏡頭設置,發現它對 CoT 何時提供幫助的影響不大;參見附錄 B。

答案形式,是否會影響到CoT幫助的范圍?

答案——不多,預先規劃或推理正確反應,可能會阻礙模型自主反應能力。

除了數學之外,許多常用的問題數據集是多項選擇。

對于兩個非多項選擇,且包含不同級別的非符號推理來回答問題數據集,CoT具有與跨模型直接回答相似的性能。

其次,BiGGen Bench使用自由式回答作為問題答案,并使用LLM作為法官,以1-5級來評估這些回答。

得到的答案,本質上模糊了CoT和直接答案之間的界限。

為此,研究人員設置了一個新的CoT提示,要求語言模型生成自由形式響應的規劃,然后要求其在生成完整的響應。

知識、軟推理和常識方面,性能提升顯著嗎?

除了MMLU、StrategyQA和MuSR外,大多數情況下答案是否定的。

作者使用配對引導法在知識、軟推理和常識推理類別的13個數據集上,測試了CoT改進的顯著性。

結果得出,大約 38%的數據集顯示出,這三個推理類別的效益是顯著的。

MMLU和MMLU PRO

MMLU和MMLU Pro顯示了,使用CoT帶來收益,但由于這些數據集非常廣泛,因此無法進行簡單的表征。

研究人員探索了MMLU每個類別上的CoT性能,以了解這些領域之間CoT性能的差異。

對此,他們列出了3個類別,其中CoT在MMLU和MMLU Pro上,Llama 3.1 8B和70B最大的誤差減少。

圖片

其中,一些任務類別明顯是數學性質,正如圖8中所呈現的那樣。

此外,我們還可以看到,CoT在商業任務上,能夠提供一定的幫助。經過仔細核查,這些任務也會常常涉及數學等一些內容。

圖片

實驗結果如下圖4所示,當問題或生成結果匯總包含“=”,以及不包含“=”時,使用CoT時的增益效果。

圖片

CoT在公式推理中的優缺點

前面主要說明了CoT主要在符號推理任務發揮作用,但沒有說明具體原因。

在符號任務上,研究人員CoT的性能提升歸因于兩個階段:規劃階段和執行階段。

圖片

下圖6顯示了,代表性模型選擇的結果。

將直接答案與Plan+ Direct求解器和Plan+CoT求解器進行比較時,可以注意到,對于許多數據集和模型,僅有規劃并不能解決大部分性能增益。

與直接答案相比,需要CoT或Plan+CoT求解器,來獲得強大的性能。

盡管CoT和Plan+CoT求解器,比直接答案和Plan+Direct求解器有優勢,但在大多數設置中,仍以Plan+Tool求解器為主。

與符號求解器相比,LLM執行和追蹤步驟的能力受到限制。

圖片

鑒于以上的發現,研究團隊認為CoT應該有選擇性地應用,尤其是在需要處理數學、邏輯推理的任務。

而不分青紅皂白地使用CoT,可能會導致推理成本增加。

他們還建議,若想進一步提升模型推理能力,還需要超越基于提示的CoT。

總而言之,CoT is not all you need。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-07-03 01:45:00

LLMCoT思維鏈

2025-05-21 09:02:20

2023-06-01 17:06:49

模型思維

2024-09-23 08:24:06

CoT解密技術

2025-08-13 10:21:50

2025-03-05 04:00:00

2024-11-12 13:40:00

2025-02-07 16:07:39

2025-06-16 14:44:14

模型AILLM

2024-12-18 14:53:28

2024-12-12 09:00:00

2025-08-29 09:09:00

AI模型數據

2012-02-08 13:52:30

云計算

2025-01-13 01:00:00

數據訓練AI

2025-02-08 13:30:00

2024-08-09 14:48:00

2025-06-04 08:35:00

2023-12-25 09:23:07

模型技術

2025-07-14 08:17:29

2025-01-10 11:42:40

點贊
收藏

51CTO技術棧公眾號

黄页网站大全一区二区| 亚洲宅男网av| 亚洲6080在线| 欧美影视一区二区| 亚洲一区中文字幕在线| 欧美99久久| 日韩精品亚洲视频| 无限资源日本好片| 污视频在线免费观看网站| 不卡视频在线观看| 国产欧美精品一区二区三区介绍 | av毛片在线免费观看| 精品一区二区三区中文字幕老牛 | 亚洲欧美强伦一区二区| 嫩草成人www欧美| 久久久国产精品视频| 免费的av网站| 亚洲图片小说区| 精品久久久香蕉免费精品视频| 亚洲成人网上| 欧美熟妇交换久久久久久分类 | 国产成人久久久精品一区| 国产极品美女在线| 国产亚洲欧美日韩在线观看一区二区 | 女人十八岁毛片| 亚洲一区二区三区| 亚洲天堂久久av| 中国免费黄色片| 久久青草视频| 色激情天天射综合网| 久操手机在线视频| 69久久精品| 91色在线porny| 91网免费观看| 91无套直看片红桃| 久热精品在线| 韩国福利视频一区| 麻豆chinese极品少妇| 日韩理论在线| 亚洲一区二区精品| 久久精品女同亚洲女同13| 国产精品亚洲四区在线观看| 欧美影院一区二区三区| 男人操女人逼免费视频| 欧美亚洲天堂| 亚洲蜜臀av乱码久久精品蜜桃| 日韩av电影免费观看| 天天干天天爱天天操| 成人午夜视频免费看| 91久久久亚洲精品| 在线中文字幕网站| 日韩中文欧美在线| 日本欧美精品在线| 久久夜色精品国产噜噜亚洲av| 亚洲精品四区| 午夜精品久久久久久久99黑人 | 国产日韩在线视频| 自拍偷拍精品视频| 日本aⅴ免费视频一区二区三区| 日本高清不卡在线| 亚洲精品中文字幕乱码三区91| 9久re热视频在线精品| 国产69精品久久久久99| 亚洲国产精品成人无久久精品| 欧美久久99| 久国内精品在线| 精品在线视频免费观看| 极品av少妇一区二区| 欧美激情第6页| 国产一级在线视频| 99亚洲视频| 日本成熟性欧美| 少妇一级淫片日本| 日本不卡免费在线视频| 国产拍精品一二三| 国产美女www爽爽爽视频| 国产在线麻豆精品观看| 91传媒视频在线观看| 性做久久久久久久| 波多野结衣中文一区| 久久99精品久久久久久久青青日本 | 午夜激情电影在线播放| 在线视频欧美精品| 老司机午夜性大片| 亚洲精品一区国产| 日韩风俗一区 二区| 成人乱码一区二区三区av| 欧美一二区在线观看| 久久综合色88| 日本中文字幕免费观看| 视频一区二区不卡| 91在线网站视频| 人妻无码一区二区三区久久99| 久久久久久久久久久99999| 神马影院我不卡午夜| 毛片在线看片| 偷窥国产亚洲免费视频| 无码无遮挡又大又爽又黄的视频| 国产精品久久久久77777丨| 日韩三区在线观看| 97伦伦午夜电影理伦片| 亚洲高清影视| 欧美一级视频免费在线观看| 亚洲熟女乱色一区二区三区久久久| 国产精品99久久不卡二区| 久热国产精品视频一区二区三区| 午夜在线免费观看视频| 亚洲va在线va天堂| av网站在线不卡| 黄色美女久久久| 色吧影院999| 日韩欧美高清在线观看| 久久国产综合精品| 久久综合九九| а天堂中文在线官网| 欧美日韩一区二区在线| 四虎国产精品永久免费观看视频| 一区三区在线欧| 欧美日韩福利在线观看| 自拍偷拍第八页| 92精品国产成人观看免费| 国产卡一卡二在线| 欧美黄色三级| 亚洲精品短视频| 国产精品久久久久久久精| 日韩成人伦理电影在线观看| 国产高清一区二区三区| 欧美18hd| 欧美网站一区二区| 国产亚洲无码精品| 国内精品99| 91免费看片在线| 成人资源www网在线最新版| 午夜视频久久久久久| 在线成人免费av| 欧美韩日高清| 国产精品成人在线| 黄色在线播放| 欧美性生交xxxxxdddd| 女同性αv亚洲女同志| 天天做综合网| 国产欧亚日韩视频| 日本www在线观看视频| 色婷婷综合久色| 欧美特级黄色录像| 久久亚洲精品伦理| 欧美极品色图| 在线看片福利| 日韩av网址在线| 国产又大又黄视频| 91天堂素人约啪| 成人网站免费观看入口| 岛国精品一区| 午夜精品久久久久久99热| 亚洲毛片欧洲毛片国产一品色| 亚洲色图在线看| 亚洲欧美天堂在线| 欧美 日韩 国产 一区| 91热福利电影| fc2ppv国产精品久久| 91精品国产乱码| 人妻久久一区二区| 丁香激情综合国产| 99视频在线免费播放| 欧美电影在线观看免费| 欧美在线精品免播放器视频| 日韩精品123| 欧美亚洲国产怡红院影院| 欧美xxxx精品| 狠狠色丁香婷婷综合| 9色视频在线观看| 国产精伦一区二区三区| 2023亚洲男人天堂| 成人动漫在线免费观看| 欧美二区乱c少妇| 欧美黑人一级片| 不卡一区二区在线| 成人免费视频久久| 亚洲欧美偷拍自拍| 国产一区二区在线网站| 国模冰冰炮一区二区| 一本色道久久88综合亚洲精品ⅰ| 91午夜交换视频| 亚洲高清免费视频| 亚洲国产日韩一区无码精品久久久| 青娱乐精品视频| 黄色一级片av| 亚洲动漫在线观看| 成人网在线观看| 超碰资源在线| 中文字幕在线成人| 性欧美一区二区三区| 欧美日韩日本国产| 99精品中文字幕| 成人精品一区二区三区中文字幕| av之家在线观看| 日韩在线中文| 精品国产乱码久久久久久丨区2区 精品国产乱码久久久久久蜜柚 | 久久久精品国产一区二区| 黄色一级a毛片| 欧美色偷偷大香| 国产在线拍揄自揄拍无码视频| 久久久久国产成人精品亚洲午夜| www.久久av.com| 国产精品日本欧美一区二区三区| 亚洲视频电影| 噜噜噜天天躁狠狠躁夜夜精品| 国产精品视频久久久| 678在线观看视频| 俺去啦;欧美日韩| 日本天堂在线| 日韩精品一区二区三区swag| 波多野结衣黄色网址| 亚洲午夜电影在线| 顶级黑人搡bbw搡bbbb搡| 久久综合色一综合色88| 黑人性生活视频| 久久99久久99精品免视看婷婷 | 色大师av一区二区三区| 国产福利资源一区| 97se国产在线视频| 四虎国产精品成人免费影视| 欧美亚洲国产另类| 岛国毛片av在线| 欧美精品午夜视频| 午夜毛片在线| 国产一区二区三区久久精品 | av片在线免费| 97偷自拍亚洲综合二区| 日韩欧美电影一区二区| 香蕉久久夜色精品国产使用方法| 97超碰人人看人人 | 欧美综合国产| 99在线免费视频观看| 一区二区日韩欧美| 一区二区在线观| 成人免费看片39| 日韩国产精品一区二区| 在线一级成人| 久久草视频在线看| 国产劲爆久久| 国产伦视频一区二区三区| 亚洲高清在线一区| 91超碰rencao97精品| 精品国产乱码久久久久久樱花| 国产精品久久久久久五月尺| 欧美aaa视频| 国产精品91免费在线| 456亚洲精品成人影院| 日本一区二区不卡| 婷婷综合六月| 国产精品91在线观看| 欧洲成人一区| 国产精品视频网站| 色综合视频一区二区三区日韩| 国产成人精品视| 精品亚洲美女网站| 国产精品视频xxxx| 国产精品久久久久久久久久久久久久久 | 草视频在线观看| 亚洲黄一区二区三区| 毛片aaaaa| 午夜精品久久久久久久| 国产无人区码熟妇毛片多| 欧美日韩亚洲一区二| 日本一区二区免费电影| 欧美亚洲综合色| 国产精品热久久| 日韩欧美电影一二三| 成人黄色免费视频| 日韩精品极品视频免费观看| 日本韩国一区| 爽爽爽爽爽爽爽成人免费观看| 美女av在线播放| 久久久久久av| 老司机2019福利精品视频导航| 国产v综合v亚洲欧美久久| 成人在线不卡| 97免费高清电视剧观看| 精品人人人人| 色一情一乱一伦一区二区三欧美| 欧美成人自拍| 国产片侵犯亲女视频播放| 99热在线精品观看| 成人性生交免费看| 国产成人8x视频一区二区 | 亚洲免费毛片| 视频一区不卡| 欧美涩涩视频| 爱情岛论坛成人| 国产成人综合视频| 免费污网站在线观看| 亚洲视频一区二区在线观看| 五月天婷婷丁香| 欧美三级欧美一级| 你懂的网站在线| 色综久久综合桃花网| 91av久久| 亚洲影院在线看| 久操精品在线| 国产在线观看欧美| 蜜臀av性久久久久av蜜臀妖精| 扒开伸进免费视频| 国产精品你懂的在线欣赏| 国产无遮挡又黄又爽又色| 欧美三级三级三级| 日本aaa在线观看| 欧美福利在线观看| 欧美暴力调教| 九色一区二区| 好看的亚洲午夜视频在线| 亚欧美在线观看| 久久综合色婷婷| 日韩av女优在线观看| 91精品国产黑色紧身裤美女| 黄色影院在线播放| 97久久精品视频| 97视频一区| 看全色黄大色大片| 精品在线观看免费| 日本xxxxxxxxx18| 欧美丝袜第一区| 免费成人在线看| 久久999免费视频| 香蕉久久一区| 一区二区视频在线观看| 日本伊人色综合网| 亚洲a v网站| 一本一道综合狠狠老| 亚洲欧美自偷自拍| 久久久久久这里只有精品| 日韩精品一区二区三区中文在线| 青春草在线视频免费观看| 蜜臀va亚洲va欧美va天堂| 91激情视频在线观看| 日韩欧美亚洲成人| 全色精品综合影院| 国产+人+亚洲| 精品久久97| 亚洲国产一二三精品无码| 久久国产人妖系列| 亚洲av成人无码久久精品 | 欧美日韩成人精品| av在线成人| 99视频精品全部免费看| 理论电影国产精品| 亚洲午夜久久久久久久久| 亚洲国产aⅴ成人精品无吗| av中文字幕播放| 欧美日韩成人在线视频| 看片一区二区| 波多野结衣三级在线| 免费看黄色91| 国产吞精囗交久久久| 色婷婷久久久亚洲一区二区三区| 色婷婷在线视频| 欧美影院在线播放| 欧美性生活一级片| 99久久激情视频| 久久精品夜色噜噜亚洲aⅴ| 九九久久免费视频| 欧美精品免费视频| 国产精品二线| 国产精品美女www爽爽爽视频| 希岛爱理av一区二区三区| 性欧美videossex精品| 亚洲欧美在线视频| 精品国产av一区二区三区| 久久久久免费精品国产| 欧美国产中文高清| 日韩免费在线观看av| 93久久精品日日躁夜夜躁欧美| 五月天激情国产综合婷婷婷| 在线日韩欧美视频| 99热这里有精品| 日本中文字幕亚洲| 99国产精品视频免费观看| 337p粉嫩色噜噜噜大肥臀| 国产一区二区动漫| 久久精品黄色| 精品无码国产一区二区三区av| 全球最大av网站久久| 91在线高清视频| 亚洲高清资源| 五级黄高潮片90分钟视频| 欧美无人高清视频在线观看| 五月香视频在线观看| 99三级在线| 国产日韩一区二区三区在线| 精品人体无码一区二区三区| 欧美一区二区三区四区久久 | 亚洲精品在线91| 韩漫成人漫画| 中文字幕第一页亚洲| 国产做a爰片久久毛片| avtt天堂在线| 日韩精品视频免费专区在线播放| 精精国产xxxx视频在线播放| 欧美亚州在线观看| 老妇喷水一区二区三区|