精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ICML 2024|Transformer究竟如何推理?基于樣例還是基于規則

發布于 2024-7-1 09:08
瀏覽
0收藏

文章第一作者為來自北京大學物理學院、即將加入人工智能研究院讀博的胡逸。胡逸的導師為北京大學人工智能研究院助理教授、北京通用人工智能研究院研究員張牧涵,主要研究方向為圖機器學習和大模型的推理和微調。


ICML 2024|Transformer究竟如何推理?基于樣例還是基于規則-AI.x社區


  • 論文地址:https://arxiv.org/abs/2402.17709
  • 項目主頁:https://github.com/GraphPKU/Case_or_Rule
  • 論文標題:Case-Based or Rule-Based: How Do Transformers Do the Math??


Case-based or rule-based?


盡管如 ChatGPT 這樣的大語言模型(Large Language Models, LLMs)已經在各種復雜任務中展現出令人驚艷的性能,它們在處理一些對人類來說十分簡單的數學推理問題時仍會面臨困難,例如長整數加法。


人類可以輕松地學習加法的基本規則,例如豎式加法,并將其應用于任意長度的新的加法問題,但 LLMs 卻難以做到這一點。相反,它們可能會依賴于訓練語料庫中見過的相似樣例來幫助解決問題。來自北京大學張牧涵團隊的 ICML 2024 論文深刻研究了這一現象。研究者們將這兩種不同的推理機制定義為 “基于規則的推理”(rule-based reasoning)和 “基于樣例的推理”(case-based reasoning)。圖 1 展現了兩種推理機制在遇到同一個加法問題時,采用的不同模式。


ICML 2024|Transformer究竟如何推理?基于樣例還是基于規則-AI.x社區

圖 1:case-based reasoning 與 rule-based reasoning 示意圖


由于 rule-based reasoning 對于獲得系統性的泛化能力 (systematic generalization) 至關重要,作者在文章中探討了 transformers 在數學問題(例如 "")中到底是使用何種推理機制。為了測試模型是否依賴特定樣例來解決問題,作者使用了 Leave-Square-Out 方法。主要思想是首先需要定位模型可能依賴的訓練集中的樣例,然后將它們從訓練集中移除,以觀察它們是否影響模型的測試性能。對于數學推理,作者的假設是,在解決某個測試樣本時,transformers 傾向于依賴與測試樣本 “接近” 的訓練樣本來進行推理。因此,作者在樣本的二維空間中挖掉了一塊正方形作為測試集(test square)。根據假設,若模型在做 case-based reasoning,且模型依賴的是與 test sample 距離較近的 training sample 來做推理,那么模型將無法答對正方形中心附近的 test samples,因為模型在訓練集中沒有見過接近的樣例。


ICML 2024|Transformer究竟如何推理?基于樣例還是基于規則-AI.x社區

圖 2:GPT-2 在加法、模加法、九進制加法、線性回歸上利用 Leave-Square-Out 方法進行 fine-tune 后在全數據集上的正確率。其中,紅框中的方形區域為測試集,其他部分為訓練集合。


通過在五個數學任務(包括加法、模加法、九進制加法、線性回歸以及雞兔同籠問題)的干預實驗,transformers 無一例外都表現出了 case-based reasoning 的行為。作者利用 Leave-Square-Out 方法對 GPT-2 進行了 fine-tune,具體的模型表現展示于圖 2。可見,測試集內,模型的性能由邊界到中心迅速下降,出現了 holes。這說明當我們把 holes 周圍的 similar cases 移出訓練集時,模型便無法做對 holes 中的 test samples 做出準確推理。也即展現出模型依賴 similar cases 進行推理的行為。為了確保結論的公平性,作者同時利用 random split 方法對數據集進行了訓練集 / 測試集的劃分,并觀察到 random split 下模型可輕易在測試集上達到接近 100% 的準確率,說明 Leave-Square-Out 實驗中的訓練樣例數是足夠模型完成推理的,且再次側面印證了 transformers 在做基于樣例的推理(因為 random split 下所有 test samples 都有接近的 training samples)。


Scratchpad 是否會改變模型推理行為?


ICML 2024|Transformer究竟如何推理?基于樣例還是基于規則-AI.x社區

圖 3:利用 scratchpad 對 GPT-2 在加法任務上進行 fine-tune 后的模型在 test square 中的準確率。


此外,作者探討了是否可以通過加入 scratchpad,即引導模型在輸出中一位一位地做加法來消除 case-based reasoning 的行為,使模型轉向 rule-based reasoning(scratchpad 的具體方法可見圖 4)。圖 3 展示了利用 scratchpad 對 GPT-2 在加法任務上進行 fine-tune 后的模型在 test square 中的準確率。


一方面,可發現 test square 中仍然有一部分模型無法做對的區域,表現出模型仍然在做 case-based reasoning;另一方面,與不加入 scratchpad 時模型在 test square 中出現整塊連續的 hole 的現象相比,模型在使用 scratchpad 時對于訓練樣例的依賴情況顯然發生了變化。


具體而言,test square 中無法做對的區域呈現為三角形,其斜邊沿著個位和十位的 “進位邊界”。例如,圖 3 中自左向右第 2 張圖(test square 邊長)有兩個三角形區域,模型的準確率幾乎為零。小三角形表示,模型無法解決如47+48的問題,因為訓練集中沒有包含十位上進位的步驟(所有四十幾 + 四十幾的樣例都在測試集中)。而對于不涉及十位進位的測試樣本,如42+43 ,模型則能夠成功,因為它可以從大量其他訓練數據中學習到 4+4這個中間步驟(例如)。對于大三角形中的數據而言,模型無法解決例如57+58這樣的問題,因為訓練集中沒有包含十位上需要進位到百位的案例。


這些黑色區域的形狀和位置表明,只有當測試案例的每一步在訓練集中都出現過時,模型才能夠成功;否則就會失敗。更重要的是,這一現象表明,即使有 step-by-step 的推理過程的幫助,transformers 也難以學會 rule-based reasoning —— 模型仍然在機械地記憶見過的單個步驟,而沒有學會背后的規則


其他影響因素


Scratchpad 以外,作者也在文章中對 test square 的位置、大小,模型的大小(包括 GPT-2-Medium,與更大的模型:Llama-2-7B 和 GPT-3.5-Turbo),數據集的大小等因素進行了豐富的測試。模型在做 case-based reasoning 的結論是統一的。具體的實驗細節可見文章。


Rule-Following Fine-Tuning (RFFT)


通過上述的干預實驗,作者發現 transformers 在數學推理中傾向于使用 case-based reasoning,然而,case-based reasoning 會極大地限制模型的泛化能力,因為這意味著模型如果要做對新的 test sample ,就需要在訓練集中見過相似的樣本。而在訓練集中覆蓋到所有未知推理問題的相似樣本是幾乎不可能的(尤其對于存在長度泛化的問題)。


ICML 2024|Transformer究竟如何推理?基于樣例還是基于規則-AI.x社區

圖 4:direct answer,scratchpad 與 rule-following 三種方法的 input-output sequence


為了緩解此類問題,作者提出了名為 Rule-Following Fine-Tuning(RFFT)的規則遵循微調技術,旨在教 transformers 進行 rule-based reasoning。具體來說,如圖 4 所示,RFFT 在輸入中提供顯式的規則,然后指導 transformers 逐行地回憶規則并執行。


實驗中,作者在 1-5 位數的加法上使用圖 4 所示的三種方法對 Llama-2-7B 和 GPT-3.5-turbo 進行了 fine-tune,并分別在 6-9 與 6-15 位數的 OOD 的加法任務上進行了測試。


ICML 2024|Transformer究竟如何推理?基于樣例還是基于規則-AI.x社區

圖 5:Llama-2-7b 和 GPT-3.5-turbo


由圖 5 可見,RFFT 在長度泛化的性能上明顯超過了 direct answer 和 scratchpad 這兩種微調方法。使用 Llama-2-7B 進行 RFFT 時,模型在 9 位數的加法中也能保持 91.1% 的準確率。相比之下,使用 scratchpad 進行 fine-tune 的模型在此任務中的準確率不到 40%。對于擁有更強的基礎能力的 GPT-3.5-turbo,RFFT 使其能夠驚人地泛化到涉及多達 12 位數字的加法,盡管只在 1-5 位加法上訓練了 100 個訓練樣本,但其在 12 位數的加法上仍然保持了 95% 以上的準確率。這也顯著超過了 scratchpad 和 direct answer 的結果。這些結果突出顯示了 RFFT 在引導 transformers 進行 rule-based reasoning 方面的有效性,并展現了其在增強模型長度泛化能力方面的潛力。


值得注意的是,作者發現 Llama-2-7B 需要 150,000 個訓練樣本才能泛化到 9 位數字,而 GPT-3.5 僅用 100 個訓練樣本就能掌握規則并泛化到 12 位數字。因此,規則遵循(rule-following)可能是一種 meta learning ability—— 它可能通過在多樣化的 rule-following 數據上進行訓練而得到加強,并可更容易地遷移到新的未在訓練集中見過的領域中。相應地,基礎模型越強大,理解并學習新的規則就越容易。這也與人類學習新規則的能力相符 —— 經驗豐富的學習者通常學習得更快。


總結


本文探究了 transformers 在做數學推理問題時究竟是采用 case-based reasoning 還是 rule-based reasoning,并提出了 Rule-Following Fine-Tuning 的規則遵循微調方法來顯式地教會 transformers 進行 rule-based reasoning。RFFT 展現了強大的長度泛化能力,并有潛力全面提升 LLMs 的推理能力。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/aVRiGW3xU_LpvxZzjDpwzQ??

收藏
回復
舉報
回復
相關推薦
97精品视频在线观看自产线路二| 欧美午夜在线| 欧美日韩久久一区二区| 在线无限看免费粉色视频| 精品区在线观看| 久久这里只有| 欧美日本亚洲视频| 亚洲欧美视频在线播放| 婷婷精品久久久久久久久久不卡| 亚洲国产综合在线| 亚洲自拍三区| 手机福利小视频在线播放| 久久精品久久精品| 97热在线精品视频在线观看| 亚洲熟女少妇一区二区| 美女一区二区在线观看| 欧美日韩在线综合| 波多野结衣综合网| av毛片在线| 国产午夜久久久久| 大波视频国产精品久久| 91亚洲国产成人精品一区| 日韩视频一区| 久久综合伊人77777蜜臀| av男人的天堂av| 精品久久ai电影| 91精品国产高清一区二区三区蜜臀| 国产一区二区网| av网站网址在线观看| 国产日韩欧美电影| 久久99精品久久久久久秒播放器| 国产孕妇孕交大片孕| 久久综合狠狠| 欧美怡春院一区二区三区| a级片在线观看免费| 久久一区二区三区电影| 亚洲天堂男人天堂| 玖玖爱在线精品视频| 欧美日本三级| 91精品国产综合久久精品| 五月婷婷狠狠操| 中日韩脚交footjobhd| 亚洲香肠在线观看| 2022中文字幕| av在线免费观看网址| 国产精品毛片无遮挡高清| 欧美重口乱码一区二区| 日本又骚又刺激的视频在线观看| 国产成人在线网站| 亚洲最大福利视频网| 91国产精品一区| 美女视频第一区二区三区免费观看网站 | 成人在线激情网| 天堂在线中文网官网| 精品久久久久久久久久ntr影视| 色欲色香天天天综合网www| 污污网站在线观看| 亚洲成人免费在线| 国产视频九色蝌蚪| 在线最新版中文在线| 欧美日韩在线视频一区| 欧美v在线观看| 成人av观看| 欧美综合久久久| 午夜精品免费看| 国产精品亚洲欧美日韩一区在线| 制服丝袜中文字幕亚洲| 日本黄色www| 国产精品久久久久av蜜臀| 亚洲精品一区二区三区精华液| 人妻av一区二区| 伊甸园亚洲一区| 在线观看国产精品日韩av| 亚洲女人久久久| 女人天堂亚洲aⅴ在线观看| 久久久在线观看| 亚洲AV无码成人精品区东京热| 老司机亚洲精品| 91精品国产综合久久男男| 精品久久久久成人码免费动漫| 成人久久视频在线观看| 欧美激情论坛| 日本成人在线播放| 亚洲最新视频在线播放| 亚洲国产精品久久久久婷蜜芽| 亚洲www.| 精品欧美一区二区久久| wwwwxxxx国产| 97欧美在线视频| 97国产一区二区精品久久呦| 国产精品xxxxxx| 国产成人免费视频一区| 精品视频高清无人区区二区三区| 成人在线免费电影| 尤物av一区二区| 成熟老妇女视频| 欧美日韩破处视频| 亚洲精品国产品国语在线| 波多野结衣av在线观看| 欧美久色视频| 国产精品成人国产乱一区 | 国产一级淫片免费| 日本一区中文字幕| 国产尤物99| 九七久久人人| 色伊人久久综合中文字幕| 欧美高清精品一区二区| 国产中文精品久高清在线不| 久久久久久久久亚洲| 中文字幕一区二区三区波野结 | 久久九九视频| av大片在线| 在线观看一区二区视频| 亚洲精品无码一区二区| 91视频久久| 国产精品成熟老女人| 蜜臀av免费在线观看| 亚洲同性gay激情无套| 玩弄japan白嫩少妇hd| 亚洲一区二区免费在线观看| 中文字幕亚洲一区二区三区| 日韩美女黄色片| 国产精品69久久久久水密桃| 亚洲精品无人区| 自拍网站在线观看| 亚洲国产一区二区三区在线观看 | 每日更新在线观看av| 亚洲午夜久久久久| 男人操女人下面视频| 91久久夜色精品国产按摩| 国产精品成人av性教育| 欧美日本韩国一区二区| 亚洲一区二区三区中文字幕在线| 热久久久久久久久| 欧美日韩一二三四| 国产91在线视频| 青青草免费在线视频| 精品久久久久久久久久久| 国产十八熟妇av成人一区| 欧美涩涩网站| 国产精品区一区二区三在线播放| 国精产品一区| 日韩一级片在线观看| 糖心vlog免费在线观看| 精品一区二区三区免费观看 | 精品人妻无码一区二区三区换脸| 中文精品视频| 久久综合一区二区三区| 国产日韩电影| 亚洲欧洲自拍偷拍| 国产乱码77777777| 日本一区二区动态图| 亚洲综合色在线观看| 日韩av专区| 国产精自产拍久久久久久| 日p在线观看| 欧美一区二区三区四区在线观看| 欧美日韩免费一区二区| 国产69精品久久久久777| 久久久久久久9| 任你弄精品视频免费观看| 26uuu亚洲伊人春色| 久久久久久久久亚洲精品| 欧美在线观看一区| 国产日产精品一区二区三区的介绍| 精品一区二区三区视频在线观看| 午夜久久久久久久久久久| 亚洲一区电影| 日韩av毛片网| 69久久夜色| 欧美一区二区久久| 亚洲国产精一区二区三区性色| 91色在线porny| 午夜免费一区二区| 一区二区电影在线观看| 韩国成人av| 99只有精品| 欧美丰满少妇xxxx| 欧美在线一卡| 91精品国产综合久久精品图片 | 在线播放免费av| 日韩精品在线私人| 一本久道久久综合无码中文| 日韩毛片精品高清免费| 免费观看一级一片| 日本人妖一区二区| 久久男人资源站| 久草精品在线| 91视频网页| 欧美第一视频| 欧美日韩成人免费| 岛国在线大片| 精品久久久久久久人人人人传媒 | 日韩视频免费直播| 最新中文字幕一区| 一区二区三区加勒比av| 五月天综合视频| 国产成人精品综合在线观看 | 国产在线精品不卡| 妺妺窝人体色www在线小说| 999精品色在线播放| 精品欧美一区二区在线观看视频 | 亚洲精品www| 国产又黄又猛又爽| 欧美三级免费观看| 欧美黄色一区二区三区| 国产精品卡一卡二卡三| 日本黄色免费观看| 国产精品456| 天天干天天爽天天射| 香蕉国产精品偷在线观看不卡| 只有这里有精品| 精品一区二区三区中文字幕老牛 | 成人久久综合| 国产精品免费视频一区二区| 99视频有精品高清视频| 国产激情999| 亚洲天堂导航| 亚洲97在线观看| av在线免费网站| 日韩在线观看免费高清完整版| 日韩av成人| 亚洲韩国青草视频| www.蜜臀av| 9191国产精品| 亚洲一区二区天堂| 欧美三级一区二区| 人妻丰满熟妇av无码区| 黄色一区二区在线| 91蜜桃视频在线观看| 一区二区不卡在线播放| 亚洲一级生活片| 中文字幕一区二区在线观看| 刘亦菲国产毛片bd| 国产精品美女一区二区三区| 欧美激情 一区| 国产午夜亚洲精品羞羞网站| 国产jk精品白丝av在线观看 | 精品无码一区二区三区蜜臀| 国产精品色婷婷| 亚洲图片第一页| 国产精品麻豆久久久| 免费看黄色av| 中文字幕乱码亚洲精品一区| 黄色免费一级视频| 国产精品久久久久久久裸模| 日韩一区二区三区四区视频| 国产精品剧情在线亚洲| 色老板免费视频| 亚洲精品亚洲人成人网在线播放| 啪啪一区二区三区| 亚洲欧美另类久久久精品2019| 婷婷在线精品视频| 亚洲国产成人av网| 国产视频91在线| 一本色道久久综合亚洲aⅴ蜜桃 | 三级影片在线看| 亚洲国产一区二区在线播放| 国产乡下妇女做爰视频| 午夜激情一区二区| 亚洲高清视频免费观看| 欧美精品vⅰdeose4hd| 国产露脸国语对白在线| 日韩免费一区二区三区在线播放| 可以免费观看的毛片| 日韩av一区二区在线观看| 国产鲁鲁视频在线观看免费| 色吧影院999| 日本小视频在线免费观看| 69久久夜色精品国产69| **在线精品| 国产日韩欧美在线观看| 操欧美女人视频| 奇米影视首页 狠狠色丁香婷婷久久综合| 欧洲激情综合| wwwwww欧美| 久久精品亚洲| 久久精品亚洲天堂| 91丨porny丨蝌蚪视频| 18精品爽国产三级网站| 亚洲国产一区视频| 日本成人一级片| 欧美变态tickle挠乳网站| 婷婷国产在线| 久久亚洲精品中文字幕冲田杏梨| 川上优av中文字幕一区二区| 国产精品亚洲自拍| 91蝌蚪精品视频| 亚洲三级一区| 在线亚洲免费| 在线观看视频你懂得| 国产午夜精品久久久久久久 | 国内自拍一区| 五月婷婷狠狠操| 成人久久18免费网站麻豆| 国产熟女一区二区| 亚洲高清在线视频| 91精东传媒理伦片在线观看| 亚洲大胆人体视频| 欧美尤物美女在线| 国产成人avxxxxx在线看 | 91精品国产福利| 欧美精品少妇| 久久久在线免费观看| 图片一区二区| 日本一区二区不卡高清更新| 欧美日韩一卡| 又色又爽又黄视频| 国产免费成人在线视频| 国产成人精品一区二三区| 欧美老肥妇做.爰bbww| 国产无套粉嫩白浆在线2022年| 欧美高清在线观看| 日韩亚洲国产免费| 日本在线一区| 国产精品色网| 女女调教被c哭捆绑喷水百合| 国产精品高潮呻吟| www.色国产| 精品亚洲一区二区三区在线播放 | 日本最新在线视频| 国产成人一区二区| 伊甸园亚洲一区| 成人av一级片| eeuss鲁片一区二区三区在线观看| 五月天av网站| 欧美精品在线观看播放| aaa在线观看| 国产精品扒开腿爽爽爽视频| 九九久久婷婷| 波多野结衣家庭教师视频| 成人视屏免费看| 国产在线视频第一页| 日韩欧美一区在线| 亚洲精品白浆| 国产精品国产亚洲精品看不卡15| 欧美 日韩 国产 一区| 日本人dh亚洲人ⅹxx| 一区二区三区波多野结衣在线观看| 国产精品国产精品国产专区| 色妞欧美日韩在线| 国产成人免费视频网站视频社区 | 波多野结衣不卡视频| 欧美一区二区三区四区久久| 国产一区久久精品| 99国产在线视频| 狠狠爱www人成狠狠爱综合网| 四虎国产精品免费| 亚洲国产一区二区a毛片| 欧美 日韩 综合| 91精品国产九九九久久久亚洲| 久久男人av| 日本va中文字幕| 国产精品白丝在线| 国产三级小视频| 欧美黄色免费网站| 国产精品毛片视频| 国产淫片av片久久久久久| 国产色一区二区| 91久久久久久久久久久久| 伦理中文字幕亚洲| 久久精品论坛| 88av.com| 亚洲精品欧美激情| 欧美视频一二区| 国产精品99久久久久久久久久久久 | 成人国产一区二区三区精品麻豆| 中文字幕乱码一区二区三区| 国产传媒日韩欧美成人| 国产精品午夜影院| 一区二区欧美激情| 日韩欧洲国产| 久久精品午夜福利| 亚洲天堂成人网| 亚洲欧洲视频在线观看| 国产精品青草久久久久福利99| 亚洲xxx拳头交| 欧美高清性xxxx| 69堂国产成人免费视频| 松下纱荣子在线观看| 视频一区二区三区免费观看| 国产精品一区不卡| 国产午夜精品久久久久| 久久夜精品香蕉| 私拍精品福利视频在线一区| 8x8x成人免费视频| 欧美日韩精品在线播放| 免费超碰在线| 久久国产精品久久| 国产乱码精品一区二区三区五月婷| 日韩欧美三级在线观看| 色妞色视频一区二区三区四区| 牛牛影视一区二区三区免费看| 无码人妻精品一区二区三区66| 一区二区三区日韩精品视频| 国产一区二区三区不卡在线| 国产伦精品一区二区三毛| 麻豆精品国产91久久久久久| 天海翼一区二区| 欧美日韩高清区|