精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ICML 2024|Transformer究竟如何推理?基于樣例還是基于規則

人工智能 新聞
盡管如 ChatGPT 這樣的大語言模型(Large Language Models, LLMs)已經在各種復雜任務中展現出令人驚艷的性能,它們在處理一些對人類來說十分簡單的數學推理問題時仍會面臨困難,例如長整數加法。

本文經計算機視覺研究院公眾號授權轉載,轉載請聯系出處。

圖片


  • 論文地址:https://arxiv.org/abs/2402.17709
  • 項目主頁:https://github.com/GraphPKU/Case_or_Rule
  • 論文標題:Case-Based or Rule-Based: How Do Transformers Do the Math? 

Case-based or rule-based?

人類可以輕松地學習加法的基本規則,例如豎式加法,并將其應用于任意長度的新的加法問題,但 LLMs 卻難以做到這一點。相反,它們可能會依賴于訓練語料庫中見過的相似樣例來幫助解決問題。來自北京大學張牧涵團隊的 ICML 2024 論文深刻研究了這一現象。研究者們將這兩種不同的推理機制定義為 “基于規則的推理”(rule-based reasoning)和 “基于樣例的推理”(case-based reasoning)。圖 1 展現了兩種推理機制在遇到同一個加法問題時,采用的不同模式。

圖片

圖 1:case-based reasoning 與 rule-based reasoning 示意圖

由于 rule-based reasoning 對于獲得系統性的泛化能力 (systematic generalization) 至關重要,作者在文章中探討了 transformers 在數學問題(例如 "")中到底是使用何種推理機制。為了測試模型是否依賴特定樣例來解決問題,作者使用了 Leave-Square-Out 方法。主要思想是首先需要定位模型可能依賴的訓練集中的樣例,然后將它們從訓練集中移除,以觀察它們是否影響模型的測試性能。對于數學推理,作者的假設是,在解決某個測試樣本時,transformers 傾向于依賴與測試樣本 “接近” 的訓練樣本來進行推理。因此,作者在樣本的二維空間中挖掉了一塊正方形作為測試集(test square)。根據假設,若模型在做 case-based reasoning,且模型依賴的是與 test sample 距離較近的 training sample 來做推理,那么模型將無法答對正方形中心附近的 test samples,因為模型在訓練集中沒有見過接近的樣例。

圖片

圖 2:GPT-2 在加法、模加法、九進制加法、線性回歸上利用 Leave-Square-Out 方法進行 fine-tune 后在全數據集上的正確率。其中,紅框中的方形區域為測試集,其他部分為訓練集合。

通過在五個數學任務(包括加法、模加法、九進制加法、線性回歸以及雞兔同籠問題)的干預實驗,transformers 無一例外都表現出了 case-based reasoning 的行為。作者利用 Leave-Square-Out 方法對 GPT-2 進行了 fine-tune,具體的模型表現展示于圖 2。可見,測試集內,模型的性能由邊界到中心迅速下降,出現了 holes。這說明當我們把 holes 周圍的 similar cases 移出訓練集時,模型便無法做對 holes 中的 test samples 做出準確推理。也即展現出模型依賴 similar cases 進行推理的行為。為了確保結論的公平性,作者同時利用 random split 方法對數據集進行了訓練集 / 測試集的劃分,并觀察到 random split 下模型可輕易在測試集上達到接近 100% 的準確率,說明 Leave-Square-Out 實驗中的訓練樣例數是足夠模型完成推理的,且再次側面印證了 transformers 在做基于樣例的推理(因為 random split 下所有 test samples 都有接近的 training samples)。

Scratchpad 是否會改變模型推理行為?

圖片

圖 3:利用 scratchpad 對 GPT-2 在加法任務上進行 fine-tune 后的模型在 test square 中的準確率。

此外,作者探討了是否可以通過加入 scratchpad,即引導模型在輸出中一位一位地做加法來消除 case-based reasoning 的行為,使模型轉向 rule-based reasoning(scratchpad 的具體方法可見圖 4)。圖 3 展示了利用 scratchpad 對 GPT-2 在加法任務上進行 fine-tune 后的模型在 test square 中的準確率。

一方面,可發現 test square 中仍然有一部分模型無法做對的區域,表現出模型仍然在做 case-based reasoning;另一方面,與不加入 scratchpad 時模型在 test square 中出現整塊連續的 hole 的現象相比,模型在使用 scratchpad 時對于訓練樣例的依賴情況顯然發生了變化。

具體而言,test square 中無法做對的區域呈現為三角形,其斜邊沿著個位和十位的 “進位邊界”。例如,圖 3 中自左向右第 2 張圖(test square 邊長)有兩個三角形區域,模型的準確率幾乎為零。小三角形表示,模型無法解決如47+48的問題,因為訓練集中沒有包含十位上進位的步驟(所有四十幾 + 四十幾的樣例都在測試集中)。而對于不涉及十位進位的測試樣本,如42+43 ,模型則能夠成功,因為它可以從大量其他訓練數據中學習到 4+4這個中間步驟(例如)。對于大三角形中的數據而言,模型無法解決例如57+58這樣的問題,因為訓練集中沒有包含十位上需要進位到百位的案例。

這些黑色區域的形狀和位置表明,只有當測試案例的每一步在訓練集中都出現過時,模型才能夠成功;否則就會失敗。更重要的是,這一現象表明,即使有 step-by-step 的推理過程的幫助,transformers 也難以學會 rule-based reasoning —— 模型仍然在機械地記憶見過的單個步驟,而沒有學會背后的規則

其他影響因素

Scratchpad 以外,作者也在文章中對 test square 的位置、大小,模型的大小(包括 GPT-2-Medium,與更大的模型:Llama-2-7B 和 GPT-3.5-Turbo),數據集的大小等因素進行了豐富的測試。模型在做 case-based reasoning 的結論是統一的。具體的實驗細節可見文章。

Rule-Following Fine-Tuning (RFFT)

通過上述的干預實驗,作者發現 transformers 在數學推理中傾向于使用 case-based reasoning,然而,case-based reasoning 會極大地限制模型的泛化能力,因為這意味著模型如果要做對新的 test sample ,就需要在訓練集中見過相似的樣本。而在訓練集中覆蓋到所有未知推理問題的相似樣本是幾乎不可能的(尤其對于存在長度泛化的問題)。

圖片

圖 4:direct answer,scratchpad 與 rule-following 三種方法的 input-output sequence

為了緩解此類問題,作者提出了名為 Rule-Following Fine-Tuning(RFFT)的規則遵循微調技術,旨在教 transformers 進行 rule-based reasoning。具體來說,如圖 4 所示,RFFT 在輸入中提供顯式的規則,然后指導 transformers 逐行地回憶規則并執行。

實驗中,作者在 1-5 位數的加法上使用圖 4 所示的三種方法對 Llama-2-7B 和 GPT-3.5-turbo 進行了 fine-tune,并分別在 6-9 與 6-15 位數的 OOD 的加法任務上進行了測試。

圖片

圖 5:Llama-2-7b 和 GPT-3.5-turbo

由圖 5 可見,RFFT 在長度泛化的性能上明顯超過了 direct answer 和 scratchpad 這兩種微調方法。使用 Llama-2-7B 進行 RFFT 時,模型在 9 位數的加法中也能保持 91.1% 的準確率。相比之下,使用 scratchpad 進行 fine-tune 的模型在此任務中的準確率不到 40%。對于擁有更強的基礎能力的 GPT-3.5-turbo,RFFT 使其能夠驚人地泛化到涉及多達 12 位數字的加法,盡管只在 1-5 位加法上訓練了 100 個訓練樣本,但其在 12 位數的加法上仍然保持了 95% 以上的準確率。這也顯著超過了 scratchpad 和 direct answer 的結果。這些結果突出顯示了 RFFT 在引導 transformers 進行 rule-based reasoning 方面的有效性,并展現了其在增強模型長度泛化能力方面的潛力。

值得注意的是,作者發現 Llama-2-7B 需要 150,000 個訓練樣本才能泛化到 9 位數字,而 GPT-3.5 僅用 100 個訓練樣本就能掌握規則并泛化到 12 位數字。因此,規則遵循(rule-following)可能是一種 meta learning ability—— 它可能通過在多樣化的 rule-following 數據上進行訓練而得到加強,并可更容易地遷移到新的未在訓練集中見過的領域中。相應地,基礎模型越強大,理解并學習新的規則就越容易。這也與人類學習新規則的能力相符 —— 經驗豐富的學習者通常學習得更快。

總結

本文探究了 transformers 在做數學推理問題時究竟是采用 case-based reasoning 還是 rule-based reasoning,并提出了 Rule-Following Fine-Tuning 的規則遵循微調方法來顯式地教會 transformers 進行 rule-based reasoning。RFFT 展現了強大的長度泛化能力,并有潛力全面提升 LLMs 的推理能力。

責任編輯:張燕妮 來源: 計算機視覺研究院
相關推薦

2024-07-30 11:40:00

數據庫NoSQLSQL

2024-09-12 15:28:38

localhost?網絡IPv4

2020-10-18 07:25:55

MQ消息冪等架構

2022-11-26 00:00:07

內存數組程序

2025-01-17 10:49:01

2024-09-03 14:16:54

2016-01-28 09:51:55

2018-02-01 09:32:16

傳統運維SRE

2015-07-09 10:44:53

微服務分布式DevOps

2011-05-07 15:13:24

兼容墨盒評測

2012-10-22 13:18:05

KVM

2021-12-01 10:05:12

模型人工智能計算

2010-06-30 09:09:15

預覽版SQL Serv

2011-08-04 10:33:39

筆記本用戶體驗

2025-06-18 13:07:01

2020-12-21 09:57:33

無鎖緩存并發緩存

2022-10-21 16:07:10

編碼器自然語言模型

2019-11-11 09:30:46

區塊鏈比特幣物聯網

2017-10-16 15:41:13

SDN路由器NFV

2024-11-21 16:06:02

點贊
收藏

51CTO技術棧公眾號

久久国产日本精品| 久九九久频精品短视频| 国产一区不卡精品| 欧美裸体xxxx极品少妇| 三级黄色片播放| 在线看女人毛片| 国产精品系列在线观看| 久久久久中文字幕| 精品无码人妻一区| 99久久婷婷国产综合精品首页| fc2成人免费人成在线观看播放| 午夜精品久久久久久久99热| 人妻少妇无码精品视频区| 中国字幕a在线看韩国电影| 国产日韩欧美综合一区| 91精品久久久久久久久久久久久| 日本老熟俱乐部h0930| 国产精品三p一区二区| 亚洲精品中文字幕在线| 日本亚洲欧美在线| 国产毛片一区二区三区| 欧美精品v日韩精品v韩国精品v| 永久免费看av| 色视频在线观看免费| 日本vs亚洲vs韩国一区三区二区 | 一本色道69色精品综合久久| 精品欧美一区二区三区| 在线观看免费91| 欧美一级淫片免费视频魅影视频| 日韩中文字幕麻豆| 欧美激情精品久久久久久变态 | 伊人久久亚洲综合| 亚洲成人在线| 色先锋资源久久综合5566| 五月六月丁香婷婷| 亚洲天堂一区二区| 亚洲午夜影视影院在线观看| 日韩一区不卡| 天天操天天干天天干| 国产在线精品一区在线观看麻豆| 2018中文字幕一区二区三区| 大地资源高清在线视频观看| 亚洲8888| 亚洲电影av在线| 涩涩网站在线看| 成人免费无遮挡| 亚洲国产另类精品专区| 老汉色影院首页| 国产三级电影在线观看| 成人黄色综合网站| 999在线观看免费大全电视剧| 国产免费a视频| 99精品国产福利在线观看免费| 久久成人精品视频| 女人黄色一级片| 久久99国内| 亚洲精品美女网站| 精品1卡二卡三卡四卡老狼| 9.1麻豆精品| 欧美日韩不卡一区二区| 国产精品视频黄色| 欧美性理论片在线观看片免费| 亚洲国产日韩综合久久精品| 日韩一级特黄毛片| 九色porny在线| 国产精品久久久久久妇女6080| 热re99久久精品国99热蜜月| 日本福利片在线| 97久久超碰国产精品电影| 成人在线看片| 亚洲精品国产suv一区| 国产一区二区三区久久久| 国产精品一区二区久久久久| 精品国产青草久久久久96| 久久久噜噜噜久久狠狠50岁| 欧美亚洲日本黄色| 无码人妻av免费一区二区三区 | 黑鬼大战白妞高潮喷白浆| 国产v日韩v欧美v| 天天综合网 天天综合色| www.99热这里只有精品| 小视频免费在线观看| 欧美日韩免费网站| 免费在线观看毛片网站| 中文字幕日本一区二区| 欧美性受xxxx| 爱豆国产剧免费观看大全剧苏畅| 热久久久久久| 欧美一级理论片| 国产日韩视频一区| 色婷婷av一区二区三区丝袜美腿| 国产视频久久久| 少妇太紧太爽又黄又硬又爽小说| 久久人人88| 欧美久久久精品| 亚洲综合一二三| 狂野欧美性猛交xxxx巴西| 国产精品一区二区久久久久| 99热这里只有精| zzijzzij亚洲日本少妇熟睡| 久久偷看各类wc女厕嘘嘘偷窃 | 久久蜜臀精品av| 视频在线99| 羞羞视频在线观看不卡| 婷婷丁香激情综合| 天天爽天天爽夜夜爽| 国产激情精品一区二区三区| 337p日本欧洲亚洲大胆精品| 国产一二三四五区| 一区二区免费不卡在线| 91精品国产91| 国产露脸无套对白在线播放| 成人午夜免费av| 热re99久久精品国产99热| а√资源新版在线天堂| 欧美日韩国产一中文字不卡| 日本高清久久久| 国产在线播放精品| 色婷婷久久一区二区| 国产性70yerg老太| 全国精品久久少妇| 国产亚洲精品美女久久久m| 电影在线高清| 午夜天堂影视香蕉久久| 亚洲精品手机在线观看| 免费日韩一区二区三区| 欧美粗大gay| 在线观看av不卡| 激情av中文字幕| 色综合久久网| 欧美与黑人午夜性猛交久久久| 国产又大又粗又长| 久久精品一区二区三区不卡牛牛| www.黄色网址.com| 嫩草伊人久久精品少妇av杨幂| 日韩欧美精品在线视频| 免费看的黄色录像| 免费一区视频| 粉嫩高清一区二区三区精品视频 | 成年人免费看毛片| 国产精品自在欧美一区| 欧美精品二区三区四区免费看视频| 金瓶狂野欧美性猛交xxxx| 欧美日韩黄色一区二区| 亚洲免费av片| 成人免费看片载| 日韩啪啪电影网| 国产成人精品免高潮费视频| 深爱五月激情五月| 亚洲一区二区在线播放相泽| 日本中文字幕二区| 清纯唯美综合亚洲| 国产99视频精品免视看7| 五月婷在线视频| 亚洲国产精品影院| 国产999免费视频| 91青青国产在线观看精品| 国产精品久久久久久久久免费| 亚洲av成人无码久久精品老人| 一区二区三区日韩精品| 女同激情久久av久久| 欧美少妇性xxxx| 国产精品成人一区二区| 九一在线视频| 91久久久免费一区二区| 黄色一级片一级片| 久久99久久久欧美国产| 日韩欧美视频第二区| 成人免费一区| 日韩一级裸体免费视频| 亚洲一级视频在线观看| 中文字幕一区二区三区四区| 欧美午夜精品理论片| 2023国产精品久久久精品双| 亚洲xxxxx电影| 男女视频在线| 欧美精品一区视频| 你懂的国产视频| 久久久久久久综合| 成人午夜激情av| 国产精品99一区二区三| 91精品在线观看视频| 免费日韩中文字幕| 国产乱人伦丫前精品视频| 欧美放荡办公室videos4k| 丰满岳乱妇国产精品一区| 天天影视涩香欲综合网| 欧美高清性xxxx| 日本怡春院一区二区| 亚洲一区高清| 日韩免费成人| 97香蕉久久夜色精品国产| 日本私人网站在线观看| 欧洲国内综合视频| 乱h高h女3p含苞待放| 成人精品在线视频观看| 男人操女人免费软件| 区一区二视频| 风间由美一区二区三区| 欧美激情网站| 中文字幕在线观看日韩| www.蜜臀av| 狠狠色香婷婷久久亚洲精品| 妺妺窝人体色WWW精品| 狠狠色丁香久久婷婷综合丁香| 日韩极品视频在线观看| 欧州一区二区| 丁香婷婷久久久综合精品国产| 亚洲日本天堂| 久久久国产视频91| 日韩av资源| 日韩亚洲国产中文字幕欧美| 久久亚洲精品国产| 亚洲日本在线视频观看| 一级做a爰片毛片| 蜜臀av性久久久久蜜臀aⅴ | 亚洲高清影视| 日本在线成人一区二区| 免费看一区二区三区| 国产精品海角社区在线观看| 污视频网站在线免费| 亚洲一区二区久久| 好吊视频一区二区三区| 欧美日韩美女一区二区| 伊人国产在线观看| 亚洲欧洲三级电影| 黄色片视频免费观看| 国产成人综合在线| 久久这里只精品| 欧美黄在线观看| 欧美一级二级三级| 911亚洲精品| 国产精品美乳在线观看| 男人最爱成人网| 午夜精品一区二区三区在线播放| 午夜激情视频在线| 一区国产精品视频| 视频在线不卡| 欧美精品一区二区三区蜜桃| 国产一区二区三区在线观看| 在线亚洲一区二区| 欧美一二三区视频| 一区二区三区高清在线| 黄色精品视频在线观看| 亚洲国产精品t66y| 午夜精品久久久久久久白皮肤| 国产高清中文字幕| 午夜精品久久久久久久久久久 | 国内老司机av在线| 久久最新资源网| jizz亚洲| 在线观看视频亚洲| 大胆av不用播放器在线播放| 国产婷婷97碰碰久久人人蜜臀 | 久久 天天综合| 青青在线视频免费观看| 亚洲电影影音先锋| 五月天久久综合网| 欧美自拍视频| 久久一区二区三区欧美亚洲| 日韩精品免费一区二区三区竹菊| 国产亚洲欧美另类一区二区三区| 国产精品99久久免费观看| 亚洲一区二区三区在线视频| 日韩一区二区三区四区五区 | 国产美女亚洲精品7777| 成人免费观看a| 亚洲免费一区| 亚洲a在线播放| 久久一级大片| 国产成人精品免费视频大全最热 | 色综合久久久网| 中文字幕av久久爽| 欧美人xxxx| 国产99视频在线| 欧美成人高清电影在线| 高潮毛片7777777毛片| 亚洲精品久久久久国产| 日本一区高清| 亚洲国产裸拍裸体视频在线观看乱了中文| 久久99影院| 欧美1区2区3区4区| 日本一区不卡| 91超碰成人| 国产精品美女在线播放| 欧美在线三区| 亚洲天堂第一区| 亚洲视频狠狠| 内射国产内射夫妻免费频道| 男人操女人的视频在线观看欧美 | caoporn视频在线| 日韩av毛片网| 久久婷婷五月综合色丁香| 99精彩视频| 亚洲宅男网av| 中文字幕日韩一区二区三区| 欧美黄色一区| 成人在线免费在线观看| 久久精品国产99国产精品| 国产又粗又猛又爽又黄| 99re热视频精品| 大胸美女被爆操| 一级日本不卡的影视| 国产在线观看99| 无码av免费一区二区三区试看| 国产精品自拍99| 欧美日韩国产一级二级| www黄色在线观看| 精品亚洲国产视频| 色综合久久久久综合一本到桃花网| 久久欧美在线电影| 色戒汤唯在线| 成人免费网视频| 天堂日韩电影| av在线观看地址| 精品系列免费在线观看| 成人免费看aa片| 成人在线免费观看| 日韩大片免费观看视频播放| 视频一区二区三区不卡| 欧洲亚洲在线视频| 91综合精品国产丝袜长腿久久| 欧美日韩系列| 亚洲激情婷婷| 亚洲综合伊人久久| 国产日韩精品视频一区| 精品视频一区二区在线观看| 欧美日韩精品电影| 国产黄色在线| 97久久国产精品| 日韩中文字幕无砖| 亚洲一区3d动漫同人无遮挡 | 日日夜夜天天综合入口| 国产精品69精品一区二区三区| 成人资源在线| 欧美少妇一区二区三区| 美女久久久精品| 在线免费观看日韩av| 精品成人在线视频| 性色av蜜臀av| 久久资源免费视频| 福利一区二区三区视频在线观看| 久久久久久久有限公司| 影音先锋在线一区| 手机在线观看日韩av| 自拍偷拍亚洲欧美日韩| 无码免费一区二区三区| 亚洲第一页在线| 色在线视频网| 国产精品一区二区三区免费观看 | 日韩欧美中文一区| 懂色av.com| 欧美 日韩 国产一区二区在线视频 | 夜夜春亚洲嫩草影视日日摸夜夜添夜 | 亚洲免费av片| 国精一区二区三区| 91亚色免费| 亚洲欧美色图| 真实乱偷全部视频| 亚洲制服丝袜一区| 亚洲av无码一区二区乱子伦| 久久成人精品电影| 亚洲精品国产九九九| 国产1区2区3区中文字幕| 国产精品一区二区在线播放| 51精品免费网站| 欧美一级理论片| 主播国产精品| 99在线热播| 99视频一区| 国产熟妇搡bbbb搡bbbb| 色天天综合久久久久综合片| 九色视频在线观看免费播放 | av黄色在线看| 亚洲成人1234| 97成人资源| 青青草国产精品| 久久精品国产成人一区二区三区| 国产午夜精品理论片在线| 日韩欧美在线综合网| bl视频在线免费观看| 精品国产综合久久| 日本午夜一本久久久综合| 男女男精品视频网站| 91精品欧美一区二区三区综合在| 99在线播放| 精品欧美一区二区在线观看视频 | 另类尿喷潮videofree| 日韩av在线第一页| 国产拍揄自揄精品视频麻豆| 影音先锋国产资源| 九色精品美女在线| 精品国产一区二区三区成人影院| 人妻熟女一二三区夜夜爱| 国产欧美精品一区| 午夜精品一二三区| 日本久久91av| 黄色小视频免费观看| 日本精品视频一区二区| 牛牛澡牛牛爽一区二区|