精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AAAI 2025 | 大模型會組合關系推理嗎?打開黑盒,窺探Transformer腦回路

人工智能 新聞
研究者開發了一個新的基準測試,稱為廣義關聯回憶(Generalized Associative Recall, GAR),專門用來評估 LLM 在組合推理任務中的表現

本文作者為北京郵電大學網絡空間安全學院碩士研究生倪睿康,指導老師為肖達副教授。主要研究方向包括自然語言處理、模型可解釋性。該工作為倪睿康在彩云科技實習期間完成。聯系郵箱:ni@bupt.edu.cn, xiaoda99@bupt.edu.cn

人類擁有一種強大的能力,能夠理解多個實體之間復雜的關系并基于這些關系進行推理,這被稱為組合關系推理(Compositional Relational Reasoning, CRR)。這種能力不僅是智能的標志,也是我們應對日常問題和復雜任務的核心技能。那么,像 GPT 這樣的大型語言模型(LLM)是否具備這種能力?它們又是如何在內部處理這種任務的?為了回答這個問題,研究者開發了一個新的基準測試,稱為廣義關聯回憶(Generalized Associative Recall, GAR),專門用來評估 LLM 在組合推理任務中的表現,并進一步研究模型如何解決這些任務。論文《Benchmarking and Understanding Compositional Relational Reasoning of LLMs》已被 AAAI 2025 接收。本工作由北京郵電大學和彩云科技合作完成。

  • 論文地址:https://arxiv.org/abs/2412.12841
  • 代碼地址:https://github.com/Caiyun-AI/GAR

GAR 基準測試

研究者注意到,目前大多數用于測試 LLM 的任務要么過于簡單,只能用于可解釋性分析,無法真實反映模型在復雜推理場景下的表現,要么過于復雜,不適合深入研究模型的內部機制。因此,他們設計了 GAR,一個更加多樣化和具有挑戰性的基準測試。GAR 整合了多個經典任務(如 knowledge recall、associate recall、Indirect Object Identification (IOI) 等),并通過不同的任務形式(如肯定 / 否定句、生成 / 分類任務)和難度等級,系統地考察模型的推理能力。

簡單來講(更多例子見下圖 1 和圖 2):

  • associate recall 就是從前文 “抄寫”:前文說了 “小明有蘋果”,后文再說 “小明有__”,就知道要填 “蘋果”;
  • knowledge recall 就是記到 “腦子” 里的各種常識知識:蘋果是一種__(水果),巴黎在__(法國)
  • IOI 就是排除(否定):【蘋果、狗、蘋果】哪個不是蘋果?__(狗)

GAR 的特點是:

1. 挑戰性足夠高:即使是最先進的 LLM,在 GAR 任務上的表現也并不理想,暴露了它們在組合推理能力上的缺陷。

2. 適合深入研究:GAR 任務相對簡單的生成過程,使得研究者能夠更好地追蹤模型內部的推理機制。

圖 1 廣義關聯回憶(Generalized Associative Recall, GAR)任務構建框架。GAR 任務的設計流程包括三個步驟:選擇關系模式(如 “same” 或 “kindOf”)、采樣數據構建關系環(結合語義與語法關系)以及生成語句并引入語義和句法變體(如否定形式或主賓交換),圖中左中右部分分別展示了關系環的構建、任務數據的生成與語句的多樣化處理,體現了 GAR 在任務靈活性和復雜度上的優勢

圖 2 GAR 任務示例。任務分為兩大類:生成式(填空題,補全最后一個詞)和判別式(判斷題,回答 Yes 或 No)

現有模型的表現

通過對主流開源(如 Llama-2/3 7B/13B/33B/70B)和閉源模型(如 GPT-3.5/4)的測試發現:

  • 任務難度顯著影響表現:當任務的推理步驟或復雜度增加時,模型的正確率會明顯下降。
  • “組合性差距(Compositionality Gap)”:模型在回答任務的各個子問題時可能表現良好,但無法正確組合這些答案以得出最終結論。例如,模型能回答對 “【小明有蘋果,小紅有狗】小明有__(蘋果)”(前文抄寫),對 “蘋果是一種__(水果)”(常識)和 “【小明、小紅】里哪個不是小紅?__(小明)”(否定排除)也毫無壓力,但把它們組合起來:“【小明有蘋果,小紅有狗】小紅沒有一種__(水果)”,模型就很容易蒙圈(在不允許 CoT 的情況下)。
  • 模型規模與性能:雖然更大的模型在一些任務上表現更好,但它們的 “組合性差距” 往往更明顯,這表明增加模型規模并不能完全解決這個問題。

圖 3 (a) 不同 LLM 在 GAR 上的表現。本圖比較了生成任務(Gen.)和分類任務(Cls.)的平均準確率和正確答案的預測概率,隨著模型規模增大,準確率和答案概率均呈正相關增長

圖 3 (b 左) GPT-4 和 Vicuna-33B 在不同難度的生成式任務上的表現,通過增加非相同語義關系和引入否定語義變體調整任務難度;(c 中) 組合性差距隨模型規模的變化, Llama 系列模型隨規模增大而表現出更大的組合性差距,反映出 LLM 在組合關系推理中的不足;(d 右) 語法變化差距隨模型規模的變化,句法變體對模型性能影響較小,表明模型對語法變化的敏感性較低

GAR 任務還有個很有趣的特點:盡管它對最先進的 LLM 都具有挑戰性,它對人類來說卻非常簡單:研究者評估,在具備必要知識(如國家 - 首都關系)的情況下,人類完成任務的準確率超過 90%。并且通過實驗表明,LLM 回答錯誤并不是因為缺少這些事實性知識。這揭示了 LLM 在組合關系推理上存在某些根本性缺陷。

模型內部的推理機制

為了更好地理解 LLM 如何解決 GAR 任務,研究者采用了歸因補丁(attribution patching)的方法。這種技術可以幫助發現模型在推理過程中依賴的關鍵計算單元,特別是某些注意力頭的作用。值得指出的是,這里無論任務難度、回路復雜度還是模型大小,都遠超已有模型可解釋性工作。研究發現:

  1. 核心回路:Vicuna-33B 模型中存在一組通用的核心回路,能夠被不同任務重復利用。
  2. 注意力頭的作用:研究者識別出兩類關鍵注意力頭(True head 和 False head),它們的激活狀態分別表示抽象的 “真” 和 “假” 的概念。進一步的實驗表明,這些頭在不同任務和模型中都扮演了重要角色,是組合推理能力的基礎。

圖 4 (a 左) True head 子回路 (b 右) False head 子回路

圖 4 (c) 判別回路

圖 4 (d) 肯定式生成回路

圖 4 (e) 否定式生成回路

研究者發現,無論哪種回路,從更高的層次看,都包含我們稱之為 “relational loop” 的由注意力邊組成的閉環。這和構造 GAR 任務時的關系環是一致的。研究者認為正是這些閉環的存在保證了可預測性

通過干預關鍵注意力頭提升 LLM 表現

注意到 True/False 頭在圖 4 的所有回路中都有出現并扮演了關鍵角色。為了驗證 Vicuna 模型中的 True/False 頭的通用性和有效性,并探討其在不同模型規模上的一致性。研究者選擇了三個具有代表性的分類任務:由 GendersOfPersons 關系模式分別與 CountriesOfCities (CoC)、KindsOfThings (KoT) 和 UsagesOfThings (UoT) 三個關系模式組合作為數據源。首先,利用 attribution patching 識別不同規模的 Vicuna 模型(Vicuna-7B/13B/33B)的 True/False 頭。隨后,在模型推理過程中對 True/False 頭進行干預:當答案為 Yes/No 時,對 True/False 頭施加干預,同時屏蔽 False/True 頭,以觀察其對模型判斷的影響。

圖 5 (a 左) 干預 Vicuna-7B 的 True / False heads 提升判別任務的準確率,干預后模型準確率分別提高了 17%/14%/6%,證明 True/False 頭在各個模型中均表現出一致的效果;(b 右) True / False heads 的激活區分真 / 假陳述,通過可視化 True 和 False 頭的激活值,發現它們有效地區分了真假語句。這表明,True/False 頭編碼了真假概念,并在 GAR 任務中起到了判斷語句真偽的關鍵作用

研究意義

這項研究首次明確指出了 LLMs 在組合關系推理任務中的核心缺陷,并通過實驗揭示了模型內部的關鍵推理機制。這不僅加深了我們對 LLMs 工作原理的理解,也為模型改進提供了啟發和洞見。例如:

  • 優化注意力機制:通過改進關鍵注意力頭的功能,可以顯著提升模型的推理能力,例如研究團隊的 DCFormer 工作 [1] 的最早期想法就是分析 LLM 在類似 GAR 任務上的表現啟發而來的。。
  • 設計更具多樣性的基準:在真實世界任務中測試和改進模型的組合推理表現。
責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-08 13:15:02

2025-01-07 00:00:00

AI訓練數據

2025-06-03 08:35:00

2025-06-05 11:49:21

AI模型數據

2024-08-20 14:01:21

2023-10-07 13:16:40

ChatGPT神經元模型

2025-09-23 09:06:00

AILLM系統

2022-07-04 09:07:23

技術架構管理

2024-06-17 13:34:54

2024-10-22 17:24:32

2024-09-23 08:20:00

模型訓練

2025-07-08 03:11:00

2023-01-05 09:33:37

視覺模型訓練

2025-04-21 08:42:00

模型開源AI

2025-04-30 16:48:07

2024-08-07 14:10:12

模型云計算大數據

2025-02-25 09:30:00

2023-06-12 09:57:22

AIChatGPT

2025-05-21 13:56:37

模型圖像AI
點贊
收藏

51CTO技術棧公眾號

亚洲欧洲精品一区| 欧美激情一区二区三级高清视频| 天天干在线影院| 久久精品视频免费看| 成人网在线播放| 日本成人激情视频| 小泽玛利亚一区二区免费| 国产伦乱精品| 在线播放视频一区| 妺妺窝人体色www在线小说| 日本高清视频在线观看| zzijzzij亚洲日本少妇熟睡| 国产精品亚洲网站| 好吊操这里只有精品| 99久久.com| 亚洲摸下面视频| 久久精品亚洲天堂| se01亚洲视频| 五月婷婷色综合| 最近中文字幕免费mv| 深夜视频在线免费| 国产精品一区三区| 国产欧美日韩免费看aⅴ视频| 免费日韩一级片| 欧美国产高潮xxxx1819| 国产一区二区三区精品久久久| 国产亚洲精品成人a| 91麻豆精品| 色噜噜狠狠成人网p站| www.日本少妇| 中文字幕中文字幕在线中高清免费版 | 日本一级片免费看| 中文字幕乱码亚洲无线精品一区| 在线观看国产精品日韩av| 久久久久久久无码| aiai久久| 精品嫩草影院久久| 天天干天天曰天天操| 粉嫩av一区二区三区四区五区| 欧美日韩亚洲国产一区| 成人午夜免费在线| 女同一区二区免费aⅴ| 亚洲人成在线观看一区二区| 亚洲精品欧美精品| 成人精品一区二区| 欧美激情中文不卡| 日本中文不卡| a天堂中文在线| 日本一区二区视频在线观看| 欧美国产一二三区| 欧美白人做受xxxx视频| 91视频免费看| 久久伦理网站| 国产视频在线看| 国产精品嫩草影院av蜜臀| 色之综合天天综合色天天棕色 | 日韩在线观看成人| 99精品中文字幕| 天天综合精品| 欧美成人精品在线视频| 美女视频黄免费| 亚洲黄色免费| 欧美做爰性生交视频| 国产又黄又猛又粗又爽| 日韩精品一级中文字幕精品视频免费观看| 88国产精品欧美一区二区三区| 精品在线播放视频| 亚洲影视在线| 国产精品香蕉av| 国产精品综合在线| 成人久久视频在线观看| 久中文字幕一区| 3p视频在线观看| 亚洲伦在线观看| 青青草成人免费在线视频| 性欧美又大又长又硬| 在线欧美日韩精品| 亚洲一二三av| 欧美男人操女人视频| 国产一区二区三区在线观看视频| 美女三级黄色片| 精品91在线| 国产成人精品久久久| 伊人免费在线观看高清版| 国产精品中文有码| 久久综合精品一区| 免费黄色网页在线观看| 亚洲一区视频在线观看视频| 人妻少妇被粗大爽9797pw| 另类一区二区| 亚洲成成品网站| 国产一二三四区在线| 欧美一区二区三区另类 | 精品中文av资源站在线观看| 999热视频| 黄色的视频在线免费观看| 成人欧美一区二区三区1314| 免费不卡av在线| 久久精品 人人爱| 亚洲成人国产精品| 亚洲人与黑人屁股眼交| 亚洲综合激情| 97久久夜色精品国产九色| 丝袜视频国产在线播放| 亚洲婷婷在线视频| 女人另类性混交zo| 婷婷综合国产| 日日骚久久av| 精品不卡一区二区| 国产iv一区二区三区| 水蜜桃亚洲一二三四在线| 欧美1234区| 制服丝袜激情欧洲亚洲| 国产成人精品无码免费看夜聊软件| 亚洲成人精品| 国产精品永久免费在线| 亚州精品国产精品乱码不99按摩| 亚洲精品国产a| 亚洲免费一级视频| 精品一区三区| 97香蕉超级碰碰久久免费软件| 国产绿帽刺激高潮对白| 日本一区二区三区dvd视频在线| 日韩亚洲欧美视频| 国产午夜精品一区在线观看| 这里只有精品久久| 区一区二在线观看| 成人高清视频在线| 一二三在线视频| 疯狂欧洲av久久成人av电影| 亚洲午夜未满十八勿入免费观看全集 | 成人午夜精品福利免费| 中文字幕一区免费在线观看| 免费国产成人av| 亚洲精品国产精品粉嫩| 亚洲97在线观看| 高潮毛片7777777毛片| 亚洲精品中文在线观看| 人人爽人人爽av| 国产精品99久久| 国产欧美日韩免费| 在线免费观看黄| 精品视频一区二区三区免费| 中文字幕第20页| 久久综合激情| 日韩一区免费观看| 国产精品一区二区免费福利视频| 国产亚洲欧洲高清| 中国黄色一级视频| 国产精品午夜电影| 亚洲欧美偷拍另类| 91精品精品| 亚洲自拍小视频| 先锋成人av| 亚洲第一中文字幕| 日韩美女黄色片| 久久在线观看免费| 欧美黄色性生活| 欧美高清视频手机在在线| 国产中文字幕亚洲| а天堂中文在线官网| 日韩精品中文字幕一区二区三区| 免费在线看黄网址| 99热精品一区二区| 国产免费人做人爱午夜视频| 精品视频99| 亚洲va电影大全| 1234区中文字幕在线观看| 日韩电影在线观看中文字幕| 中文字幕视频网站| 亚洲欧洲日韩av| 可以看的av网址| 99精品欧美| 午夜视频久久久| 韩国一区二区三区视频| 高清亚洲成在人网站天堂| 日中文字幕在线| 欧美午夜在线一二页| 九九这里只有精品视频| 福利91精品一区二区三区| 黄色一级片播放| 色999日韩| 国产在线一区二区三区欧美| 欧美电影免费观看网站| 久久精品亚洲94久久精品| 日本高清视频免费看| 欧美优质美女网站| 欧美成人免费看| 国产亚洲欧美一级| 国产成人强伦免费视频网站| 免费亚洲网站| 日本三日本三级少妇三级66| 欧美黑人巨大videos精品| 国产免费观看久久黄| heyzo高清在线| 在线中文字幕日韩| 欧美性受xxxx狂喷水| 欧美午夜寂寞影院| 国产精品自拍视频一区| 国产精品福利一区二区三区| 玖草视频在线观看| 精品一区二区三区在线观看国产| 9久久9毛片又大又硬又粗| 成人免费电影网址| 精品乱色一区二区中文字幕| 玖玖玖电影综合影院| 国产成人极品视频| 不卡av免费观看| 久久精品久久久久| 日本一级在线观看| 欧美岛国在线观看| 中文字幕在线观看第二页| 五月天激情小说综合| 日本黄色片免费观看| 国产欧美精品在线观看| 性欧美丰满熟妇xxxx性久久久| 狠狠色2019综合网| 日本久久久久久久久久久久| 国产婷婷精品| 女人色极品影院| 99精品在线免费在线观看| 日韩美女一区| 在线亚洲a色| 好吊色欧美一区二区三区视频| 精品一级视频| 成人性生交xxxxx网站| 久久亚洲国产精品尤物| 国产成人精品在线| 樱花草涩涩www在线播放| 欧美精品激情blacked18| 国产原创精品视频| 色综久久综合桃花网| 国产日本在线观看| 亚洲人成在线一二| 日韩黄色影片| 精品亚洲一区二区| 完全免费av在线播放| 97久久久精品综合88久久| 农村末发育av片一区二区 | 天天插天天射天天干| 国产ts人妖一区二区| 超级砰砰砰97免费观看最新一期 | 免费成人深夜夜行p站| 国产91色综合久久免费分享| 一区二区三区人妻| 成人一级黄色片| 亚洲一区二区三区四区av| 不卡在线观看av| 又黄又爽的网站| av在线不卡免费看| 中国av免费看| 久久综合狠狠综合| 日本一级免费视频| 国产精品三级av| 三级黄色片在线观看| 亚洲欧洲国产专区| 久久中文免费视频| 亚洲国产精品麻豆| 黄色激情视频在线观看| 精品久久久久久国产| 性色av免费观看| 欧美日韩色综合| 97人妻精品一区二区三区视频 | 国产成人精品综合| 成人影院在线免费观看| 成人欧美一区二区三区黑人孕妇| 99精品女人在线观看免费视频 | 日本成人黄色片| 电影一区电影二区| 91在线播放国产| 99热这里只有精品首页 | 99久久这里只有精品| 日本三级中文字幕在线观看| 精品成人国产| 久久久久国产精品熟女影院| 男男视频亚洲欧美| 国产成人精品一区二区三区在线观看| 成人免费毛片嘿嘿连载视频| 国产精品成人一区二区三区电影毛片 | 天堂va蜜桃一区二区三区| 国产福利在线免费| 国产成人精品aa毛片| 蜜桃精品一区二区| 国产精品传媒在线| 国产精品99精品无码视| 91成人看片片| 亚洲av无码一区二区三区性色| 亚洲精品在线视频| 国产91在线视频蝌蚪| 欧美又大又粗又长| 国产精品欧美一区二区三区不卡| 国产乱码精品一区二区三区不卡| 欧美色女视频| 分分操这里只有精品| 免费在线观看一区二区三区| 无码人妻丰满熟妇区毛片蜜桃精品 | 日本韩国精品在线| www.黄色小说.com| 亚洲天天在线日亚洲洲精| 色呦呦在线看| 国产精品入口福利| 老牛影视av一区二区在线观看| 亚洲国产欧美日韩| 亚洲经典三级| 国内自拍第二页| 国产婷婷色一区二区三区在线| 久久久精品视频在线| 91福利在线播放| 国产自产一区二区| yw.139尤物在线精品视频| 国产不卡网站| 国产一区二区三区高清| 亚洲综合婷婷| 日日摸天天爽天天爽视频| 成人av先锋影音| 欧美做爰爽爽爽爽爽爽| 欧美视频日韩视频| 国产在线小视频| 4k岛国日韩精品**专区| 国产精品115| 日本a在线天堂| 国产美女av一区二区三区| 阿v天堂2014| 色香蕉成人二区免费| 神宫寺奈绪一区二区三区| 欧美成人精品xxx| 电影中文字幕一区二区| youjizz.com亚洲| 免费成人美女在线观看| av黄色在线免费观看| 欧美色另类天堂2015| 神马午夜一区二区| 久久久久国产精品免费| 2023国产精华国产精品| 国产91porn| 国产精品白丝jk黑袜喷水| 精品国产欧美日韩不卡在线观看| 欧美日韩国产a| 欧美a在线看| 国产欧美日韩免费| 希岛爱理一区二区三区| 91亚洲免费视频| 中文字幕一区二区5566日韩| 亚洲图片小说视频| 日韩中文字幕在线视频| 看片一区二区| 中国女人做爰视频| 国产精品亚洲一区二区三区在线| 加勒比婷婷色综合久久| 日韩精品一区二区三区在线| 欧美草逼视频| 精品无人区一区二区三区| 99riav国产精品| 丰满少妇一区二区| 91成人免费网站| 麻豆av在线导航| yy111111少妇影院日韩夜片| 国语精品一区| 精品人妻一区二区三区日产乱码卜| 精品成人av一区| 高清美女视频一区| 成人美女免费网站视频| 国产精品啊啊啊| 菠萝菠萝蜜网站| 在线观看亚洲精品| 黄色的网站在线观看| av成人观看| 久久亚洲欧美| 日本 欧美 国产| 亚洲第一页中文字幕| 亚洲成人短视频| 日韩精品第1页| 91丨porny丨国产入口| 亚洲天堂视频在线| 久久人91精品久久久久久不卡 | 国产亚洲xxx| 涩涩涩久久久成人精品| wwwwww欧美| 久久精品视频免费观看| 91国偷自产中文字幕久久| 欧美第一页在线| 色综合中文网| 日本网站在线看| 色婷婷香蕉在线一区二区| 美女av在线播放| 狠狠色综合色区| 久久99久久精品| 国产成人无码精品久久久久| 色综合伊人色综合网站| 国产精品22p| 天堂网在线免费观看| 亚洲国产一区二区三区| 国产福利第一视频在线播放| 99r国产精品视频| 日韩国产在线一| 日本熟妇成熟毛茸茸| yellow中文字幕久久| 亚洲警察之高压线| 性一交一黄一片| 欧美日韩色一区|