精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型到底是怎么「思考」的?第一篇系統(tǒng)性綜述SAE的文章來了

人工智能 新聞
一種叫做?Sparse Autoencoder(簡稱 SAE)?的新興技術(shù)正迅速崛起,成為當(dāng)前最熱門的 mechanistic interpretability(機(jī)制可解釋性) 路線之一。

作者介紹:本篇文章的作者團(tuán)隊(duì)來自美國四所知名高校:西北大學(xué)、喬治亞大學(xué)、新澤西理工學(xué)院和喬治梅森大學(xué)。第一作者束東與共同第一作者吳烜圣、趙海燕分別是上述高校的博士生,長期致力于大語言模型的可解釋性研究,致力于揭示其內(nèi)部機(jī)制與 “思維” 過程。通訊作者為新澤西理工學(xué)院的杜夢楠教授。

在 ChatGPT 等大語言模型(LLMs)席卷全球的今天,越來越多的研究者意識到:我們需要的不只是 “會說話” 的 LLM,更是 “能解釋” 的 LLM。我們想知道,這些龐大的模型在接收輸入之后,到底是怎么 “思考” 的?

為此,一種叫做 Sparse Autoencoder(簡稱 SAE) 的新興技術(shù)正迅速崛起,成為當(dāng)前最熱門的 mechanistic interpretability(機(jī)制可解釋性) 路線之一。最近,我們撰寫并發(fā)布了第一篇系統(tǒng)性的 SAE 綜述文章,對該領(lǐng)域的技術(shù)、演化和未來挑戰(zhàn)做了全面梳理,供關(guān)注大模型透明性、可控性和解釋性的研究者參考。

圖片

圖片

(圖 1):該圖展示了 SAE 的基本框架。

什么是 Sparse Autoencoder?

簡單來說,LLM 內(nèi)部的許多神經(jīng)元可能是“多義的”,意思是它們同時處理好幾個不相關(guān)的信息。在處理輸入時,LLM 會在內(nèi)部生成一段高維向量表示,這種表示往往難以直接理解。然后,如果我們將它輸入一個訓(xùn)練好的 Sparse Autoencoder,它會解構(gòu)出若干稀疏激活的“特征單元”(feature),而每一個feature,往往都能被解釋為一段可讀的自然語言概念。

舉個例子:假設(shè)某個特征(feature 1)代表 “由鋼鐵建造的建筑”,另一個特征(feature 2)代表 “關(guān)于歷史的問題”。當(dāng) LLM 接收到輸入 “這座跨海大橋真壯觀” 時,SAE 會激活 feature 1,而不會激活 feature 2。這說明模型 “意識到” 橋是一種鋼結(jié)構(gòu)建筑,而并未將其理解為歷史類話題。

而所有被激活的特征就像拼圖碎片,可以拼接還原出原始的隱藏表示(representation),讓我們得以窺見模型內(nèi)部的 “思維軌跡”。這也正是我們理解大模型內(nèi)部機(jī)制的重要一步。

圖片

(圖 2):該圖展示了 SAE 的發(fā)展歷史。

為什么大家都在研究 SAE?

過去主流的可解釋方法多依賴于可視化、梯度分析、注意力權(quán)重等 “間接信號”,這些方法雖然直觀,但往往缺乏結(jié)構(gòu)性和可控性。而 SAE 的獨(dú)特優(yōu)勢在于:它提供了一種結(jié)構(gòu)化、可操作、且具語義解釋力的全新視角。它能夠?qū)⒛P蛢?nèi)部的黑盒表示分解為一組稀疏、具備明確語義的激活特征(features)。

更重要的是,SAE 不只是可解釋性工具,更可以用于控制模型怎么想、發(fā)現(xiàn)模型的問題、提升模型的安全性等一系列實(shí)際應(yīng)用。當(dāng)前,SAE 已被廣泛應(yīng)用于多個關(guān)鍵任務(wù):

  • 概念探測(Concept Discovery):自動從模型中挖掘具有語義意義的特征,如時間感知、情緒傾向、語法結(jié)構(gòu)等;
  • 模型操控(Steering):通過激活或抑制特定特征,定向引導(dǎo)模型輸出,實(shí)現(xiàn)更精細(xì)的行為控制;
  • 異常檢測與安全分析:識別模型中潛藏的高風(fēng)險特征單元,幫助發(fā)現(xiàn)潛在的偏見、幻覺或安全隱患。

這種 “解釋 + 操控” 的結(jié)合,也正是 SAE 能在當(dāng)前 LLM 可解釋性研究中脫穎而出的關(guān)鍵所在。目前包括 OpenAI、Anthropic、Google DeepMind 等機(jī)構(gòu)都在推進(jìn) SAE 相關(guān)研究與開源項(xiàng)目。

圖片

(圖 3):該圖演示了如何通過 SAE 操控模型輸出,實(shí)現(xiàn)對大語言模型行為的定向引導(dǎo)。

本文有哪些內(nèi)容?

作為該領(lǐng)域的首篇系統(tǒng)綜述,我們的工作涵蓋以下幾個核心部分:

1. Technical Framework of SAEs(SAE 的技術(shù)框架)

本部分系統(tǒng)介紹了 SAE 的基本結(jié)構(gòu)及其訓(xùn)練流程,它是一種特殊的神經(jīng)網(wǎng)絡(luò)。具體包括:

  • 編碼器:把 LLM 的高維向量表示 “分解” 成一個更高維并且稀疏的特征向量。
  • 解碼器:根據(jù)這個稀疏特征向量,嘗試 “重建” 回原始的 LLM 信息。
  • 稀疏性損失函數(shù):確保重建得足夠準(zhǔn)確,并且特征足夠稀疏。

同時我們總結(jié)了現(xiàn)有的常見架構(gòu)變體與改進(jìn)策略。例如解決收縮偏差(shrinkage bias)的 Gated SAE,通過直接選擇 Top-K 個激活來強(qiáng)制稀疏性的 TopK SAE,等等。

2. Explainability Analysis of SAEs(SAE 可解釋性分析)

總結(jié)當(dāng)前主流的解釋方法,旨在將 SAE 學(xué)習(xí)到的稀疏特征用自然語言進(jìn)行描述,從而把模型的 “抽象思維” 轉(zhuǎn)化為人類可理解的見解 。這些方法主要分為兩大類:

  • 輸入驅(qū)動:尋找那些能最大程度激活某個特征的文本片段。通過總結(jié)這些文本,我們就能大致推斷出這個特征代表什么意思(如 MaxAct、PruningMaxAct)。
  • 輸出驅(qū)動:將特征與 LLM 生成的詞語聯(lián)系起來。例如,一個特征激活時,LLM 最可能輸出哪些詞,這些詞就能幫助我們理解這個特征的含義(如 VocabProj、Mutual Info)。

3. Evaluation Metrics and Methods(評估指標(biāo)與方法)

評估 SAE 就像評估一個工具:既要看它內(nèi)部構(gòu)造是否合理(結(jié)構(gòu)評估),也要看它實(shí)際用起來有沒有效果(功能評估)。

  • 構(gòu)性評估:檢查 SAE 是否按設(shè)計工作,比如重建的準(zhǔn)確度如何,稀疏性是否達(dá)到要求(如重構(gòu)精度與稀疏度)。
  • 功能評估:評估 SAE 能否幫助我們更好地理解 LLM,以及它學(xué)習(xí)到的特征是否穩(wěn)定和通用(如可解釋性、健壯性與泛化能力)。

4. Applications in Large Language Models(在大語言模型中的應(yīng)用)

SAE 不僅能幫助我們理解 LLM,還能實(shí)際操作它們。我們展示了 SAE 在模型操控、行為分析、拒答檢測、幻覺控制、情緒操控等方面的實(shí)際應(yīng)用案例與前沿成果。

5. 與 Probing 方法的對比分析

除了 SAE,還有一種叫做 “Probing(探針)” 的方法也被用于理解 LLM。本文比較了 SAE 與傳統(tǒng)的 Probing 技術(shù)在模型操縱和特征提取等方面的優(yōu)勢與不足。盡管 Probing 方法在某些方面表現(xiàn)出色,但 SAE 作為一種新興的機(jī)制可解釋性方法,具有其獨(dú)特的潛力。然而,研究也指出,在某些復(fù)雜場景(如數(shù)據(jù)稀缺、類別不平衡等)下,SAE 在提供一致優(yōu)勢方面仍有很長的路要走。

6. 當(dāng)前研究挑戰(zhàn)與未來方向

盡管 SAE 前景廣闊,但仍面臨一些挑戰(zhàn),如:語義解釋仍不穩(wěn)定;特征字典可能不完整;重構(gòu)誤差不可忽視;訓(xùn)練計算成本較高。同時也展望了未來可能的突破點(diǎn),包括跨模態(tài)擴(kuò)展、自動解釋生成、架構(gòu)輕量化等。

結(jié)語:從 “看得懂” 到 “改得動”

在未來,解釋型 AI 系統(tǒng)不能只滿足于可視化 attention 或 saliency map,而是要具備結(jié)構(gòu)化理解和可操作性。SAE 提供了一個極具潛力的路徑 —— 不僅讓我們看到模型 “在想什么”,還讓我們有能力去 “改它在想什么”。

我們希望這篇綜述能為廣大研究者提供一個系統(tǒng)、全面、易于參考的知識框架。如果您對大模型可解釋性、AI 透明性或模型操控感興趣,這將是一篇值得收藏的文章。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-11-29 18:37:07

2024-12-09 09:55:25

2019-10-31 11:03:39

區(qū)塊鏈數(shù)字貨幣比特幣

2014-07-30 14:25:41

SwiftiBeacon

2021-08-10 10:08:52

NAS網(wǎng)絡(luò)附加存儲存儲

2011-03-14 15:52:50

Windows Azu

2023-11-01 15:52:35

2020-06-02 10:38:15

IDEiOSLinux

2015-05-27 09:32:29

iOS應(yīng)用架構(gòu)

2011-06-21 09:14:01

Oracle查詢

2025-08-08 02:22:00

ResearchAI應(yīng)用

2019-08-13 09:00:01

內(nèi)網(wǎng)外網(wǎng)通信

2020-03-02 16:25:03

性能系統(tǒng)軟件

2021-06-01 08:37:45

Linuxdrm內(nèi)存

2024-06-05 08:51:08

2017-04-10 13:43:34

AndroidGradleAS

2024-03-15 08:06:58

MySQLJOIN命令

2023-12-25 15:15:17

模型訓(xùn)練

2019-07-01 15:01:44

NVMe接口存儲

2022-08-04 09:39:39

Kubernetes聲明式系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

婷婷综合五月天| 韩日一区二区三区| 亚洲一区二区三区美女| 国产一区二区高清不卡| 怡红院av久久久久久久| 五月综合激情日本mⅴ| 136fldh精品导航福利| 人人妻人人澡人人爽| 成人在线视频区| 狠狠躁18三区二区一区| 在线电影看在线一区二区三区| www日本视频| 日韩福利电影在线| 欧美日韩成人在线观看| 日韩女同一区二区三区| 91精品短视频| 色综合久久六月婷婷中文字幕| 在线一区高清| 国产在线资源| 国产.精品.日韩.另类.中文.在线.播放| 人人做人人澡人人爽欧美| 青娱乐国产盛宴| 国内亚洲精品| 日韩电影视频免费| 成人高清在线观看视频| 精品裸体bbb| 欧美日韩国产综合视频在线观看中文| 午夜在线视频免费观看| 国产在线91| aaa亚洲精品一二三区| 91香蕉国产在线观看| 少妇一级淫片日本| 国产九九精品| 成人久久久精品乱码一区二区三区| 一区二区三区91| 亚洲精品中文字幕在线| 精品电影在线| 91美女片黄在线观看| 97碰碰视频| 一级日韩一级欧美| 日韩电影免费一区| 日本aⅴ大伊香蕉精品视频| 久久精品国产亚洲av高清色欲| 欧美肉大捧一进一出免费视频 | 亚洲品质视频自拍网| 欧美人与性动交α欧美精品| 亚洲爽爆av| 在线成人免费视频| 欧美成人乱码一二三四区免费| 深夜成人福利| 色拍拍在线精品视频8848| 337p粉嫩大胆噜噜噜鲁| cao在线视频| 午夜精品视频一区| 欧美,日韩,国产在线| wwww亚洲| 精品毛片网大全| 日本中文字幕网址| 欧美gay视频| 色婷婷久久99综合精品jk白丝| 国产精品一区二区三区四区五区 | 亚洲wwwav| 在线免费一级片| 欧美aaa在线| 成人久久久久久| 国产毛片久久久久| 中文字幕影音先锋| 久久三级中文| 日韩一区二区三区三四区视频在线观看 | 蜜桃视频无码区在线观看| 欧美.com| 亚洲国产成人精品久久久国产成人一区 | av综合电影网站| 色av一区二区| 色一情一区二区| 日韩一区二区三区色| 精品日产卡一卡二卡麻豆| 欧产日产国产精品98| 亚洲国产合集| 色狠狠av一区二区三区香蕉蜜桃| 在线观看国产欧美| 性囗交免费视频观看| 亚洲va久久| www高清在线视频日韩欧美| 国产精品成人69xxx免费视频| 欧美日韩中文| 日本一区二区在线免费播放| 91久久精品国产91性色69| 国产成人免费av在线| 蜜桃视频在线观看成人| 成年人黄色片视频| 欧美爱爱视频| 亚洲国产成人爱av在线播放| 国产午夜精品福利视频| 午夜电影亚洲| 日韩av中文在线观看| 亚洲性视频网站| 国产一二三四区| 国产亚洲精品v| 成人黄色影片在线| 四虎精品在线| 亚洲视频一区在线| www一区二区www免费| 久久99国产精品二区高清软件| 欧美成人免费网站| 日本乱子伦xxxx| 国产精品porn| 国产精品美女久久| 成人小说亚洲一区二区三区| 国产精品嫩草影院av蜜臀| 日韩黄色片在线| 成人在线免费| 日韩成人中文字幕| 欧美成人免费观看视频| 免费久久精品视频| 精品福利影视| 在线观看wwwxxxx| 欧美在线视频不卡| 午夜一区二区三区免费| 欧美色图麻豆| 麻豆中文一区二区| 欧美亚洲视频在线看网址| 999精品国产| 欧美经典一区二区三区| 天堂…中文在线最新版在线| 国产激情综合| 最新国产精品亚洲| 69亚洲精品久久久蜜桃小说| www.在线成人| 欧美黑人在线观看| 国产不卡精品在线| 久久精品美女视频网站 | 欧洲一区在线电影| 日本一级片在线播放| 欧美另类视频| 99精品99久久久久久宅男| 精品自拍一区| 欧美精选一区二区| 亚洲女人毛茸茸高潮| 日韩二区三区在线观看| 日本一区二区三区视频在线观看| 日本免费一区二区六区| 亚洲精品成人久久| 在线观看免费国产视频| 不卡的看片网站| 成年人午夜免费视频| 久本草在线中文字幕亚洲| 欧美黄色性视频| 国产 日韩 欧美 综合| 日本亚洲不卡| 日韩精品在线看片z| 视频这里只有精品| 国产馆精品极品| 国产精品久久国产| 成人性生交大片免费看96| 久久久久中文字幕2018| 人妻妺妺窝人体色www聚色窝| 亚洲成av人在线观看| 李丽珍裸体午夜理伦片| 夜夜嗨一区二区| 欧美综合77777色婷婷| 成人看片网页| 久久亚洲精品一区二区| 精品人妻少妇嫩草av无码专区| 一区二区三区在线不卡| 国产精品一区二区人妻喷水| 另类av一区二区| 亚洲国产精品毛片| 久久免费精品| 26uuu另类亚洲欧美日本老年| 日本午夜在线视频| 欧美影院一区二区三区| www.色小姐com| 9久草视频在线视频精品| 国产一区亚洲二区三区| 午夜欧洲一区| 91精品免费看| 2020国产在线| 亚洲欧美成人网| 91 中文字幕| 亚洲综合图片区| 深爱五月激情网| 国产最新精品免费| 黄色大片在线免费看| 成人久久久久| 国产精品国产三级国产专区53| 美女网站在线看| 中文字幕在线视频日韩| 亚洲乱码国产乱码精品精软件| 欧美性生交xxxxxdddd| 久草福利资源在线| av网站一区二区三区| 污污网站免费看| 亚洲福利专区| 久久精品国产精品亚洲精品色| 久久黄色影视| 成人欧美一区二区三区在线| 无码人妻丰满熟妇区毛片18| 一区在线不卡| 韩国欧美亚洲国产| 免费在线观看黄色网| 亚洲国产成人久久综合| 最新黄色网址在线观看| 亚洲国产美女搞黄色| 亚洲综合久久av一区二区三区| 成人午夜电影久久影院| 激情黄色小视频| 国产日韩一区二区三区在线| 超碰97免费观看| 欧美亚洲国产精品久久| 国产精品一区二区欧美黑人喷潮水| 51一区二区三区| 97在线看福利| 亚洲精品天堂| 少妇激情综合网| 九色在线视频| 日韩国产高清视频在线| 国内毛片毛片毛片毛片| 欧美视频一二三区| 国产免费av一区| 亚洲国产精品久久久久秋霞影院 | 亚洲国产精品久久久天堂| 欧美精品亚洲精品| 久久99精品国产自在现线| 日本三级免费网站| 亚洲精品成a人ⅴ香蕉片| 欧美性视频网站| 日本理论片午伦夜理片在线观看| 永久免费毛片在线播放不卡| 亚州视频一区二区三区| 日韩欧美国产综合在线一区二区三区 | 蜜臀91精品国产高清在线观看| 久久精品亚洲精品国产欧美| 一级做a免费视频| 肉丝袜脚交视频一区二区| 91成人在线观看喷潮教学| 成人性生活免费看| 老鸭窝毛片一区二区三区| aa在线观看视频| 亚洲精品偷拍| 黄色一级视频在线播放| 亚洲国产1区| 国产一区二区视频播放| 在线日韩av| 成 年 人 黄 色 大 片大 全| 激情综合自拍| 国产色一区二区| 欧美在线一级视频| 日本动漫理论片在线观看网站 | 亚洲中文字幕一区二区| 午夜欧美在线一二页| 久久精品女人毛片国产| 一区二区三区波多野结衣在线观看| 在线观看美女av| 亚洲乱码一区二区三区在线观看| 可以免费看av的网址| 国产精品不卡在线观看| 日韩精品123区| 亚洲激情一二三区| 久草免费新视频| 亚洲va国产va欧美va观看| 日韩av大片在线观看| 欧美性猛交xxxx久久久| 免费黄色网址在线| 在线日韩一区二区| 91九色蝌蚪91por成人| 日韩免费一区二区| 欧美一级淫片aaaaaa| 日韩精品视频在线播放| 999在线视频| 欧美xxxx18性欧美| 极品视频在线| 国产不卡一区二区在线播放| 成人免费黄色| 亚洲在线观看视频网站| 国内精品国产成人国产三级粉色| 久久久综合亚洲91久久98| 成人同人动漫免费观看| 法国空姐在线观看免费| 最新国产拍偷乱拍精品 | 狠狠色丁香久久婷婷综| 白丝校花扒腿让我c| 久久久三级国产网站| 国产探花在线视频| 午夜a成v人精品| 91在线精品入口| 亚洲精品成人av| 欧美jizz18性欧美| 97在线看福利| 9999精品视频| 久久久精品动漫| 亚洲天堂免费| 黑森林福利视频导航| 激情综合网最新| 亚洲午夜福利在线观看| 亚洲日本韩国一区| 欧美日韩国产一二| a天堂中文在线官网在线| 国内成人精品视频| 欧美大片网站| 久久久久久国产精品免费免费| 色综合久久一区二区三区| 麻豆tv在线播放| 精品一二三四在线| 久久久久久九九九九九| 一区二区激情小说| 在线免费一级片| 精品无人区乱码1区2区3区在线| 黄色网在线免费观看| 日本免费在线精品| 国产精品调教视频| 亚洲成色最大综合在线| 国产欧美一级| 国产欧美视频一区| 亚洲人一二三区| 在线观看国产精品视频| 亚洲精品视频免费| av福利导福航大全在线| 91在线观看免费观看| 国产毛片一区二区三区| 男人操女人逼免费视频| 国产高清精品在线| 羞羞在线观看视频| 欧洲激情一区二区| 极品白浆推特女神在线观看 | 三年中文高清在线观看第6集| 亚洲欧美日韩一区在线观看| 久久久高清视频| 亚洲综合图片区| 国产高清在线观看视频| 久热精品视频在线观看一区| 男人亚洲天堂| 性欧美videosex高清少妇| 天堂va蜜桃一区二区三区漫画版| 亚洲精品乱码久久久久久不卡| 亚洲一区av在线| 亚洲国产精品视频在线| 美日韩丰满少妇在线观看| 99精品视频在线免费播放| 一本久道久久综合| 蜜臀av性久久久久av蜜臀妖精| 性欧美精品男男| 欧美午夜一区二区三区| 成年人在线看| 国产日韩亚洲欧美| 亚州av乱码久久精品蜜桃| 看看黄色一级片| 亚洲三级在线看| 精品久久久中文字幕人妻| 欧美福利视频在线| 91蝌蚪精品视频| 黄页免费在线观看视频| 91老司机福利 在线| 亚洲国产av一区二区三区| 亚洲午夜av久久乱码| www.成人在线视频| 自拍另类欧美| 国产成人8x视频一区二区| 精品国产一区二区三区久久狼黑人 | 中日韩av电影| 国产一区二区三区黄片| 久久久精品免费| 136福利精品导航| 日本十八禁视频无遮挡| 91亚洲精品一区二区乱码| 无码人妻丰满熟妇区五十路| 中文字幕亚洲一区二区三区五十路 | 亚洲一级中文字幕| 在线日韩av片| 麻豆传媒在线免费看| 97免费高清电视剧观看| 激情久久久久| 国产毛片久久久久久久| 欧美人动与zoxxxx乱| 欧美野外wwwxxx| 蜜桃视频在线观看成人| 久久精品国产网站| 激情五月婷婷在线| 亚洲毛片在线看| 亚洲欧美综合久久久久久v动漫| wwwwww欧美| 久久久噜噜噜久噜久久综合| 国产一区二区三区中文字幕| 久久久久国产精品免费| 国产一区二区三区四区大秀| 欧美性受xxxx黒人xyx性爽| 图片区日韩欧美亚洲| 日本在线免费中文字幕| 成人免费看片网址| 日韩激情一区二区| 久草成人在线视频| 一本色道久久88精品综合| 欧美不卡在线观看| 欧美日韩一区二区在线免费观看 | 永久免费看mv网站入口亚洲| 亚洲精品在线a| 午夜国产一区二区三区| 亚洲高清在线视频| 蜜芽在线免费观看| 麻豆精品传媒视频|