精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

俯視LLM的靈魂:一文搞懂稀疏自動編碼器 原創 精華

發布于 2024-6-27 15:06
瀏覽
0收藏

俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區

俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區

稀疏自動編碼器 (SAE) 最近因機器學習模型的可解釋性而變得流行(盡管SAE自 1997 年以來一直存在)。機器學習模型正在使LLMs變得越來越強大和有用,但它們仍然是黑匣子,如何看穿LLM的靈魂,且若能理解它們是如何工作的,那對于大模型的進化有足夠的幫助和啟示意義。

使用SAE,可以開始將模型的計算分解為可理解的組件。本文將簡介的介紹下SAE的工作原理,然后讀者可以回頭去溫習“大模型的靈魂解讀:Anthropic AI的Claude3 Sonnet可解釋性研究”,應該更加深有感觸。

1.自動編碼器

神經網絡最自然的組成部分是單個神經元。單個神經元并不對應于單個概念。語言模型中的任何概念,例如學術引用、英語對話、HTTP 求和韓語文本都是神經單元的疊加,或者換句話說是神經元的組合表示。

產生這種現象的原因可能是因為世界上存在的很多變量是稀疏的。例如,一個名人的出生地可能不到十億分之一的訓練Tokens,LLMs在訓練的過程中掌握了這點,加上訓練的Token遠遠大于神經元的數量,因此自然而然就會進行疊加表示。

稀疏自動編碼器最近作為一種將神經網絡分解為可理解組件的技術而廣受歡迎。SAE 的靈感來自神經科學中的稀疏編碼假說。有趣的是,SAE是解釋人工神經網絡的最有前途的工具之一。SAE 類似于標準自動編碼器。

常規自動編碼器是一種神經網絡,旨在壓縮然后重建其輸入數據。例如,它可以接收一個 1000 維向量(1000個數字的列表)作為輸入,通過編碼器層饋送該輸入以將輸入壓縮為512維向量,然后通過解碼器饋送壓縮編碼表示以產生1000維輸出向量。重建通常是不完美的,因為壓縮過程會有信息損失。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


稀疏自動編碼器將輸入向量轉換為中間向量,該中間向量的維度可以高于、等于或低于輸入。當應用于LLM時,中間向量的維度通常大于輸入的維度。在這種情況下,如果沒有額外的約束,任務就很簡單。

SAE可以使用單位矩陣完美地重建輸入,作為額外的約束,在訓練過程中的損失函數中添加了稀疏性懲罰,這會引導SAE創建稀疏中間向量。例如,可以將1000維輸入擴展為200維編碼表示向量,并且可以訓練SAE使其在編碼表示中僅包含約20個非零元素。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


上圖中黑色的方塊代表著稀疏的激活值

將SAE應用于神經網絡中的中間激活,神經網絡可以由許多層組成。在前向傳遞期間,每層內部和之間都有中間激活。例如,GPT-3有96 層。在前向傳遞期間,輸入中的每個標記都有一個12,288 維向量(包含 12,288 個數字的列表),該標記從一層傳遞到另一層。此向量累積了模型在每一層處理下一個Token時用于預測下一個Token的所有信息,但它是不透明的,很難理解其中包含哪些信息。


若使用SAE來理解這種中間激活的方法如下:SAE基本上是一個矩陣 -> ReLU 激活 -> 矩陣。例如,如果GPT-3 SAE的擴展因子為4,則輸入激活為12,288維,SAE的編碼表示為49,512 維 (12,288 x 4)。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


第一個矩陣是形狀的編碼器矩陣(12,288,49,512),第二個矩陣是形狀的解碼器矩陣(49,512,12,288)。通過將GPT的激活與編碼器相乘并應用 ReLU,我們生成了一個 49,512 維的SAE編碼表示,該表示是稀疏的,因為 SAE 的損失函數激勵了稀疏性。


通常的目標是在SAE的表示中少于 100個數字為非零。通過將SAE的表示與解碼器相乘,我們產生了一個12,288 維重建的模型激活。這種重建并不完全匹配原始的 GPT 激活,畢竟這么一折騰,信息會有所丟失。


現在只在模型中的一個位置訓練單個SAE。例如,可以在第25層和第26層之間的中間激活上訓練單個 SAE。為了分析 GPT-3 中所有96層的輸出中包含的信息,可以訓練 96 個單獨的SAE——每層一個。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


上圖說明了這個過程,是拿激活值出來訓練。原激活值通過與編碼矩陣相乘,之后通過激活函數,然后得到稀疏表示,最后通過解碼矩陣還原。


如果還想分析每層中的各種中間激活,這將需要數百個SAE。對這些SAE 的訓練數據來自通過 GPT 模型提供各種文本并收集每個選定位置的中間激活(樣本)。

2.功能

SAE表示的每個活動數字都對應于可以理解的組件。假設12,288 維向量對 GPT-3 [1.5, 0.2, -1.2, ...] 來說意味著“橋”。SAE 解碼器是形狀矩陣 (49,512, 12,288),但我們也可以將其視為49,512個向量的集合,每個向量都是形狀(1, 12,288)。如果SAE解碼器向量519學習了與GPT-3相同的“橋”概念,則解碼器向量將近似等 [1.5, 0.2, -1.2, ...] 。每當 SAE 激活的元素 519不為零時,就相當于對應“橋”的向量。上面描述了SAE的工作原理,用專業的術語來講就是“解碼器對應于殘差流空間中特征的線性表示”。

特征519代表什么?目前的做法是只看那些能最大限度地激活功能的輸入,并對其可解釋性做出直覺反應。每個功能激活的輸入通常是可解釋的。例如,??Anthropic在Claude Sonnet??上訓練了SAE,并發現了單獨的 SAE功能,這些功能可以在與金門大橋、神經科學和熱門旅游景點相關的文本和圖像上激活。其他功能在不太明顯的概念上激活。

這里值得一提的是,在大量的激活值上面進行訓練,通過稀疏矩陣的確可以明顯看到一些特征,因為這個向量大部分的數值都為0了。通過研究Decoder矩陣就可以研究大模型在學習某個知識的時候,到底是如何融會貫通的。

如果存在基于特定主題激活的神經元,那么激活某些神經元是否會強制生成這些主題?回想一下AutoEncoder結構,雖然同時擁有編碼器和解碼器,但在訓練后,只有編碼器用于將激活向量轉換為字典向量。是否可以使用解碼器從所選特征重建激活向量?換句話說,能操縱神經元嗎?答案可以用 Anthropic 的一句話來概括:“稀疏的自編碼器功能可用于干預和控制變壓器的生成。” 下圖單獨操縱神經元以實現不同的結果。

俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


由于 SAE 解碼器向量與LLMs中間激活的形狀匹配,因此可以通過簡單地將解碼器向量添加到模型激活中來執行因果干預。這里通過將解碼器向量乘以比例因子來縮放干預的強度。當人類學研究人員將金門大橋SAE解碼器向量添加到大模型的激活中時,大模型不得不每次回復中都提到金門大橋。

如何評估SAE,目前存在L0和Loss Recovered兩個指標 。L0是SAE編碼中非零元素的平均數。Loss Recovered是用重建的激活替換GPT或者其他大模型的原始激活并測量不完美重建的額外損失。這兩個指標之間通常存在蹺蹺板效應,需要進行權衡,。畢竟SAE會選擇降低重建精度以增加稀疏性。

許多新的SAE方法,例如Deepmind的門控SAE和OpenAI的TopK SAE,都修改了稀疏性懲罰以改善這種權衡。

下圖來自 Google Deepmind的Gated SAE 論文,它引入了門控稀疏自動編碼器 (Gated SAE),它比使用流行方法的訓練實現了帕累托改進。在 SAE 中,用于鼓勵稀疏性的 L1 懲罰引入了許多不良偏差,例如收縮 - 系統性地低估特征激活。門控 SAE 分離 “確定使用哪些方向”和“估計這些方向大小的功能”。這使得在典型的超參數范圍內解決了收縮問題,具有類似的可解釋性,并且只需要一半的觸發特征即可實現相當的重建保真度。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區

門控SAE的紅線更靠近圖表的左上角,這意味著在這種權衡中表現更好。

俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


3.應用


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


上圖展示一種研究方法,a) 對語言模型的內部激活進行采樣,無論是殘差流、MLP 子層還是注意頭子層;b) 使用這些激活來訓練神經網絡,稀疏自動編碼器,其權重形成特征字典<注意是Decoder Matrix!!>;c) 使用諸如 OpenAI 的自動解釋性分數之類的技術來解釋生成的特征。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區



上圖以“括號”為例顯示每個特征之間的關系,同時每個特征上面都有人工解釋。邊緣厚度表示連續殘差流層中字典特征之間的因果關系強度,以消融為衡量標準。許多跨層的字典特征具有相似的解釋,并且通常指向激活空間中的相似方向,以余弦相似度為衡量標準。

本文轉載自??魯班模錘??,作者: 龐德公 

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2024-7-1 12:55:17修改
收藏
回復
舉報
回復
相關推薦
久久天天躁狠狠躁夜夜躁| 成人一区二区三区视频在线观看| 91麻豆精品国产91久久久久久久久 | 日本v片在线免费观看| 久久久精品日韩| 久久人人爽亚洲精品天堂| 国产乱淫av片| 国产精品高清乱码在线观看| 亚洲免费电影在线| 91无套直看片红桃在线观看| 国产精品嫩草影院桃色| 伊人成人在线| 中文字幕av一区二区| 女女调教被c哭捆绑喷水百合| 日本高清视频在线播放| 成人免费视频一区二区| 国产精品九九久久久久久久| 欧美成人精品欧美一级| 精品成人影院| 亚洲第一中文字幕| www.污污视频| 欧美××××黑人××性爽| 一区二区三区在线视频观看| 日韩wuma| 四虎免费在线观看| 国产精品一级片在线观看| 国产精品99久久久久久久久 | 中文字幕av一区二区| 性色av蜜臀av浪潮av老女人 | 日韩欧美亚洲一二三区| 国产又粗又长又爽视频| 91青青在线视频| 久久综合色一综合色88| 成人三级在线| 99在线观看精品视频| 日本亚洲视频在线| 日本不卡视频在线播放| 日韩精品无码一区二区| 午夜日韩av| 九九久久国产精品| 久久精品一区二区三区四区五区 | 欧美午夜电影在线播放| 日韩中文字幕三区| 国产高清中文字幕在线| 国产精品入口麻豆九色| 日韩av一区二区三区在线| 五月天激情婷婷| 成人av片在线观看| 国产精品久久久久久一区二区| 四虎地址8848| 亚洲午夜免费| 欧美v国产在线一区二区三区| 成人久久久久久久久| 国产剧情av在线播放| 五月天中文字幕一区二区| 久艹在线免费观看| 中国日本在线视频中文字幕| 欧美激情在线观看视频免费| 欧美综合激情| 色综合免费视频| 成人av网址在线| 久久草视频在线看| 免费在线稳定资源站| 国产亚洲精品中文字幕| 色视频一区二区三区| 亚洲乱码精品久久久久..| 成人在线视频一区二区| 成人精品一区二区三区电影免费 | 热久久这里只有| 香蕉影院在线观看| 三级欧美韩日大片在线看| 国产精品99久久久久久人| 久草视频在线资源站| 激情综合网址| 日韩av电影在线网| 在线免费观看一级片| 国产一区二区三区av电影| 国产精品一区二区三区四区五区| 国产精品视频a| 国产成人av网站| 精品亚洲第一| av在线二区| 亚洲免费观看高清完整版在线| 亚洲欧洲日韩综合二区| 美女欧美视频在线观看免费| 中文av一区特黄| 永久免费网站视频在线观看| 国产美女高潮在线| 欧美日韩久久久| 中文字幕视频在线免费观看| 亚洲欧美在线人成swag| 欧美白人最猛性xxxxx69交| 欧美做受喷浆在线观看| 成人a'v在线播放| 欧美精品在线极品| 色av性av丰满av| 国产一区二区免费在线| 免费久久99精品国产自| 黄色网址在线免费观看| 色综合中文字幕国产| 天天操天天干天天做| 久久综合五月婷婷| 色777狠狠综合秋免鲁丝| 欧美日韩精品在线观看视频 | 91在线观看高清| 亚洲欧美影院| 自拍网站在线观看| 色悠久久久久综合欧美99| 大陆极品少妇内射aaaaa| 超碰在线99| 欧美美女网站色| 丰满少妇一区二区| 俺要去色综合狠狠| 日韩在线免费视频| 成人在线免费看视频| 国产一区二区在线电影| 亚洲v国产v| 成人国产二区| 精品国产精品网麻豆系列| 亚洲精品乱码久久| 中文字幕乱码亚洲无线精品一区| 欧美日韩国产成人| 亚洲一区中文字幕在线| 久久精品人人爽人人爽| 日日鲁鲁鲁夜夜爽爽狠狠视频97 | 日韩在线免费电影| 福利视频一区二区| 美女黄色一级视频| 国内精品久久久久久久影视简单| 在线亚洲欧美视频| 男人日女人网站| 波波电影院一区二区三区| 欧美第一黄网| 麻豆网站视频在线观看| 欧美制服丝袜第一页| 亚洲黄色免费在线观看| 激情六月综合| 国产福利久久精品| 国产在线一二三区| 欧美午夜激情小视频| 亚洲 欧美 日韩在线| 欧美午夜精品| 99视频网站| 中文在线免费| 日韩丝袜美女视频| 国产在线观看免费av| 国产91色综合久久免费分享| 久久99国产精品一区| 动漫一区二区三区| 欧美成人精品一区二区三区| 国产男女裸体做爰爽爽| 日韩理论片网站| 国产又粗又猛大又黄又爽| 亚洲精品亚洲人成在线| 色yeye香蕉凹凸一区二区av| 国产成人自拍视频在线| 91在线一区二区三区| 久色视频在线播放| 国产成人精品三级高清久久91| 九九视频直播综合网| 精品国产无码AV| 欧美激情一区二区三区| 91亚洲免费视频| 仙踪林久久久久久久999| 91入口在线观看| 国产传媒在线| 亚洲成人av在线播放| 日本爱爱小视频| 国产精品乡下勾搭老头1| 国产又粗又猛又爽又黄的网站 | 亚洲自拍另类欧美丝袜| 好看的中文字幕在线播放| 欧美日韩和欧美的一区二区| 国产高清视频免费在线观看| 国产91精品免费| 熟女熟妇伦久久影院毛片一区二区| 韩国成人动漫| 色综久久综合桃花网| 99久久婷婷国产一区二区三区| 亚洲国产精品ⅴa在线观看| 亚洲人辣妹窥探嘘嘘| 亚洲色图网站| 精品国产一区二区三区麻豆小说 | 日韩欧美一区二区三区在线视频| 国产91精品久久久久久久| 91社区在线| 精品国产乱码久久久久久久久| 久久精品第一页| 26uuu亚洲婷婷狠狠天堂| xx欧美撒尿嘘撒尿xx| 国产精品jizz在线观看美国| 欧美大陆一区二区| www.欧美视频| 日韩av片免费在线观看| 欧洲伦理片一区 二区 三区| 在线观看91av| 国产日韩欧美在线观看视频| 97精品超碰一区二区三区| 日韩一区二区三区久久| 一区免费在线| 日本一级淫片演员| 欧美一级二级三级视频| 成人激情视频在线观看| 亚洲精品福利电影| 久久99精品国产99久久6尤物| 国产免费黄色录像| 在线观看成人小视频| 在线看片中文字幕| 成人久久久精品乱码一区二区三区| 免费一级特黄毛片| 久久综合av| 青娱乐国产91| 久久影视三级福利片| 51国产成人精品午夜福中文下载| 黑人精品视频| 久久精品最新地址| 九色蝌蚪在线| 亚洲精品成a人在线观看| 91麻豆成人精品国产| 一区二区三区在线观看动漫| 久久久久亚洲av成人无码电影| 免费高清不卡av| 国产二区视频在线播放| 欧美3p视频| 日韩hmxxxx| 精品一区在线| 久久亚洲一区二区| 美女视频亚洲色图| 国产v亚洲v天堂无码| 日韩免费一级| 亚洲在线免费看| 欧美激情网站| www亚洲欧美| 91在线观看| 中文字幕欧美精品在线| 精品成人一区二区三区免费视频| 91精品国产色综合久久| 在线免费看91| 69av一区二区三区| 日日夜夜综合网| 精品国产91久久久久久| 林心如三级全黄裸体| 国产欧美日韩视频在线观看| 国产人妻大战黑人20p| 国产激情视频一区二区三区欧美| 日韩中字在线观看| 欧美gayvideo| 一区二区三区四区免费观看| 国产精品久久久久久| 久久riav二区三区| 日韩极品在线| 欧美黄色直播| 精品视频久久| 一区二区在线观| 亚洲精品白浆高清| 日韩欧美一区二区三区四区五区 | 日韩成人毛片视频| 亚洲精品国产视频| 亚洲精品午夜视频| 国产免费成人在线视频| 成年人免费视频播放| 综合电影一区二区三区| 欧美成人黄色网| 亚洲成人av一区二区| 97久久久久久久| 欧美四级电影在线观看| 97超碰人人草| 日韩一级欧美一级| 色久视频在线播放| 神马久久久久久| 啦啦啦中文在线观看日本| 久久精品国产亚洲精品2020| 日韩123区| 日韩av片免费在线观看| 色婷婷成人网| 国产精品福利视频| 免费欧美激情| av磁力番号网| 一区二区三区高清视频在线观看| 丰满的少妇愉情hd高清果冻传媒 | 视频在线观看99| 青春草免费在线视频| 欧美大胆a视频| 亚洲美女尤物影院| 91av在线看| 欧美亚洲黄色| 国产在线观看一区二区三区 | 国产露出视频在线观看| 亚洲人在线观看| av在线免费网址| 国产99视频在线观看| 美女精品久久| 日本精品二区| 欧美激情视频一区二区三区免费| 青青草原网站在线观看| 国产一区二区三区久久| 成人在线免费在线观看| 久久成人av少妇免费| 在线一区二区不卡| 久久午夜电影网| 69av.com| 亚洲成人av中文| 97视频免费在线| 亚洲新声在线观看| 日产福利视频在线观看| 亚洲一区二区久久久久久久| 国产精品一区二区av日韩在线| 欧美日韩国产精品一卡| 欧美精品一线| 在线观看免费av网址| 国语一区二区三区| 日韩欧美国产网站| 久久久久久久久久97| 欧美性20hd另类| 好吊色一区二区| 久久视频中文字幕| 电影久久久久久| 久久偷看各类wc女厕嘘嘘偷窃 | 国产91视觉| 亚洲资源网站| 久久99久久久久久| 国产一区二区在线电影| 国产在视频线精品视频| 在线观看一区二区精品视频| 五月激情六月婷婷| 久久理论片午夜琪琪电影网| 国产精品极品美女在线观看| 国产欧美日韩亚洲| 国内精品久久久久久久97牛牛 | 中文字幕 日韩有码| 日韩电影大片中文字幕| youjizz在线播放| 日韩免费观看网站| 亚洲美女久久| jizzjizzxxxx| 国内精品国产成人| 中日韩一级黄色片| 91超碰这里只有精品国产| 日本暖暖在线视频| 成人精品视频在线| 亚洲精品一二三区区别| 伊人色在线视频| 亚洲精品中文在线影院| 国产美女永久免费| 美女福利视频一区| 日韩精品成人| 日韩av电影免费在线观看| 久久亚洲影院| 亚洲欧美日韩第一页| 欧美日韩高清在线播放| 日本a在线播放| 91九色精品视频| 亚洲欧美文学| 香港三级日本三级| 欧美小视频在线| wwwxxx在线观看| 亚洲va电影大全| 欧美午夜不卡| 97人妻天天摸天天爽天天| 一本一道久久a久久精品综合蜜臀| 91麻豆国产视频| 亚洲精品综合久久中文字幕| 最新日韩三级| 日韩视频在线观看视频| 国产成人免费xxxxxxxx| 国产网址在线观看| 亚洲人成在线播放| 午夜精品久久久久久毛片| 成人污网站在线观看| kk眼镜猥琐国模调教系列一区二区| 在线免费看av网站| 精品国产乱码久久久久久蜜臀| 麻豆视频在线免费观看| 99中文视频在线| 先锋影音久久久| 国产3级在线观看| 欧美大片拔萝卜| av高清不卡| 国产免费色视频| 波多野洁衣一区| 亚洲图片小说视频| 久久久久久久久久国产精品| 免费av一区二区三区四区| 久久国产成人精品国产成人亚洲| 国产超碰在线一区| 国产精品视频一区二区三| 日韩av网站大全| 欧美videos粗暴| 亚洲视频在线二区| 成人a区在线观看| 国产乱码在线观看| 国模视频一区二区| 日韩欧美中字| 国产 中文 字幕 日韩 在线| 91精品婷婷国产综合久久竹菊| 欧美精品hd| 奇米视频888战线精品播放| 国产不卡一区视频| 亚洲精品一区二区二区| 日韩综合视频在线观看|