精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從黑箱到透明工廠:Anthropic用回路追蹤技術給LLM裝上思維監控屏? 原創

發布于 2025-4-16 06:09
瀏覽
0收藏

本文旨在介紹利用歸因圖技術對大型語言模型的計算回路進行逆向工程,目的是試圖徹底搞清大型語言模型的決策過程。

引言

多年來,基于Transformer的大型語言模型(LLM)在從簡單的信息檢索系統到能夠進行編碼、寫作、開展研究的復雜智能體等一系列任務上取得了長足的進步。然而,盡管這些模型功能強大,但它們在很大程度上仍然是黑匣子。給定輸入,它們可以完成任務,但我們缺乏直觀的方法來理解任務的具體完成方式。

LLM旨在預測統計上最佳的下一個單詞/標記。但是,它們是否只專注于預測下一個標記,還是會提前規劃?例如,當我們要求模型寫一首詩時,它是一次生成一個單詞,還是在輸出單詞之前預測押韻模式?或者,當我們被問及一些基本的推理問題,例如達拉斯所在的州首府是什么?它們通常會產生看起來像是一連串推理的結果,但模型真的運用了這些推理嗎?我們無法洞察模型的內部思維過程。要理解LLM,我們需要追溯其底層邏輯。

對大型語言模型(LLM)內部計算的研究屬于“機械可解釋性”領域,旨在揭示模型的計算回路。Anthropic是致力于可解釋性研究的領先人工智能公司之一。2025年3月,他們發表了一篇題為《??回路追蹤:揭示語言模型中的計算圖?》的論文,旨在解決回路追蹤問題。?

本文旨在解釋他們的論文工作背后的核心思想,并為理解LLM中的回路追蹤奠定基礎。

LLM中的回路是什么?

在定義語言模型中的“回路”之前,我們首先需要了解LLM的內部結構。它是一個基于Transformer架構的神經網絡;因此,將神經元視為基本計算單元,并將其跨層激活模式解釋為模型的計算回路,這似乎是顯而易見的。

然而,論文《??邁向單義性??》表明,僅僅追蹤神經元的激活并不能清楚地理解這些神經元被激活的原因。這是因為單個神經元通常是多義的,它們會對一系列不相關的概念做出反應。?

此論文進一步表明,神經元由更基本的單元(稱為特征)組成,這些單元能夠捕獲更多可解釋的信息。事實上,一個神經元可以被看作是多個特征的組合。因此,我們的目標是追蹤特征激活,而不是追蹤神經元激活,也就是驅動模型輸出的實際意義單元。

這樣,我們可以將回路定義為模型用來將給定輸入轉換為輸出的特征激活和連接序列。

現在,我們知道了我們在尋找什么。接下來,讓我們更深入地了解一下基于Transformer的大型語言模型的基本架構。

技術架構

目前,我們已經確定需要追蹤特征激活而不是神經元激活。為了實現這一點,我們需要將現有LLM模型的神經元轉換為特征,即構建一個以特征形式表示計算的替代模型。

在深入探討這個替代模型是如何構建的之前,我們先簡單回顧一下基于Transformer的大型語言模型的架構。

下圖展示了基于Transformer的語言模型的運作方式。其思路是,使用嵌入將輸入轉換為標記(token)。這些標記被傳遞到注意力模塊,該模塊計算標記之間的關系。然后,每個標記被傳遞到多層感知器(MLP)模塊,該模塊使用非線性激活函數和線性變換進一步細化標記。在模型生成最終輸出之前,此過程會在多層中重復進行。

從黑箱到透明工廠:Anthropic用回路追蹤技術給LLM裝上思維監控屏?-AI.x社區

本圖片由作者本人繪制

既然我們已經闡述了基于Transformer的LLM的結構,接下來我們來看看什么是轉碼器。作者使用了一個“轉碼器”來開發替換模型。

轉碼器

轉碼器本身是一種神經網絡(通常比LLM的維度高得多),旨在用更易于解釋、功能等效的組件(特征)替換轉換器模型中的MLP塊。

從黑箱到透明工廠:Anthropic用回路追蹤技術給LLM裝上思維監控屏?-AI.x社區

本圖片由作者本人繪制

它分三個階段處理來自注意力模塊的標記:編碼、稀疏激活和解碼。實際上,它將輸入縮放到更高維空間,應用激活以強制模型僅激活稀疏特征,然后在解碼階段將輸出壓縮回原始維度。

從黑箱到透明工廠:Anthropic用回路追蹤技術給LLM裝上思維監控屏?-AI.x社區

本圖片由作者本人繪制

在對基于轉換器的LLM和轉碼器有了個基本了解之后,讓我們看看如何使用轉碼器來構建替換模型。

構建替代模型

如前所述,Transformer模塊通常由兩個主要組件組成:注意力模塊和MLP模塊(前饋網絡)。為了構建替換模型,需要將原始Transformer模型中的MLP模塊替換為轉碼器。這種集成是無縫的,因為轉碼器經過訓練可以模擬原始MLP的輸出,同時通過稀疏和模塊化特征公開其內部計算。

雖然標準轉碼器在單個Transformer層中訓練以模仿MLP行為,但本文作者使用了跨層轉碼器(CLT),它可以捕獲跨多個層級的多個轉碼器塊的組合效應。這一點非常重要,因為它使我們能夠追蹤某個特征是否分布在多個層級上,而這對于回路追蹤至關重要。

下圖展示了如何使用跨層轉碼器(CLT)構建替換模型。第一層的轉碼器輸出有助于構建所有上層模型的MLP等效輸出,直至最后。

從黑箱到透明工廠:Anthropic用回路追蹤技術給LLM裝上思維監控屏?-AI.x社區

本圖片由作者本人繪制

提示:下圖來自本文開始處的論文,展示了如何構建替換模型。它是利用特征替換原始模型的神經元。

從黑箱到透明工廠:Anthropic用回路追蹤技術給LLM裝上思維監控屏?-AI.x社區

本圖片的出處是??這里??

現在,我們了解了替換模型的架構。接下來,讓我們看看如何在替換模型的計算路徑上構建可解釋的表示。

模型計算的可解釋呈現:歸因圖

為了構建模型計算路徑的可解釋表示,我們從模型的輸出特征出發,逆向追溯特征網絡,以發現哪個先前的特征對其做出了貢獻。這通過后向雅可比矩陣來實現,該矩陣可以計算前一層的特征對當前特征激活的貢獻程度,并遞歸應用直至到達輸入。每個特征被視為一個節點,每個影響因素被視為一條邊。此過程可能生成包含數百萬條邊和節點的復雜圖,因此需要進行剪枝以保持圖的緊湊性和手動可解釋性。

作者將此計算圖稱為歸因圖,并開發了檢查它的工具,這成為了本文的核心貢獻。

下圖展示了一個示例歸因圖。

從黑箱到透明工廠:Anthropic用回路追蹤技術給LLM裝上思維監控屏?-AI.x社區

本圖片的出處是??這里??

現在,有了所有這些理解,我們就可以討論特征可解釋性了。

使用歸因圖實現特征可解釋性

研究人員使用Anthropic公司的Claude 3.5Haiku模型的歸因圖來研究其在不同任務中的表現。在詩歌生成中,他們發現該模型不僅僅是生成下一個詞,它還會進行一種規劃,既向前規劃,又向后規劃。在生成一行詩之前,該模型會識別幾個可能押韻或語義合適的詞作為結尾,然后向后推演,生成一行自然地指向該目標的詩句。令人驚訝的是,該模型似乎可以同時記住多個候選結尾詞,并根據最終選擇的詞重構整個句子。

這項技術提供了一個清晰的、機制化的視角,展現了語言模型如何生成結構化、富有創意的文本。這對于人工智能界來說是一個重要的里程碑。隨著我們開發出越來越強大的模型,追蹤和理解其內部規劃和執行的能力對于確保人工智能系統的一致性、安全性和可信度至關重要。

當前方法的局限性

歸因圖提供了一種追蹤單個輸入模型行為的方法,但它們尚無法提供可靠的方法來理解全局回路或模型在多個示例中使用的一致機制。這種分析依賴于用轉碼器替換多層感知器(MLP)計算,但目前尚不清楚這些轉碼器是真正復制了原始機制,還是僅僅近似輸出。此外,當前方法僅強調活躍特征,但非活躍或抑制性特征對于理解模型行為同樣重要。

結論

總之,通過歸因圖進行回路追蹤是理解語言模型內部工作原理的早期的但非常重要的一步。雖然這種方法還有很長的路要走,但回路追蹤的引入標志著通往真正可解釋性道路上的一個重要里程碑。

參考文獻

譯者介紹

朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:??Circuit Tracing: A Step Closer to Understanding Large Language Models??作者:Sudheer Singh

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
亚洲欧洲韩国日本视频| 欧美高清一区| 制服丝袜av成人在线看| 成人在线免费观看网址| 99久久精品国产一区色| 国产亚洲午夜| 久久精品国产成人| 日本一卡二卡在线| 91国内外精品自在线播放| 亚洲自拍偷拍av| 日韩女优中文字幕| 丰满人妻妇伦又伦精品国产| 日韩一区二区三区在线免费观看 | 第一区第二区在线| 欧美性猛交xxxx免费看| 影音欧美亚洲| 神马久久高清| 国产福利视频一区二区三区| 国产成人一区二区三区电影| 久久综合久久鬼| 色97色成人| 日韩激情在线视频| 下面一进一出好爽视频| 国产精品传媒麻豆hd| 国产精品色婷婷久久58| 久久草.com| 亚洲精品一区二区口爆| 久久电影网站中文字幕| 97av在线影院| 久久精品国产亚洲av香蕉| 日韩在线不卡| 国产精品夫妻自拍| 欧美午夜精品在线| 亚洲国产成人不卡| 日韩一二三四| 97久久精品人人澡人人爽| 国产精品免费小视频| 男女啊啊啊视频| 欧美91视频| 久久视频在线看| 天堂资源在线视频| 婷婷亚洲精品| 亚洲国产日韩欧美在线99| 韩国三级在线看| www.91精品| 欧美伊人精品成人久久综合97| 人妻互换免费中文字幕| 69xxx在线| 国产精品初高中害羞小美女文| 青青草国产精品| 日本免费不卡| 国产日韩欧美综合在线| 极品日韩久久| 无码h黄肉3d动漫在线观看| 国产乱人伦偷精品视频免下载| 国产精品吴梦梦| 一级aaaa毛片| 韩国一区二区三区| 成人黄在线观看| 国产乱码一区二区| 国产另类ts人妖一区二区| 亚洲在线视频福利| 亚洲第一视频在线| 99精品热视频| 欧美激情www| 国产裸舞福利在线视频合集| 国产精品色哟哟网站| 成年人免费观看的视频| www.欧美日本韩国| 一区二区三区在线观看动漫| www.日本在线视频| 白浆在线视频| 91精品91久久久中77777| 香港日本韩国三级网站| 香蕉久久一区| 欧美成人aa大片| jlzzjizz在线播放观看| 国产日产一区| 久久亚洲一区二区三区四区五区高 | 特级西西444| www中文字幕在线观看| 精品久久久一区| 久久精品香蕉视频| 国产精选久久| 日韩成人av网址| 国产精成人品免费观看| 中文无码久久精品| 91精品国产高清| 中文字幕视频在线播放| 成人免费毛片a| 日韩国产欧美一区| www在线视频| 欧美性生交xxxxx久久久| 一区二区三区入口| 国产精品tv| 一区二区三区国产视频| 久久中文字幕在线观看| 日韩激情视频网站| 国产精品一区二区三区不卡| 91欧美在线视频| 亚洲国产成人91porn| 香蕉视频禁止18| 都市激情亚洲| xxxxx成人.com| 色av性av丰满av| 丰满白嫩尤物一区二区| 亚洲第一导航| 99riav视频在线观看| 欧美日韩一二三| 中文字幕一区二区三区人妻不卡| 国产高清一区二区| 日本欧美爱爱爱| 亚洲国产精品久久久久爰性色| 久久精品免费在线观看| 男女日批视频在线观看| 99精品美女视频在线观看热舞| 国产视频精品va久久久久久| 九九精品视频免费| 首页亚洲欧美制服丝腿| 国产综合色一区二区三区| 免费a级人成a大片在线观看| 日本韩国精品在线| 亚洲欧美日本一区| 欧美私人啪啪vps| 91香蕉亚洲精品| av免费观看一区二区| 欧美色道久久88综合亚洲精品| 国产裸体视频网站| 色综合天天综合网中文字幕| 国产成人精品视| 天天综合在线视频| 亚洲曰韩产成在线| 久久久久亚洲av无码麻豆| 日产精品一区二区| 国产精品入口免费视| jizz日韩| 欧美日韩高清一区| 奇米网一区二区| 青草国产精品久久久久久| 任我爽在线视频精品一| 校园春色亚洲| 亚洲开心激情网| 在线观看亚洲天堂| 2023国产精品| 午夜精品久久久内射近拍高清 | 日韩国产精品一区| 国产午夜在线播放| 91视频xxxx| 国产成人精品视频免费看| 精品国产第一国产综合精品| 久久久精品免费视频| 99精品视频在线播放免费| 中文字幕日本乱码精品影院| 五月花丁香婷婷| 一区二区三区在线| 99九九视频| yellow字幕网在线| 亚洲精品网站在线播放gif| 国产一区二区99| 久久亚洲精华国产精华液| 国产精品欧美激情在线观看| 少妇精品久久久| 国产精品第一视频| 毛片在线播放a| 91.成人天堂一区| 久久国产精品波多野结衣| 成人avav影音| 99视频精品免费| 99欧美视频| www久久99| 亚洲黄色中文字幕| 一区二区三区精品99久久| 国产精品毛片久久久久久久av| 亚洲免费在线视频一区 二区| 麻豆传媒在线看| 夜夜精品视频| 亚洲一区二区三区精品在线观看| 久久国产精品美女| 91精品国产高清久久久久久| 国产高清视频免费最新在线| 91精品一区二区三区在线观看| 国产亚洲精久久久久久无码77777| 26uuu另类欧美| www.精品在线| 亚洲午夜久久久久久尤物| 欧美极品日韩| 欧美视频免费看| 欧美日韩国产999| 三区在线观看| 在线成人免费视频| 国产微拍精品一区| 自拍偷拍国产精品| 国产精品无码网站| 国产一区二区三区免费在线观看| 免费看国产一级片| 午夜av一区| 麻豆精品视频| 精品视频一区二区三区| 午夜精品久久久久久久99热| 成人动漫在线免费观看| 亚洲激情免费观看| av老司机久久| 欧美亚洲国产一区二区三区 | 国产美女av在线| 精品香蕉一区二区三区| av中文字幕播放| 在线观看精品一区| 日韩av在线播| 一区二区三区四区不卡视频| 97超碰在线资源| 国产精品一二三| 欧美性猛交xxx乱久交| 激情婷婷亚洲| 国产精品夜夜夜爽张柏芝| 天堂av一区二区三区在线播放| 国产精品一区二区女厕厕| 极品视频在线| 欧美激情精品在线| av网址在线| 日韩亚洲国产中文字幕| 日本国产在线| 亚洲激情中文字幕| 亚洲精品综合网| 91精品免费在线| 正在播放木下凛凛xv99| 日本韩国欧美在线| 亚洲午夜18毛片在线看| 福利视频一区二区| 欧美亚洲天堂网| 亚洲高清视频在线| 久久久精品一区二区涩爱| 亚洲精品午夜久久久| 日韩在线视频免费看| 国产日产欧产精品推荐色 | 日韩有码一区| 九色一区二区| 欧美激情极品| 国产乱人伦精品一区二区| 天堂精品久久久久| av在线不卡一区| 日韩视频一区二区三区四区| 91成人免费视频| 日本99精品| 国产精品一码二码三码在线| 国产66精品| 国产麻豆乱码精品一区二区三区 | 亚洲激情免费观看| 天堂资源最新在线| 亚洲欧美激情另类校园| 美国一级片在线免费观看视频 | 欧美日韩免费高清一区色橹橹 | 亚洲视频精品一区| 成人三级视频| 中文字幕99| 亚洲在线久久| 国产精品igao激情视频| 国模一区二区三区| 妞干网在线视频观看| 日韩视频中文| 九色porny91| 久久国产综合精品| 伊人av在线播放| 成人h动漫精品一区二区| 精品一区二区三区四区五区六区| 99久久精品情趣| 欧美激情aaa| 国产精品久线观看视频| 国产午夜手机精彩视频| 午夜精品福利视频网站| 亚洲欧美一二三区| 欧美日韩国产另类不卡| 成人高潮片免费视频| 亚洲精品久久久久久久久| 岛国在线视频| 九九热在线精品视频| 性国裸体高清亚洲| 国产精品视频色| 欧美三级一区| 欧美日本韩国国产| 亚洲中无吗在线| 日日碰狠狠躁久久躁婷婷| 国模大尺度一区二区三区| 波多野结衣影院| 国产精品久久久久久户外露出| 青青草在线观看视频| 欧美日韩国产中文字幕 | 国产主播一区二区| yy1111111| 亚洲图片激情小说| 在线能看的av| 欧美一级理论片| 国产福利小视频在线观看| 久久99精品国产99久久6尤物| av综合电影网站| 99re在线观看视频| 成人在线免费观看91| 亚洲国产精品无码观看久久| 男女视频一区二区| 中文文字幕文字幕高清| 国产精品第一页第二页第三页| 国产视频91在线| 欧美一区二区黄色| 成人在线高清视频| 国内精品一区二区三区| 99精品女人在线观看免费视频| 欧美激情www| 亚洲国产精品一区制服丝袜| 手机av在线免费| 久久色在线观看| 日本少妇bbwbbw精品| 欧美一级电影网站| 2019中文字幕在线视频| 热久久99这里有精品| 91精品日本| 久久久久久久久久久久久国产| 日韩不卡一区二区| 国产交换配乱淫视频免费| 亚洲电影一级黄| 二区三区在线视频| 另类专区欧美制服同性| a成人v在线| 少妇精品久久久久久久久久| 亚洲一区欧美二区| 国产视频精品视频| 亚洲一区二区三区视频在线播放| 国产一区二区麻豆| 视频在线一区二区| 91精品国产66| 亚洲国产精品www| 三级欧美韩日大片在线看| 手机在线看片日韩| 午夜精品久久久久久久| 好吊色一区二区三区| 欧美贵妇videos办公室| 亚洲精品v亚洲精品v日韩精品| 日韩 欧美 自拍| 精品系列免费在线观看| 国精品人伦一区二区三区蜜桃| 欧美丝袜丝交足nylons图片| 成人激情电影在线看| 国产精品久久久久久久久久久久久久| 免费电影一区二区三区| 欧美极品欧美精品欧美图片| 91视频一区二区三区| 精品免费囯产一区二区三区 | 奇米888四色在线精品| www.av天天| 欧美人妇做爰xxxⅹ性高电影 | 蜜臀av中文字幕| 色综合色综合久久综合频道88| 国产福利资源一区| 青青青免费在线| www国产亚洲精品久久麻豆| 国内自拍视频在线播放| 亚洲图中文字幕| 久久亚洲国产精品尤物| 97精品国产97久久久久久粉红| 国产不卡免费视频| 男人的天堂一区二区| 国产一区二区三区网站| 95精品视频| 国产传媒久久久| 久久亚洲二区三区| 伊人网视频在线| 欧美裸体xxxx极品少妇| 秋霞蜜臀av久久电影网免费| 99视频在线免费| 自拍偷拍欧美激情| 色呦呦中文字幕| 国产精品久久精品| 欧美精品国产| 丝袜美腿中文字幕| 欧美久久久久久蜜桃| 宅男在线观看免费高清网站| 精品久久久久久一区二区里番| 日韩电影在线免费| 欧美在线视频第一页| 亚洲精品电影网在线观看| 精品三区视频| 老子影院午夜伦不卡大全| 久久精品水蜜桃av综合天堂| 99在线观看免费| 欧美一区二区.| 亚洲一级淫片| 91网站免费视频| 日韩精品一区二区三区在线观看| 超碰一区二区| 日韩一级特黄毛片| 日本一区二区视频在线| 精品人妻一区二区三区含羞草 | 最近国语视频在线观看免费播放| 久热精品在线视频| 欧美综合自拍| 无套内谢丰满少妇中文字幕 | 中文字幕佐山爱一区二区免费| 日本免费网站在线观看| 成人免费xxxxx在线观看| 一区二区黄色| 久草国产在线视频| 少妇高潮久久久久久潘金莲|