精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從黑箱到透明工廠:Anthropic用回路追蹤技術給LLM裝上思維監控屏?

譯文 精選
人工智能
本文旨在介紹利用歸因圖技術對大型語言模型的計算回路進行逆向工程,目的是試圖徹底搞清大型語言模型的決策過程。

譯者 | 朱先忠

審校 | 重樓

引言

多年來,基于Transformer的大型語言模型(LLM)在從簡單的信息檢索系統到能夠進行編碼、寫作、開展研究的復雜智能體等一系列任務上取得了長足的進步。然而,盡管這些模型功能強大,但它們在很大程度上仍然是黑匣子。給定輸入,它們可以完成任務,但我們缺乏直觀的方法來理解任務的具體完成方式。

LLM旨在預測統計上最佳的下一個單詞/標記。但是,它們是否只專注于預測下一個標記,還是會提前規劃?例如,當我們要求模型寫一首詩時,它是一次生成一個單詞,還是在輸出單詞之前預測押韻模式?或者,當我們被問及一些基本的推理問題,例如達拉斯所在的州首府是什么?它們通常會產生看起來像是一連串推理的結果,但模型真的運用了這些推理嗎?我們無法洞察模型的內部思維過程。要理解LLM,我們需要追溯其底層邏輯。

對大型語言模型(LLM)內部計算的研究屬于“機械可解釋性”領域,旨在揭示模型的計算回路。Anthropic是致力于可解釋性研究的領先人工智能公司之一。2025年3月,他們發表了一篇題為《回路追蹤:揭示語言模型中的計算圖》的論文,旨在解決回路追蹤問題。

本文旨在解釋他們的論文工作背后的核心思想,并為理解LLM中的回路追蹤奠定基礎。

LLM中的回路是什么?

在定義語言模型中的“回路”之前,我們首先需要了解LLM的內部結構。它是一個基于Transformer架構的神經網絡;因此,將神經元視為基本計算單元,并將其跨層激活模式解釋為模型的計算回路,這似乎是顯而易見的。

然而,論文《邁向單義性》表明,僅僅追蹤神經元的激活并不能清楚地理解這些神經元被激活的原因。這是因為單個神經元通常是多義的,它們會對一系列不相關的概念做出反應。

此論文進一步表明,神經元由更基本的單元(稱為特征)組成,這些單元能夠捕獲更多可解釋的信息。事實上,一個神經元可以被看作是多個特征的組合。因此,我們的目標是追蹤特征激活,而不是追蹤神經元激活,也就是驅動模型輸出的實際意義單元。

這樣,我們可以將回路定義為模型用來將給定輸入轉換為輸出的特征激活和連接序列。

現在,我們知道了我們在尋找什么。接下來,讓我們更深入地了解一下基于Transformer的大型語言模型的基本架構。

技術架構

目前,我們已經確定需要追蹤特征激活而不是神經元激活。為了實現這一點,我們需要將現有LLM模型的神經元轉換為特征,即構建一個以特征形式表示計算的替代模型。

在深入探討這個替代模型是如何構建的之前,我們先簡單回顧一下基于Transformer的大型語言模型的架構。

下圖展示了基于Transformer的語言模型的運作方式。其思路是,使用嵌入將輸入轉換為標記(token)。這些標記被傳遞到注意力模塊,該模塊計算標記之間的關系。然后,每個標記被傳遞到多層感知器(MLP)模塊,該模塊使用非線性激活函數和線性變換進一步細化標記。在模型生成最終輸出之前,此過程會在多層中重復進行。

本圖片由作者本人繪制

既然我們已經闡述了基于Transformer的LLM的結構,接下來我們來看看什么是轉碼器。作者使用了一個“轉碼器”來開發替換模型。

轉碼器

轉碼器本身是一種神經網絡(通常比LLM的維度高得多),旨在用更易于解釋、功能等效的組件(特征)替換轉換器模型中的MLP塊。

本圖片由作者本人繪制

它分三個階段處理來自注意力模塊的標記:編碼、稀疏激活和解碼。實際上,它將輸入縮放到更高維空間,應用激活以強制模型僅激活稀疏特征,然后在解碼階段將輸出壓縮回原始維度。

本圖片由作者本人繪制

在對基于轉換器的LLM和轉碼器有了個基本了解之后,讓我們看看如何使用轉碼器來構建替換模型。

構建替代模型

如前所述,Transformer模塊通常由兩個主要組件組成:注意力模塊和MLP模塊(前饋網絡)。為了構建替換模型,需要將原始Transformer模型中的MLP模塊替換為轉碼器。這種集成是無縫的,因為轉碼器經過訓練可以模擬原始MLP的輸出,同時通過稀疏和模塊化特征公開其內部計算。

雖然標準轉碼器在單個Transformer層中訓練以模仿MLP行為,但本文作者使用了跨層轉碼器(CLT),它可以捕獲跨多個層級的多個轉碼器塊的組合效應。這一點非常重要,因為它使我們能夠追蹤某個特征是否分布在多個層級上,而這對于回路追蹤至關重要。

下圖展示了如何使用跨層轉碼器(CLT)構建替換模型。第一層的轉碼器輸出有助于構建所有上層模型的MLP等效輸出,直至最后。

本圖片由作者本人繪制

提示:下圖來自本文開始處的論文,展示了如何構建替換模型。它是利用特征替換原始模型的神經元。

本圖片的出處是這里

現在,我們了解了替換模型的架構。接下來,讓我們看看如何在替換模型的計算路徑上構建可解釋的表示。

模型計算的可解釋呈現:歸因圖

為了構建模型計算路徑的可解釋表示,我們從模型的輸出特征出發,逆向追溯特征網絡,以發現哪個先前的特征對其做出了貢獻。這通過后向雅可比矩陣來實現,該矩陣可以計算前一層的特征對當前特征激活的貢獻程度,并遞歸應用直至到達輸入。每個特征被視為一個節點,每個影響因素被視為一條邊。此過程可能生成包含數百萬條邊和節點的復雜圖,因此需要進行剪枝以保持圖的緊湊性和手動可解釋性。

作者將此計算圖稱為歸因圖,并開發了檢查它的工具,這成為了本文的核心貢獻。

下圖展示了一個示例歸因圖。

本圖片的出處是這里

現在,有了所有這些理解,我們就可以討論特征可解釋性了。

使用歸因圖實現特征可解釋性

研究人員使用Anthropic公司的Claude 3.5Haiku模型的歸因圖來研究其在不同任務中的表現。在詩歌生成中,他們發現該模型不僅僅是生成下一個詞,它還會進行一種規劃,既向前規劃,又向后規劃。在生成一行詩之前,該模型會識別幾個可能押韻或語義合適的詞作為結尾,然后向后推演,生成一行自然地指向該目標的詩句。令人驚訝的是,該模型似乎可以同時記住多個候選結尾詞,并根據最終選擇的詞重構整個句子。

這項技術提供了一個清晰的、機制化的視角,展現了語言模型如何生成結構化、富有創意的文本。這對于人工智能界來說是一個重要的里程碑。隨著我們開發出越來越強大的模型,追蹤和理解其內部規劃和執行的能力對于確保人工智能系統的一致性、安全性和可信度至關重要。

當前方法的局限性

歸因圖提供了一種追蹤單個輸入模型行為的方法,但它們尚無法提供可靠的方法來理解全局回路或模型在多個示例中使用的一致機制。這種分析依賴于用轉碼器替換多層感知器(MLP)計算,但目前尚不清楚這些轉碼器是真正復制了原始機制,還是僅僅近似輸出。此外,當前方法僅強調活躍特征,但非活躍或抑制性特征對于理解模型行為同樣重要。

結論

總之,通過歸因圖進行回路追蹤是理解語言模型內部工作原理的早期的但非常重要的一步。雖然這種方法還有很長的路要走,但回路追蹤的引入標志著通往真正可解釋性道路上的一個重要里程碑。

參考文獻

譯者介紹

朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:Circuit Tracing: A Step Closer to Understanding Large Language Models,作者:Sudheer Singh

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2024-07-17 09:03:56

2025-08-18 02:11:00

Claude模型Anthropic

2025-06-03 08:35:00

2025-04-27 09:21:00

AI模型訓練

2025-10-31 08:07:57

2021-05-07 05:54:43

數據庫數據湖數據

2025-01-10 10:30:00

大模型統計評估

2017-05-11 13:57:35

互聯網

2021-03-01 10:43:56

大數據人工智能

2021-02-28 13:57:51

大數據人工智能信息

2019-09-03 22:02:29

智能制造AWS

2025-03-31 08:30:00

AI模型技術

2022-09-14 09:21:41

監控系統

2025-09-15 08:42:00

AI模型系統

2025-09-16 12:49:11

2025-02-11 15:56:18

2023-03-01 08:40:43

監控診斷數據

2024-11-29 18:00:00

Python變量追蹤編程

2024-03-08 12:56:16

2015-11-26 10:20:17

F5應用交付
點贊
收藏

51CTO技術棧公眾號

免费在线观看精品| 一区中文字幕| 国产精品视频免费看| 亚洲一区二区三区视频播放| 国产在线观看成人| 精品国产99| 精品国产污污免费网站入口 | 欧美韩日精品| 精品呦交小u女在线| 精品综合久久久久| 天堂电影一区| 一区二区三区成人| 日本午夜精品电影| 亚洲黄色小说网| 奇米影视在线99精品| 欧美黄色片视频| www.com.av| 日韩精选在线| 日韩女优毛片在线| 久久久久久蜜桃一区二区| 99热99re6国产在线播放| 国产精品色哟哟| 精品一区二区三区国产| 国产福利第一视频| 日本成人在线一区| 91精品国产高清自在线看超| 国产美女福利视频| 禁断一区二区三区在线| 亚洲国产欧美一区二区三区同亚洲| 91精品无人成人www| 九色porny丨国产首页在线| 国产精品久久福利| 欧美日韩免费观看一区| 天天操天天干天天| 国产a视频精品免费观看| 成人国产精品一区二区| 一级一级黄色片| 国产婷婷精品| 91av福利视频| 日韩欧美激情视频| 欧美三级特黄| 久久69精品久久久久久久电影好 | 久久99精品久久久久久园产越南| 精品国产乱码久久久久久影片| 日韩av.com| 欧美在线一级| 欧美老肥妇做.爰bbww| 国产一级片黄色| 巨茎人妖videos另类| 黑人狂躁日本妞一区二区三区 | 亚洲欧美成人| 欧美伊久线香蕉线新在线| 男人天堂中文字幕| 好吊视频一区二区三区四区| 欧美激情第一页xxx| 欧美日韩一级在线观看| 国模一区二区三区| 国模精品视频一区二区| www.日本精品| 麻豆九一精品爱看视频在线观看免费| 欧美专区第一页| 在线免费观看国产精品| 日韩电影在线一区二区三区| 国产精品视频精品| 国产精品伦一区二区三区| 精品一区二区精品| 99re国产视频| 四虎永久在线精品免费网址| 久久你懂得1024| 欧美一区亚洲二区| 日本在线免费| 一区二区视频在线| 无罩大乳的熟妇正在播放| 9i看片成人免费高清| 色婷婷综合久久久久中文 | 外国电影一区二区| 欧美日本精品一区二区三区| 成人高清在线观看视频| www.亚洲一二| 亚洲天堂成人在线| 欧美a级片免费看| 欧美黄色一级视频| 热99精品里视频精品| 亚洲香蕉在线视频| 国产精品66部| 欧美亚洲丝袜| 免费网站成人| 午夜国产精品影院在线观看| 国产精品涩涩涩视频网站| 国产日韩一区二区三免费高清| 日韩精品一区在线| 亚洲最大成人综合网| 最新国产精品久久久| 性色av一区二区咪爱| 欧美在线视频精品| 国产v日产∨综合v精品视频| 日本午夜精品一区二区| 天堂av资源在线观看| 色屁屁一区二区| 欧美视频亚洲图片| 综合亚洲自拍| 色综合老司机第九色激情| 青青草免费观看视频| 韩国v欧美v日本v亚洲v| 久久综合一区| 2024短剧网剧在线观看| 色哦色哦哦色天天综合| 国产欧美视频一区| 日韩国产综合| 欧美亚洲国产精品| www三级免费| 国产精品免费视频一区| 国产 福利 在线| 亚洲国产aⅴ精品一区二区| 亚洲人成电影网站色| 久久久久无码国产精品| 秋霞午夜av一区二区三区| 精品亚洲欧美日韩| 亚洲丝袜精品| 欧美群妇大交群中文字幕| jizz欧美性20| 亚洲电影av| 成人av免费电影| 精品176二区| 欧美色大人视频| 国产手机在线观看| 免费精品视频| 极品校花啪啪激情久久| 美女精品导航| 日韩精品在线看片z| 污污的视频在线免费观看| 日韩av网站在线观看| 欧美xxxx黑人又粗又长密月 | 国产精品久久久久免费a∨大胸| 天堂av在线免费| 亚洲成人久久影院| 国产ts在线观看| 欧美在线三区| 91九色国产在线| 九色porny在线| 在线播放91灌醉迷j高跟美女 | 成人做爰69片免费| 欧美jizzhd精品欧美巨大免费| 国产九九精品视频| 在线观看麻豆| 欧美人动与zoxxxx乱| 日韩激情小视频| 国产一区二区三区日韩| 日韩人妻精品一区二区三区| 国产精品xnxxcom| 久久成人人人人精品欧| 国产99999| 亚洲午夜久久久久久久久久久| 自拍视频第一页| 一区精品久久| 久久久久天天天天| 欧美极度另类| 中文字幕亚洲综合久久| 国产精品免费无遮挡| 亚洲精品一二三区| 免费不卡的av| 免费亚洲婷婷| 亚洲欧洲日韩精品| 国产精品毛片无码| 欧美激情videos| 日韩a在线观看| 欧美性受xxxx| 精品国产大片大片大片| 国产精品一级在线| 成人免费毛片在线观看| 亚州综合一区| 国产精品视频一区二区高潮| a级片国产精品自在拍在线播放| 日韩一区二区三| 日韩精品一区二区三区国语自制| 久久一区二区三区四区| 亚洲国产日韩欧美在线观看| 欧美jizzhd精品欧美巨大免费| 国产口爆吞精一区二区| 好看的日韩精品| 天天摸夜夜添狠狠添婷婷| 天天综合色天天综合色h| www.中文字幕av| 久久福利视频一区二区| 久久色免费在线视频| 亚洲一卡二卡三卡四卡无卡网站在线看| 超碰在线视屏| 在线视频日本亚洲性| 成人高潮片免费视频| 富二代精品短视频| 久久一级免费视频| 不卡一区二区三区四区| 黄色免费网址大全| 精品福利电影| 永久久久久久| 九九热爱视频精品视频| 成人精品久久久| 中文在线资源| 蜜臀久久99精品久久久无需会员| 欧美男男激情freegay| 91麻豆精品91久久久久久清纯| 在线观看国产亚洲| ...中文天堂在线一区| 免费中文字幕av| 国产精品一区二区三区99| 日韩av黄色网址| 欧美精品麻豆| 一区二区三区欧美在线| 亚洲电影男人天堂| 国产精品成人一区二区三区| 青娱乐极品盛宴一区二区| 51精品国产黑色丝袜高跟鞋| 女人黄色免费在线观看| 在线观看日韩av| 91热门视频在线观看| 永久免费看mv网站入口亚洲| 欧美激情欧美激情| 久草在在线视频| 中文字幕一区二区三区乱码图片 | 亚洲熟女乱色一区二区三区| 亚洲mv大片欧洲mv大片| 欧美中日韩一区二区三区| 一区二区三区国产好| 91最新在线免费观看| 成人黄色视屏网站| 国产精品aaaa| 欧美aa在线观看| 久久久天堂国产精品女人| 国产黄大片在线观看画质优化| 亚洲最新在线视频| 天堂网av在线播放| 亚洲国产精品999| 国产福利资源在线| 欧美一二三区在线观看| 在线播放精品视频| 欧美中文字幕一二三区视频| 久久国产视频精品| 欧美日韩国产精品专区| 日本少妇久久久| 一区二区三区视频在线看| √天堂中文官网8在线| 亚洲欧洲www| 污污的视频在线免费观看| 中文字幕日韩一区二区| 97精品在线播放| 综合婷婷亚洲小说| 亚洲 欧美 变态 另类 综合| 亚洲日本护士毛茸茸| 日韩一区二区不卡视频| 亚洲伦在线观看| 国产一级大片在线观看| 亚洲国产视频直播| 国产又大又黑又粗免费视频| 台湾色综合娱乐中文网| 国产精品第一第二| av成人在线播放| 国产欧美日韩亚洲精品| 日韩精品第二页| 91久久精品一区二区别| jazzjazz国产精品久久| 国产综合欧美在线看| 天堂综合网久久| 欧美日韩成人一区二区三区| 精品国产日韩欧美| 2025韩国大尺度电影| 欧美在线91| 97成人在线免费视频| 日精品一区二区| 亚洲天堂伊人网| 成人午夜视频在线观看| av网站免费在线播放| 中文字幕av一区二区三区高| 91视频综合网| 亚洲成人精品在线观看| 97人妻一区二区精品视频| av免费不卡国产观看| 一区二区三区不卡视频在线观看 | 国产麻豆剧传媒精品国产| www.欧美.com| 国产视频123区| 亚洲综合av网| 波多野结衣黄色| 日韩欧美一二区| 日本韩国精品一区二区| 日韩在线免费观看视频| 成人福利电影| 国产精品视频26uuu| 亚洲图色一区二区三区| 欧美久久在线| 欧美.www| 日韩毛片在线免费看| 国产伦精品一区二区三区免费| 美女又爽又黄免费| 中文字幕日韩一区二区| 国产成人在线视频观看| 欧美一区国产二区| 精品一二三区视频| 欧美大奶子在线| 成人做爰视频www| 国产在线资源一区| 亚洲一区二区| av片中文字幕| 成人一级片网址| 91ts人妖另类精品系列| 精品久久久久久| 精品国产无码AV| 在线日韩第一页| 五月天av在线| 成人高清在线观看| 国产电影一区二区在线观看| 黑人糟蹋人妻hd中文字幕| 国产精品亚洲午夜一区二区三区 | 亚洲专区区免费| 一区二区三区国产| 91丨porny丨在线中文 | 日韩在线视频不卡| 精品第一国产综合精品aⅴ| 天天在线视频色| 国产精品av电影| 免费国产自久久久久三四区久久| 日韩免费在线观看av| 精品一区中文字幕| 神马久久久久久久久久久| 欧美性猛交xxxx免费看| 少妇高潮一区二区三区99小说| 欧美成aaa人片在线观看蜜臀| 欧美日韩破处视频| 日韩精品成人一区二区在线观看| 久久成人亚洲| 亚洲一级Av无码毛片久久精品| 亚洲精品少妇30p| 国产又粗又黄视频| 日韩中文字幕国产| 激情久久一区二区| 亚洲一区二区三区加勒比| 免费成人美女在线观看.| 亚洲av无码一区二区二三区| 午夜精品福利一区二区三区av| 亚洲国产精品无码久久| 欧美贵妇videos办公室| 亚洲超碰在线观看| 性一交一乱一伧国产女士spa| 国产乱码字幕精品高清av| 国产女人被狂躁到高潮小说| 欧美一区二区三区视频免费| 伊人影院蕉久影院在线播放| 91香蕉嫩草影院入口| 一区二区在线影院| 丰满少妇一区二区三区专区| 玉米视频成人免费看| 隣の若妻さん波多野结衣| 久久久久国产精品www| 欧美久久精品| 一区二区传媒有限公司| 久久久精品天堂| 中文字幕久久久久| 久久精品国产69国产精品亚洲| 国产电影一区| 国产96在线 | 亚洲| 91麻豆精品视频| 成人毛片一区二区三区| 日韩中文在线不卡| 国产精品2区| 欧美日韩成人免费视频| xfplay精品久久| 亚洲天堂网视频| 久久大大胆人体| 琪琪久久久久日韩精品 | 国产自产v一区二区三区c| 成人性生活毛片| 亚洲激情久久久| 日本在线视频一区二区| 国产又粗又大又爽的视频| 高清国产一区二区| 久久久黄色大片| 日韩视频免费中文字幕| 在这里有精品| 国产成人综合一区| 亚洲欧美另类久久久精品| 日本美女一级片| 国产精品一区二区3区| 欧美日本中文| 国产aⅴ激情无码久久久无码| 欧美日本韩国一区二区三区视频 | 国产成人亚洲综合青青| 久久精品久久久| 久久久久国产精品区片区无码| 欧美日韩精品综合在线| 欧美xxxx黑人又粗又长| 欧美在线一二三区| 国产成人免费高清| 超碰在线97观看| 久久乐国产精品| 国产精品videosex性欧美| av在线播放网址| 欧美高清hd18日本| 中文在线а√天堂| 成人在线视频一区二区三区| 国产女人18水真多18精品一级做| 性一交一乱一乱一视频|