精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OpenAI官宣開源Transformer Debugger!不用寫代碼,人人可以破解LLM黑箱

人工智能
研究人員于是在訓練期間「重采樣」這些死神經元,允許模型代表給定的自動編碼器隱藏層維度的更多特征,從而產生更好的結果。

AGI真的越來越近了!

為了確保人類不被AI殺死,在解密神經網絡/Transfomer黑箱這一方面,OpenAI從未停下腳步。

去年5月,OpenAI團隊發布了一個令人震驚的發現:GPT-4竟可以解釋GPT-2的三十萬神經元!

網友紛紛驚呼,智慧原來是這個樣子。

圖片圖片

而就在剛剛,OpenAI超級對齊團隊負責人又正式官宣,要開源內部一直使用的大殺器——Transformer調試器(Transformer Debugger)。

簡之,研究者可以用TDB工具分析Transformer的內部結構,從而對小模型的特定行為進行調查。

圖片圖片

也就是說,有了這個TDB工具,未來它就可以幫我們剖析和分析AGI了!

圖片圖片

Transformer調試器將稀疏自動編碼器,與OpenAI開發的「自動可解釋性」——即用大模型自動解釋小模型,技術相結合。

鏈接:OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經元全被看透

圖片圖片

論文地址:https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html#sec-intro

值得一提的是,研究人員不用寫代碼,就能快速探索LLM的內部構造。

比如,它可以回答「為什么模型會輸出token A而不是token B」,「為什么注意力頭H會關注token T」之類的問題。

圖片圖片

因為TDB能支持神經元和注意力頭,所以就可以讓研究人員通過消融單個神經元來干預前向傳遞,并觀察發生的具體變化。

不過根據Jan Leike的說法,這個工具現在還只是一個早期的版本,OpenAI放出來是希望更多的研究人員能夠用上,并且在現有基礎上進一步改進。

圖片圖片

項目地址:https://github.com/openai/transformer-debugger

工作原理

要理解這個Transformer Debugger的工作原理,需要回顧OpenAI在2023年5月份放出的一份和對齊有關的研究。

圖片

TDB工具是基于此前發布的兩項研究,不會發布論文

簡單來說,OpenAI希望用參數更大能力更強的模型(GPT-4)去自動分析小模型(GPT-2)的行為,解釋它的運行機制。

圖片圖片

當時OpenAI研究的初步結果是,參數比較少的模型容易被理解,但是隨著模型參數變大,層數增加,解釋的效果會暴降。

圖片圖片

當時OpenAI在研究中稱,限于GPT-4本身設計就不是用來解釋小模型行為的,所以整體上對于GPT-2的解釋成果還很差。

圖片圖片

未來需要開發出能夠更好地解釋模型行為的算法和工具。

而現在開源的Transformer Debugger,就是OpenAI在之后這一年的階段性成果。

而這個「更好的工具」——Transformer Debugger,就是將「稀疏自動編碼器」結合進這個「用大模型解釋小模型」的技術線路中去。

然后再將之前OpenAI在可解釋性研究中用GPT-4解釋小模型的過程零代碼化,從而大大降低了研究人員上手的門檻。

GPT-2 Small被看穿了

在GitHub項目主頁,OpenAI團隊成員通過視頻介紹了最新Transformer調試器工具。

與Python調試器類似,TDB可以讓你逐步查看語言模型輸出、跟蹤重要激活并分析上游激活。

進入TDB主頁,首先是「提示」一欄輸入——提示和感興趣的token:

Mary and Johon went to the store, Johon gave a drink to....

那么接下來,就是做一個「下一詞」的預測,需要輸入目標token,以及干擾性的token。

最后提交后,便可以看到系統給出的預測下一詞候選的對數。

下面的「節點表」是TDB的核心部分。這里的每一行都對應一個節點,也就是激活一個模型組件。

圖片圖片

如果要了解對某個特定提示中非常重要的注意力頭的功能,直接點擊組件的名稱。

然后TDB會打開「神經元瀏覽器 」頁面,頂部會顯示之前的提示詞。

圖片圖片

這里能看到淺藍色和粉色的token。每個對應顏色的token之下,從后續標記到這個token的注意力會讓一個大范數向量(large norm vector)被寫入后續token中。

圖片圖片

在另外兩個視頻中,研究人員介紹了TDB的概念,以及其在理解回路中的應用。與此同時,他還演示了TDB如何定性地再現論文中的一個發現。

OpenAI自動可解釋性研究

簡單來說,OpenAI自動可解釋性研究的思路是讓GPT-4對神經元的行為進行自然語言解釋,然后把這個過程應用到GPT-2中。

這何以成為可能?首先,我們需要「解剖」一下LLM。

像大腦一樣,它們由「神經元」組成,它們會觀察文本中的某些特定模式,這就會決定整個模型接下來要說什么。

比如,如果給出這么一個prompt,「哪些漫威超級英雄擁有最有用的超能力?」 「漫威超級英雄神經元」可能就會增加模型命名漫威電影中特定超級英雄的概率。

OpenAI的工具就是利用這種設定,把模型分解為單獨的部分。

第一步:使用GPT-4生成解釋

首先,找一個GPT-2的神經元,并向GPT-4展示相關的文本序列和激活。

然后,讓GPT-4根據這些行為,生成一個可能的解釋。

比如,在下面的例子中GPT-4就認為,這個神經元與電影、人物和娛樂有關。

圖片圖片

第二步:使用GPT-4進行模擬

接著,讓GPT-4根據自己生成的解釋,模擬以此激活的神經元會做什么。

圖片圖片

第三步:對比打分

最后,將模擬神經元(GPT-4)的行為與實際神經元(GPT-2)的行為進行比較,看看GPT-4究竟猜得有多準。

圖片圖片

還有局限

通過評分,OpenAI的研究者衡量了這項技術在神經網絡的不同部分都是怎樣的效果。對于較大的模型,這項技術的解釋效果就不佳,可能是因為后面的層更難解釋。

圖片圖片

目前,絕大多數解釋評分都很低,但研究者也發現,可以通過迭代解釋、使用更大的模型、更改所解釋模型的體系結構等方法,來提高分數。

現在,OpenAI正在開源「用GPT-4來解釋GPT-2中全部307,200個神經元」結果的數據集和可視化工具,也通過OpenAI API公開了市面上現有模型的解釋和評分的代碼,并且呼吁學界開發出更好的技術,產生得分更高的解釋。

此外,團隊還發現,越大的模型,解釋的一致率也越高。其中,GPT-4最接近人類,但依然有不小的差距。

圖片圖片

以下是不同層神經元被激活的例子,可以看到,層數越高,就越抽象。

圖片圖片

圖片圖片

圖片圖片

圖片圖片

稀疏自動編碼器設置

OpenAI使用的的稀疏自動編碼器是一個在輸入端具有偏置的模型,還包括一個用于編碼器的具有偏置和ReLU的線性層,以及另一個用于解碼器的線性層和偏置。

研究人員發現偏置項對自動編碼器的性能非常重要,他們將輸入和輸出中應用的偏差聯系起來,結果相當于從所有激活中減去固定偏差。

研究人員使用Adam優化器訓練自動編碼器,以使用MSE重建Transformer的MLP激活。使用MSE損耗可以避免多語義性的挑戰,用損失加上L1懲罰項來鼓勵稀疏性。

在訓練自動編碼器時,有幾個原則非常重要。

首先是規模。在更多數據上訓練自動編碼器會使特征主觀上“更清晰”且更具可解釋性。所以OpenAI為自動編碼器使用了80億個訓練點。

其次,在訓練過程中,一些神經元會停止激活,即使在大量數據點上也是如此。

研究人員于是在訓練期間「重采樣」這些死神經元,允許模型代表給定的自動編碼器隱藏層維度的更多特征,從而產生更好的結果。

判斷指標

怎樣判斷自己的方法是否有效?在機器學習中可以簡單地用loss作為標準,但在這里就不太容易找到類似的參考。

比如尋找一個基于信息的指標,這樣可以在某種意義上說,最好的分解是最小化自動編碼器和數據總信息的分解。

——但事實上,總信息通常與主觀特征可解釋性或激活稀疏性無關。

最終,研究人員使用了了幾個附加指標的組合:

- 手動檢查:特征是否看起來可以解釋?

- 特征密度:實時特征數量和觸發它們的token的百分比是一個非常有用的指導。

- 重建損失:衡量自動編碼器重建MLP激活的程度。最終目標是解釋MLP層的功能,因此MSE損耗應該很低。

- 玩具模型:使用一個已經非常了解的模型,可以清晰地評估自動編碼器的性能。

不過研究人員也表示,希望從Transformer上訓練的稀疏自動編碼器中,為字典學習解決方案確定更好的指標。

參考資料:

https://twitter.com/janleike/status/1767347608065106387?s=20

責任編輯:武曉燕 來源: 新智元
相關推薦

2024-03-13 08:03:44

LLM人工智能技術

2024-12-05 08:30:00

2025-02-21 15:18:20

2023-12-01 14:34:42

AnthropicAILLM

2024-03-12 12:17:06

AI數據

2024-11-27 14:30:46

2024-08-01 09:30:00

2024-05-08 14:12:40

Redis軟件開源

2024-03-12 13:14:40

2018-04-17 11:47:06

if代碼參數

2024-09-11 14:40:00

OpenAI奧特曼

2024-02-05 13:34:16

模型訓練

2024-05-15 10:38:55

OpenAIGPT-4oIlya

2023-07-25 14:08:41

羊駝模型

2024-08-06 14:07:40

2024-04-02 11:37:59

2025-08-06 07:42:26

2023-08-17 13:35:44

OpenAI收購

2025-04-01 09:46:08

2019-01-29 11:58:15

996工作制員工
點贊
收藏

51CTO技術棧公眾號

国产一区二区三区免费不卡| 日韩精品在线视频美女| gogogo免费高清日本写真| 国产孕妇孕交大片孕| 欧美不卡在线| 亚洲精品国产品国语在线| 国产情侣av自拍| 在线heyzo| 97aⅴ精品视频一二三区| 国产精品丝袜高跟| 国产一级视频在线| 精品久久久亚洲| 一本一道久久a久久| 国产一区视频导航| 性欧美办公室18xxxxhd| 亚洲精品成人av久久| 亚洲国产中文在线二区三区免| 色婷婷久久久综合中文字幕| 9191国产视频| 成年人视频在线看| 成人免费视频视频| 成人在线国产精品| 日本熟女毛茸茸| 欧美日韩精品免费观看视频完整| 亚洲天天在线日亚洲洲精| 国产成人精品一区二区在线小狼| 欧美日一区二区三区| 亚洲成a天堂v人片| 日本丰满少妇黄大片在线观看| 香蕉av一区二区三区| 国产一区在线视频| 国产精品免费网站| 一区二区三区福利视频| 激情久久五月| 久久视频这里只有精品| www.99热| 免费av一区二区三区四区| 亚洲久久一区| 国产精品福利av| 欧美一区二区在线| 天天av天天翘| 成人黄色在线视频| 91视频免费在线观看| 97超碰人人草| 老色鬼精品视频在线观看播放| 日本sm极度另类视频| 色婷婷在线观看视频| 国产精品a久久久久| 美女撒尿一区二区三区| 小泽玛利亚一区| 99re6这里只有精品| 亚洲一区二区黄| 久久亚洲AV无码专区成人国产| 欧美人与动xxxxz0oz| 亚洲国产精品成人va在线观看| 国产精品91av| silk一区二区三区精品视频| 精品国内片67194| 欧美成人精品一区二区综合免费| 综合欧美亚洲| 日韩欧美一卡二卡| 99riav国产精品视频| 视频一区在线| 亚洲大胆人体视频| 人体私拍套图hdxxxx| 四虎5151久久欧美毛片| 亚洲男人天天操| 最新中文字幕av| 久久精品不卡| 久久天天躁狠狠躁夜夜躁2014| 中日韩在线视频| 色欲AV无码精品一区二区久久| 杨幂一区二区三区免费看视频| 亚洲精品有码在线| 亚洲精品国产精品国自产网站| 成人在线免费观看视频| 色青青草原桃花久久综合| 永久免费看片视频教学| 亚洲视频电影在线| 国模极品一区二区三区| 人人草在线观看| 男男成人高潮片免费网站| 国产精品一区二区三| 国产a级免费视频| 成人精品国产一区二区4080| 欧美福利一区二区三区| 五月天婷婷在线视频| 一区二区在线免费观看| 日韩欧美视频网站| 欧美少妇激情| 欧美大胆一级视频| 精品人妻无码一区二区三区换脸| 色狮一区二区三区四区视频| 久久91亚洲精品中文字幕| 国产乱国产乱老熟| 国内欧美视频一区二区| 久久久久综合一区二区三区| 爱爱爱免费视频在线观看| 艳妇臀荡乳欲伦亚洲一区| 美女福利视频在线| 日本一区二区三区视频在线看 | 国产精品国产精品国产专区不蜜| 超碰10000| 欧美××××黑人××性爽 | 欧美日韩在线网站| 欧美日韩第一页| 波多野结衣视频网址| 国产九九视频一区二区三区| 欧美性天天影院| 中文在线字幕免费观看| 色老头久久综合| 日本人dh亚洲人ⅹxx| 精品久久91| 久久久久久久成人| 懂色一区二区三区av片| 久久久综合久久| 日欧美一区二区| 国产精品久久久久久久久婷婷| 黄色在线小视频| 亚洲国产日韩a在线播放性色| 久久99999| 先锋影音国产精品| 久久久综合免费视频| 亚洲一区在线观| 久久久久久久久久美女| 日韩精品 欧美| 精品一区二区三区在线观看视频| 亚洲无av在线中文字幕| 丰满少妇乱子伦精品看片| 国产精品一区在线| 中文字幕av日韩精品| 国产精品久久久久久久久免费高清| 日韩高清中文字幕| 国产精品suv一区二区69| 国产精品亚洲人在线观看| 亚洲欧美精品在线观看| 蜜桃视频成人m3u8| 亚洲欧美日韩一区在线| 成人免费看片98欧美| 成人黄页在线观看| 日韩人妻无码精品久久久不卡| 亚洲高清在线一区| 不卡毛片在线看| 91资源在线视频| 国产精品高潮呻吟| 天天干天天av| 婷婷亚洲五月色综合| 成人美女免费网站视频| 午夜在线免费观看视频| 精品视频在线免费观看| 中文字幕第二区| 日韩和欧美一区二区三区| 日本欧洲国产一区二区| 日韩毛片免费观看| 永久免费精品影视网站| 秋霞av一区二区三区| 国产人久久人人人人爽| 九九视频精品在线观看| av中文字幕一区二区| 国产精品欧美久久久| av播放在线| 欧美高清dvd| 天天操天天操天天操天天操天天操| 激情另类小说区图片区视频区| 日韩最新中文字幕| 久久久精品区| 97视频色精品| 久久久久久久久亚洲精品| 欧美色网站导航| 快播日韩欧美| 国产美女明星三级做爰| 亚洲人精品一区| 波多野结衣办公室双飞| 亚洲午夜久久久久久尤物| 精品视频一区二区三区四区| 三上悠亚激情av一区二区三区 | 天堂中文8资源在线8| 欧美人妇做爰xxxⅹ性高电影| 日韩欧美综合视频| 99精品国产99久久久久久白柏| 欧美污视频网站| 国产精品久久久久无码av| 成人激情av| 亚洲午夜天堂| 日韩三级成人av网| 欧美熟女一区二区| 欧美日韩一区不卡| 久久精品第一页| 久久精品亚洲乱码伦伦中文| 在线一区二区不卡| 国产日韩亚洲欧美精品| 亚洲午夜精品一区二区 | 精品久久五月天| 久久久久女人精品毛片九一| 中文字幕中文字幕在线一区| 亚洲乱妇老熟女爽到高潮的片| 日韩高清不卡一区二区| 9色视频在线观看| 国产精品最新| 成人av免费电影| 狂野欧美性猛交xxxx| 午夜精品一区二区三区在线| 日本中文字幕在线看| 噜噜噜狠狠夜夜躁精品仙踪林| 亚洲精品福利在线观看| 在线免费观看视频网站| 天涯成人国产亚洲精品一区av| 少妇高潮惨叫久久久久| 91麻豆swag| 永久看看免费大片| 免费观看久久久4p| 欧美三级一级片| 欧美日韩p片| 一本久久a久久精品vr综合| 欧美电影免费网站| 91福利视频导航| 久久亚洲精品中文字幕| 日本中文字幕成人| xxx性欧美| 毛片精品免费在线观看| lutube成人福利在线观看| 日韩精品视频免费| 亚洲高清视频网站| 欧美久久久久久久久中文字幕| 精品国产xxx| 亚洲va欧美va国产va天堂影院| 182在线观看视频| 欧美国产视频在线| 欧美日韩成人综合| 欧美激情喷水视频| 欧美一区二区三区在线观看免费| 亚洲精品一二区| 婷婷五月综合久久中文字幕| 日韩区在线观看| 国产精品久久久久久免费免熟 | 久久精品久久久久久久| 五月激情丁香一区二区三区| 久久久久久久久久一区二区三区| 亚洲欧洲三级电影| 国产精品视频看看| 欧美激情成人动漫| 欧美高清性hdvideosex| 在线播放成人av| 欧美在线视频你懂得| 精品国产乱子伦| 欧美网站在线观看| 国产专区第一页| 色综合久久综合中文综合网| 最新中文字幕一区| 色婷婷亚洲精品| 国产一区免费看| 欧美综合亚洲图片综合区| 亚洲av无码不卡| 在线亚洲精品福利网址导航| 国产精品乱码一区二区视频| 在线视频国产一区| 中文字幕在线2018| 91精品国产综合久久久久久久| 一区二区三区精| 正在播放亚洲一区| 精品人妻少妇嫩草av无码专区| 日韩欧美国产三级电影视频| 亚洲国产精品欧美久久| 亚洲国产精品美女| 黄色av免费在线看| 日韩在线精品一区| 污片视频在线免费观看| 97婷婷涩涩精品一区| 亚洲一二三四| 国产日韩欧美在线| 亚洲高清999| 免费一区二区三区在在线视频| 欧美日韩在线网站| 黄色污污在线观看| aa国产精品| 九九热免费精品视频| 国产美女主播视频一区| 在线中文字日产幕| 久久久久久久电影| 永久久久久久久| 图片区小说区国产精品视频| 波多野结衣大片| 欧美aa在线视频| 国产精品亚洲аv天堂网| 欧美黑粗硬大| 精品国产乱码久久久久久久软件 | 国产99久久精品| 国产制服丝袜在线| 国产精品不卡在线| 日韩视频免费观看高清| 欧美日韩免费高清一区色橹橹| 亚洲精品国产手机| 国产香蕉97碰碰久久人人| 哥也色在线视频| 欧美最顶级丰满的aⅴ艳星| 成人精品动漫| 精品麻豆av| 图片小说视频色综合| 少妇高潮喷水在线观看| 久久超碰97人人做人人爱| 国产精品伦子伦| 亚洲欧洲99久久| 久久久精品视频网站| 日韩欧美你懂的| 成人jjav| 国产91对白在线播放| 国产一区二区视频在线看| 日本不卡一区二区三区视频| 欧美日韩国产一区精品一区| 免费看污黄网站| 91在线精品秘密一区二区| 丰满少妇被猛烈进入一区二区| 欧美日韩一区二区免费视频| www.国产欧美| www.日韩免费| 欧美日韩免费观看视频| 精品免费国产| 欧美精品国产| 欧美视频亚洲图片| 欧美激情一区二区在线| 国产色视频一区| 国产精品高清一区二区| 日韩久久久久久久久久久久久| 99精品久久久| 深夜视频在线观看| 亚洲手机成人高清视频| 中日韩av在线| 亚洲欧美日韩中文在线制服| 2020国产在线| 高清日韩一区| 欧美三级不卡| 超碰91在线播放| 日韩美女久久久| 国产一区二区在线视频聊天 | 亚洲精品免费av| 日韩在线观看| 色综合手机在线| 国产欧美日韩三区| 黄色av一区二区| 亚洲午夜激情免费视频| 校园春色亚洲色图| 欧美日韩精品久久| 男人的天堂亚洲| 国产精品九九视频| 午夜精品在线视频一区| 欧美一级性视频| 欧美黑人极品猛少妇色xxxxx| 亚洲国产欧美国产第一区| 久草视频这里只有精品| 成人av网站免费| 久久狠狠高潮亚洲精品| 日韩经典中文字幕| 亚洲最大网站| 翔田千里亚洲一二三区| 久久国产三级精品| 91免费公开视频| 日韩欧美一区二区视频| 高清毛片在线观看| 麻豆精品传媒视频| 日本怡春院一区二区| 亚欧洲乱码视频| 欧美曰成人黄网| 久草免费在线| 国产精品成人观看视频免费| 国产日韩欧美三级| 国产综合精品久久久久成人av| 欧美人与性动xxxx| 久色国产在线| 欧美日韩精品中文字幕一区二区| 丝袜美腿成人在线| 国产一区二区精彩视频| 日韩精品在线网站| 亚洲精品日产| 亚洲一一在线| 高清视频一区二区| 久久亚洲精品石原莉奈 | 久久www免费人成精品| 久久久精品国产sm调教网站| 日本韩国一区二区三区| 日本精品一区二区三区在线播放| 97操在线视频| 久久亚洲欧美| 在线看的片片片免费| 日韩精品福利网站| 欧洲午夜精品| 久久国产精品视频在线观看| 国产蜜臀av在线一区二区三区| 99久久国产免费| 日本国产精品视频| 一区二区中文| 90岁老太婆乱淫| 欧美成人三级在线| 日本精品在线中文字幕| www.亚洲成人网| 国产亚洲成年网址在线观看| a级片在线视频| 国产成人一区二区| 欧美精品大片| 成人黄色短视频| 亚洲国产一区自拍|