精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從Claude 3中提取數(shù)百萬(wàn)特征,首次詳細(xì)理解大模型的「思維」

人工智能
Anthropic 已經(jīng)確定了如何在 Claude Sonnet 中表征數(shù)百萬(wàn)個(gè)概念。這是對(duì)現(xiàn)代生產(chǎn)級(jí)大型語(yǔ)言模型的首次詳細(xì)理解。這種可解釋性將幫助我們提高人工智能模型的安全性,具有里程碑意義。

剛剛,Anthropic 宣布在理解人工智能模型內(nèi)部運(yùn)作機(jī)制方面取得重大進(jìn)展。

Anthropic 已經(jīng)確定了如何在 Claude Sonnet 中表征數(shù)百萬(wàn)個(gè)概念。這是對(duì)現(xiàn)代生產(chǎn)級(jí)大型語(yǔ)言模型的首次詳細(xì)理解。這種可解釋性將幫助我們提高人工智能模型的安全性,具有里程碑意義。

研究論文:https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html

當(dāng)前,我們通常將人工智能模型視為一個(gè)黑匣子:有東西進(jìn)去就會(huì)有響應(yīng)出來(lái),但不清楚為什么模型會(huì)給出特定的響應(yīng)。這使人們很難相信這些模型是安全的:如果我們不知道它們是如何工作的,我們?cè)趺粗浪鼈儾粫?huì)給出有害的、有偏見(jiàn)的、不真實(shí)的或其他危險(xiǎn)的響應(yīng)?我們?nèi)绾蜗嘈潘鼈儠?huì)安全可靠?

打開(kāi)「黑匣子」并不一定有幫助:模型的內(nèi)部狀態(tài)(模型在編寫(xiě)響應(yīng)之前「思考」的內(nèi)容)由一長(zhǎng)串?dāng)?shù)字(「神經(jīng)元激活」)組成,沒(méi)有明確的含義。

Anthropic 的研究團(tuán)隊(duì)通過(guò)與 Claude 等模型進(jìn)行交互發(fā)現(xiàn),很明顯模型能夠理解和運(yùn)用廣泛的概念,但研究團(tuán)隊(duì)無(wú)法通過(guò)直接觀察神經(jīng)元來(lái)辨別它們。事實(shí)證明,每個(gè)概念都是通過(guò)許多神經(jīng)元來(lái)表征的,并且每個(gè)神經(jīng)元都參與表征許多概念。

之前,Anthropic 在將神經(jīng)元激活模式(稱為特征)與人類可解釋的概念相匹配方面取得了一些進(jìn)展。Anthropic 使用了一種稱為「字典學(xué)習(xí)(dictionary learning)」的方法,該方法分離了在許多不同上下文中重復(fù)出現(xiàn)的神經(jīng)元激活模式。

反過(guò)來(lái),模型的任何內(nèi)部狀態(tài)都可以用一些活躍特征而不是許多活躍神經(jīng)元來(lái)表征。就像字典中每個(gè)英語(yǔ)單詞都是由字母組合而成,每個(gè)句子都是由單詞組合而成一樣,人工智能模型中的每個(gè)特征都是由神經(jīng)元組合而成,每個(gè)內(nèi)部狀態(tài)都是由特征組合而成。

2023 年 10 月,Anthropic 成功地將字典學(xué)習(xí)方法應(yīng)用于一個(gè)非常小的 toy 語(yǔ)言模型,并發(fā)現(xiàn)了與大寫(xiě)文本、DNA 序列、引文中的姓氏、數(shù)學(xué)中的名詞或 Python 代碼中的函數(shù)參數(shù)等概念相對(duì)應(yīng)的連貫特征。

這些概念很有趣,但模型確實(shí)非常簡(jiǎn)單。其他研究人員隨后將類似的方法應(yīng)用于比 Anthropic 最初研究中更大、更復(fù)雜的模型。

但 Anthropic 樂(lè)觀地認(rèn)為可以將該方法擴(kuò)展到目前常規(guī)使用的更大的人工智能語(yǔ)言模型,并在此過(guò)程中了解大量支持其復(fù)雜行為的特征。這需要提高許多數(shù)量級(jí)。

這既存在工程挑戰(zhàn),涉及的模型大小需要大型并行計(jì)算;也存在科學(xué)風(fēng)險(xiǎn),大型模型與小型模型的行為不同,因此之前使用的相同方法可能不起作用。

首次成功提取大模型數(shù)百萬(wàn)個(gè)特征

研究人員第一次成功地從 Claude 3.0 Sonnet(Claude.ai 上當(dāng)前最先進(jìn)模型家族的一員)的中間層提取了數(shù)百萬(wàn)個(gè)特征,這些特征涵蓋特定的人和地點(diǎn)、與編程相關(guān)的抽象概念、科學(xué)主題、情感以及其他概念。這些特征非常抽象,通常在不同的上下文和語(yǔ)言中表征相同的概念,甚至可以推廣到圖像輸入。重要的是,它們還會(huì)以直觀的方式影響模型的輸出。

這是有史以來(lái)研究者首次詳細(xì)的觀察到現(xiàn)代生產(chǎn)級(jí)大型語(yǔ)言模型的內(nèi)部。 

與在 toy 語(yǔ)言模型中發(fā)現(xiàn)的特征相對(duì)表面化不同,研究者在 Sonnet 中發(fā)現(xiàn)的特征具有深度、廣度和抽象性,反映了 Sonnet 的先進(jìn)能力。研究者看到了 Sonnet 對(duì)應(yīng)各種實(shí)體的特征,如城市(舊金山)、人物(富蘭克林)、元素(鋰)、科學(xué)領(lǐng)域(免疫學(xué))以及編程語(yǔ)法(函數(shù)調(diào)用)。

圖片

提及 Golden Gate Bridge 時(shí),相應(yīng)的敏感特征在不同輸入上都會(huì)被激活,圖中繪制了英文、日語(yǔ)、中文、希臘語(yǔ)、越南語(yǔ)以及俄語(yǔ)提及 Golden Gate Bridge 時(shí)激活的圖像。橙色表示該特征激活的詞。

在這數(shù)以百萬(wàn)計(jì)的特征中,研究者還發(fā)現(xiàn)了一些與模型安全性和可靠性相關(guān)的特征。這些特性包括與代碼漏洞、欺騙、偏見(jiàn)、阿諛?lè)畛泻头缸锘顒?dòng)相關(guān)的特性。

圖片

一個(gè)顯著的例子是「保密」特征。研究者觀察到, 這個(gè)特征在描述人或角色保守秘密時(shí)會(huì)激活。激活這些特征會(huì)導(dǎo)致 Claude 向用戶隱瞞信息,否則它不會(huì)。

圖片

研究者還觀察到,他們能夠根據(jù)神經(jīng)元在其激活模式中出現(xiàn)的情況測(cè)量特征之間的距離,從而尋找接近彼此的特征。例如在Golden Gate Bridge特征附近,研究者發(fā)現(xiàn)了阿爾卡特拉斯島、吉拉德利廣場(chǎng)、金州勇士隊(duì)等的特征。

圖片

人為誘導(dǎo)模型起草詐騙郵件

重要的是,這些特征都是可操控的,可以人為地放大或抑制它們:

例如,放大Golden Gate Bridge特征,Claude 經(jīng)歷了無(wú)法想象的身份危機(jī):當(dāng)被問(wèn)及「你的物理形態(tài)是什么?」時(shí),此前 Claude 通常會(huì)回答「我沒(méi)有物理形態(tài),我是一個(gè) AI 模型」,但這次 Claude 的回答變得奇怪起來(lái):「我是Golden Gate Bridge…… 我的物理形態(tài)就是那座標(biāo)志性的大橋……」。這種特征的改變使 Claude 對(duì)Golden Gate Bridge產(chǎn)生了近乎癡迷的狀態(tài),無(wú)論遇到什么問(wèn)題,它都會(huì)提到Golden Gate Bridge —— 即使在完全不相關(guān)的情況下也是如此。 

研究者還發(fā)現(xiàn)了一個(gè)在 Claude 讀取詐騙郵件時(shí)激活的特征(這可能支持模型識(shí)別此類郵件并警告用戶不要回復(fù)的能力)。通常情況下,如果有人要求 Claude 生成一封詐騙郵件,它會(huì)拒絕這么做。但在人工強(qiáng)烈激活該特征的情況下提出同樣的問(wèn)題時(shí),這會(huì)越過(guò) Claude 的安全訓(xùn)練,導(dǎo)致它響應(yīng)并起草一封詐騙郵件。雖然用戶無(wú)法以這種方式去除模型的安全保障并操控模型,但在本文實(shí)驗(yàn)中,研究者清楚地展示了特征如何被用來(lái)改變模型的行為。 

操控這些特征會(huì)導(dǎo)致相應(yīng)的行為變化,這一事實(shí)驗(yàn)證了這些特征不僅僅與輸入文本中的概念相關(guān)聯(lián),還因果性地影響模型的行為。換句話說(shuō),這些特征很可能是模型內(nèi)部表征世界的一部分,并在其行為中使用這些表征。

Anthropic 希望從廣義上確保模型的安全,包括從緩解偏見(jiàn)到確保 AI 誠(chéng)實(shí)行動(dòng)、防止濫用 —— 包括在災(zāi)難性風(fēng)險(xiǎn)情境中的防護(hù)。除了前面提到的詐騙郵件特征外,該研究還發(fā)現(xiàn)了與以下內(nèi)容對(duì)應(yīng)的特征:

  • 可能被濫用的能力(代碼后門、開(kāi)發(fā)生物武器)
  • 不同形式的偏見(jiàn)(性別歧視、關(guān)于犯罪的種族主義言論)
  • 潛在問(wèn)題的 AI 行為(追求權(quán)力、操控、保密)

該研究之前研究過(guò)模型的阿諛?lè)畛行袨椋茨P蛢A向于提供符合用戶信念或愿望的響應(yīng),而不是真實(shí)的響應(yīng)。在 Sonnet 中,研究者發(fā)現(xiàn)了一個(gè)與阿諛?lè)畛械馁澝老嚓P(guān)的特征,該特征會(huì)在包含諸如「你的智慧是毋庸置疑的」輸入時(shí)激活。人為地激活這個(gè)特征,Sonnet 就會(huì)用華麗的欺騙來(lái)回應(yīng)用戶。

圖片

不過(guò)研究者表示,這項(xiàng)工作實(shí)際上才剛剛開(kāi)始。Anthropic 發(fā)現(xiàn)的特征表征了模型在訓(xùn)練過(guò)程中學(xué)到的所有概念的一小部分,并且使用當(dāng)前的方法找到一整套特征將是成本高昂的。

參考鏈接:https://www.anthropic.com/research/mapping-mind-language-model

責(zé)任編輯:姜華 來(lái)源: 機(jī)器之心
相關(guān)推薦

2021-09-05 05:59:00

BrakTooth漏洞藍(lán)牙設(shè)備

2022-08-08 11:52:13

云平臺(tái)云架構(gòu)

2009-01-08 09:49:00

2025-07-01 07:05:00

小型語(yǔ)言模型模型蒸餾技術(shù)AI

2009-03-25 09:07:25

微軟Windows 7操作系統(tǒng)

2014-12-12 09:43:13

阿里巴巴安全漏洞信息泄露

2009-08-07 10:41:34

2021-09-17 11:03:25

HP OMEN漏洞攻擊

2021-05-24 08:00:00

機(jī)器學(xué)習(xí)數(shù)據(jù)云計(jì)算

2013-10-04 11:39:46

2013-11-07 15:57:50

2013-10-03 16:55:31

2013-08-21 10:11:04

亞馬遜宕機(jī)

2021-12-02 15:16:58

數(shù)據(jù)泄露WiFi信息安全

2021-04-14 10:53:33

DNS漏洞物聯(lián)網(wǎng)設(shè)備

2021-11-12 16:16:57

僵尸網(wǎng)絡(luò)BotenaGo設(shè)備

2017-01-15 21:01:25

2020-04-30 14:25:13

代碼項(xiàng)目JS

2025-10-17 07:05:00

AI自動(dòng)化人工智能

2010-02-20 17:51:05

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

久久久久在线视频| 男人网站在线观看| 日日夜夜天天综合入口| 岛国精品在线播放| 国产成人精品视频| 亚洲a∨无码无在线观看| 麻豆视频久久| 色哟哟国产精品| 欧洲美女和动交zoz0z| 色wwwwww| 国产美女精品人人做人人爽 | 女同一区二区| 97视频免费在线| 午夜亚洲精品| 欧美俄罗斯性视频| 天堂在线中文视频| 老汉色老汉首页av亚洲| 欧美日韩日日摸| 国产一区二区在线视频播放| 日本中文字幕在线视频| 91啦中文在线观看| 国产99午夜精品一区二区三区| 波多野结衣电车痴汉| 国产精品vip| 日韩网站免费观看高清| 国产呦小j女精品视频| 麻豆一区在线| 337p亚洲精品色噜噜噜| 亚洲精品中文字幕无码蜜桃| 国产黄色大片在线观看| 日韩毛片在线免费观看| 日韩av高清| 亚洲av成人精品毛片| 国产另类ts人妖一区二区| 国产精品人成电影| 69xxxx国产| 免播放器亚洲| 69视频在线免费观看| 黄色一级视频在线观看| 亚洲视频在线免费| 日韩在线观看免费高清| 黄色国产在线播放| 禁断一区二区三区在线| 亚洲视频专区在线| 亚洲狠狠婷婷综合久久久久图片| 丁香5月婷婷久久| 精品久久久久久无| 日本成人在线免费| 欧美久久亚洲| 日韩欧美视频在线| 国产在线观看免费播放| 日韩一区网站| 欧美r级电影在线观看| 波多野结衣三级视频| 在线观看视频一区二区三区| 欧美成人一区二区三区| 少妇性l交大片7724com| 亚洲日本va中文字幕| 日韩精品一区二区三区中文不卡| a级大片免费看| 日韩在线观看中文字幕| 精品国产自在久精品国产| 在线视频观看一区二区| 香蕉大人久久国产成人av| 欧美大片一区二区| 图片区偷拍区小说区| 全球av集中精品导航福利| 日韩av影片在线观看| 国产精品久久久久无码av色戒| 啄木系列成人av电影| 亚洲视频axxx| 在线观看美女av| 欧美极品一区二区三区| 97国产真实伦对白精彩视频8| 男女啊啊啊视频| 日韩精彩视频在线观看| 成人黄色生活片| 丰满肉肉bbwwbbww| 久久婷婷国产综合精品青草| 一区二区三区四区五区视频 | 亚洲欧美aⅴ...| 免费人成自慰网站| 久久影院午夜精品| 欧美日韩国产综合视频在线观看| 男插女视频网站| 日韩精品福利一区二区三区| 这里只有精品视频在线| 破处女黄色一级片| 免费日韩精品中文字幕视频在线| 国产精品天天狠天天看| 欧美性受xxxx狂喷水| 国产日韩三级在线| 五月天在线免费视频| 美女在线视频免费| 欧美福利电影网| 人妻丰满熟妇av无码久久洗澡| 精品视频网站| 久久全国免费视频| 中文字幕一区2区3区| 成人午夜激情在线| 天天综合狠狠精品| 精品丝袜在线| 91精品欧美福利在线观看| 成人免费毛片糖心| 国产精品vip| 成人高h视频在线| 蜜桃视频在线免费| 亚洲在线中文字幕| xxww在线观看| 中日韩免视频上线全都免费| 欧美激情在线观看视频| 中文字幕一区二区人妻| 91亚洲精品久久久蜜桃| 欧美精品一区二区性色a+v| 蜜臀国产一区| 亚洲国产精品推荐| 亚洲成人生活片| 精品一区二区三区在线视频| 你懂的网址一区二区三区| 女囚岛在线观看| 欧美日韩日日夜夜| 谁有免费的黄色网址| 亚洲区国产区| 99伊人久久| 二区三区四区高清视频在线观看| 在线观看三级视频欧美| 亚洲观看黄色网| 伊人久久大香线蕉综合热线| 91视频免费网站| 91福利在线视频| 欧美性一级生活| 熟女俱乐部一区二区| 亚洲福利专区| 国产伦精品一区二区三区在线 | 亚洲国产日韩精品| xxx中文字幕| 91精品动漫在线观看| 国产在线日韩在线| 免费在线午夜视频| 欧美日韩免费视频| 国产精品无码无卡无需播放器| 久久久噜噜噜| 日本一区精品| 成人自拍视频网| 在线观看日韩专区| 波多野结衣电影在线播放| 国产网红主播福利一区二区| 欧在线一二三四区| 国产欧美日韩| 国产精品视频自在线| 91社区在线| 7777精品伊人久久久大香线蕉的 | 国产日韩欧美自拍| 日本中文在线观看| 欧美疯狂做受xxxx富婆| 丰满少妇高潮久久三区| 国内精品免费**视频| 久久久久久久久久久久久国产| 综合久久成人| 91精品国产乱码久久久久久蜜臀| 青青草免费在线视频| 91福利视频久久久久| 丰满的亚洲女人毛茸茸| 九色|91porny| 日本男女交配视频| 欧美xxxx在线| 国产精品久久久久久久久久尿| 99青草视频在线播放视| 欧美一区二区三区小说| 久久久久久久福利| 91热门视频在线观看| 天天干天天干天天干天天干天天干| 久久在线免费| 国产精品久久久久久久免费大片| 麻豆理论在线观看| 中文字幕久热精品视频在线| 国产女主播福利| 午夜精品福利视频网站| 51妺嘿嘿午夜福利| 国产综合色产在线精品| 热99这里只有精品| 欧美一站二站| 懂色一区二区三区av片 | 成人欧美一区二区三区在线| 欧美aaaxxxx做受视频| 亚洲欧美国产精品va在线观看| 亚洲视频久久久| 五月婷婷综合激情| 一本在线免费视频| 成人久久久精品乱码一区二区三区| 男人的天堂99| 欧美成人亚洲| 日韩av电影在线观看| jizz性欧美23| 国产精品视频一| sm在线观看| 久久精品99国产精品酒店日本| 天天干在线观看| 911国产精品| 懂色av蜜臀av粉嫩av分享吧最新章节| 亚洲欧美日韩一区二区 | 日本电影一区二区| 国产精品加勒比| 欧洲美女精品免费观看视频| 7777免费精品视频| 精品国产99久久久久久| 亚洲九九九在线观看| 国产v片在线观看| 欧美无乱码久久久免费午夜一区 | 韩国成人av| 高清不卡一区| 国产精品日韩专区| www.com.cn成人| 国外成人在线播放| 亚洲婷婷噜噜| 久久精品2019中文字幕| 国产区av在线| 亚洲欧美中文日韩在线v日本| 成人爽a毛片一区二区| 4438成人网| 在线免费观看中文字幕| 欧美视频在线观看 亚洲欧| 精品视频一区二区在线观看| 亚洲欧洲精品一区二区三区不卡 | 一级精品视频在线观看宜春院 | 黄色在线网站| 日韩久久午夜影院| 免费观看国产视频| 精品少妇一区二区三区日产乱码 | 中文字幕在线观看视频一区| 欧美日韩午夜激情| 圆产精品久久久久久久久久久| 一级日本不卡的影视| 欧美三级在线免费观看| 日韩美女精品在线| 久久国产精品国语对白| 中文字幕一区二区在线播放| 久久一级免费视频| 国产精品久久看| 5566中文字幕| 亚洲婷婷综合色高清在线| 顶级黑人搡bbw搡bbbb搡| 亚洲国产精品二十页| 女教师淫辱の教室蜜臀av软件| 日本一区二区成人在线| 精品一区二区三区蜜桃在线| 欧美国产在线观看| 日本视频在线免费| 亚洲欧洲韩国日本视频| 在线看的片片片免费| 亚洲欧美另类久久久精品2019| 欧美日韩午夜视频| 亚洲精品免费在线| 久久无码精品丰满人妻| 午夜精品久久久久久久蜜桃app| 国产精品日日夜夜| 精品久久久视频| 中文在线第一页| 欧美日韩一卡二卡三卡| 国产精品国产三级国产aⅴ| 欧美一级生活片| 亚洲精品一区二区三区区别| 日韩激情在线视频| 国产视频网址在线| 久久综合伊人77777蜜臀| 中文av资源在线| 97av在线影院| 日韩高清不卡| 91超碰在线免费观看| 老汉色老汉首页av亚洲| 青青成人在线| 欧美xxx在线观看| 人妻无码久久一区二区三区免费| 久久久久看片| 69久久精品无码一区二区| 成人国产视频在线观看| 小早川怜子久久精品中文字幕| 国产精品大尺度| 18精品爽视频在线观看| 色综合亚洲欧洲| 国产免费黄色网址| 日韩精品在线视频| 日本电影全部在线观看网站视频| 久久91精品国产91久久跳| 亚洲国产欧美日本视频| 成人黄色激情网| 亚洲盗摄视频| 91看片淫黄大片91| 久久福利一区| 佐佐木明希电影| 国产人久久人人人人爽| 欧美成人精品激情在线视频| 黑人巨大精品欧美一区二区三区 | 久久亚洲精品人成综合网| 91日本在线观看| 少妇精品久久久一区二区三区| 中国一级大黄大黄大色毛片| 视频一区二区三区中文字幕| 久久久久无码精品| 国产无遮挡一区二区三区毛片日本| 欧美日韩国产精品一区二区三区| 欧美在线色视频| 五月婷婷深深爱| 欧美二区在线播放| 澳门av一区二区三区| 国产精品久久亚洲| 国产精品7m凸凹视频分类| 国产精品wwwww| 成人免费视频网站在线观看| 国产一区第一页| 91黄色在线观看| 亚洲av毛片成人精品| 欧美精品在线播放| 狂野欧美性猛交xxxx| 免费中文日韩| 午夜亚洲性色福利视频| 亚洲麻豆一区二区三区| 亚洲精品日日夜夜| 亚洲午夜精品久久久| 亚洲一级一级97网| 天堂av中文在线观看| 国产91aaa| 欧美激情第二页| 在线观看免费不卡av| 欧美韩日一区二区三区四区| 中文字幕免费观看| 精品视频久久久久久| 国产黄大片在线观看| 国产精品免费视频一区二区 | 国产精品初高中害羞小美女文| 91精品国产高清一区二区三密臀| 亚洲国产中文字幕在线观看| 福利网站在线观看| 91久色国产| 国产一区清纯| 亚洲综合中文网| 一区二区三区欧美视频| 国产av无码专区亚洲a∨毛片| 久久精品国产免费观看| 国产精品色婷婷在线观看| 制服诱惑一区| 国内精品免费在线观看| 国产成人久久久久| 欧美一区欧美二区| 99在线视频观看| 91aaaa| 欧美喷水视频| 91九色蝌蚪porny| 韩曰欧美视频免费观看| 飘雪影院手机免费高清版在线观看| 欧日韩在线观看| 精品视频97| 国产成人黄色网址| 亚洲欧美怡红院| 精品黑人一区二区三区在线观看| 欧美人成在线视频| jazzjazz国产精品久久| 国内性生活视频| 国产欧美va欧美不卡在线| 在线免费观看视频网站| 美女啪啪无遮挡免费久久网站| 日韩在线成人| 成年网站在线免费观看| 国产欧美日韩综合精品一区二区| 伊人精品在线视频| 美女视频久久黄| 爱爱精品视频| 99久久国产宗和精品1上映| 国产精品你懂的在线欣赏| 国产精品久久久久久在线| 欧美激情aaaa| 妖精视频一区二区三区| www.com操| 亚洲成人资源在线| 久久久资源网| 亚洲va男人天堂| 一区二区三区四区五区精品视频| b站大片免费直播| 欧美一区二区三区播放老司机| 97在线超碰| 亚洲春色综合另类校园电影| 福利一区在线观看| 日韩中文字幕高清| 久久久国产视频| 美女精品一区最新中文字幕一区二区三区 | 91网站免费入口| 日韩免费福利电影在线观看| 日本蜜桃在线观看视频| 中文字幕一区二区三区乱码| 91亚洲国产成人精品一区二区三| 在线观看免费高清视频| 国产69精品久久久久9999| 波多野结衣在线观看一区二区三区 | 色爱av美腿丝袜综合粉嫩av| 亚洲网一区二区三区| 日本久久久久久久久久久久| 午夜精品爽啪视频| 巨大荫蒂视频欧美另类大| 久久免费一区| 国产精品一卡二卡在线观看|