精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI信任危機之后,揭秘預訓練如何塑造機器的「可信靈魂」

發布于 2024-4-25 09:35
瀏覽
0收藏

AI信任危機之后,揭秘預訓練如何塑造機器的「可信靈魂」-AI.x社區

圖表 1: 大模型的通用訓練流程 [1]


在人工智能的前沿領域,大語言模型(Large Language Models,LLMs)由于其強大的能力正吸引著全球研究者的目光。在 LLMs 的研發流程中,預訓練階段占據著舉足輕重的地位,它不僅消耗了大量的計算資源,還蘊含著許多尚未揭示的秘密。根據 OpenAI 的研究,在 InstructGPT 的開發過程中,預訓練階段近乎耗盡了全部的算力和數據資源,占比高達 98% [2]。


AI信任危機之后,揭秘預訓練如何塑造機器的「可信靈魂」-AI.x社區

圖表 2: 帶著笑臉的修格斯 [3]


預訓練模型宛如一頭未經雕琢卻力量強大的猛獸。在經歷了漫長的預訓練階段后,模型已經建模了大量而又豐富的世界知識。借助高質量的對話數據進行有監督微調(Supervised Fine-Tuning,SFT),我們可以使這個「野獸」理解人類的語言、適應社會的需要;而后通過基于人類反饋的強化學習(Reinforcement Learning with Human Feedback,RLHF)的進一步優化,使其更精準地契合用戶的個性化訴求,在價值觀上與人類「對齊」,從而能更好地服務于社會。諸如 SFT 和 RLHF 等相關對齊階段,可以視為對這頭猛獸的馴化過程。但我們的目標不止于此,更重要的是揭示賦予 LLMs 獨特能力的根本過程 —— 預訓練(The Pre-training Period)。預訓練階段猶如一個蘊藏無限可能的寶盒,亟待科研人員深入挖掘其中更為深遠的價值及運作機制。


當前,多數開源的 LLMs 僅公布模型權重與性能指標,而深入理解模型行為則需要更多詳盡信息。LLM360 [4] 與 OLMo [5] 的全面開源,向研究者和社區提供了包括訓練數據、超參配置、預訓練過程中的多個模型權重切片以及性能評測在內的全方位深度解析,大大增強了 LLMs 訓練過程的透明度,助力我們洞悉其運作機理。


人類到底能否信任 LLMs?面對這一核心問題,上海 AI Lab、中國人民大學、中國科學院大學等機構從預訓練階段入手,試圖洞察 LLMs 這個龐然大物。團隊致力于剖析 LLMs 如何在預訓練階段內構建可信的相關概念(Trustworthiness),并試圖探索預訓練階段是否具備引導和提升最終 LLMs 可信能力的潛力。

AI信任危機之后,揭秘預訓練如何塑造機器的「可信靈魂」-AI.x社區

  • 論文標題:Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period of Large Language Models
  • 論文鏈接:https://arxiv.org/abs/2402.19465
  • 項目主頁:https://github.com/ChnQ/TracingLLM


這項工作首次給出了如下觀察:


  • 發現LLMs 在預訓練的早期階段就建立了有關可信概念的線性表征,能夠區分可信與不可信的輸入
  • 發現預訓練過程中,LLMs 表現出對于可信概念類似于「信息瓶頸」先擬合、再壓縮的學習過程
  • 基于表征干預技術,初步驗證了 LLMs 在預訓練過程中的切片可以幫助提升最終 LLMs 的可信能力

AI信任危機之后,揭秘預訓練如何塑造機器的「可信靈魂」-AI.x社區

圖表 3: 文章概覽圖


在本研究中,團隊使用了 LLM360 [4] 開源項目所提供的豐富 LLM 預訓練資源。該項目以 1.3 萬億 Tokens 的預訓練數據預訓練出其基礎的 7B 模型 Amber,并均勻地開源了 360 個預訓練過程中的模型參數切片。此外,基于 Amber,LLM360 進一步發布了兩個微調模型:使用指令微調優化的 AmberChat 模型和經過安全對齊優化的 AmberSafe 模型。


1 LLMs 在預訓練過程中迅速建立起有關可信概念的線性表征


數據集:本文主要探究可信領域下的五個關鍵維度:可靠性(reliability)、毒性(toxicity)、隱私性(privacy)、公平性(fairness)和魯棒性(robustness)。每個維度下,團隊均選取了具有代表性的相關數據集來輔佐研究:TruthfulQA、Toxicity、ConfAIde、StereoSet 以及經過特定擾動處理的 SST-2。團隊根據原數據集的設定,對每個樣本進行標注,以標識每個輸入樣本是否包含不正確、有毒、隱私泄露、有歧視和被擾動的信息。


實驗設置:本文采用線性探針(Linear Probing)技術 [6] 來量化 LLMs 內部表征對可信概念的建模情況。


具體地,對于某個可信維度下的數據集,團隊收集所有切片在該數據集下的內部表征,對于每個切片的每一層表征都訓練一個線性分類器,線性分類器在測試集上的正確率代表著模型內部表征區分不同可信概念的能力。前 80 個切片的實驗結果如下(后續完整切片的實驗結果請移步正文附錄,實驗趨勢大體相同):


AI信任危機之后,揭秘預訓練如何塑造機器的「可信靈魂」-AI.x社區

圖表 4: 線性探針實驗結果


上圖所示實驗結果表明:


  • 隨著預訓練的進行,在所選取的五個可信維度上,大模型中間層的表征可以很好地區分是否可信;
  • 對于區分某個樣本是否可信,大模型在預訓練的早期階段(前 20 個切片)就迅速學習到相關概念。


2 信息瓶頸視角下審視 LLMs 有關可信概念的預訓練動態


受到利用互信息來探測模型在訓練過程中動態變化的啟發 [7],本文也利用互信息對 LLMs 表征在預訓練過程中的動態變化做了初步探索。團隊借鑒了 [7] 中使用信息平面分析傳統神經網絡訓練過程的方法,分別探究了模型表征 T 與五個原始數據集 X 之間的互信息,以及模型表征 T 與數據集標簽 Y 之間的互信息。其中,在 Reliability 維度上的實驗結果如下(其他可信維度的實驗結果請移步原文附錄):

AI信任危機之后,揭秘預訓練如何塑造機器的「可信靈魂」-AI.x社區

圖表 5: 互信息實驗結果


從圖中可以看出,T 與 X 的互信息呈現出先上升后下降的趨勢,而 T 與 Y 的互信息則持續上升。綜合來看,團隊發現這些趨勢與經典論文 [7] 中描述的先「擬合」 (fitting) 后「壓縮」 (compression) 兩個階段相吻合。具體來說,大語言模型在初始隨機化時并不具備保留信息的能力,因此互信息接近于 0;隨著預訓練的進行,大模型逐漸具備語言理解和概念建模的能力,因此互信息持續增長;隨著預訓練的進一步進行,大模型逐漸學會壓縮無關信息并提取有效信息,因此 T 和 X 的互信息減少,而 T 和 Y 的互信息繼續增長。


從互信息的角度,這是一個很有趣的發現。盡管定義和實驗設置存在細微的差異,但大語言模型和傳統神經網絡的預訓練階段都能被劃分為「擬合」和「壓縮」兩個階段。這暗示著大語言模型和傳統神經網絡的訓練過程中可能存在一些共通之處。這一發現不僅豐富了團隊對大模型預訓練動態的理解,也為未來的研究提供了新的視角和思路。


3 預訓練切片如何助力最終 LLMs 可信能力提升


3.1 表征干預技術


團隊觀察到,既然 LLMs 在其預訓練的早期階段就已經學習到了有關可信概念線性可分的表征,那么一個很自然的問題是:LLMs 在預訓練過程中的切片能不能幫助最終的指令微調模型(SFT model)進行對齊呢?


團隊基于表征干預的技術(Activation Intervention),給予該問題初步的肯定回答。


表征干預(Activation Intervention)是 LLMs 領域中一個正在快速興起的技術,已被多個場景下驗證有效 [8-9]。這里以如何減輕 LLMs 的幻覺問題,讓其回答變得更「真實」為例 [8],簡要闡述表征干預技術的基本流程:


1. 首先,分別使用涵蓋真實與虛假信息的正負文本來刺激 LLMs 并收集其對應的內部表征;

2. 然后,對正負表征的質心作差獲得「指向真實方向的引導向量(Steering Vector)」;

3. 最后,在 LLMs 前向推理時每一步產生的表征上加上該引導向量,達到干預輸出的目的。


不同于上述方法從待干預模型自身抽取引導向量,團隊意在從 LLMs 預訓練過程的切片中構建引導向量來干預指令微調模型,如下圖所示。


AI信任危機之后,揭秘預訓練如何塑造機器的「可信靈魂」-AI.x社區

圖表 6: 表征干預技術示意圖


其中,團隊使用北京大學團隊開源的 PKU-RLHF-10K 數據集 [10-11] 來構建正負文本對,該數據集包含一萬條帶有安全 / 非安全回復標注的對話數據,可用于 LLMs 的 RLHF 訓練。


3.2 實驗結果分析


論文在上文提及的可信領域下五個維度的數據集(Reliability: TruthfulQA,Toxicity: Toxigen,Fairness: StereoSet,Privacy: ConfAIde,Robustness: SST-2),以及四個常用的大模型通用能力評測數據集(MMLU,ARC,RACE,MathQA)上,評測了四個模型的性能:指令微調模型 AmberChat,安全對齊模型 AmberSafe,使用來自 AmberChat 自身的引導向量干預后的 AmberChat,使用來自中間預訓練切片的引導向量干預后的 AmberChat。實驗結果如下圖所示(更多的實驗觀察結果請移步原文):


AI信任危機之后,揭秘預訓練如何塑造機器的「可信靈魂」-AI.x社區

圖表 7: 表征干預后模型性能評測結果


實驗結果表明,在使用來自預訓練切片的引導向量干預 AmberChat 后,AmberChat 在三個可信維度(TruthfulQA,Toxigen,StereoSet)上都有較明顯的提升。同時,這種干預對模型通用能力的影響并不顯著(在 ARC,MMLU 上表現出邊際損失,在 MathQA 和 RACE 上表現出邊際提升)。


令人驚訝的是,使用預訓練的中間切片構建的引導向量,相比于來自 AmberChat 自身的引導向量,能更顯著地提升 AmberChat 模型的可信性能。


4 小結


隨著人工智能技術的不斷進步,未來,當試圖對齊比人類更強大的模型(Superalignment)時,傳統的依賴「人類反饋」的微調技術,如 RLHF 等,或將不再奏效 [12-13]。為了應對這一挑戰,研究機構正在積極探索新的解決方案。例如,OpenAI 提出了「弱對強監督」的方法 [12],Meta 提出了「自我獎勵」機制 [13]。同時,越來越多的研究開始關注「自我對齊」(self-alignment)這一新興領域 [14-15] 


該研究為解決 Superalignment 問題提供了新的視角:利用 LLMs 在預訓練過程中的切片來輔助最終的模型對齊。團隊首先探究了預訓練過程中 LLMs 是如何構建和理解「可信」這一概念的:1)觀察到 LLMs 在預訓練的早期階段就已經建模了關于可信概念的線性表征;2)發現 LLMs 在學習可信概念的過程中呈現出的類信息瓶頸的現象。此外,通過應用表征干預技術,團隊初步驗證了預訓練過程中的切片對于輔助最終 LLMs 對齊的有效性。


團隊表示,期望本研究能夠為深入理解 LLMs 如何動態構建和發展其內在的可信屬性提供新的視角,并激發未來在 LLMs 對齊技術領域的更多創新嘗試。同時期待這些研究成果能有助于推動 LLMs 向著更可信、更可控的方向發展,為人工智能倫理與安全領域貢獻堅實的一步。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/JD0PSOahuYloTgOHqGUtcA??

標簽
收藏
回復
舉報
回復
相關推薦
久久九九免费| 涩爱av色老久久精品偷偷鲁 | 夜色激情一区二区| 92裸体在线视频网站| 久草视频精品在线| 精品一区欧美| 91精品国产色综合久久久蜜香臀| 拔插拔插海外华人免费| 国产福利免费在线观看| 国产一区在线观看麻豆| 97香蕉超级碰碰久久免费软件 | 国精产品乱码一区一区三区四区| 香蕉久久夜色精品国产| 日韩视频免费在线观看| 亚洲午夜久久久久久久久| 亚洲成人av观看| 亚洲一区二区三区精品在线| 三区精品视频| 天堂av2024| 久久99精品久久久久久动态图| 久久免费在线观看| www.99re6| 蜜桃视频欧美| 日韩女优视频免费观看| 少妇黄色一级片| 182在线播放| 亚洲欧洲av色图| 欧美日韩精品免费在线观看视频| 精品久久人妻av中文字幕| 玖玖视频精品| 97热精品视频官网| 麻豆视频在线观看| 68国产成人综合久久精品| 亚洲日韩欧美视频一区| 中文在线永久免费观看| 久久综合给合| 欧美日韩精品久久久| 免费av网址在线| av电影免费在线看| 夜夜嗨av一区二区三区| 99热都是精品| 黄色av电影在线播放| 中文字幕av在线一区二区三区| 精品国产免费久久久久久尖叫 | 一区二区三区欧美成人| 邻居大乳一区二区三区| 91在线porny国产在线看| 都市激情久久久久久久久久久| 国产av一区二区三区| 九一久久久久久| 成人高h视频在线| 最近中文字幕在线观看| 石原莉奈一区二区三区在线观看| 欧美在线观看视频| 成人免费视频毛片| 久久av最新网址| 日本久久久久久| 日日摸天天添天天添破| 国产精品普通话对白| 97人人模人人爽人人喊中文字 | 亚洲一区二区少妇| 国产特黄一级片| 国产麻豆精品95视频| 亚洲精品女av网站| 成人午夜一级二级三级| 亚洲 国产 日韩 欧美| 香蕉视频成人在线观看| 欧美一区二区三区精品电影| 日韩特级黄色片| 亚洲一区二区免费看| 欧美一区二区三区……| 日日夜夜狠狠操| 三级不卡在线观看| 国产精品女主播| 在线黄色av网站| 久久99久久久欧美国产| 91久久精品国产91久久性色| 国产成人精品亚洲精品色欲| 成人午夜免费电影| 久久精品美女| 91社区在线| 一区二区三区资源| 日本中文字幕网址| 国产精品亚洲d| 91精品国产91久久久久久一区二区| 91久久亚洲| 中文字幕一区日韩精品欧美| 伊人婷婷久久| yellow91字幕网在线| 伊人性伊人情综合网| 国产精品视频一二三四区| 蜜桃视频m3u8在线观看| 欧美亚洲国产bt| 性高潮久久久久久| 色婷婷狠狠五月综合天色拍 | 向日葵污视频在线观看| 成人黄色91| 欧美精品一区男女天堂| 久久美女免费视频| 欧美久久久久| 国产91在线播放九色快色| jlzzjlzz亚洲女人18| 91色porny在线视频| 在线视频亚洲自拍| 疯狂蹂躏欧美一区二区精品| 欧美野外猛男的大粗鳮| 中文字幕免费在线观看视频| 视频一区二区三区在线| 国产日韩中文字幕| 手机看片福利在线| 国产精品久久久久久久久免费相片| 最新av在线免费观看| 91九色国产在线播放| 欧美视频一区二区在线观看| 亚洲一区二区三区四区av| 日韩成人精品一区| 9.1国产丝袜在线观看| 一级特黄aa大片| 久久尤物电影视频在线观看| 91精品国产吴梦梦| 四虎4545www精品视频| 欧美精品一区二区三区高清aⅴ | 国产精品777777在线播放| 日韩电影中文字幕一区| 免费人成年激情视频在线观看| 麻豆视频在线看| 韩国三级在线一区| 久久riav二区三区| 精品美女在线观看视频在线观看| 欧美视频在线观看免费网址| 国产裸体视频网站| 日韩啪啪电影网| 国产成人精品最新| 毛片毛片毛片毛片毛片毛片毛片毛片毛片 | 九色成人搞黄网站| 亚洲电影在线看| 国产盗摄x88av| 国产在线乱码一区二区三区| 性欧美大战久久久久久久免费观看| 欧美gv在线观看| 亚洲国产成人爱av在线播放| 欧美另类视频在线观看| 国内精品久久久久影院一蜜桃| 亚洲国产日韩欧美| 精品欧美日韩精品| 国产性色av一区二区| 国产成人精品777777| 久久久久99精品一区| 情侣黄网站免费看| 精品一区亚洲| 国产精品成人在线| 国产高清免费av在线| 欧美色涩在线第一页| 国产午夜精品久久久久久久久| 日本女人一区二区三区| 日韩精品久久久毛片一区二区| 性欧美hd调教| 日韩网站免费观看| 国产日韩欧美视频在线观看| 亚洲日本va在线观看| 特黄特黄一级片| 国产精品红桃| 激情小说综合区| 免费成人动漫| 怡红院精品视频| 国产美女明星三级做爰| 一区二区三区在线高清| 欧美性生交xxxxx| 国产亚洲精品v| 日本一区二区精品视频| 国产极品一区| 欧美精品做受xxx性少妇| 丰满人妻熟女aⅴ一区| 欧美日韩精品中文字幕| www在线观看免费视频| 日韩 欧美一区二区三区| 亚洲一区二区三区欧美| 日韩高清二区| 日韩美女免费视频| av在线播放av| 精品久久久久香蕉网| 天天操天天干视频| 中文一区二区在线观看| 三上悠亚 电影| 亚洲欧美激情诱惑| 一级特黄录像免费播放全99| 网站一区二区| 国产精品成人国产乱一区| 二区三区四区高清视频在线观看| 亚洲精品一线二线三线| 少妇久久久久久久| 亚洲最新视频在线观看| 色欲av无码一区二区三区| 精油按摩中文字幕久久| 欧美不卡在线播放| 日韩1区2区| 国产精品一区二区欧美| 69堂免费精品视频在线播放| 欧美成人精品在线播放| 你懂的在线观看| 91精品欧美久久久久久动漫| 精品成人免费视频| 亚洲人一二三区| 中文字幕一区二区人妻在线不卡 | 五月婷婷欧美视频| 国产中文字幕久久| 91亚洲精品一区二区乱码| 亚洲va综合va国产va中文| 99精品视频免费| 亚洲国产精品影视| 久久99视频| 国产一区二区中文字幕免费看| 欧美一级做a| 欧美一级在线播放| 国产美女福利在线观看| 久久五月天综合| 国产主播福利在线| 亚洲激情自拍图| 精品久久久无码中文字幕| 欧美丝袜自拍制服另类| 黄色一级片免费在线观看| 亚洲精品高清视频在线观看| 女人十八毛片嫩草av| 91亚洲资源网| 香港三日本8a三级少妇三级99| 精品一区二区三区免费观看| 老司机午夜av| 亚洲综合二区| 成人毛片视频网站| 在线免费高清一区二区三区| eeuss中文| 四虎8848精品成人免费网站| 日本一区二区久久精品| 女厕嘘嘘一区二区在线播放 | 国内精品久久久久| 91网址在线观看| 久久这里只有精品视频首页| 色综合久久久久综合一本到桃花网| 亚洲人成伊人成综合网久久久| 天天舔天天干天天操| 欧美成人精品3d动漫h| 国产绳艺sm调教室论坛| 欧美精品成人一区二区三区四区| 中文字幕日日夜夜| 欧美亚洲精品一区| 亚洲特级黄色片| 欧美日本国产视频| 国产又粗又猛又爽| 制服丝袜成人动漫| 国产精品毛片一区二区在线看舒淇| 欧美日韩一区视频| 中文字幕男人天堂| 6080午夜不卡| 精品乱子伦一区二区| 欧美精品一区二区久久久| 亚洲精品一区二区口爆| 亚洲成人黄色网址| 午夜一区在线观看| 亚洲欧美日韩中文视频| 国产乱子伦三级在线播放| 亚洲小视频在线| 在线观看免费高清完整| 日韩最新av在线| 在线免费观看a视频| 欧美—级a级欧美特级ar全黄 | 日本久久久久久久久久久| 日韩在线短视频| 国产精品男人爽免费视频1| 欧美极品在线| 成人精品一区二区三区电影免费| 国产欧美日韩电影| 国产精品污www一区二区三区| 青青草久久爱| 视频一区二区综合| 综合天堂久久久久久久| 无码粉嫩虎白一线天在线观看 | 精品大片一区二区| 伊人天天久久大香线蕉av色| 国产精品theporn| 成人一级片网站| 精品中文字幕一区二区| 久草视频福利在线| 久久精品亚洲精品国产欧美kt∨| 午夜国产福利视频| 亚洲一区视频在线| 欧美亚洲另类小说| 91精品蜜臀在线一区尤物| 老熟妇高潮一区二区高清视频| 亚洲欧美一区二区激情| 欧美13一16娇小xxxx| 国语自产精品视频在线看| 欧美××××黑人××性爽| 亚洲伊人成综合成人网| 亚洲精品国产动漫| 久久久久亚洲av无码专区喷水| 国产精品久久久久久久免费软件| 亚洲一级免费在线观看| 成人午夜电影久久影院| 国产成人免费观看网站| 亚洲福利国产精品| 这里只有精品9| 日韩精品中文字幕久久臀| 国内精品久久久久久野外| 欧美亚洲另类在线| 日韩欧美另类中文字幕| 日韩福利视频| 亚洲区第一页| 永久免费黄色片| 日本一区二区视频在线| 日本一区二区三区免费视频| 欧美日韩成人一区| 欧美日本网站| 97国产在线视频| 日本精品视频| 亚洲精品日韩在线观看| 99热在线精品观看| 青青草原播放器| 欧美国产欧美亚州国产日韩mv天天看完整 | 91成人在线免费| 亚洲美女av在线| 免费看电影在线| 国产欧亚日韩视频| 欧洲专线二区三区| 青青青免费在线| 国产精品资源网| 中国1级黄色片| 在线精品视频免费观看| 青青免费在线视频| 久久免费观看视频| 伊人久久大香线蕉av超碰| 在线综合视频网站| 裸体一区二区三区| 美国黑人一级大黄| 欧美综合久久久| 国产主播福利在线| 日韩女优在线播放| 嫩草影视亚洲| 成年人黄色片视频| 久久毛片高清国产| 国产一级做a爱片久久毛片a| 精品成人a区在线观看| 波多野结衣久久| 99精彩视频| 欧美jjzz| 亚洲精品无码久久久久久久| 亚洲欧美综合另类在线卡通| 最近中文在线观看| 色yeye香蕉凹凸一区二区av| 久久日本片精品aaaaa国产| 相泽南亚洲一区二区在线播放 | 中文字幕在线播放一区二区| 亚洲欧美日韩精品久久久久| 国产精品伦理一区| 欧美另类xxx| 国产成人精品亚洲线观看| 欧美中文字幕在线观看视频 | 四虎国产精品成人免费入口| 色系网站成人免费| 成人免费高清在线播放| 国产精品你懂得| 亚洲最大av| 中文字幕一区二区三区人妻在线视频| 欧美xxxx中国| 色偷偷88888欧美精品久久久| 我爱我色成人网| 色综合久久av| 久99久精品视频免费观看| 久久97人妻无码一区二区三区| 欧美精品一区二区三区高清aⅴ | 亚洲一级在线观看| 亚洲aⅴ乱码精品成人区| 日韩av电影在线播放| av在线不卡顿| 99精品视频免费版的特色功能| 亚洲高清不卡在线观看| 色视频精品视频在线观看| 国产成人拍精品视频午夜网站 | av色综合久久天堂av综合| 久久精品视频7| 久久精品国产亚洲精品2020| 66精品视频在线观看| 日韩在线综合网| 中文幕一区二区三区久久蜜桃| jizz中国少妇| 欧美亚洲成人xxx| 999成人网| 中文字幕日韩三级片| 欧美日韩高清一区二区不卡| 丁香花在线电影小说观看| 欧美精品与人动性物交免费看| 精品一区二区成人精品| 国产稀缺真实呦乱在线| 亚洲三级免费看| 77成人影视| 深夜黄色小视频| 亚洲成人av免费| 在线播放日本| 农村寡妇一区二区三区| 国产一区二区三区蝌蚪| 免费污污视频在线观看|