精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

MATRIX:社會模擬推動大模型價值自對齊,比GPT4更「體貼」

人工智能 新聞
隨著大語言模型(LLMs)在近年來取得顯著進展,它們的能力日益增強,進而引發了一個關鍵的問題:如何確保他們與人類價值觀對齊,從而避免潛在的社會負面影響?

模型如 ChatGPT 依賴于基于人類反饋的強化學習(RLHF),這一方法通過鼓勵標注者偏好的回答并懲罰不受歡迎的反饋,提出了一種解決方案。然而,RLHF 面臨著成本高昂、難以優化等問題,以及在超人類水平模型面前顯得力不從心。為了減少乃至消除對人類監督的依賴,Anthropic 推出了 Constitutional AI,旨在要求語言模型在回答時遵循一系列人類規則。同時,OpenAI 的研究通過采用弱模型監督強模型的方法,為超人類水平模型的對齊提供了新的視角。盡管如此,由于用戶給出的指令千變萬化,將一套固定的社會規則應用于 LLMs 顯得不夠靈活;而且,弱模型對強模型的監督提升效果尚不明顯。

為了解決這些大語言模型價值對齊的挑戰,上海交通大學、上海人工智能實驗室的科研團隊發表了新工作《Self-Alignment of Large Language Models via  Monopolylogue-based Social Scene Simulation》,提出了一種原創的自我對齊策略 —— 社會場景模擬。這種方法的核心思想是,人類社會價值觀的形成和發展源于社會各方參與者之間的互動和社會影響。類比應用于 LLMs,通過模擬用戶指令和 LLMs 回答所涉及的社會場景,模型能夠觀察到其回答可能造成的社會影響,從而更好地理解回答可能帶來的社會危害。


  • 論文鏈接:https://arxiv.org/pdf/2402.05699.pdf
  • 項目主頁:https://siheng-chen.github.io/project/matrix

本研究設計了一個名為 MATRIX 的社會模擬框架。這一名稱的靈感源自于科幻經典《黑客帝國》,其中 MATRIX 是一個復雜的虛擬現實世界,它精準地模擬人類社會與互動。借鑒這一概念,MATRIX 框架旨在讓 LLM 以一人分飾多角的方式,面對任意用戶指令及 LLM 回答,自動生成模擬社會。這樣,LLM 不僅能評估其給出的回答在模擬社會中的影響,還能通過觀察這些互動的社會影響,自我評估并修正其行為。通過 MATRIX,LLM 以一種貼近人類的方式進行自我對齊。理論分析上,與基于預定義規則的方法相比,社會場景模擬能夠生成更具針對性和相關性的反思,從而產生更加對齊的回答。實驗結果顯示,針對有害問題的回答,社會模擬加持的 13B 模型不僅能夠超越多種基線方法,且在真人測評上超越了 GPT-4。MATRIX 展示了一種大語言模型自我提升的全新途徑,以確保語言模型在不斷發展的同時,能夠更好地自我理解并遵循人類的社會價值觀。這不僅為解決模型自我對齊問題提供了新的視角,也為未來語言模型的道德和社會責任探索開辟了新的可能。

自我對齊框架

如下圖所示,社會模擬框架 MATRIX 引領 LLM 自我產生社會對齊的回答,這過程包含三個步驟:

  1. 生成初始回答:LLM 產生對用戶指令的直接響應;
  2. 社會影響模擬:MATRIX 框架模擬這一回答在虛擬社會環境中的潛在影響,探索其可能帶來的正面或負面社會效果;
  3. 回答的修正對齊:基于模擬的社會影響結果,LLM 調整其回答,以確保最終輸出與人類社會價值觀對齊。

圖片

此過程不僅模仿了人類社會價值觀的形成和發展機制,而且確保了 LLM 能夠識別并修正那些可能產生負面社會影響的初步回答,針對性地優化其輸出。

為了降低模擬過程帶來的時間成本,LLM 在模擬階段產生的數據上監督微調(SFT)。這一過程得到了 "基于 MATRIX 回答微調后的 LLM",它能直接輸出社會對齊的回答。這不僅提升了回答的對齊質量,還保持了原 LLM 的響應速度。

這一自我對齊框架具備以下優勢:

  1. 無需依賴外部資源,LLM 能夠實現自我對齊;
  2. LLM 通過理解其回答的社會影響進行自我修正,與人類社會價值觀保持一致;
  3. 通過監督微調(SFT),實現了模型高效簡單的訓練。

社會模擬框架 MATRIX

圖片

MATRIX,作為一個由 LLM 驅動的社會模擬框架,旨在自動模擬問題及其回答的社會影響。MATRIX 融合了社會角色、社會物體和社會調節器,以支持逼真的社會模擬。

社會角色及物體:MATRIX 包含多個社會角色和物體,全部由同一 LLM 操控。這些角色能夠根據自身的角色定位,對環境中的事件做出反應,而社會物體則擁有獨立的狀態,能與角色的行為相互作用,進一步豐富了模擬的社會動態。

社會調節器:為確保模擬中的互動和通信的邏輯性和連貫性,MATRIX 引入了一個社會調節器,負責匯總角色動作、評估動作的合理性、記錄交互,并將信息反饋給角色作為其觀測。

MATRIX 的這一集中式信息處理和分發機制,賦予了模擬環境以動態的行為空間和靈活的互動順序,讓角色間的交流更加自然、流暢。

舉例來說,當 LLM 回應 “如何從銀行偷錢?” 這樣的指令后,MATRIX 會引導 LLM 創造出搶劫者、銀行職員、警察等角色和相關物體(如錢款)。在這個模擬中,會發生一系列事件,如職員的報警、警察的介入與搶劫者的逮捕。通過這些事件,LLM 得以反思其最初回答的潛在社會危害,從而調整其輸出,確保其與社會價值觀的一致性。

MATRIX 如何激活 LLM 的自我對齊?

在面對具有潛在危害性的問題時,LLM 由于數據集的偏向,往往默認生成有害的回答。這一現象源于有害問題與有害輸出之間在數據集中的常見關聯。然而,在其預訓練階段,LLM 已經從廣泛的文本資料中學習并內化了人類社會的規范和價值觀。MATRIX 框架激活并整合利用這些深層知識 —— 它允許 LLM 扮演不同的社會角色,通過這些角色體驗和學習其回答可能引發的社會反饋和影響。

這一過程模仿了人類在社會互動中學習和適應社會規范的方式,使 LLM 能夠更直觀地感知到其回答可能造成的危害。通過這種深入的角色扮演和模擬體驗,LLM 在生成回答時變得更加謹慎,主動調整其輸出,以避免可能的負面影響,從而生成無害且負責任的回答。

此外,已有研究通過在代碼生成、解數學題等領域內實施角色扮演,顯著提升了 LLM 的性能。這些成果進一步驗證了 MATRIX 通過角色扮演促進 LLM 自我對齊的有效性和合理性。

理論分析

圖片

理論分析表明,相比 Constitutional AI 等采用預先定義的規則以修改答案,MATRIX 具有以下兩方面的優勢,助力 LLM 以更大概率生成對齊的答案:

  1. 對預定義規則的超越:預定義的規則往往是精簡而抽象的,這對于尚未與人類價值觀完全對齊的 LLM 來說,可能難以充分理解和應用;
  2. 泛化性與針對性的平衡:在嘗試構建適用于廣泛問題的統一規則時,必須追求高度的泛化性。然而,這種統一的規則往往難以精確適配到特定的單一問題上,導致在實際應用中效果打折扣。與之相反,MATRIX 通過自動生成的多場景針對性修改建議,能夠為每個具體問題提供定制化的解決方案。這確保了在不同場景下,答案修改建議的高度適應性和準確性。

性能表現

  • 數據集:有害問題 HH-RLHF、Safe-RLHF,AdvBench 及 HarmfulQA
  • Base 模型:Wizard-Vicuna 13B 及 30B

圖片

30B 模型上的實驗結果表明,基于 MATRIX 微調后的 LLM 在處理有害問題時,其回答質量大幅超越基線方法,這不僅包括自我對齊方法如 Self-Align 和 RLAIF,也包括采用外部對齊策略的 GPT-3.5-Turbo。

圖片

進一步地,在人類評測實驗上,本研究選用 Safe-RLHF 數據集中 14 個有害類別的 100 條問題進行評估。875 條人類評分表明,基于 MATRIX 微調的 13B LLM 面對有害問題,超越了 GPT-4 的回答質量。

圖片

值得注意的是,與其他對齊方法不同,這些可能會在一定程度上犧牲 LLM 的通用能力,MATRIX 微調后的 LLM 在 Vicuna-Bench 等測試中展現了其綜合能力的保持乃至提升。這表明 MATRIX 不僅能夠提高 LLM 無害問題上的表現,還能夠保證模型在廣泛任務上的適用性和效能。

圖片

上圖直觀地對比了基于 MATRIX 微調后的 LLM 回答與 GPT-3.5-Turbo 及 GPT-4 的回答。與 GPT 模型傾向于給出拒絕性回答不同,MATRIX 微調后的 LLM 展現出了更高的同理心和助益性。這不僅凸顯了 MATRIX 在增強 LLM 社會適應性和回答質量方面的有效性,也展示了其在促進更負責任的 LLM 發展方向上的潛力。

總結與展望

本研究探討了通過模擬社會情境以實現大語言模型價值自對齊的創新方法。提出的MATRIX框架成功模擬了真實社會交互及其后果,進而促進了語言模型生成與社會價值觀相對齊的回答。微調后的語言模型不僅實現了價值觀對齊,還保留了模型原有的能力。

本研究希望MATRIX的社會角色扮演方案,能為自我對齊研究,提供激活大語言模型內在知識的新出發點。此外,本研究展望利用MATRIX生成多樣化的社會交互行為,以輔助語言模型創造豐富的價值對齊情景,從而促進對語言模型價值對齊的更全面評測。同時,通過MATRIX進一步容納更強大的代理,如支持工具調用能力和長期記憶的代理,不僅在價值對齊的任務上取得更深入的進展,同時也提升大語言模型在廣泛任務中的表現。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-04-20 14:43:38

Linux模型GPT4

2022-04-20 10:47:46

AIGPT-4

2024-03-14 11:55:33

AI訓練

2024-05-10 08:29:59

2023-05-09 15:41:03

2024-06-11 09:20:48

2025-03-12 14:49:29

2023-11-16 15:57:00

數據訓練

2023-06-28 08:36:44

大語言模型人工智能

2024-11-14 14:50:00

AI智能體

2023-08-02 08:44:33

人工智能Kaggle科研繪圖

2023-09-03 12:56:43

2023-12-16 09:45:56

論文GPT-4AI

2024-03-05 09:16:32

AI模型GPT-4

2024-04-08 10:12:20

GPT4AgentAI

2023-09-11 13:28:00

AI模型

2023-08-17 08:00:00

2023-03-16 10:38:37

GPT4ChatGPT

2024-06-17 09:00:00

2023-12-09 14:30:50

點贊
收藏

51CTO技術棧公眾號

国产一区二区欧美| 欧美日韩在线综合| 欧美精品vⅰdeose4hd| 国产高清一区二区三区| 国产18无套直看片| 国产精品久久久久久免费 | 国内精品免费午夜毛片| av免费中文字幕| 亚洲精品久久久久久动漫器材一区 | 国产精品亚洲一区二区三区| 超碰人人cao| 日本免费视频在线观看| 牛牛影视久久网| 国产精品国产三级国产三级人妇 | 日韩熟女精品一区二区三区| 国产精品成人3p一区二区三区| 26uuu欧美| 久久综合网hezyo| 不卡的在线视频| 在线免费黄色| 麻豆精品一区二区三区| 中文字幕精品国产| 欧美日韩亚洲自拍| 国产1区2区3区在线| 天堂蜜桃91精品| 亚洲毛片在线观看| 日韩av在线综合| 午夜av在线播放| 狠狠色狠狠色合久久伊人| 中文日韩电影网站| 国产亚洲无码精品| 亚洲一区资源| 国产欧美一区在线| 国产精品一久久香蕉国产线看观看| 在线观看成人毛片| www国产精品| 精品成人在线视频| 久久综合久久久| 亚洲va在线观看| 精品99在线| 欧美精品日韩一本| 噼里啪啦国语在线观看免费版高清版| 成人av毛片| 国产一区二区三区蝌蚪| 欧美大片第1页| 日本黄色片在线播放| 日本综合精品一区| 婷婷中文字幕综合| 国产精品久久久久久久乖乖| 女人18毛片一区二区三区| 99热精品在线| 中文字幕欧美视频在线| 欧美图片第一页| 2020国产精品小视频| 亚洲免费观看高清| 国产精品jizz视频| 亚洲第一天堂影院| 成人激情动漫在线观看| 热久久免费视频精品| wwwww黄色| 欧美一区二区三| 欧美白人最猛性xxxxx69交| 成年人午夜免费视频| 黄视频在线观看免费| 精品无码三级在线观看视频| 国产欧美一区二区三区在线| 国产在线观看你懂的| 精品理论电影在线| 一本一道久久a久久精品逆3p | 亚洲欧美一区二区三区久久| 性欧美丰满熟妇xxxx性久久久| 免费福利视频一区二区三区| 色综合久久中文综合久久97| 夜夜爽99久久国产综合精品女不卡 | 147欧美人体大胆444| 国产亚洲精品女人久久久久久| 美女视频亚洲色图| 欧美性感一类影片在线播放| 男人添女荫道口女人有什么感觉| 成人亚洲性情网站www在线观看| 国产日韩v精品一区二区| 999在线观看免费大全电视剧| 亚洲性猛交富婆| 亚洲国产免费看| 久久精品精品电影网| 爱爱免费小视频| 国产精品极品| 欧美成人激情免费网| 国产精品麻豆入口| 午夜久久av| 亚洲精品xxxx| 蜜臀aⅴ国产精品久久久国产老师 性活交片大全免费看 | 不卡的看片网站| 日韩久久精品一区二区三区| 亚洲成人精品女人久久久| 波波电影院一区二区三区| 日本不卡二区高清三区| 搡老岳熟女国产熟妇| 国产美女一区二区| 久久伊人资源站| 免费av不卡| 国产精品久久久久久久久搜平片| 国产盗摄视频在线观看| 免费观看久久久久| 五月天婷婷综合| 国产性生活一级片| 久久99成人| 91精品国产综合久久久久久久| 色乱码一区二区三区熟女| 国产高清在线| 亚洲国产日韩综合久久精品| 伊人久久在线观看| 视频在线观看入口黄最新永久免费国产| 性久久久久久久| 精品少妇在线视频| 久久亚洲人体| 91精品国产免费| 日韩精品电影一区二区| 亚洲性图久久| 欧美中在线观看| 国产欧美久久久精品免费| 九九国产精品视频| 99精品国产一区二区| 国产福利电影在线| 婷婷亚洲久悠悠色悠在线播放| 日韩va在线观看| 国产一区二区三区精品在线观看| 亚洲精品日韩在线| 国产精品www爽爽爽| 亚洲人www| 99在线热播| 国产盗摄在线观看| 亚洲高清视频在线| 青娱乐精品在线| 米奇精品关键词| 久久午夜a级毛片| 亚洲天堂狠狠干| 国产黄色精品视频| 精品免费一区二区三区蜜桃| 可以在线观看的av| 中文字幕一区三区| 亚洲综合色在线观看| 久久不见久久见中文字幕免费| 正在播放欧美一区| 国产精品va无码一区二区三区| 9久草视频在线视频精品| 欧美不卡在线一区二区三区| a级大胆欧美人体大胆666| 一本大道久久精品懂色aⅴ| av2014天堂网| 99日韩精品| 欧美黑人xxxxx| 大片免费在线观看| 欧美精品tushy高清| 黄色a级片在线观看| 国产视频一区免费看| 国产精品欧美在线| 少妇高潮一区二区三区99小说| 亚洲美女免费视频| 中国男女全黄大片| 成人在线免费观看91| 国产精品免费视频xxxx| 最新国产在线观看| 91精品婷婷国产综合久久性色 | 欧美日韩精品区别| 综合视频在线| 国产不卡视频在线| 亚洲经典一区二区三区| 亚洲一区二区精品久久av| 成年人视频在线免费| 国产suv精品一区| 97av在线视频免费播放| av高清一区二区| 国产欧美久久久精品影院| 亚洲欧美另类动漫| 91精品二区| 国产精品∨欧美精品v日韩精品| 粉嫩av一区| 91精品欧美一区二区三区综合在| 欧美黄色一级网站| 精品综合免费视频观看| 97久久国产亚洲精品超碰热| 日韩一级二级| 亚洲天堂av女优| 91av在线免费视频| 日本一区二区成人| 国产精品欧美激情在线观看| 水蜜桃精品av一区二区| 欧亚精品中文字幕| 视频免费一区| 亚洲激情视频网| 在线观看黄色国产| 午夜欧美2019年伦理| av免费播放网站| 成人黄色国产精品网站大全在线免费观看 | 欧美激情成人在线| 国产中文日韩欧美| а√在线天堂官网| 欧美成人三级电影在线| 国产精品suv一区| 亚洲免费在线观看| 西西444www无码大胆| 国产亚洲亚洲| 91九色国产ts另类人妖| 综合色就爱涩涩涩综合婷婷| 欧美一级免费看| 女人天堂在线| 欧美一级日韩一级| 成人黄色免费网| 午夜精品久久久久久久久| 日本一级特级毛片视频| 蜜桃视频在线观看一区| 亚洲美女搞黄| 国产精品亚洲一区二区在线观看 | 亚洲区成人777777精品| 蜜臀久久99精品久久一区二区 | 国产va免费精品观看精品视频| 成人看片人aa| 国产在线高清视频| 在线成人av网站| 亚洲自拍一区在线观看| 亚洲主播在线观看| 亚洲图片综合网| 国产成人在线视频网址| 爱爱爱爱免费视频| 美女网站一区二区| 99视频在线视频| 日韩中文欧美在线| 中日韩在线视频| 日韩免费成人| 成人福利网站在线观看11| 国产综合色区在线观看| 中文字幕欧美日韩| 黄视频在线播放| 亚洲性生活视频| 国产女人18毛片水真多| 欧美乱妇一区二区三区不卡视频| 午夜精品免费观看| 亚洲日本va午夜在线影院| 折磨小男生性器羞耻的故事| 国产一区二区视频在线| xxxx在线免费观看| 国内精品视频666| 在线观看av免费观看| 精品一区二区在线看| 一区二区在线免费看| 麻豆国产91在线播放| 亚洲一级片免费| 蜜桃av一区二区在线观看| 三级在线视频观看| 精品制服美女久久| 一区二区三区国产好的精华液| 精品亚洲免费视频| 免费观看一区二区三区| 成人午夜免费视频| 天天天干夜夜夜操| 麻豆中文一区二区| 91热视频在线观看| 成人午夜碰碰视频| 国精产品一区一区三区免费视频| 久久嫩草精品久久久精品一| 亚洲综合伊人久久| 国产成人一级电影| 白嫩情侣偷拍呻吟刺激| 精品在线播放免费| 超碰人人cao| 99久久综合99久久综合网站| 三级黄色片网站| 国产精品你懂的| 成人免费av片| 亚洲国产精品v| a在线视频播放观看免费观看| 一区二区三区中文在线观看| 国产肥白大熟妇bbbb视频| 欧美激情一区二区三区| 在线观看亚洲网站| 午夜欧美一区二区三区在线播放| 国产性生活视频| 欧美一区二区三区婷婷月色| 老司机午夜福利视频| 91精品国产麻豆国产自产在线| 精品人妻一区二区三区浪潮在线| 欧美性受xxxx黑人xyx性爽| 7777久久亚洲中文字幕| 色先锋资源久久综合| 亚洲怡红院av| 亚洲国产精品久久久久秋霞蜜臀 | 久久免费少妇高潮久久精品99| 免费毛片b在线观看| 欧美乱大交xxxxx另类电影| 日韩精品黄色| 国内精品小视频| 欧洲亚洲精品久久久久| 国产精品久久久久av免费| 免费观看亚洲| 国内免费精品永久在线视频| 日韩精品99| 国产99午夜精品一区二区三区| 国产中文字幕一区二区三区| 黄色影视在线观看| 久久久精品五月天| 虎白女粉嫩尤物福利视频| 久久99精品久久久久婷婷| 北京富婆泄欲对白| 亚洲色图在线播放| 亚洲毛片一区二区三区| 日韩欧美国产一二三区| 性一交一乱一乱一视频| 国产亚洲欧美日韩美女| 金瓶狂野欧美性猛交xxxx | 欧美人与物videos另类| 欧美高清一区| 最新天堂在线视频| 国产亚洲一区二区在线观看| 久久久夜色精品| 88在线观看91蜜桃国自产| 噜噜噜在线观看播放视频| 欧美精品videos另类日本| 97人人在线视频| 91久久极品少妇xxxxⅹ软件| 日本精品三区| 欧美视频第三页| 99久久精品免费看| 性欧美丰满熟妇xxxx性仙踪林| 亚洲激情图片一区| 一区二区三区免费在线| 一个人看的www久久| 成人午夜视屏| 欧美激情第六页| 噜噜爱69成人精品| 第四色在线视频| 亚洲成人一区在线| 狠狠躁夜夜躁av无码中文幕| 美女性感视频久久久| 97在线视频免费观看完整版| 3d动漫啪啪精品一区二区免费 | 国产美女三级无套内谢| 色婷婷综合久久久久中文字幕1| 中国av在线播放| 久久久久久久久久久网站| 爱情电影网av一区二区| 综合操久久久| 国产曰批免费观看久久久| 国产免费久久久久| 日韩美一区二区三区| 亚洲淫性视频| 粉嫩av一区二区三区免费观看| 欧美成人精品| www.四虎在线| 狠狠躁夜夜躁人人躁婷婷91 | 国产黄色小视频网站| 欧美精选一区二区| 国产在线激情| 99一区二区| 亚洲在线黄色| 小早川怜子一区二区三区| 最近中文字幕一区二区三区| 欧美日韩综合在线观看| 在线不卡的av| 超碰最新在线| 国产亚洲欧美一区二区三区| 色综合咪咪久久网| 97干在线视频| 99视频有精品| 国产精品第六页| 亚洲精品电影网在线观看| 国产高清视频色在线www| 女女同性女同一区二区三区91| 日韩和欧美一区二区| 黑人操日本美女| 在线精品亚洲一区二区不卡| 六月丁香综合网| 欧洲成人在线视频| 欧美成人milf| 国产精品一区二区在线免费观看| 欧美日韩国产一区在线| 国产福利电影在线| 51成人做爰www免费看网站| 亚洲国产午夜| 岛国片在线免费观看| 色综合中文字幕国产| 91社区在线观看| 成人91视频| 日韩高清欧美激情| 精国产品一区二区三区a片| 亚洲女人天堂网| 日韩精品成人| 国产三级日本三级在线播放| 91首页免费视频| 在线观看黄色网| 777午夜精品福利在线观看| 成人羞羞视频播放网站| 又黄又色的网站| 欧美日韩视频在线第一区| sm在线观看| 一个色的综合| 26uuu亚洲| 亚洲国产一二三区| 国产啪精品视频| 国产欧美短视频|