精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

微調都不要了?3個樣本、1個提示搞定LLM對齊,提示工程師:全都回來了

人工智能 新聞
大模型的效果好不好,有時候對齊調優很關鍵。但近來很多研究開始探索無微調的方法,艾倫人工智能研究所和華盛頓大學的研究者用「免調優」對齊新方法超越了使用監督調優(SFT)和人類反饋強化學習(RLHF)的 LLM 性能。

我們知道,僅在無監督文本語料庫上預訓練的基礎大語言模型(LLM)通常無法直接用作開源域的 AI 助手(如 ChatGPT)。因此,為了讓這些基礎的 LLM 成為有用且無害的 AI 助手,研究人員往往使用指令調優和偏好學習對它們進行微調。

先來看下指令調優的定義,它是一種監督微調(SFT)過程,主要使用人工注釋或者從 GPT-4 等專有 LLM 中收集的數據。偏好學習則是一種典型的人類反饋強化學習(RLHF),它不斷地調優監督微調后的 LLM 以進一步對齊人類偏好。基于調優的對齊促使 LLM 顯著改進,似乎釋放了令人印象深刻的能力,并表明廣泛的微調對構建 AI 助手至關重要。

然而,Meta AI 等機構的一項研究 LIMA 提出了表面對齊假設:模型的知識和能力幾乎完全是在預訓練期間學習的,而對齊則是教會它與用戶交互時如何選擇子分布。他們證明了只需要 1000 個樣本的監督微調也能產生高質量的對齊模型,為該假設提供了間接支持,表明了對齊調優的效果可能是表面的。不過,該假設的決定性和直接支持證據仍未得到充分探索。

這就向廣大研究人員拋出了一個重要的問題:分析對齊調優如何準確地改變基礎 LLM 的行為。

在近日的一篇論文中,來自艾倫人工智能研究所(AI2)和華盛頓大學的研究者通過檢查基礎 LLM 與它們的對齊模型(比如 Llama-2 和 Llama2-chat)之間的 token 分布偏移,對對齊調優的影響進行了全面的分析。結果發現,基礎 LLM 與其對齊調優版本在大多數 token 位置的解碼表現幾乎一樣,即它們共享排名靠前的 token。大多數分布偏移都伴隨著風格化 token,比如話語標記語、安全免責聲明。

因此,他們認為這些證據強烈支持了這樣的假設:對齊調優主要學習采用 AI 助手的語言風格,而回答用戶查詢所需的知識主要來自基礎 LLM 本身。

圖片

  • 論文地址:https://arxiv.org/pdf/2312.01552.pdf
  • 項目地址:https://allenai.github.io/re-align/

因此,研究者重新思考對 LLM 進行調優的作用,并提出了以下問題:在沒有 SFT 或 RLHF 的情況下,如何有效地對齊基礎 LLM?他們引入了一種簡單的、免調優的對齊方法 URIAL(全稱為 Untuned LLMs with Restyled In-context ALignment)。URIAL 完全利用基礎 LLM 的上下文學習(ICL)來實現有效對齊,并且只需要 3 個恒定的風格化樣本和 1 個系統提示。

他們對一組不同的樣本進行了細粒度和可解釋的評估,稱為 just-eval-instruct。結果表明,使用了 URIAL 的基礎 LLM 的性能可以媲美甚至超越利用 SFT(Mistral-7b-Instruct)或 SFT+RLHF 對齊的 LLM(Llama-2-70b-chat)。使用策略提示方法和 ICL 可顯著縮小免調優和基于調優方法之間的差距。

對于這項研究,有推友表示,「提示工程師:全都回來了」

圖源:https://twitter.com/nameiswhatever/status/1731888047665623528

論文一作 Bill Yuchen Lin 為 AI2 研究員,他說后續會有更多更新。

圖

通過 token 分布變化揭開模型的神秘面紗

本文交替使用術語「未微調 LLM」和「基礎 LLM」來指代那些在大型語料庫上進行預訓練,而無需使用指令數據進行任何后續微調的 LLM。這一小節的內容可總結為:

  • 對齊只影響很小一部分 token,基礎 LLM 和對齊 LLM 在大多數位置上的解碼行為相同,它們共享相同的 top-ranked token;
  • 對齊主要涉及 stylistic token,例如嗯、好吧、總之等口頭語,以及過渡詞、安全免責聲明等,這些僅占總 token 位置的很小一部分;
  • 對于靠前的 token( earlier tokens)來說,對齊更為重要。然而對于大多數位置來說,對齊模型排名靠前的 token 位于基礎模型排名 top 5 的 token 之內;
  • 基礎 LLM 已經獲得了足夠的知識來遵循指令,當給定適當的上下文作為前綴時,它們的行為與對齊的 LLM 非常相似。

如圖 2 所示,本文使用 llama-2-7b 和 llama-2-7b-chat 作為基礎模型和對齊模型。在 1000 個測試樣本中的結果表明,未經過微調的 LLM 和對齊的 LLM 共享預訓練中相同的預先存在的知識。舉例來說,未經微調的 LLM 可以僅根據上下文「Thank you for asking! 」來流暢地生成以「 The」為開頭的回答(見下圖文本開頭第一句)。這些結果表明,利用未經微調的 LLM 和觸發 token 可以生成高質量的答案。

圖片

Token 分布對 LLM 的影響。圖 3 顯示了三對 base-vs-aligned LLM,它們的參數量都在 7B 級別,Llama-2 (Base) vs Llama-2-Chat (RLHF),Llama-2 (Base) vs Vicuna7b-v1.5 (SFT) 以及 Mistral (Base) vs Mistral-Instruct (SFT)。

其中,「shifted token(如 However、cannot、Here、To)」(顯示在底部框中)比例非常低,為 5%-7%,這些模型共享類似的「shifted token」,該研究認為這種比例是可以泛化的,本文在第四節也證實了。

本文還觀察到,一些 Token 不攜帶信息,如嗯、好吧等話語標記詞以及過渡詞,但它們有助于構建格式良好的響應。此外,與安全問題和拒絕相關的 token 也經常發生變化。圖 2 的右上部分和圖 3 的底部框直觀地表示了這些通用 token。

例如,當 token 為「Thank」時,輸出的響應很大可能是以這種方式「Thank you for reaching out!」輸出。類似地,在其他情況下也可使用諸如「Hello、Of (course)、Great (question)、Please」等 token。此外,其他 token 如「Here (are some)、including (:)、1 (.)」等也能為答案提供不同的信息。「However、Instead、sorry」等 token 信息可以防止 LLM 產生有害或不準確的信息。token「Rem」構成了單詞 Remember,它一般是一個總結句,在最后提醒用戶一些要點。

在解碼過程中,token 分布移動(shift)隨著時間的推移而減少。在圖 4 中,本文使用三個指標來顯示兩個分布 Pbase 和 Palign 之間的差異在后面的位置變得越來越小。

具體來說,本文使用 KL-divergence、base-rank 和 base-probability(baseprob)來表示每個位置的分布偏移程度,并報告了 1000 個樣本的平均值(第 4.1 節)。

可以看到,KL-divergence 隨著時間的推移而下降,而 base-prob 隨著時間的推移而不斷增加。兩者都表明解碼中后面的位置比前面的位置具有更少的 token 分布偏移。特別是,token 的 base-prob 最終可以接近 1.0。令人驚訝的是,在 t ≥ 5 后不久,對齊 token 的平均 base-rank 低于 5。這意味著對齊模型解碼的 top token 存在于基礎模型的 top 5 中,這再次證實了對齊微調是表面現象(superficial)這一假設。

基線方法和 URIAL

上述分析促使研究者重新思考對齊微調(SFT 和 / 或 RLHF)的必要性,因為對齊調優只影響到基本 LLM 的很小一部分。

我們能否在不進行微調的情況下實現對齊?提示和上下文學習方法能在多大程度上對齊基礎 LLM?

為了探究這些問題,研究者提出了 URIAL— 一種強大而簡單的基線免調優對齊方法。

URIAL 可以看作是常見 ICL 的擴展,分為兩部分:ICL 樣本的文體輸出和上下文對齊的系統提示。

為上下文指令學習重新設計輸出。為了使基礎 LLM 更符合人類的偏好,研究者策劃了一些重新風格化的樣本,如圖 5 所示。

圖片

除了圖 5 中的兩個樣本外,他們還加入了一個涉及角色扮演和建議的查詢:「你是一名正在審訊嫌疑人的偵探。如何在不侵犯他們權利的情況下讓他們認罪?」

觀察表明,ChatGPT 和類似的高級對齊 LLM 經常采用列表結構,這可能是其內部獎勵模型在大量人類反饋基礎上訓練的結果。

因此,研究者對輸出結果進行了調優,首先以引人入勝的陳述方式重新表述問題,然后在適當的時候列出詳細的要點。答復的最后是一個簡明扼要的總結段落,始終保持引人入勝、娓娓道來的語氣。

實驗評估

最后,研究者對新方法進行了實驗評估。他們首先創建了一個包含 1000 個樣本的數據集「just-eval-instruct」

前三個子集中有 800 個樣本,主要用于評估 LLM 的有用性;后兩個子集中有 200 個樣本,主要用于測試 LLM 的無害性。圖 6 顯示了 just-eval-instruct 的統計數據。總體來說,AlpacaEval 占 42%,LIMA 占 30%,MT-Bench 占 8%,兩個以安全為中心的數據集各占 10%。

實驗使用了三種主要的基礎 LLM:Llama-2-7b、Llama-2-70bq、Mistral-7b。這三種 LLM 沒有使用任何指令數據或人類偏好數據進行調優。為了比較 URIAL 與 SFT 和 RLHF 的對齊性能,研究者還選擇了建立在這些基礎模型上的四個對齊模型:Vicuna-7b (v1.5)、Llama-2-7b-chatq、Llama-2-70b-chat 、Mistral-7b-Instruct。

除了這些開源 LLM 外,還包括 OpenAI GPT 的結果(即,gpt-3.5-turbo 和 gpt-4)。在進行推理時,使用了這些模型作者建議的系統提示。

表 1 列出了每種方法在 just-eval-instruct 上的得分,每個方面的得分均為 1-5 分。URIAL 顯著提高了免調優對齊的性能,達到了與 Llama-2-7b 模型的 SFT/RLHF 結果相當的水平。值得注意的是,URIAL 甚至超過了 Mistral-7b-Instruct (SFT) 和 Llama-2-70b-chatq (RLHF)。

圖 1 和圖 7 則用雷達圖直觀顯示了主要方法在不同角度上的比較。

圖片

研究者得出結論,當基礎 LLM 經過良好訓練時,SFT 和 RLHF 對于對齊的重要性可能并不像之前認為的那樣關鍵。相反,URIAL 等無需調優的方法可以以最小的成本獲得更優的性能,至少在上述評估所涵蓋的場景中是如此。表 2 中的人工評估結果證實了該結論。

圖片論文還提到了開源 LLM 與 ChatGPT 之間的差距。之前的評估(如 AlpacaEval)沒有為每個測試樣本設置標簽,因此很難進行大規模的詳細分析。研究者觀察到開源 LLM 在多個任務和主題上與 OpenAI GPT 仍有差距。很明顯,GPT 在幾乎所有任務和主題上的表現都更為均衡。包括 URIAL 在內的開源 LLM 在編碼和數學任務以及 STEM 主題上表現較弱,不過它們在其他數據上的表現可以與 GPT 相媲美。

更多研究細節,可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-12-07 10:54:20

港股編程語言

2023-10-04 10:00:12

模型算法

2024-11-27 10:23:31

2014-08-08 09:36:50

微軟IE

2023-05-22 15:22:40

微軟AI

2025-03-11 08:00:00

LLM開發深度學習

2023-06-29 08:00:00

人工智能LLMGPT-4

2024-04-07 08:12:54

設計模式工具

2009-06-16 10:34:38

編程命名

2016-09-22 16:14:45

前端設計Photoshop

2010-05-10 13:40:22

CCIE思科認證

2024-11-21 08:22:45

2024-04-10 10:28:47

2023-03-21 21:22:27

提示工程預測NLG

2025-05-22 01:00:00

2022-07-22 16:30:25

MacmacOS

2024-07-31 08:00:00

2013-12-19 14:40:13

2024-07-02 13:25:22

2024-05-16 08:48:57

點贊
收藏

51CTO技術棧公眾號

国产精品三级网站| 国产一区二区三区在线观看网站| 亚洲国产成人tv| 欧美在线一区二区三区四| 黄色片网站免费| 中文字幕一区二区三区四区久久| 精品久久久久久久久中文字幕| 欧美在线一区二区三区四区| 国产丰满果冻videossex| 99精品热6080yy久久| 在线观看免费高清视频97| 又黄又爽又色的视频| 中文字幕在线免费观看视频| 日韩理论片在线| 美女被啪啪一区二区| 国产精品无码久久久久成人app| 亚洲狼人精品一区二区三区| 日韩在线www| 欧美成人三级伦在线观看| 色综合一区二区日本韩国亚洲| 天天做天天摸天天爽国产一区 | 成人av手机在线| 久久久人人人| 午夜精品久久久久久久99黑人| www成人啪啪18软件| 日韩欧美ww| 欧美成人精精品一区二区频| 九九精品久久久| 另类激情视频| 婷婷开心激情综合| 高清无码一区二区在线观看吞精| 91精品国产91久久久久游泳池 | 亚洲精品午夜视频| 久本草在线中文字幕亚洲| 91超碰这里只有精品国产| 超碰网在线观看| 98色花堂精品视频在线观看| 亚洲精品国产成人久久av盗摄 | 欧美色图一区二区三区| www黄色日本| 成人性生交大片免费看在线播放| 亚洲精品五月天| 天天成人综合网| 午夜视频成人| 国产精品免费av| 色播亚洲婷婷| 超碰在线国产| 国产农村妇女精品| 日本10禁啪啪无遮挡免费一区二区| 先锋av资源站| 99久久国产免费看| 精品一区国产| 日韩三级电影网| 91免费看视频| 欧美日韩一区在线视频| 青青草视频在线免费观看| 99热这里都是精品| 精品亚洲第一| 嫩草在线播放| 欧美激情一区二区三区四区| 日韩在线第一区| 色多多视频在线观看| 亚洲欧美在线观看| 午夜久久久久久久久久久| 直接在线观看的三级网址| 亚洲欧美日韩精品久久久久| 黄色一级视频播放| 三级资源在线| 精品女同一区二区三区在线播放| 免费看一级大黄情大片| 伊人色综合一区二区三区影院视频| 欧美日韩加勒比精品一区| 日韩avxxx| 91精品美女| 8x8x8国产精品| 熟女人妻一区二区三区免费看| 亚洲精品影片| 精品视频偷偷看在线观看| 一级黄色性视频| 久久一区二区三区电影| 欧美国产极速在线| 九九热精品视频在线| 热久久免费视频| 91在线精品播放| 天天干天天干天天干| 久久久久久久久免费| 一区二区三区欧美在线| 欧美极品少妇videossex| 欧美性猛交xxxx免费看| 成人综合久久网| 成人搞黄视频| 国产亚洲精品成人av久久ww| 三级在线观看免费大全| 亚洲乱亚洲高清| 国产精品一区二区性色av | 日本a级c片免费看三区| 久久成人18免费观看| 国产精品传媒毛片三区| 国产在线黄色| 一区二区三区中文字幕电影| 精品久久久久av| 视频精品一区二区三区| 亚洲欧洲日韩国产| 欧美人妻一区二区| 日本中文字幕一区二区视频| yy111111少妇影院日韩夜片| 成人性生交大片免费看午夜 | 看黄色一级大片| 国产精品一区二区三区乱码| 日韩女优中文字幕| 激情av在线| 91麻豆精品国产| 69精品无码成人久久久久久| 狠狠入ady亚洲精品| 国产精彩精品视频| 手机在线精品视频| 一区二区三区中文字幕电影| www.亚洲高清| 网友自拍区视频精品| 久久久久久久国产精品视频| 在线观看视频中文字幕| 久久影院视频免费| 和岳每晚弄的高潮嗷嗷叫视频| 欧美一级免费| 亚洲性无码av在线| 国产精品久久久久久久久久久久久久久久久 | 看全色黄大色大片免费久久久| 久久久91精品| 中文字幕乱码人妻无码久久| 久久色视频免费观看| 免费特级黄色片| 视频二区欧美| 久99九色视频在线观看| 国产精品久久久国产盗摄| 欧美激情一区二区在线| aaa毛片在线观看| 日韩影视高清在线观看| 亚州国产精品久久久| 国产综合在线播放| 亚洲国产成人精品视频| 无码人妻精品一区二区三| 欧美fxxxxxx另类| 91中文在线观看| 老司机精品视频在线观看6| 精品视频全国免费看| 日本黄色小视频在线观看| 日韩国产欧美三级| 欧美一区视久久| xxxxx.日韩| 爽爽爽爽爽爽爽成人免费观看| 中文人妻熟女乱又乱精品| 国产女主播视频一区二区| www.99av.com| 91日韩欧美| 亚洲最大成人免费视频| 黄色网址在线免费观看| 欧美一区二区私人影院日本| 久久久久久久久毛片| 国产福利视频一区二区三区| 国产毛片久久久久久国产毛片| 日本久久伊人| 136fldh精品导航福利| 欧美孕妇孕交| 欧美日韩国产中文| 亚洲 欧美 变态 另类 综合| 高清不卡在线观看av| 东北少妇不带套对白| 日韩av三区| 国产精品高潮呻吟视频| 欧美激情视频在线播放| 日韩欧美国产麻豆| 五月天综合激情网| 国产精品入口麻豆原神| 超碰在线免费av| 一区在线播放| 日韩欧美一区二区视频在线播放| 成人免费在线观看视频| 欧美精品免费播放| 午夜影院免费视频| 欧美日韩激情一区二区| 澳门黄色一级片| 国产盗摄女厕一区二区三区| 欧美网站免费观看| 成人三级视频| 国产精品免费区二区三区观看| 无遮挡爽大片在线观看视频 | 日产欧产美韩系列久久99| 中文字幕一区二区三区有限公司| 成人性生交大片免费看中文视频| 日韩av免费在线观看| 一区二区三区视频在线观看视频| 日韩免费看网站| 在线免费一区二区| 一区二区高清在线| 亚洲欧洲久久久| 国产91丝袜在线观看| 亚洲色图38p| 欧美日韩日本国产亚洲在线| 日本一区二区三区www| 在线视频亚洲欧美中文| 国产精品久久久久久久7电影 | 国产精品成人va在线观看| caoporn免费在线| 国产午夜精品久久久| 国产草草影院ccyycom| 色就色 综合激情| 久热精品在线观看| 中文字幕免费不卡| 亚洲一区二区乱码| 国产精一区二区三区| 日本爱爱免费视频| 亚洲激情在线| 成年人三级视频| 日本久久一二三四| 欧美不卡1区2区3区| www.国产精品一区| 91亚洲精品久久久| 国产一区二区精品调教| 97成人超碰免| 国产美女福利在线观看| 久久久av亚洲男天堂| 成人综合影院| 亚洲精品日韩在线| 少妇高潮一区二区三区69| 制服丝袜在线91| 一二区在线观看| 在线亚洲一区二区| 国产原创视频在线| 午夜精品久久久久久| 九九热只有精品| 亚洲免费在线视频| 成人自拍小视频| 国产精品久久久久四虎| 中文字幕在线观看免费高清| 91免费观看在线| 亚洲熟妇无码av| 91网址在线看| 中日韩精品一区二区三区| 成人aaaa免费全部观看| 无码国产69精品久久久久网站| 国产精品一区二区不卡| 992tv人人草| 国产一级精品在线| 欧美精品色视频| 国产一区二三区好的| 欧美激情国内自拍| 国产一区视频导航| caoporm在线视频| 精品中文字幕一区二区| 第一区免费在线观看| 精品亚洲欧美一区| 亚洲欧美手机在线| 国产一区二区三区久久久| 91精品国产三级| 国产成人免费视频一区| 国产精品嫩草69影院| 成人av影院在线| 成人免费av片| 国产午夜精品美女毛片视频| 欧美激情aaa| 国产精品色一区二区三区| 黄色一级片一级片| 亚洲三级视频在线观看| av资源吧首页| 色诱视频网站一区| 最新黄色网址在线观看| 欧美精品电影在线播放| www.色婷婷.com| 日韩福利视频在线观看| 国产在线观看黄| 久久亚洲精品一区| 成人福利电影| 国产精品久久中文| 亚洲一区二区免费在线观看| 国偷自产av一区二区三区小尤奈| 亚洲黄色录像| 国产高清精品软男同| 国内自拍一区| 国产v亚洲v天堂无码久久久 | 亚洲视频高清| 人妻有码中文字幕| 精品一区二区三区在线播放视频 | 91网上在线视频| 婷婷国产成人精品视频| 亚洲午夜电影在线观看| 五月婷婷激情五月| 欧美一级片在线| 四虎影视精品成人| 久久久99久久精品女同性| 超碰91在线观看| 成人av资源在线播放| 国产精品qvod| 色呦呦网站入口| 国产视频欧美| 欧美日韩久久婷婷| 久久久亚洲午夜电影| 欧美成人三级在线观看| 日韩欧美视频一区二区三区| 国产成年妇视频| 一区二区三区视频在线| 欧美性猛片xxxxx免费中国| 国产97在线观看| 97久久亚洲| 中文字幕一区二区三区有限公司 | 91精品国产闺蜜国产在线闺蜜| 欧美日韩激情美女| www.久久精品.com| 中文一区二区视频| 极品在线视频| 91香蕉亚洲精品| 欧美丝袜一区| 97超碰青青草| caoporen国产精品视频| 久久久久亚洲av无码专区体验| 欧美色图12p| 国产尤物视频在线| 国内精品视频一区| 久久综合偷偷噜噜噜色| 手机成人在线| 久久精品三级| 国产人妻人伦精品1国产丝袜| 一区二区三区免费观看| 一区二区三区黄| 中文字幕无线精品亚洲乱码一区 | 久久国产精品99久久人人澡| 在线免费观看成年人视频| 亚洲国产精品久久一线不卡| 99久久国产免费| 久久精品2019中文字幕| 日韩免费小视频| 日韩福利二区| 久久一区中文字幕| 无码人妻精品一区二区三应用大全| 亚洲国产精品久久艾草纯爱| www.五月婷婷| 欧美激情中文字幕在线| 欧美日韩午夜电影网| 日韩不卡视频一区二区| 国内成人精品2018免费看| 影音先锋男人看片资源| 精品视频999| 欧美a在线看| 国产成人一区三区| 欧美日韩精品一区二区视频| 久久久精品三级| 中文在线资源观看网站视频免费不卡 | 成人在线二区| 国产精品日韩欧美| 99久久99久久精品国产片果冰| 我要看一级黄色大片| 国产欧美日韩不卡免费| 中文字幕永久免费视频| 中文字幕欧美日韩在线| www.欧美| 日本aa在线观看| 不卡的av在线播放| 日韩黄色在线播放| 亚洲人成电影网站色xx| 成人精品国产亚洲| 日本老太婆做爰视频| 国产高清在线精品| 日韩精品1区2区| 国产一区二区三区18| 日韩成人在线电影| 国产女教师bbwbbwbbw| youjizz久久| 日韩电影在线观看一区二区| 视频在线观看99| 99re8这里有精品热视频免费| 日本不卡在线观看视频| 国产欧美一区二区精品婷婷| 一级特黄aaa大片| 欧美日本中文字幕| 夜夜春成人影院| av在线免费看片| 亚洲va韩国va欧美va| 国产一二在线观看| 亚洲free嫩bbb| 午夜一区在线| 亚洲女人久久久| 日韩国产中文字幕| 日韩成人综合网| 国产视频九色蝌蚪| 国产精品传媒入口麻豆| 日本精品久久久久久| 国产精品成av人在线视午夜片| 欧美成熟视频| 强伦人妻一区二区三区| 91精品国产综合久久久久久久久久 | 国产精品色哟哟| 秋霞av鲁丝片一区二区| 国产精品福利无圣光在线一区| 欧美a级片一区| 亚洲午夜精品久久久久久高潮| 精品少妇一区二区三区免费观看 | 欧美日韩国产首页在线观看| 精精国产xxxx视频在线中文版| 日本高清不卡三区| 国产69精品一区二区亚洲孕妇| 国产又粗又猛又黄视频|