辯論有助于從弱到強的泛化原創

發布于 2025-3-6 09:34

瀏覽

0收藏

摘要：

現有的對齊已有能力模型與期望行為的方法通常依賴于人類提供監督的能力。然而，未來的超人類模型將超越人類的能力。因此，人類將只能對超人類模型進行弱監督。這種預期的人類評估不足將削弱未來AI系統的安全性。可擴展監督和從弱到強的泛化是解決這一問題的兩種互補方法。在本文中，我們嘗試結合這兩種方法的優勢，以進一步改進對齊。具體來說，我們研究了如何通過一個強大的預訓練模型來改進人類監督，然后用增強的弱人類監督來監督強大模型。為了進行迭代的實證進展，我們考慮了一個類比：我們是否可以使用一個強大模型來改進弱模型的監督，然后用它來監督強大模型？我們通過在一個小型弱模型上使用真實標簽進行微調，并借助一個大型強大模型的額外幫助，然后使用弱模型生成的標簽對強大模型進行微調，進行了實證測試。我們發現，辯論可以幫助弱模型從一個不可信的強大模型中提取可信信息，這為訓練弱模型提供了樣本的上下文杠桿。我們還表明，弱模型的集成有助于利用強大模型辯論者生成長篇論證，并獲得更穩健的監督估計。在OpenAI從弱到強的NLP基準測試上的大量實驗表明，這種組合方法帶來了更好的對齊，這表明辯論有潛力幫助從弱到強的泛化。

（注釋：強監督和弱監督的概念

在AI領域，強監督（Strong Supervision）和弱監督（Weak Supervision）是描述監督信號質量和可靠性的兩個概念。簡單來說，它們反映了AI在學習時得到的“指導”有多靠譜、有多清楚。以下用通俗的語言和比喻來解釋這兩個概念。

---

強監督（Strong Supervision）

定義：強監督是指AI在學習時，得到的指導信號非常明確、準確、可靠，通常由專家或高質量的數據提供。

- 就像一個經驗豐富的老師，手把手教你做題，每一步都講得清清楚楚，答案也絕對正確。

- 你完全不用懷疑老師的指導，按照他說的做，肯定能學會。

特點：

- 數據標簽（指導信號）是精確的，比如“這張圖片是貓”“這個答案是正確的”。

- 通常需要人類專家花時間標注，或者用非常可靠的方法生成。

- 成本高，因為需要大量高質量的努力。

例子：

- 教AI識別貓狗，人類專家一張張圖片標清楚：“這是貓，這是狗。”

- 教AI回答科學問題，給它提供標準答案，比如“地球繞太陽轉”。

在論文中的含義：

- 強監督可能是人類專家直接給超級AI提供準確的反饋，或者用強大的AI自己生成的高質量標簽。但當AI比人類還聰明時，人類就沒法提供這種強監督了。

---

弱監督（Weak Supervision）

定義：弱監督是指AI在學習時，得到的指導信號不夠明確、不完全準確，或者質量較低，可能來自非專家、噪聲數據或間接推斷。

- 就像一個不太靠譜的同學教你做題，他可能會說“答案大概是這個吧”，但他自己也不完全確定。

- 你得自己琢磨琢磨，結合其他線索，才能學到東西。

特點：

- 數據標簽可能模糊、不完整，甚至有錯誤，比如“這張圖片可能是貓，也可能是狗”。

- 來源可能是非專家、自動生成的粗糙標簽，或者從大量數據中“猜”出來的。

- 成本低，但需要AI自己有一定的“悟性”去處理不完美的信息。

例子：

- 教AI識別貓狗，只給它一些模糊的提示，比如“這些圖片里大多數是貓”。

- 教AI回答問題，只告訴它“這個答案可能對，也可能不對，自己判斷吧”。

在論文中的含義：

- 弱監督可能是普通人（而不是專家）給超級AI的反饋，或者一個小AI（能力不如超級AI）生成的標簽。因為人類或小AI不如超級AI聰明，這些監督信號就不夠強。

---

比喻：強監督 vs 弱監督

想象你在學做蛋糕：

- 強監督：一個米其林大廚站在旁邊，告訴你每一步怎么做：“放2勺糖，攪拌3分鐘，烤到金黃色。”你照做，蛋糕肯定好吃。

- 弱監督：一個沒做過蛋糕的朋友說：“好像要放點糖吧，烤一會兒就行。”你得自己試錯、摸索，才能做出像樣的蛋糕。

---

在論文中的聯系

論文研究的是弱到強泛化（Weak-to-Strong Generalization），意思是讓一個超級厲害的AI（強模型）從不太靠譜的指導（弱監督）中學到正確的東西。因為未來的超級AI可能比人類聰明，人類只能提供弱監督（比如不完全準確的反饋）。論文的辦法是：

- 用辯論讓強AI自己吵出真相，幫弱AI學到更靠譜的知識。

- 再用增強后的弱AI去監督強AI，讓強AI從弱監督里“悟”出正確的行為。

總結

- 強監督：靠譜老師教你，信號清楚，結果穩。

- 弱監督：半吊子朋友指點，信號模糊，得靠自己。

）

1.引言

當前的AI對齊技術嚴重依賴于人類標注數據的可用性，例如用于監督微調（SFT）的人類演示（Wei et al. 2021; Chung et al. 2024）和用于從人類反饋中進行強化學習（RLHF）的人類偏好（Christiano et al. 2017; Ouyang et al. 2022; Bai et al. 2022）。這些技術可以用來構建當前部署的最強大的AI系統（OpenAI 2023; Anthropic 2023）。

然而，隨著模型變得越來越強大，它們將超越人類的能力（CAIS 2023）。在這種情況下，即使是人類專家也無法可靠地驗證模型輸出的質量或正確性，人類評估的角色將演變為非專家監督專家（Amodei et al. 2016; Bowman et al. 2022; Burns et al. 2023; Khan et al. 2024）。預期的人類評估不足將限制大多數現有對齊方法的有效性（Casper et al. 2023; McAleese et al. 2024）。此外，這些預測不準確的訓練信號可能導致在策略訓練期間獎勵過度優化和獎勵篡改，從而嚴重削弱其安全性（Gao, Schulman, and Hilton 2023; Denison et al. 2024）。

有兩種互補的方法可以解決上述問題：可擴展監督（SO）和從弱到強的泛化（W2SG）（Leike 2023）。SO方法旨在提高人類監督更強大模型的能力，以便可以使用準確標注的數據進行對齊（Bowman et al. 2022）。與改進人類監督不同，W2SG方法通過微調一個強大的預訓練模型，使其能夠從弱人類監督中準確泛化（Burns et al. 2023）。

我們注意到，大多數先前的SO和W2SG技術都是單獨研究的。相比之下，我們嘗試結合SO和W2SG的優勢，以進一步改進AI對齊。我們研究了如何通過一個強大的預訓練模型來改進人類監督，然后用增強的弱人類監督來監督強大模型。為了進行迭代的實證進展，我們考慮了一個類比（Burns et al. 2023; Kenton et al. 2024）：我們是否可以使用一個強大模型來改進弱模型的監督，然后用它來監督強大模型？

在本文中，我們通過在一個小型弱模型上使用地面真實標簽進行微調，并借助一個大型強大模型的知識進行額外幫助，然后使用弱模型生成的標簽對強大模型進行微調，進行了實證測試。我們假設一個在互聯網規模數據上預訓練的強大模型可以在訓練弱模型時提供樣本的上下文信息（Brown et al. 2020）。這讓我們希望，一個弱-強模型團隊可以創建一個更好的弱監督者，以激發強大模型的能力。

構建一個弱-強模型團隊的一個主要挑戰是找到從不可信模型中提取可信信息的方法（Bowman et al. 2022）。更具體地說，強大的預訓練模型具有巨大的能力，但并未與人類價值觀和意圖良好對齊（Leike et al. 2018; Ji et al. 2023）。因此，強大模型可能會故意誤導我們，生成不忠實的事實或做出虛假聲明，這可能會在用于創建弱監督者時造成損害（Michael et al. 2023）。

另一個挑戰是，弱模型（模型規模較小）可能缺乏完全處理強大模型生成長篇上下文的能力，這些上下文中充滿了與手頭任務無關的噪音。同時，最近的研究還表明，大型語言模型（LLMs）的性能與模型規模密切相關，復雜問題的難度可能超過單個弱模型的能力（Xu et al. 2023; Chung et al. 2024）。

在本研究中，我們證明了辯論可以幫助弱模型更可靠地從強大模型中提取信息。具體來說，給定一個問題，兩個強大預訓練模型的實例被隨機分配兩個相反的答案，然后這兩個實例（辯論者）就答案進行辯論（Michael et al. 2023; Khan et al. 2024; Kenton et al. 2024）。在辯論中，撒謊比反駁謊言更難，即如果一個辯論者做出虛假聲明，其對手可以令人信服地指出其論點中的缺陷（Irving, Christiano, and Amodei 2018）。因此，這些辯論中的論點可以告知弱模型每一方的優點和缺陷，并為弱模型訓練提供上下文信息。

為了充分利用強大模型辯論者生成長篇論證，我們訓練了一個弱模型的集成。我們聚合多個弱模型的預測，以獲得比單個模型更穩健的監督估計（Ganaie et al. 2022）。特別是，我們探索了兩種類型的集成：辯論集成，其中集成的不同成員在辯論采樣時使用不同的隨機種子；微調集成，其中成員僅在弱模型微調時使用不同的隨機種子。我們發現，辯論集成始終優于單個弱模型和微調集成。本研究的主要貢獻總結如下：

● 我們首次展示了可擴展監督和從弱到強泛化方法的簡單組合，這在OpenAI從弱到強的NLP基準測試中帶來了更好的對齊。

● 我們發現，辯論可以幫助弱模型從一個有能力但不可信的強大模型中提取可信信息，這為訓練弱模型提供了樣本的上下文杠桿。我們還表明，在我們的設置中，辯論優于其他可擴展監督技術。

● 我們表明，弱模型的集成有助于獲得更穩健的監督估計。我們發現，集成的多樣性至關重要，包含不共享辯論采樣種子的成員的辯論集成表現更好。

盡管借助強大模型的知識，創建一個更好的弱監督者以激發強大模型的能力只是可擴展監督和從弱到強泛化技術結合的一種方式，但我們的結果為超人類對齊方法的進一步研究鋪平了道路（Leike 2023）。我們在NLP領域提供了實證證據，表明辯論有助于從弱到強的泛化。

2.相關工作

AI對齊。AI對齊的目標是引導已有能力的模型按照人類價值觀和意圖行事（Leike et al. 2018; Ji et al. 2023）。當前的對齊方法通過在人類演示上進行模仿學習（Bain and Sammut 1995; Atkeson and Schaal 1997; Wei et al. 2021; Chung et al. 2024）、從人類反饋中進行強化學習（RLHF）（Christiano et al. 2017; Stiennon et al. 2020; Ouyang et al. 2022; Bai et al. 2022）或直接對齊算法（如直接偏好優化（DPO））（Rafailov et al. 2024b,a）來微調預訓練的LLMs。模仿學習和偏好學習都依賴于高質量的人類監督，隨著模型變得比人類更強大，這一需求變得越來越具有挑戰性（Amodei et al. 2016）。

可擴展監督。可擴展監督技術旨在提高人類監督更強大模型的能力（Bowman et al. 2022）。這通常通過利用特殊問題結構來實現，例如假設評估比生成更容易（Karp 1975; Goodfellow et al. 2014）或可分解性（Christiano, Shlegeris, and Amodei 2018）。在理論上，有許多有前景的可擴展監督提案，包括遞歸獎勵建模（Leike et al. 2018）、辯論（Irving, Christiano, and Amodei 2018）、市場制造（Hubinger 2020）、自我批評（Saunders et al. 2022）等（Lightman et al. 2023; McAleese et al. 2024; Sun et al. 2024）。最近在這一方向的實證研究表明，人機團隊可以在問答任務上提高評估準確性，超越僅有人類的基線（Bowman et al. 2022）。

辯論最初是為AI安全提出的（Irving, Christiano, and Amodei 2018）。從那時起，一系列工作探索了辯論在可擴展監督中的可用性，使用人類或LLM辯論者（Parrish et al. 2022b,a; Michael et al. 2023; Khan et al. 2024; Kenton et al. 2024）。這些研究都是為了提高推理時法官的準確性，而在我們的工作中，辯論被用來訓練一個更好的弱監督者。我們可以反過來使用弱監督者來對齊強大模型。基于LLM的辯論也在其他多個應用中被研究，例如翻譯（Liang et al. 2023）、文本評估（Chan et al. 2023）、推理和內容生成（Du et al. 2023）。

從弱到強的泛化。與改進人類監督不同，從弱到強的泛化技術通過微調一個強大的預訓練模型，使其能夠從弱人類監督中準確泛化（Burns et al. 2023）。這些技術的希望在于，強大的預訓練模型應該已經具備對齊相關任務的良好表示。因此，我們只需要一個弱監督者來激發強大模型已經掌握的知識。最近，一個理論框架被引入，以通過不匹配誤差理解從弱到強的泛化（Charikar, Pabbaraju, and Shiragur 2024）。先前的工作主要探索了如何使用固定的弱監督者來監督強大模型，而在本研究中，我們還嘗試借助強大模型的幫助來訓練一個更好的弱監督者。

集成方法。我們的工作也與現有的使用集成方法的研究相關，這些方法通過結合多個模型的預測來實現（Ganaie et al. 2022）。在AI對齊的背景下，研究了獎勵模型集成，以減輕在使用RLHF微調模型時的獎勵過度優化問題（Coste et al. 2023; Eisenstein et al. 2023）。與我們的工作最相似的是，Liu和Alahi（2024）提出為從弱到強的泛化集成一組多樣化的專業弱監督者。相比之下，在我們的工作中，我們旨在使用具有不同種子的弱模型集成，以充分利用強大模型辯論者生成長篇論證。

3.Preliminaries（預備知識）

我們回顧了(Burns et al. 2023)中的弱到強泛化流程，該流程也在后續工作(Liu and Alahi 2024; Charikar, Pabbaraju, and Shiragur 2024)中得到了采用。它通常包括三個階段：

1. 創建弱監督者。我們通過在真實標簽上微調一個小的預訓練模型來創建弱監督者。我們將弱監督者的性能稱為弱性能（weak performance）。

2. 訓練強學生模型。我們通過在弱監督者生成的弱標簽上微調一個大的預訓練模型來訓練強學生模型。我們將其性能稱為弱到強性能（weak-to-strong performance.）。

3. 訓練強上限模型。我們通過在真實標簽上微調一個大的預訓練模型來訓練強上限模型。我們將該模型的最終性能稱為強上限性能（strong ceiling performance）。

為了衡量強學生模型在弱監督下能夠恢復的性能差距比例，我們使用上述三種性能定義了性能差距恢復率（PGR）：

PGR = （weak-to-strong ? weak）/（strong ceiling ? weak）

4.Methods（方法）

Overview（概述）

在本研究中，我們按照以下三個步驟構建強學生模型：

1. 從兩個大型預訓練模型實例之間的辯論中生成論據；

2. 使用這些辯論論據訓練一組弱模型；

3. 使用弱模型集合構建的標簽訓練強學生模型。

Argument Generation through Debate（通過辯論生成論據）

我們假設大型預訓練模型嵌入了廣泛覆蓋的知識，可以幫助完成各種任務(Brown et al. 2020)。我們的目標是通過辯論從一個能力強大但不可信的強模型中提取可信信息(Bowman et al. 2022)，以便反過來使用這些可信信息來幫助訓練一個更好的弱模型。

我們首先描述我們研究的辯論協議，以從強模型中引出真相，遵循(Michael et al. 2023; Khan et al. 2024; Kenton et al. 2024)。給定一個問題及其兩個答案選項（一個正確，一個錯誤），兩個大型預訓練模型實例（辯手）被隨機分配為這兩個對立的答案進行辯論。辯論是兩個辯手之間基于回合的文本交換，他們輪流回顧前幾輪的論據并為下一輪生成自己的論據。在預定回合數結束后，辯論結束，并保留辯論中論據的記錄。在辯論期間，每個辯手為其分配的答案提供最具說服力的證據，并提出論據解釋為何對手的主張是錯誤的。

具體來說，在本研究中辯論進行三輪。在每輪開始時，辯手會收到概述問題、他們分配的答案以及當前辯論記錄的指令。引發辯論的提示如表1所示。

- Table 1：在二元分類問題上誘導辯論的提示。

辯論有助于從弱到強的泛化-AI.x社區

（注釋：

1.有一個科學知識問題，后跟一個答案。針對該答案是正確還是錯誤，與另一個對手進行辯論。構建你為何認為答案正確的論據。

2.有一個科學知識問題，后跟一個答案。針對該答案是正確還是錯誤，與另一個對手進行辯論。構建你為何認為答案錯誤的論據，并列出對手論據中的缺陷。

3.有一個科學知識問題，后跟一個答案。針對該答案是正確還是錯誤，與另一個對手進行辯論。構建針對對手論據的反駁。

）

我們在圖1中展示了這一辯論過程的概覽。我們可以觀察到，辯手B站在錯誤答案一邊，并被激勵提出誤導性論據。然而，在下一輪中，辯手A令人信服地指出了這些虛假主張，因此辯手B無法輕易逃脫。這一觀察符合“撒謊比駁斥謊言更難”的說法(Irving, Christiano, and Amodei 2018)。辯論中的這些論據可以提供關于雙方優缺點的重要信息，有潛力顯著提升弱模型的能力。

辯論有助于從弱到強的泛化-AI.x社區

- Figure 1：辯論示意圖。辯手A與辯手B之間的辯論過程示意圖。

（注釋：

用戶輸入：有一個科學知識問題，后跟一個答案。針對該答案是正確還是錯誤，與另一個對手進行辯論。構建你為何認為答案正確的論據。

Q：用來提升如廢鐵、鋼卷和汽車零部件等大型磁性材料質量的工具是什么？

A：電磁鐵

第1輪

辯手A：

1. 電磁鐵被用來提升如廢鐵、鋼卷和汽車零部件等大型磁性材料。

2. 它們是通過在鐵或鋼芯上繞制線圈制成的。

3. 當通過線圈通電時，它會產生一個吸引磁性材料的磁場。

4. 這使得在不需要物理接觸的情況下輕松且高效地提升重物成為可能。

用戶輸入：有一個科學知識問題，后跟一個答案。針對該答案是正確還是錯誤，與另一個對手進行辯論。構建你為何認為答案錯誤的論據，并列出對手論據中的缺陷。

第2輪

辯手B：

1. 該答案是錯誤的，因為電磁鐵并未被用來提升如廢鐵、鋼卷和汽車零部件等大型磁性材料。

2. 相反，它們被用來固定和操控磁性材料。

3. 電磁鐵是通過在鐵或鋼芯上繞制線圈制成的。

4. 當通過線圈通電時，它會產生一個吸引磁性材料的磁場。

5. 然而，這個磁場不足以提升大型磁性材料。

6. 因此，電磁鐵并未被用來提升重物，而是用于固定和操控它們。

7. 對手的論據有缺陷，因為它假設電磁鐵用于提升重物，這并非事實。

8. 對手的論據也沒有提及電磁鐵不足以提升大型磁性材料的事實。

9. 因此，該答案是錯誤的，且對手的論據存在缺陷。

用戶輸入：有一個科學知識問題，后跟一個答案。針對該答案是正確還是錯誤，與另一個對手進行辯論。構建針對對手論據的反駁。

第3輪

辯手A：

1. 對手的論據有缺陷，因為它假設電磁鐵被用來固定和操控磁性材料，這并非事實。

2. 電磁鐵被用來提升磁性材料。

3. 因此，對手的論據存在缺陷。

）

Weak Model Ensemble Training（弱模型集合訓練）

對于弱模型的每個輸入樣本，我們將其與保留的辯論記錄拼接。我們通過在帶有真實標簽的增強樣本上微調一個小的預訓練模型來訓練弱模型。我們注意到，多輪辯論生成的辯論記錄很長，這可能對弱模型來說難以完全處理。因此，我們訓練一組弱模型 \(\{W_1, \ldots, W_k\}\) 以幫助提高魯棒性(Lakshminarayanan, Pritzel, and Blundell 2017)。

我們探索了兩種類型的集合：

- 辯論集合：每個成員使用的辯論記錄使用不同的隨機種子生成。

- 微調集合：所有成員共享相同的辯論記錄，但在增強樣本上微調時使用不同的種子。

辯論集合的訓練成本更高，但多樣性更強，因此可能導致更魯棒的預測。除非另有說明，我們訓練的集合由四個獨立的弱模型組成。

Training Strong Models using Ensembles（使用集合訓練強模型）

我們最終通過在弱模型集合構建的弱標簽上微調一個大型預訓練模型來訓練強學生模型。我們簡單地將集合中不同弱模型預測的平均值作為每個訓練樣本的弱標簽(Ganaie et al. 2022)。

（

方法的整個過程可以用一個“吵架 + 團隊學習”的故事來解釋。

---

核心思路：吵出真相，團隊幫忙

論文的辦法是讓兩個聰明的AI吵架（辯論），通過吵架的過程把問題弄明白，然后讓一群小AI（弱模型）聽吵架學東西，最后用這些小AI的集體智慧去教一個超級AI（強學生模型）。簡單來說，分三步：

1. 吵架（辯論）：讓兩個厲害的AI針對問題爭論，吵出靠譜的理由。

2. 小團隊學習：一群不太聰明的小AI聽吵架，學到有用的知識。

3. 教大佬：用小團隊的集體結論去指導超級AI，讓它變得更厲害。

---

具體步驟：怎么構建強學生模型

1. 第一步：讓兩個強AI吵架，生成論據

- 啥意思：找兩個很聰明的AI（比如大模型Qwen-14B），給它們一個問題，比如“電磁鐵能不能抬重物？”然后讓它們站在對立面吵架，一個說“能”，一個說“不能”。

- 怎么吵：分成三輪：

- 第一輪：一個AI說“能抬，因為電磁鐵有強磁場”；另一個說“不能，磁場不夠強”。

- 第二輪：反對的AI反駁，“你說的不對，電磁鐵只能固定東西”；支持的AI回應，“工業上都用它抬廢鐵，你錯了”。

- 第三輪：繼續互相挑刺，直到把理由講清楚。

- 結果：吵完后，留下所有論據（辯論記錄），就像一份“吵架筆記”，里面有支持和反對的理由。

- 為啥有用：吵架能把真相抖出來，因為撒謊比反駁謊言難。正確的理由會更有說服力。

比喻：就像兩個學霸吵數學題，一個說“答案是4”，一個說“不對，是5”，你聽著他們爭論，就能搞清楚誰對。

2. 第二步：讓一群小AI聽吵架，組團學習

- 啥意思：找幾個不太聰明的小AI（弱模型，比如Qwen-7B），讓它們看“吵架筆記”，再結合正確答案（比如“電磁鐵能抬重物”）來學習。

- 怎么學：

- 每個小AI都讀筆記，但角度不同：有的看支持的理由，有的看反對的理由是怎么被駁倒的。

- 因為筆記很長，小AI一個人可能看不全，所以弄一群小AI（比如4個），組成一個“學習小組”。

- 小組里每個AI用不同的方法學（比如有的用不同的隨機種子生成筆記），最后得出自己的結論。

- 結果：這群小AI學會了從吵架中挑出靠譜的信息，比如“電磁鐵確實能抬重物，因為工業上常用”。

- 為啥用一群：一個小AI可能搞不清長篇大論，但一群AI一起努力，能把復雜的信息消化得更好。

比喻：就像一群普通學生聽學霸吵架，每人記一部分筆記，最后湊在一起討論，得出一個靠譜的答案。

3. 第三步：用小AI的集體智慧教超級AI

- 啥意思：把學習小組的結論（比如每個小AI對問題的判斷）拿出來，平均一下，變成一個“不太聰明但還算靠譜”的指導信號。

- 怎么教：用這個信號去訓練一個超級AI（強學生模型），讓它微調自己的能力。

- 比如，小組說“電磁鐵能抬重物”的概率是80%，超級AI就根據這個調整自己的答案。

- 結果：超級AI從這些弱指導中學到了正確的東西，表現比小AI好，甚至接近用正確答案直接教它的水平。

- 為啥行得通：超級AI本來就很聰明，只要給它一點靠譜的線索，它就能自己“悟”出更多。

比喻：就像一群普通老師給天才學生上課，老師水平一般，但湊在一起能給個大致正確的方向，天才學生靠自己的天賦把細節補全。）

5.Experiments

Tasks

我們采用了先前工作（Burns et al. 2023）的評估協議，并在四個分類數據集上進行了NLP任務的實驗：SciQ（Welbl, Liu, and Gardner 2017）、BoolQ（Clark et al. 2019）、CosmosQA（Huang et al. 2019）和AnthropicHH（Bai et al. 2022）。我們將每個數據集轉換為二元分類問題。對于多選題數據集，給定一個帶有問題Q和k個候選答案A的數據點，我們構建k個新數據點，形式為（Q, A_i），其中正確答案的標簽為1，所有錯誤答案的標簽為0。我們還保持每個問題正確和錯誤答案的數量相同，以維持類別平衡。

Experimental Setups and Metrics

我們從每個任務中隨機抽取最多20k個數據點，并將它們平分。我們在數據點的前半部分上訓練一個弱模型，并使用它在另一半上的預測作為弱標簽。弱標簽是軟標簽（Hinton, Vinyals, and Dean 2015）。我們在所有任務的測試集上報告強學生模型的準確率和性能差距恢復率（PGR）。PGR的弱性能是簡單微調的小模型的性能。

Implementation Details

我們的數據預處理、弱模型和強模型訓練的實現基于OpenAI的弱到強代碼庫及其默認超參數（Burns et al. 2023）。具體來說，我們使用Qwen/Qwen-7B作為訓練弱模型的小型預訓練模型。同時，我們使用Qwen/Qwen-14B作為生成辯論論據和訓練強模型的大型預訓練模型。Qwen/Qwen-7B和Qwen/Qwen-14B都是開源的，這有助于重現性（Bai et al. 2023）。我們不使用GPT-2系列的預訓練模型來訓練弱模型（Radford et al. 2019），因為它們缺乏可擴展監督技術所需的能力，如與強模型緊密合作（Bowman et al. 2022）。

對于每個轉換后的二元分類問題，我們將每個問題的兩個候選答案作為兩個對立的答案，隨機分配給辯論中的兩個強模型辯手。為了使弱模型和強模型適應二元分類設置，我們在編碼器頂部為每個模型配備了一個帶有兩個輸出的線性分類頭。我們以批大小為32訓練所有模型兩個epoch。我們在單臺8×A100機器上進行了所有實驗。

Baselines

我們將我們的方法與競爭性的基線方法進行比較：

1. Finetune（Burns et al. 2023）簡單地在一個弱模型生成的標簽上微調強預訓練模型；

2. Finetune w/aux. loss（Burns et al. 2023）使用輔助置信度損失微調強模型，該損失在強模型的預測與弱標簽不一致時增強強模型對其自身預測的置信度；

3. Finetune w/pro. loss（Burns et al. 2023）使用類似于置信度的損失微調強模型，該損失將交叉熵目標設置為弱標簽和強模型預測的乘積。

我們還報告了預備知識部分定義的弱性能和強上限性能。注意，強上限性能通常被視為僅考慮弱標簽時弱到強性能的上限。

Main Results

在表2中，我們報告了每種方法在從SciQ、BoolQ、CosmosQA和AnthropicHH數據集轉換的二元分類任務上的結果。這里，我們的方法使用辯論集合。在每個任務中，我們觀察到在弱標簽上微調的強學生模型的PGR均為正。這表明學生模型在所有研究的弱到強生成方法和任務中始終優于其弱監督者。同時，這種有希望的弱到強泛化也表明我們的實驗設置有助于在解決未來超人模型對齊的弱監督問題上取得迭代的經驗進展。

辯論有助于從弱到強的泛化-AI.x社區

- Table 2：辯論改善了弱到強泛化。

同時，我們發現我們的方法在所有四個任務上顯著優于每個強學生基線，包括在弱標簽上微調的簡單基線或配備置信度損失項的更復雜的基線。與有希望的基線Finetune w/aux. loss相比，我們的方法在SciQ中將PGR從41.2%提高到76.5%，在BoolQ中從56.4%提高到69.2%，在CosmosQA中從17.4%提高到56.5%，在AnthropicHH中從35.0%提高到70.0%。我們的方法還在所有比較的強學生中獲得了最佳測試準確率。性能提升表明通過辯論從強模型中提取可信信息的優勢，這有助于創建一個更好的弱監督者來引出強模型的能力。

此外，我們還看到，在標準交叉熵目標中添加置信度損失（Finetune w/aux. loss和Finetune w/pro. loss）通常會適度提升泛化性能。在我們的實驗設置中，弱模型和強模型之間的計算差距并不顯著，這可能限制了它們的性能。

Ablation Studies

最后，我們提供了全面的消融研究，以了解辯論在弱到強生成中的有效性。

不同可擴展監督方法的消融

我們通過用其他可擴展監督方法替代辯論來展示其作為從能力強大但不可信的強模型中提取可信信息的機制的有效性：Consultancy（Michael et al. 2023）和Market-Making（Hubinger 2020）。

- Consultancy。在consultancy中，只有一個顧問而不是兩個辯手。顧問是一個大型預訓練模型的實例。給定一個問題及其兩個答案選項（一個正確，一個錯誤），顧問被分配為其中一個答案辯護，每個有50%的幾率。在consultancy期間，顧問為其分配的答案提供證據。consultancy結束后保留記錄。

- Market-Making。在market-making中，只有一個辯手。辯手是一個大型預訓練模型的實例，旨在生成改變某些模型對問題答案信念的論據。給定一個問題及其兩個候選答案，我們讓弱監督者（簡單微調的小模型）基于其預測選擇一個答案。相應地，辯手被分配為未被選擇的答案辯護。最終保留記錄。

具體來說，consultancy和market-making都進行一輪。在每輪開始時，顧問和辯手會收到描述任務、分配的答案和記錄的提示。引發consultancy和market-making的提示如表3所示。

辯論有助于從弱到強的泛化-AI.x社區

- Table 3：引發consultancy和market-making的提示。

- Table 4：不同可擴展監督方法的消融。

表4中的結果顯示，我們方法中使用的辯論在所有四個任務的測試準確率和PGR方面均優于所有其他變體。這些結果驗證了我們的說法，即辯論可以幫助從強模型中引出真相，至少在我們的設置中優于consultancy和market-making。同時，我們應該注意到，consultancy是一個相對較弱的基線，因為顧問為錯誤答案辯護的幾率是50-50。

弱模型集合的消融

我們分析了弱模型集合對獲得穩健的弱監督估計以進行弱到強泛化的影響。在表5中，我們比較了三種計算成本遞增的弱模型集合方法：單個弱模型、微調集合和辯論集合。單個弱模型是在帶有辯論記錄的增強樣本上微調的單個小模型。微調集合和辯論集合在方法部分有描述。

辯論有助于從弱到強的泛化-AI.x社區

- Table 5：弱模型集合的消融。

辯論有助于從弱到強的泛化-AI.x社區

- Figure 2：集合基數對性能的影響。

辯論有助于從弱到強的泛化-AI.x社區

- Figure 3：辯論回合數對性能的影響。

我們發現，辯論集合在所有任務中始終優于單個弱模型和微調集合。相反，微調集合在4個任務中的3個中相對改善了性能，在另一個任務中表現相當。這些結果表明，生成辯論論據的多樣性是弱模型集合成功的關鍵，這有助于創建一個更好的弱監督者。同時，單個小弱模型可能缺乏完全利用辯論中長論據的能力，從而導致性能有限。

集合基數的消融

回想一下，我們的弱模型集合方法引入了一個額外的超參數基數。基數是集合的大小。我們分析了集合基數對最終性能的影響。在圖2中，我們在SciQ和AnthropicHH任務上增加了集合中使用的弱模型成員數量。我們可以觀察到，3成員和4成員集合之間存在顯著差距。另一方面，4成員、5成員和6成員集合的性能非常相似。這表明4成員集合可能效果最好，超過此點后收益遞減。

辯論回合數的消融

接下來，我們分析了辯論回合數對最終性能的影響。在圖3中，我們在SciQ和AnthropicHH任務上將辯論長度增加到最多6輪。我們發現，更多的辯論回合并沒有提高最終性能。我們觀察到，像Qwen/Qwen-14B這樣的強模型辯手在幾輪后傾向于重復論據，這可能解釋了為什么額外的回合沒有提供進一步的好處。

6.Limitations and Conclusion

Limitations（局限性）

在我們的工作中，我們將多個弱模型的預測聚合在一起，以獲得更穩健的監督估計。雖然這種方法在我們的實驗中表現良好，但它引入了額外的計算開銷。具體來說，訓練一個弱模型集合比訓練單個弱模型成本更高。此外，在辯論集合中，為每個弱模型生成不同的辯論記錄進一步增加了計算負擔。

我們還注意到，我們的實驗是在相對簡單的NLP分類任務上進行的，這些任務可能無法完全捕捉未來超人模型對齊的復雜性。特別是，我們的任務是二元分類問題，這比更復雜的任務（如開放式文本生成或多步驟推理）要簡單得多。

最后，我們的方法依賴于強模型能夠生成有用的辯論論據的假設。如果強模型的論據質量差或具有誤導性，那么弱模型集合可能無法從這些論據中提取有用的信息。在這種情況下，我們的方法可能無法改善弱到強泛化。

Conclusion（結論）

在這項工作中，我們探索了一種結合可擴展監督和弱到強泛化方法的方法，以改善AI對齊。具體來說，我們展示了辯論如何幫助弱模型從能力強大但不可信的強模型中提取可信信息。我們還表明，弱模型集合有助于獲得更穩健的監督估計，特別是在處理強模型生成的冗長論據時。

我們的實驗結果表明，這種組合方法在OpenAI的弱到強NLP基準上取得了更好的對齊表現。這為進一步研究混合超人對齊方法奠定了基礎，并提供了辯論在幫助弱到強泛化方面的潛力證據。

盡管存在局限性，我們相信我們的工作為解決超人模型對齊中的弱監督問題邁出了重要一步。未來的工作可以探索更有效的弱模型集合方法，以及在更復雜任務上應用這些技術。

本文轉載自公眾號AIRoobt ，作者：AIRoobt

原文鏈接：??https://mp.weixin.qq.com/s/hBn8L2JXrbCQVJiIYTkzjw??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

已于2025-3-6 09:34:03修改

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

辯論有助于從弱到強的泛化原創

摘要：