70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024 精華

duhorse

發布于 2024-5-13 10:25

瀏覽

0收藏

遇到一個問題用不同表達方式prompt時，大模型往往會給出兩種不同的答案。

比如，「秘魯的首都是什么」，「利馬是秘魯的首都嗎」。

對于這種回答不一致的問題，科學家們紛紛為大模型的「智商」擔憂起來。

正如了LeCun所言：

LLM確實比狗積累了更多的事實知識和語言能力。但是它們對物理世界的理解能力，以及推理規劃能力，遠遠不及狗。

70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024-AI.x社區

那么，有沒有一種方式，能夠破解大模型幻覺，讓結果更加準確、高效？

來自MIT的研究人員，將「博弈論」的思想引入大模型的改進中。

他們共同設計了一個游戲，在游戲中，讓模型的兩種模式（生成式和判別式）相互對抗，努力找到它們可以達成一致的答案。

這個簡單的博弈過程，被稱為「共識博弈」（CONSENSUS GAME）。

也就是，讓模型自我對抗，以提升LLM準確性和內部一致性。

70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024-AI.x社區

論文地址：??https://openreview.net/pdf?id=n9xeGcI4Yg??

具體來說，這是一種免訓練，基于博弈論的語言模型解碼過程。

新方法將語言模型解碼，視為一種正則化的不完全信息序列信號博弈游戲——稱之為CONSENSUS GAME（共識博弈）。

其中，生成器（GENERATOR）試圖使用自然語言句子，向一個判別器（DISCRIMINATOR）傳達抽象的正確性參數。

70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024-AI.x社區

然后，研究人員開發了計算程序，以尋找博弈的近似均衡，從而得到一種名為「均衡排序」（EQUILIBRIUM-RANKING）的解碼算法。

在多個基準測試中，「均衡排序」策略在LLaMA-7B的表現中，明顯超越LLaMA-65B，并與PaLM540B相媲美。

70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024-AI.x社區

最新論文已被ICLR 2024接收。

70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024-AI.x社區

谷歌研究科學家Ahmad Beirami表示，「幾十年來，LLM對提示的響應方式一直如出一轍。MIT研究人員提出了將博弈論引入這一過程的新穎想法，開創了一個全新的范式，這有可能帶來大量新的應用」。

游戲，不再單純是衡量AI的標準

以往，通過機器學習在游戲競賽中的表現，去判斷某個AI系統是否取得成功。

而這樣的案例，比比皆是。

1997年，IBM深藍計算機擊敗了國際象棋特級大師Garry Kasparov，創下了所謂的「思考機器」的里程碑。

19年后，谷歌DeepMind發明的AlphaGo，在圍棋比賽中一舉戰勝李世石。

五局比賽中獲勝四局，揭示了人類在某些領域已不再獨占鰲頭。

70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024-AI.x社區

不僅如此，AI還在跳棋、雙人撲克，以及其他的「零和游戲」中超越了人類。

與以往不同的是，MIT團隊而是選擇從另一個角度來看問題——用游戲去改進人工智能。

對于AI研究人員來說，一款稱為「Diplomacy」的游戲，提出了一個更大的挑戰。

70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024-AI.x社區

由Allan B. Calhamer于1959年設計的經典桌游

與只有2個對手玩家的游戲不同，Diplomacy游戲有7個玩家參與，每個人的動機都很難看透。

要想獲勝，玩家必須談判，締結合作關系，但不得不提防的是，任何時候任何人都可能遭到背叛。

這款游戲如此復雜，以至于2022年，Meta團隊發布的Cicero在40局游戲后，達到「人類水平」時，引發一陣轟動。

70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024-AI.x社區

論文地址：https://www.science.org/doi/10.1126/science.ade9097

盡管Cicero沒能戰勝世界冠軍，但它在與人類參與者的比賽中進入了前10%，表現足夠優秀。

70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024-AI.x社區

現在，論文作者Athul Paul Jacob是MIT的博士生，曾在Meta實習期間參與了這次研究。

研究期間，Jacob對Cicero依賴語言模型，與其他玩家進行對話的事實感到震驚。

他感受到了，尚未開發出的AI潛力。

70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024-AI.x社區

Athul Paul Jacob幫助設計了「共識博弈」——為LLM提供了一種提高其準確性和可靠性的方法

于是，他便提出，如果將重點轉移到，利用游戲來提高LLM的性能上會怎樣?

1000場比賽，讓LLM自我對抗

為了追尋這一問題的答案，2023年Jacob與麻省理工學院的Yikang Shen、Gabriele Farina，以及導師Jacob Andreas一起研究，什么可以促進「共識博弈」。

這一思想的核心是，將兩個人之間的對話想象成一個合作游戲。

當聽者理解說話者想要傳達的東西時，就成功了。

尤其是，「共識博弈」的目的是，旨在協調LLM的兩個系統——生成器和辨別器。

眾所周知，生成器負責處理生成性問題，而辨別器負責處理辨別性問題。

70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024-AI.x社區

經過幾個月的研究，他們終于將這一原則，構建成了一場完整的比賽。

首先，生成器收到一個問題——可以來自人類，也可以來自預存在的名單中，比如「奧巴馬出生在哪里」。

然后，生成器會得到一些候選響應，比如火奴魯魯（Honolulu）、芝加哥（Chicago）、內羅畢（Nairobi）。

同樣，這些響應的選項，可以來自人類、列表，或是由語言模型本身執行搜索。

但在回答之前，生成器會先根據一次公平的隨機擲幣的結果，被指示生成正確或錯誤的答復。

70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024-AI.x社區

如果結果為正面，那么生成器就會嘗試給出正確的答案。

然后，生成器將原始問題，及其選擇的回答，一并發送給判別器。

如果判別器判定生成器，是有意地發送了正確的回答，作為一種激勵，它們每人得到一分。

而如果結果為反面，生成器就會給出它認為是錯誤的答案，那判別器看出它故意給了錯誤答案，它們將在分別得到一分。

這就體現了策略的核心點，即通過激勵，讓它們達成一致。

在這個博弈過程開始時，生成器和判別器都有自己對答案的「先驗信念」。

這些「信念」以概率分布的形式體現，比如，生成器基于從互聯網獲取的信息，可能會認為：

奧巴馬出生在火奴魯魯的概率是80%，芝加哥10%，內羅畢5%，其他地方5%。

當然判別器，也會有不同概率分布的「先驗信念」。

雖然兩個「玩家」會因達成一致而獲得獎勵，但如果偏離自己「先驗信念」太多時，也會被扣分。

這樣一來，可以鼓勵「玩家」將從互聯網獲取的知識，融入到回答中，從而讓模型更加準確。

如果沒有這種機制，它們可能會就一個完全錯誤的答案（如Delhi）上達成一致，卻仍然獲得分數。

70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024-AI.x社區

對于每個問題，這兩個系統相互之間進行了大約1000場比賽。

在無數次迭代的過程中，雙方都了解了對方的「信念」，并相應地修改了自己的戰略。

最終，生成器和判別器開始達成更多共識，因為它們逐漸進入了一種稱為「納什均衡」（Nash equilibrium）的狀態。

這可以說是博弈論的核心概念。

「納什均衡」代表了游戲中的一種平衡狀態，在這點上，任何玩家都無法通過改變策略，來改善個人結果。

比如，在石頭剪刀布游戲中，當玩家選擇三個選項的概率正好都是1/3時，才能獲得最佳結果，任何其他策略都會導致更糟糕的結果。

在「共識博弈」中，「納什均衡」可以通過多種方式實現。

比如，判別器可能會觀察到，每當生成器將奧巴馬的出生地回答為「火奴魯魯」時，它就會得分。

經過多輪博弈，生成器和判別器會學習到，繼續這種作答方式會得到獎勵，而沒有動機改變策略。

這種一致的作答方式，就代表了對于該問題的一種可能的「納什均衡」。

70B參數Llama，媲美5400億參數PaLM

除此之外，還可能存在其他「納什均衡」的解。

MIT團隊還依賴于一種改進的「納什均衡」形式，結合了玩家們的「先驗信念」，有助于讓回答結果更加貼近現實。

為了測試「共識博弈」的效果，研究團隊在一些中等參數規模的語言模型（70億-130億參數）上進行了一系列標準問題測試。

經過訓練后的這些模型，正確答案的比例明顯高于未經訓練的模型，甚至高于一些擁有高達5400億參數的大型模型PaLM。

這不僅提高了模型的答案準確性，也增強了模型的內部一致性。

70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024-AI.x社區

另外，在TruthfulQA（生成）的結果上，具有ER-G的LLaMA-13B優于或與所有基線持平。

70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024-AI.x社區

研究人員在GSM8K測試集上，對不同方法的平均準確率進行了評估和對比。

除了greedy外，都是對20個候選回答進行了采樣。

基于「均衡排序」的方法，其性能與多數投票基線相當，或者稍微好一些。

70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024-AI.x社區

一般來說，任何LLM都可以通過與自身進行「共識博弈」從中獲益。

最重要的是，研究人員成，只需在一臺筆記本上，進行的1000輪「共識博弈」僅需幾毫秒的時間，計算代價很小。

Omidshafiei表示，「這種方法非常高效，不需要對基礎語言模型進行訓練或修改」。

下一步，大小模型一起游戲

在「共識博弈」取得初步成功后，Jacob現在正在探索將博弈論，應用到LLM研究中的其他方式。

在這個基礎上，他現在又提出了一種新的方法，暫稱為「集成博弈」（ensemble game）。

在「集成博弈」中，有一個主模型（primary LLM），與若干個小型模型進行博弈互動。

這些小型模型中，至少有一個扮演「盟友」角色，至少有一個扮演「對手」角色。

問題出現時，比如法國首都是什么，如果主模型與「盟友」模型給出相同答案，主模型會獲得分數。

70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024-AI.x社區

如果與「對手」模型給出不同答案，也會獲得分數。

通過這種與小模型的博弈互動，并不需要對主模型進行額外訓練或改變參數，就可以進一步提升主模型的性能表現。

這種將大模型與多個小模型集成互動的新范式，讓大模型可以借鑒小模型的優點。

同時還能相互制約，從而提高整體的準確性和一致性。

在未來，它將為提升LLM性能開辟了一種全新的思路和方法。

本文轉自新智元，作者：新智元

原文鏈接:??https://mp.weixin.qq.com/s/Am7N1CF5miK4vOcrf1-igA??

標簽

模型

生成

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進大模型｜ICLR 2024 精華

游戲，不再單純是衡量AI的標準

1000場比賽，讓LLM自我對抗

70B參數Llama，媲美5400億參數PaLM

下一步，大小模型一起游戲

目錄