精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024

人工智能 新聞
大模型回答如何更可靠?MIT研究團隊設計出「共識博弈」,將數學家常用的博弈論引入LLM改進中。沒想到,LLaMA-7B的表現,擊敗了LLaMA-65B,甚至與PaLM-540B相媲美。

遇到一個問題用不同表達方式prompt時,大模型往往會給出兩種不同的答案。

比如,「秘魯的首都是什么」,「利馬是秘魯的首都嗎」。

對于這種回答不一致的問題,科學家們紛紛為大模型的「智商」擔憂起來。

正如了LeCun所言:

LLM確實比狗積累了更多的事實知識和語言能力。但是它們對物理世界的理解能力,以及推理規劃能力,遠遠不及狗。

圖片

那么,有沒有一種方式,能夠解開大模型幻覺,讓結果更加準確、高效?

來自MIT的研究人員,將「博弈論」的思想引入大模型的改進中。

他們共同設計了一個游戲,在游戲中,讓模型的兩種模式(生成式和判別式)相互對抗,努力找到它們可以達成一致的答案。

這個簡單的博弈過程,被稱為「共識博弈」(CONSENSUS GAME)。

也就是,讓模型自我對抗,以提升LLM準確性和內部一致性。

圖片

論文地址:https://openreview.net/pdf?id=n9xeGcI4Yg

具體來說,這是一種免訓練,基于博弈論的語言模型解碼過程。

新方法將語言模型解碼,視為一種正則化的不完全信息序列信號博弈游戲——稱之為CONSENSUS GAME(共識博弈)。

其中,生成器(GENERATOR)試圖使用自然語言句子,向一個判別器(DISCRIMINATOR)傳達抽象的正確性參數。

圖片

然后,研究人員開發了計算程序,以尋找博弈的近似均衡,從而得到一種名為「均衡排序」(EQUILIBRIUM-RANKING)的解碼算法。

在多個基準測試中,「均衡排序」策略在LLaMA-7B的表現中,明顯超越LLaMA-65B,并與PaLM540B相媲美。

圖片

最新論文已被ICLR 2024接收。

圖片

谷歌研究科學家Ahmad Beirami表示,「幾十年來,LLM對提示的響應方式一直如出一轍。MIT研究人員提出了將博弈論引入這一過程的新穎想法,開創了一個全新的范式,這有可能帶來大量新的應用」。

游戲,不再單純是衡量AI的標準

以往,通過機器學習在游戲競賽中的表現,去判斷某個AI系統是否取得成功。

而這樣的案例,比比皆是。

1997年,IBM深藍計算機擊敗了國際象棋特級大師Garry Kasparov,創下了所謂的「思考機器」的里程碑。

19年后,谷歌DeepMind發明的AlphaGo,在圍棋比賽中一舉戰勝李世石。

五局比賽中獲勝四局,揭示了人類在某些領域已不再獨占鰲頭。

不僅如此,AI還在跳棋、雙人撲克,以及其他的「零和游戲」中超越了人類。

與以往不同的是,MIT團隊而是選擇從另一個角度來看問題——用游戲去改進人工智能。

對于AI研究人員來說,一款稱為「Diplomacy」的游戲,提出了一個更大的挑戰。

由Allan B. Calhamer于1959年設計的經典桌游

與只有2個對手玩家的游戲不同,Diplomacy游戲有7個玩家參與,每個人的動機都很難看透。

要想獲勝,玩家必須談判,締結合作關系,但不得不提防的是,任何時候任何人都可能遭到背叛。

這款游戲如此復雜,以至于2022年,Meta團隊發布的Cicero在40局游戲后,達到「人類水平」時,引發一陣轟動。

圖片

論文地址:https://www.science.org/doi/10.1126/science.ade9097

盡管Cicero沒能戰勝世界冠軍,但它在與人類參與者的比賽中進入了前10%,表現足夠優秀。

圖片

現在,論文作者Athul Paul Jacob是MIT的博士生,曾在Meta實習期間參與了這次研究。

研究期間,Jacob對Cicero依賴語言模型,與其他玩家進行對話的事實感到震驚。

他感受到了,尚未開發出的AI潛力。

圖片

Athul Paul Jacob幫助設計了「共識博弈」——為LLM提供了一種提高其準確性和可靠性的方法

于是,他便提出,如果將重點轉移到,利用游戲來提高LLM的性能上會怎樣?

1000場比賽,讓LLM自我對抗

為了追尋這一問題的答案,2023年Jacob與麻省理工學院的Yikang Shen、Gabriele Farina,以及導師Jacob Andreas一起研究,什么可以促進「共識博弈」。

這一思想的核心是,將兩個人之間的對話想象成一個合作游戲。

當聽者理解說話者想要傳達的東西時,就成功了。

尤其是,「共識博弈」的目的是,旨在協調LLM的兩個系統——生成器和辨別器。

眾所周知,生成器負責處理生成性問題,而辨別器負責處理辨別性問題。

圖片

經過幾個月的研究,他們終于將這一原則,構建成了一場完整的比賽。

首先,生成器收到一個問題——可以來自人類,也可以來自預存在的名單中,比如「奧巴馬出生在哪里」。

然后,生成器會得到一些候選響應,比如火奴魯魯(Honolulu)、芝加哥(Chicago)、內羅畢(Nairobi)。

同樣,這些響應的選項,可以來自人類、列表,或是由語言模型本身執行搜索。

但在回答之前,生成器會先根據一次公平的隨機擲幣的結果,被指示生成正確或錯誤的答復。

圖片

如果結果為正面,那么生成器就會嘗試給出正確的答案。

然后,生成器將原始問題,及其選擇的回答,一并發送給判別器。

如果判別器判定生成器,是有意地發送了正確的回答,作為一種激勵,它們每人得到一分。

而如果結果為反面,生成器就會給出它認為是錯誤的答案,那判別器看出它故意給了錯誤答案,它們將在分別得到一分。

這就體現了策略的核心點,即通過激勵,讓它們達成一致。

在這個博弈過程開始時,生成器和判別器都有自己對答案的「先驗信念」。

這些「信念」以概率分布的形式體現,比如,生成器基于從互聯網獲取的信息,可能會認為:

奧巴馬出生在火奴魯魯的概率是80%,芝加哥10%,內羅畢5%,其他地方5%。

當然判別器,也會有不同概率分布的「先驗信念」。

雖然兩個「玩家」會因達成一致而獲得獎勵,但如果偏離自己「先驗信念」太多時,也會被扣分。

這樣一來,可以鼓勵「玩家」將從互聯網獲取的知識,融入到回答中,從而讓模型更加準確。

如果沒有這種機制,它們可能會就一個完全錯誤的答案(如Delhi)上達成一致,卻仍然獲得分數。

對于每個問題,這兩個系統相互之間進行了大約1000場比賽。

在無數次迭代的過程中,雙方都了解了對方的「信念」,并相應地修改了自己的戰略。

最終,生成器和判別器開始達成更多共識,因為它們逐漸進入了一種稱為「納什均衡」(Nash equilibrium)的狀態。

這可以說是博弈論的核心概念。

「納什均衡」代表了游戲中的一種平衡狀態,在這點上,任何玩家都無法通過改變策略,來改善個人結果。

比如,在石頭剪刀布游戲中,當玩家選擇三個選項的概率正好都是1/3時,才能獲得最佳結果,任何其他策略都會導致更糟糕的結果。

在「共識博弈」中,「納什均衡」可以通過多種方式實現。

比如,判別器可能會觀察到,每當生成器將奧巴馬的出生地回答為「火奴魯魯」時,它就會得分。

經過多輪博弈,生成器和判別器會學習到,繼續這種作答方式會得到獎勵,而沒有動機改變策略。

這種一致的作答方式,就代表了對于該問題的一種可能的「納什均衡」。

70B參數Llama,媲美5400億參數PaLM

除此之外,還可能存在其他「納什均衡」的解。

MIT團隊還依賴于一種改進的「納什均衡」形式,結合了玩家們的「先驗信念」,有助于讓回答結果更加貼近現實。

為了測試「共識博弈」的效果,研究團隊在一些中等參數規模的語言模型(70億-130億參數)上進行了一系列標準問題測試。

經過訓練后的這些模型,正確答案的比例明顯高于未經訓練的模型,甚至高于一些擁有高達5400億參數的大型模型PaLM。

這不僅提高了模型的答案準確性,也增強了模型的內部一致性。

圖片

另外,在TruthfulQA(生成)的結果上,具有ER-G的LLaMA-13B優于或與所有基線持平。

圖片

研究人員在GSM8K測試集上,對不同方法的平均準確率進行了評估和對比。

除了greedy外,都是對20個候選回答進行了采樣。

基于「均衡排序」的方法,其性能與多數投票基線相當,或者稍微好一些。

圖片

一般來說,任何LLM都可以通過與自身進行「共識博弈」從中獲益。

最重要的是,研究人員成,只需在一臺筆記本上,進行的1000輪「共識博弈」僅需幾毫秒的時間,計算代價很小。

Omidshafiei表示,「這種方法非常高效,不需要對基礎語言模型進行訓練或修改」。

下一步,大小模型一起游戲

在「共識博弈」取得初步成功后,Jacob現在正在探索將博弈論,應用到LLM研究中的其他方式。

在這個基礎上,他現在又提出了一種新的方法,暫稱為「集成博弈」(ensemble game)。

在「集成博弈」中,有一個主模型(primary LLM),與若干個小型模型進行博弈互動。

這些小型模型中,至少有一個扮演「盟友」角色,至少有一個扮演「對手」角色。

問題出現時,比如法國首都是什么,如果主模型與「盟友」模型給出相同答案,主模型會獲得分數。

如果與「對手」模型給出不同答案,也會獲得分數。

通過這種與小模型的博弈互動,并不需要對主模型進行額外訓練或改變參數,就可以進一步提升主模型的性能表現。

這種將大模型與多個小模型集成互動的新范式,讓大模型可以借鑒小模型的優點。

同時還能相互制約,從而提高整體的準確性和一致性。

在未來,它將為提升LLM性能開辟了一種全新的思路和方法。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-01-17 13:32:46

AI代碼代碼生成工具

2023-10-07 13:43:00

AI訓練

2023-06-07 14:08:00

計算機代碼

2023-03-15 10:26:00

模型開源

2023-05-19 10:26:01

谷歌模型

2015-03-02 10:35:25

百度專利經費

2023-07-19 15:01:14

GPT-4LaMA2參數

2023-09-26 14:21:33

模型開源Qwen-14B

2009-07-06 18:12:07

金融危機創新博科資訊

2023-04-21 10:37:40

語言模型

2023-08-03 19:11:45

2023-03-16 12:18:48

谷歌瀏覽器模型

2022-04-06 09:47:55

AI谷歌人工智能

2021-08-25 08:23:51

AI數據機器學習

2023-09-04 12:58:05

2023-10-17 19:43:03

RACE排序數據

2023-10-12 14:40:10

AI模型

2015-10-15 14:13:56

博弈論數據科學家

2024-08-19 08:00:00

LLM模型
點贊
收藏

51CTO技術棧公眾號

精品视频成人| 26uuu亚洲电影在线观看| 亚洲欧美日韩一区在线观看| 一区二区在线免费视频| www.se五月| 国精一区二区三区| 久久精品一区二区三区av| 91精品国产综合久久香蕉最新版| 久久精品性爱视频| 不卡日本视频| 精品av综合导航| 三年中国国语在线播放免费| 日本在线视频网址| 国产欧美一区在线| 国产精品麻豆免费版| 最近中文字幕免费在线观看| 亚洲视频狠狠| 日韩一区二区久久久| 欧美久久久久久久久久久| 日韩国产网站| 天涯成人国产亚洲精品一区av| 亚洲国产日韩综合一区| 少妇一区二区三区四区| 精品一区二区三区蜜桃| 人人做人人澡人人爽欧美| 亚洲成人生活片| 北条麻妃国产九九九精品小说| 欧美成人女星排名| 国产成人美女视频| 国产综合av| 午夜精品一区二区三区电影天堂 | 午夜一区二区三区在线观看| 一区二区精品视频| 国产精品一区在线看| av在线免费不卡| 99久久精品无码一区二区毛片 | 伊人国产精品| 欧美日韩中文字幕一区| 91视频最新入口| 欧美激情网站| 亚洲动漫第一页| 少妇一晚三次一区二区三区| 欧美边添边摸边做边爱免费| 国产日韩欧美a| 日本公妇乱淫免费视频一区三区| 四季av日韩精品一区| 成人污视频在线观看| 99热国产免费| 人妻少妇精品无码专区| 国产福利91精品| 国产综合色香蕉精品| 一级欧美一级日韩| 久久成人18免费观看| 国产精品免费在线免费| 最近中文字幕在线观看| 男女男精品网站| 国产日韩欧美视频在线| 国产精品视频一二区| 国产在线精品一区二区三区不卡| 亚洲aa在线观看| 精品国产无码AV| 国产69精品一区二区亚洲孕妇| 91在线短视频| 蜜桃视频久久一区免费观看入口| 成人精品国产免费网站| 狠狠色综合色区| 欧美日韩国产中文字幕在线| 国产三区在线成人av| 亚洲精品永久www嫩草| 欧美猛烈性xbxbxbxb| 亚洲人成影院在线观看| 黄网站色视频免费观看| 18video性欧美19sex高清| 精品久久久国产| 国产精品乱码久久久久| 日韩黄色在线| 欧美成人三级在线| 精品国产av无码| 久久精品高清| 欧美激情一区二区三区久久久| 国产乱码久久久久久| 一本久久知道综合久久| 国产精品久久久久91| 99久久精品无免国产免费| 成人性色生活片| 日本免费一区二区三区| 嫩草在线视频| 亚洲二区在线观看| 91最新在线观看| 亚洲1区在线| 亚洲老头老太hd| 色老板免费视频| 亚洲深夜av| 成人网中文字幕| 亚洲人妻一区二区三区| 国产精品欧美精品| 国产 日韩 亚洲 欧美| 亚洲伦乱视频| 精品国产一区二区三区不卡| 一区二区精品免费| 欧美1区2区3区| 国产福利精品在线| 亚洲爱爱综合网| 中文字幕免费不卡| 国产96在线 | 亚洲| 日韩在线激情| 精品一区二区三区三区| wwwav国产| 免费一级片91| 久久国产精品 国产精品| xvideos国产在线视频| 色8久久人人97超碰香蕉987| 国产精品19p| 久久精品国产www456c0m| 91国偷自产一区二区三区的观看方式| 国产精品人妻一区二区三区| 国产亚洲自拍一区| www.av中文字幕| а天堂中文最新一区二区三区| 亚洲欧美中文字幕| 日本在线观看视频网站| 国产一区中文字幕| 亚洲人成影视在线观看| 在线亚洲人成| 亚洲大尺度美女在线| 久久最新免费视频| 欧美精品99久久久| 三级一区在线视频先锋| 99热99re6国产在线播放| 第一福利永久视频精品| 波多野结衣中文字幕在线播放| 国产一区二区区别| 5566日本婷婷色中文字幕97| 免费观看黄色一级视频| 亚洲精品伦理在线| 久久精品一卡二卡| 久久国产小视频| 国产精品毛片a∨一区二区三区|国| 性xxxx18| 欧美视频第一页| 加勒比精品视频| 日韩午夜高潮| 精品国产一区二区三区四区精华| 美女精品导航| 精品毛片乱码1区2区3区| 欧美又粗又大又长| 国产成人一区二区精品非洲| 在线观看av的网址| 香港久久久电影| 欧美激情网友自拍| 亚洲欧美另类日韩| 亚洲主播在线播放| 欧美日韩人妻精品一区在线| 亚洲婷婷免费| 久久亚洲综合网| 三级成人黄色影院| 中文字幕在线成人| 国产精品综合在线| 亚洲日本在线天堂| 亚洲区 欧美区| 亚洲第一伊人| 免费99视频| 在线成人视屏| www.亚洲天堂| 亚洲国产欧美另类| 欧美日韩激情小视频| xxxx日本免费| 久久超碰97中文字幕| 男女h黄动漫啪啪无遮挡软件| 亚洲1区在线| 97国产精品免费视频| 亚洲av成人精品日韩在线播放| 欧美日韩在线视频一区| 蜜桃av乱码一区二区三区| 久久精品国产亚洲高清剧情介绍| 久久视频免费在线| 欧美大片网址| 国产精品免费在线免费| 丝袜综合欧美| 亚洲美女视频网站| 国产精品无码久久久久成人app| 一个色妞综合视频在线观看| 国产精品无码一区二区三区免费| 奇米亚洲午夜久久精品| 国产肉体ⅹxxx137大胆| 久久综合亚洲| 亚洲中国色老太| 亚洲十八**毛片| 精品国偷自产在线| 欧美 日韩 国产 在线| 色婷婷精品久久二区二区蜜臀av| 青青操在线视频观看| 成人精品国产福利| 欧美美女性视频| av成人国产| 91免费视频黄| 亚洲第一二三区| 91九色露脸| 日韩高清成人| 久久久久久91| 色开心亚洲综合| 日韩高清a**址| 国产免费一区二区三区最新不卡| 精品国产精品自拍| 青青草原在线免费观看| 国产网站一区二区| 日韩综合第一页| 国产美女一区二区| 青青草av网站| 亚洲巨乳在线| 国产一二三四区在线观看| 欧美一区电影| 久久久国产精品一区二区三区| 国内精品视频| 国产精品视频yy9099| 中文字幕在线官网| 欧美激情亚洲自拍| 国产精品剧情一区二区在线观看 | 四虎在线观看| 日韩视频一区二区三区在线播放 | 欧美成人一级视频| 91亚洲国产成人久久精品麻豆| 色婷婷综合久久| 中文字幕在线字幕中文| 一区二区久久久久久| 在线观看天堂av| 国产亚洲欧美一区在线观看| 国产精品久久AV无码| 国产成人综合亚洲网站| 手机免费av片| 美女性感视频久久| 欧美婷婷精品激情| 蜜臀久久99精品久久久久久9| 播放灌醉水嫩大学生国内精品| 极品av少妇一区二区| 日本xxxxx18| 久久久久久久久久久久久久| 亚洲一区二区三区在线观看视频| 精品久久一区| 亚洲欧美影院| 9999国产精品| 美国av在线播放| 综合激情一区| 国产视频在线观看网站| 国内自拍一区| 国产成a人亚洲精v品在线观看| 欧美福利专区| 成人av在线不卡| 亚洲国产高清视频| 黄色国产一级视频| 在线亚洲精品| 国产日韩一区二区在线观看| 亚欧成人精品| 天天操天天摸天天爽| 日韩福利电影在线| 日本在线一二三区| 精品影院一区二区久久久| 天天干天天色天天干| 国产精品原创巨作av| 亚洲成a人片在线www| a在线欧美一区| 色无极影院亚洲| 国产精品嫩草久久久久| 手机av在线看| 亚洲国产精品一区二区久久恐怖片 | 国产精品视频网站| 欧美激情不卡| 97人人干人人| 小说区图片区色综合区| 日本一区精品| 中文视频一区| 黄色免费观看视频网站| 日韩激情视频在线观看| www.午夜av| av在线不卡电影| 国产又粗又硬视频| 有码一区二区三区| www.国产高清| 欧美少妇bbb| 亚洲精品一级片| 亚洲欧美日韩精品久久亚洲区| 18免费在线视频| 欧美大片欧美激情性色a∨久久| 免费h视频在线观看| 国产精品色悠悠| 成人黄色av网址| 日韩精彩视频| 国产一区亚洲| 亚洲一区二区三区四区五区xx| 国产在线播精品第三| 日本黄色片在线播放| 国产精品电影一区二区三区| 中文字幕一区二区三区手机版| 欧洲亚洲精品在线| 亚洲国产日韩在线观看| 中文字幕亚洲综合久久| segui88久久综合9999| 成人黄色av免费在线观看| 五月综合久久| 91看片淫黄大片91| 日韩中文字幕1| 特级特黄刘亦菲aaa级| 国产精品网站导航| 午夜精品三级久久久有码| 这里只有精品免费| 韩国三级在线观看久| 久久全国免费视频| 爱情电影网av一区二区| 日韩av图片| 国产欧美成人| 2025中文字幕| 国产精品久久久一区麻豆最新章节| 国产一级做a爱片久久毛片a| 欧美高清www午色夜在线视频| 理论视频在线| 97色在线观看| 高清一区二区三区| 91视频成人免费| 蜜臀av一级做a爰片久久| 无码人妻精品一区二区三区温州| 一区二区三区蜜桃| 国产乱淫av免费| 色久欧美在线视频观看| 亚洲黄色免费av| 精品国产91亚洲一区二区三区www 精品国产_亚洲人成在线 | 色在线中文字幕| 国产成人女人毛片视频在线| 小小影院久久| 2025韩国理伦片在线观看| 久久久欧美精品sm网站| 日本午夜视频在线观看| 亚洲爱爱爱爱爱| 国产区美女在线| 99久久无色码| 欧美三级网页| 日韩精品xxx| 亚洲精品成人少妇| 精品人妻aV中文字幕乱码色欲| 日韩视频一区在线| 少妇精品视频在线观看| 亚洲精品中文字幕在线| 奇米四色…亚洲| 日日操免费视频| 欧美精品在线观看一区二区| 男女啪啪在线观看| 成人信息集中地欧美| 天天做天天爱天天综合网| 亚洲天堂av一区二区| 亚洲欧洲日产国码二区| 国产精品嫩草影院精东| 久久艹在线视频| 久久伦理中文字幕| 无码人妻精品一区二区蜜桃网站| 丰满白嫩尤物一区二区| 日韩精品无码一区二区| 亚洲精品xxxx| 欧美人体一区二区三区| 色女人综合av| 国产一区二区三区在线观看精品 | 国产91色在线|亚洲| 亚洲午夜av| 欧洲一级黄色片| 欧洲亚洲国产日韩| 黄色视屏免费在线观看| 爱情岛论坛亚洲入口| 国产一级一区二区| 亚洲精品午夜视频| 欧美日韩卡一卡二| 怡红院在线观看| 美国av一区二区三区| 日韩电影一区二区三区四区| 色婷婷粉嫩av| 精品久久久久久久久久久久久久久久久 | 一区二区三区久久久| 少妇一区二区三区四区| 国产精品xxxxx| 自由日本语亚洲人高潮| 免费的av网站| 欧美日精品一区视频| 久草在线视频资源| 欧美色欧美亚洲另类七区| 激情五月播播久久久精品| 久久9999久久免费精品国产| 亚洲美女精品成人在线视频| 小说区图片区亚洲| 欧美 日韩 亚洲 一区| 亚洲国产成人自拍| www.久久综合| 国产高清在线不卡| 欧美欧美全黄| 中文字幕免费高清| 日韩欧美色电影| 三级成人黄色影院| 9191国产视频| 国产欧美一区二区精品性色| 性欧美videos另类hd| 国产精品扒开腿做爽爽爽男男 | www.蜜臀av.com| 国产精品wwwwww| 国产欧美综合一区二区三区|