精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024 精華

發布于 2024-5-13 10:25
瀏覽
0收藏

遇到一個問題用不同表達方式prompt時,大模型往往會給出兩種不同的答案。


比如,「秘魯的首都是什么」,「利馬是秘魯的首都嗎」。


對于這種回答不一致的問題,科學家們紛紛為大模型的「智商」擔憂起來。


正如了LeCun所言:

LLM確實比狗積累了更多的事實知識和語言能力。但是它們對物理世界的理解能力,以及推理規劃能力,遠遠不及狗。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

那么,有沒有一種方式,能夠破解大模型幻覺,讓結果更加準確、高效?


來自MIT的研究人員,將「博弈論」的思想引入大模型的改進中。


他們共同設計了一個游戲,在游戲中,讓模型的兩種模式(生成式和判別式)相互對抗,努力找到它們可以達成一致的答案。


這個簡單的博弈過程,被稱為「共識博弈」(CONSENSUS GAME)。


也就是,讓模型自我對抗,以提升LLM準確性和內部一致性。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

論文地址:??https://openreview.net/pdf?id=n9xeGcI4Yg??


具體來說,這是一種免訓練,基于博弈論的語言模型解碼過程。


新方法將語言模型解碼,視為一種正則化的不完全信息序列信號博弈游戲——稱之為CONSENSUS GAME(共識博弈)。


其中,生成器(GENERATOR)試圖使用自然語言句子,向一個判別器(DISCRIMINATOR)傳達抽象的正確性參數。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

然后,研究人員開發了計算程序,以尋找博弈的近似均衡,從而得到一種名為「均衡排序」(EQUILIBRIUM-RANKING)的解碼算法。


在多個基準測試中,「均衡排序」策略在LLaMA-7B的表現中,明顯超越LLaMA-65B,并與PaLM540B相媲美。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

最新論文已被ICLR 2024接收。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

谷歌研究科學家Ahmad Beirami表示,「幾十年來,LLM對提示的響應方式一直如出一轍。MIT研究人員提出了將博弈論引入這一過程的新穎想法,開創了一個全新的范式,這有可能帶來大量新的應用」。

游戲,不再單純是衡量AI的標準

以往,通過機器學習在游戲競賽中的表現,去判斷某個AI系統是否取得成功。

而這樣的案例,比比皆是。


1997年,IBM深藍計算機擊敗了國際象棋特級大師Garry Kasparov,創下了所謂的「思考機器」的里程碑。


19年后,谷歌DeepMind發明的AlphaGo,在圍棋比賽中一舉戰勝李世石。


五局比賽中獲勝四局,揭示了人類在某些領域已不再獨占鰲頭。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

不僅如此,AI還在跳棋、雙人撲克,以及其他的「零和游戲」中超越了人類。


與以往不同的是,MIT團隊而是選擇從另一個角度來看問題——用游戲去改進人工智能。


對于AI研究人員來說,一款稱為「Diplomacy」的游戲,提出了一個更大的挑戰。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

由Allan B. Calhamer于1959年設計的經典桌游

與只有2個對手玩家的游戲不同,Diplomacy游戲有7個玩家參與,每個人的動機都很難看透。


要想獲勝,玩家必須談判,締結合作關系,但不得不提防的是,任何時候任何人都可能遭到背叛。


這款游戲如此復雜,以至于2022年,Meta團隊發布的Cicero在40局游戲后,達到「人類水平」時,引發一陣轟動。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

論文地址:https://www.science.org/doi/10.1126/science.ade9097

盡管Cicero沒能戰勝世界冠軍,但它在與人類參與者的比賽中進入了前10%,表現足夠優秀。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

現在,論文作者Athul Paul Jacob是MIT的博士生,曾在Meta實習期間參與了這次研究。


研究期間,Jacob對Cicero依賴語言模型,與其他玩家進行對話的事實感到震驚。


他感受到了,尚未開發出的AI潛力。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

Athul Paul Jacob幫助設計了「共識博弈」——為LLM提供了一種提高其準確性和可靠性的方法


于是,他便提出,如果將重點轉移到,利用游戲來提高LLM的性能上會怎樣?

1000場比賽,讓LLM自我對抗

為了追尋這一問題的答案,2023年Jacob與麻省理工學院的Yikang Shen、Gabriele Farina,以及導師Jacob Andreas一起研究,什么可以促進「共識博弈」。


這一思想的核心是,將兩個人之間的對話想象成一個合作游戲。


當聽者理解說話者想要傳達的東西時,就成功了。


尤其是,「共識博弈」的目的是,旨在協調LLM的兩個系統——生成器和辨別器。


眾所周知,生成器負責處理生成性問題,而辨別器負責處理辨別性問題。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

經過幾個月的研究,他們終于將這一原則,構建成了一場完整的比賽。


首先,生成器收到一個問題——可以來自人類,也可以來自預存在的名單中,比如「奧巴馬出生在哪里」。


然后,生成器會得到一些候選響應,比如火奴魯魯(Honolulu)、芝加哥(Chicago)、內羅畢(Nairobi)。


同樣,這些響應的選項,可以來自人類、列表,或是由語言模型本身執行搜索。


但在回答之前,生成器會先根據一次公平的隨機擲幣的結果,被指示生成正確或錯誤的答復。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

如果結果為正面,那么生成器就會嘗試給出正確的答案。


然后,生成器將原始問題,及其選擇的回答,一并發送給判別器。


如果判別器判定生成器,是有意地發送了正確的回答,作為一種激勵,它們每人得到一分。


而如果結果為反面,生成器就會給出它認為是錯誤的答案,那判別器看出它故意給了錯誤答案,它們將在分別得到一分。


這就體現了策略的核心點,即通過激勵,讓它們達成一致。


在這個博弈過程開始時,生成器和判別器都有自己對答案的「先驗信念」。


這些「信念」以概率分布的形式體現,比如,生成器基于從互聯網獲取的信息,可能會認為:

奧巴馬出生在火奴魯魯的概率是80%,芝加哥10%,內羅畢5%,其他地方5%。


當然判別器,也會有不同概率分布的「先驗信念」。


雖然兩個「玩家」會因達成一致而獲得獎勵,但如果偏離自己「先驗信念」太多時,也會被扣分。


這樣一來,可以鼓勵「玩家」將從互聯網獲取的知識,融入到回答中,從而讓模型更加準確。


如果沒有這種機制,它們可能會就一個完全錯誤的答案(如Delhi)上達成一致,卻仍然獲得分數。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

對于每個問題,這兩個系統相互之間進行了大約1000場比賽。


在無數次迭代的過程中,雙方都了解了對方的「信念」,并相應地修改了自己的戰略。


最終,生成器和判別器開始達成更多共識,因為它們逐漸進入了一種稱為「納什均衡」(Nash equilibrium)的狀態。


這可以說是博弈論的核心概念。


「納什均衡」代表了游戲中的一種平衡狀態,在這點上,任何玩家都無法通過改變策略,來改善個人結果。


比如,在石頭剪刀布游戲中,當玩家選擇三個選項的概率正好都是1/3時,才能獲得最佳結果,任何其他策略都會導致更糟糕的結果。


在「共識博弈」中,「納什均衡」可以通過多種方式實現。


比如,判別器可能會觀察到,每當生成器將奧巴馬的出生地回答為「火奴魯魯」時,它就會得分。


經過多輪博弈,生成器和判別器會學習到,繼續這種作答方式會得到獎勵,而沒有動機改變策略。


這種一致的作答方式,就代表了對于該問題的一種可能的「納什均衡」。

70B參數Llama,媲美5400億參數PaLM

除此之外,還可能存在其他「納什均衡」的解。


MIT團隊還依賴于一種改進的「納什均衡」形式,結合了玩家們的「先驗信念」,有助于讓回答結果更加貼近現實。


為了測試「共識博弈」的效果,研究團隊在一些中等參數規模的語言模型(70億-130億參數)上進行了一系列標準問題測試。


經過訓練后的這些模型,正確答案的比例明顯高于未經訓練的模型,甚至高于一些擁有高達5400億參數的大型模型PaLM。


這不僅提高了模型的答案準確性,也增強了模型的內部一致性。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

另外,在TruthfulQA(生成)的結果上,具有ER-G的LLaMA-13B優于或與所有基線持平。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

研究人員在GSM8K測試集上,對不同方法的平均準確率進行了評估和對比。


除了greedy外,都是對20個候選回答進行了采樣。


基于「均衡排序」的方法,其性能與多數投票基線相當,或者稍微好一些。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

一般來說,任何LLM都可以通過與自身進行「共識博弈」從中獲益。


最重要的是,研究人員成,只需在一臺筆記本上,進行的1000輪「共識博弈」僅需幾毫秒的時間,計算代價很小。


Omidshafiei表示,「這種方法非常高效,不需要對基礎語言模型進行訓練或修改」。

下一步,大小模型一起游戲

在「共識博弈」取得初步成功后,Jacob現在正在探索將博弈論,應用到LLM研究中的其他方式。


在這個基礎上,他現在又提出了一種新的方法,暫稱為「集成博弈」(ensemble game)。


在「集成博弈」中,有一個主模型(primary LLM),與若干個小型模型進行博弈互動。

這些小型模型中,至少有一個扮演「盟友」角色,至少有一個扮演「對手」角色。


問題出現時,比如法國首都是什么,如果主模型與「盟友」模型給出相同答案,主模型會獲得分數。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

如果與「對手」模型給出不同答案,也會獲得分數。


通過這種與小模型的博弈互動,并不需要對主模型進行額外訓練或改變參數,就可以進一步提升主模型的性能表現。


這種將大模型與多個小模型集成互動的新范式,讓大模型可以借鑒小模型的優點。


同時還能相互制約,從而提高整體的準確性和一致性。


在未來,它將為提升LLM性能開辟了一種全新的思路和方法。


本文轉自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/Am7N1CF5miK4vOcrf1-igA??

收藏
回復
舉報
回復
相關推薦
波多野结衣亚洲一区| 99精品电影| 高跟丝袜一区二区三区| 蜜桃999成人看片在线观看| 成人在线免费看视频| sdde在线播放一区二区| 欧美一区二区三区思思人| 大片在线观看网站免费收看| 亚洲av成人无码网天堂| 免费观看日韩av| 欧美成人午夜激情视频| 亚洲av网址在线| 欧美v亚洲v综合v国产v仙踪林| 亚洲激情中文1区| 国内一区二区三区在线视频| 中文字幕理论片| 国内精品福利| 中文字幕日韩av电影| 中国xxxx性xxxx产国| av一区在线| 亚洲午夜日本在线观看| 午夜一区二区三区| 俄罗斯嫩小性bbwbbw| 麻豆精品新av中文字幕| 午夜精品一区二区三区视频免费看 | 欧美一区二区三区久久精品| 国产亚洲精品美女久久| 国产精品69毛片高清亚洲| 日韩免费精品视频| 久久亚洲成人av| 欧美成人激情| 亚洲欧洲国产一区| 动漫av在线免费观看| 日韩久久99| 91极品美女在线| 777久久久精品一区二区三区| 最近中文字幕免费mv2018在线 | 国产精品国产精品国产专区蜜臀ah | 国产精品欧美亚洲777777| 精品视频久久久久| 午夜久久免费观看| 尤物精品国产第一福利三区| www.日本高清| 动漫3d精品一区二区三区乱码| 欧美久久高跟鞋激| 五月婷婷激情久久| 成人看片网页| 在线免费观看日本欧美| 日日摸日日碰夜夜爽av| 97人人爽人人澡人人精品| 亚洲人吸女人奶水| 手机看片日韩国产| 麻豆视频免费在线观看| 国产女人18水真多18精品一级做 | 郴州新闻综合频道在线直播| 亚洲美女自拍视频| 国产夫妻性爱视频| 欧美人成在线观看ccc36| 亚洲国产毛片完整版| 中文字幕第3页| 欧美黄色影院| 日韩电影免费观看在线观看| 最近中文字幕无免费| 日本天堂一区| 亚洲免费伊人电影在线观看av| 亚洲永久无码7777kkk| 欧美亚洲tv| 精品在线小视频| 亚洲一级中文字幕| jizzjizz欧美69巨大| 中文字幕国产精品久久| av在线播放中文字幕| 天天超碰亚洲| 美女视频久久黄| 国产一级理论片| 翔田千里一区二区| 国产精品综合久久久| 在线视频你懂得| 国产成人aaa| 国产一区二区在线观看免费播放| 香蕉国产在线视频| 国产亚洲精品中文字幕| 香蕉精品视频在线| 激情网站在线| 日韩欧美国产骚| 我要看一级黄色大片| 国产精品视频一区二区三区| 精品国产91九色蝌蚪| 成年人网站免费看| 色综合久久网| 午夜精品免费视频| 中文字幕精品无码亚| 国产成人高清在线| 欧美极品jizzhd欧美| 黄色免费在线看| 午夜婷婷国产麻豆精品| 亚洲欧美另类动漫| 午夜日韩影院| 亚洲欧美日韩中文在线制服| 久久精品亚洲a| 99视频在线精品国自产拍免费观看| 国产成人一区二区三区| 精品人妻一区二区三区麻豆91| 97国产一区二区| 在线观看国产一区| 丝袜诱惑一区二区| 日韩一区二区在线观看视频播放| 久久久久久久久免费看无码| 成人写真视频| 午夜免费在线观看精品视频| 在线观看国产精品视频| av高清不卡在线| 一区二区三区四区在线视频| 成人观看网址| 欧美一区二区三区的| 亚洲一区二区三区日韩| 激情久久久久久| 国产在线久久久| 男人av在线| 亚洲成人资源在线| 182午夜视频| 国产伦精品一区二区三区视频| 欧美日韩国产成人高清视频| 免费一级a毛片| 91影院在线免费观看| 欧美日韩dvd| 国产亚洲欧美日韩精品一区二区三区 | 欧美性xxxxxxx| 秘密基地免费观看完整版中文| 久久国产精品亚洲人一区二区三区 | 一区二区三区四区日本视频| 欧美成人a∨高清免费观看| 欧美日韩生活片| 久久综合导航| 久久综合中文色婷婷| 超碰中文在线| 欧美精品一区二区久久久| 国产97免费视频| 黄网站免费久久| 亚洲午夜在线观看| 97成人超碰| 在线播放国产精品| 成人免费视频国产免费| 久久亚洲私人国产精品va媚药| av在线观看地址| 国产精品毛片av| 97精品一区二区三区| 亚洲奶汁xxxx哺乳期| 亚洲综合激情另类小说区| 亚洲av无日韩毛片久久| 亚洲啊v在线观看| 成人免费视频网址| 国产在线激情| 91精品国产综合久久国产大片| 成人三级视频在线观看| 精品系列免费在线观看| 中文字幕久久综合| 国产电影一区二区| 欧美精品午夜视频| 亚洲av无码乱码国产精品久久| 亚洲欧美日本韩国| 四虎国产精品永久免费观看视频| 婷婷综合亚洲| 99r国产精品视频| 日本精品600av| 亚洲精品一区二区三区99 | 91久久香蕉国产日韩欧美9色| 可以直接看的无码av| 亚洲一区中文| 日韩欧美一区二区三区四区五区| 男女啪啪999亚洲精品| 久久精品国产91精品亚洲| 99久久精品日本一区二区免费| 伊人婷婷欧美激情| 日本三级日本三级日本三级极| 久久成人一区| 一区二区精品在线观看| 日韩精品一区二区三区中文在线| 欧美激情亚洲国产| 日韩国产福利| 69堂国产成人免费视频| 欧美日韩激情在线观看| 91蜜桃网址入口| 男女污污的视频| 欧美在线亚洲综合一区| 国内精品国语自产拍在线观看| 日本精品在线中文字幕| 久久国产精品视频| 五月婷婷在线播放| 欧美日韩视频在线观看一区二区三区| 国产激情无码一区二区三区| 成人午夜大片免费观看| 91视频免费版污| 欧美精品成人| 色一情一乱一伦一区二区三区丨| 精品麻豆剧传媒av国产九九九| 国产91精品高潮白浆喷水| 久久精品视频免费看| 亚洲精品国产电影| 国产精品久久影视| 黑人狂躁日本妞一区二区三区 | 国自产拍偷拍福利精品免费一| 蜜桃av噜噜一区二区三区| 亚洲美女色播| 欧美性受xxxx黑人猛交| 国产精品一卡二卡三卡| 亚洲精品天天看| 精品国产九九九| 91精品91久久久中77777| 亚洲一区二区91| 国产精品国产三级国产aⅴ中文| 黄色录像a级片| 国产一区二区看久久| 一本久道综合色婷婷五月| 亚洲图片在线| 国产卡一卡二在线| 欧美日一区二区| 国产在线精品一区二区中文| 亚洲男人在线| 国产精品美女主播| 麻豆视频在线看| 欧美激情手机在线视频 | 亚洲av综合色区无码一区爱av| 91九色02白丝porn| 日韩欧美成人一区二区三区| 一区二区三区国产| 中文字幕伦理片| 91在线播放网址| 日韩www视频| 国产99精品国产| 亚洲天堂小视频| 精品一区二区三区免费| 五月婷婷丁香色| 日韩中文字幕亚洲一区二区va在线| 国产在线播放观看| 国产精品99一区二区| 中国一级黄色录像| 五月开心六月丁香综合色啪| 五月婷婷一区| 日韩精品2区| 亚洲国产高清国产精品| 激情综合网五月| 日本免费高清一区| 欧美码中文字幕在线| 欧美激情第一页在线观看| 亚洲警察之高压线| 欧美日韩最好看的视频| 一道在线中文一区二区三区| 蜜桃传媒一区二区| 妖精视频一区二区三区免费观看| 精品国产日本| 久久精品论坛| 好看的日韩精品| 日韩电影在线观看完整免费观看| 久久99九九| 夜夜春成人影院| 五月婷婷综合色| 99视频精品全部免费在线视频| 一区二区精品在线观看| 欧美在线国产| 国产片侵犯亲女视频播放| 伊人久久久大香线蕉综合直播| 国产69精品久久久久999小说| 一区二区三区高清视频在线观看| 91传媒久久久| 日韩精品午夜视频| 亚洲第一天堂久久| 国产白丝精品91爽爽久久| 国产精品久久久久久亚洲色| 91浏览器在线视频| 国产综合精品在线| 亚洲欧美偷拍三级| 国产无套粉嫩白浆内谢| 日本丰满少妇一区二区三区| 中文字幕一区二区免费| 日韩一区二区三区免费看 | 成人在线视频你懂的| 久久爱av电影| 色婷婷色综合| 欧美乱做爰xxxⅹ久久久| 性久久久久久| 亚洲天堂网2018| www.视频一区| 女人黄色一级片| 亚洲一区二区在线视频| 视频一区二区三区四区五区| 欧美日韩激情在线| 人妻少妇精品无码专区久久| 在线观看精品自拍私拍| 色呦呦在线播放| 国产999在线| 伊色综合久久之综合久久| 日本一区二区久久精品| 中文字幕乱码亚洲无线精品一区 | 亚洲黄色成人久久久| 午夜精品久久久久99热蜜桃导演| 97xxxxx| 国模娜娜一区二区三区| 国产精品伦子伦| 18涩涩午夜精品.www| 免费日韩一级片| 在线播放国产精品二区一二区四区| 免费av一级片| 久久精品亚洲94久久精品| 在线免费日韩片| 国产不卡一区二区三区在线观看| 精品国产乱码| 热99这里只有精品| 黑人精品欧美一区二区蜜桃| 中文字幕日韩三级片| 亚洲精品中文字幕乱码三区| 懂色av中文字幕| 亚洲精品电影网| 91精品久久久久久粉嫩| 国产精品久久久久久久久久新婚| 国产精品乱战久久久| 国产资源第一页| 麻豆精品久久精品色综合| 精品无码人妻一区| 亚洲mv在线观看| av中文字幕播放| 亚洲午夜久久久久久久| 久草在线中文最新视频| 成人av资源| 欧美国产先锋| 中文字幕 欧美日韩| 欧美高清在线一区二区| 国产又黄又猛又粗又爽| 日韩av影视在线| 国产嫩草在线视频| 69堂成人精品视频免费| 国产精品久久观看| 国产 porn| 日本一区二区三区国色天香| 中文字幕一区在线播放| 亚洲黄色片网站| 51av在线| 国产一区二区三区四区五区在线| 激情视频一区| 久久久无码人妻精品无码| 亚洲人成在线播放网站岛国 | 黑人巨大精品| 狠狠色伊人亚洲综合网站色| 在线日本成人| 漂亮人妻被黑人久久精品| 亚洲不卡在线观看| 欧洲成人一区二区三区| 久久久久久久影院| 国产精品jk白丝蜜臀av小说| 国产成人在线小视频| 丁香一区二区三区| 日本网站免费观看| 精品sm捆绑视频| 日韩av一卡| 日韩精品无码一区二区三区| 欧美aaaaa成人免费观看视频| 日本黄区免费视频观看| 欧美日韩一级片在线观看| 免费的黄网站在线观看| 亚洲综合av影视| 韩国久久久久| 女人被狂躁c到高潮| 色偷偷88欧美精品久久久| www.亚洲视频| 成人午夜高潮视频| 欧美视频久久| 玖玖爱在线观看| 欧美日韩你懂得| 羞羞污视频在线观看| 精品国产乱码久久久久久88av| 蜜桃久久av| а天堂中文在线资源| 欧美一级欧美三级| 黄色在线网站噜噜噜| 日韩av电影免费在线| 国产一区二三区好的| 久久久国产成人| 亚洲欧美www| 24小时成人在线视频| 老太脱裤让老头玩ⅹxxxx| 国产日韩欧美不卡| 国产视频在线免费观看| 97超碰色婷婷| 97精品视频在线看| 中文字幕精品久久久| 欧美日韩国产成人在线91| 白白色在线观看| 天堂av一区二区| 国产91在线|亚洲| japanese国产在线观看| 久热国产精品视频| 日韩在线影视| 中文av字幕在线观看| 精品色蜜蜜精品视频在线观看| porn视频在线观看| 国产区一区二区三区| 麻豆免费精品视频| 久久免费激情视频| 欧美另类交人妖| 青青草原综合久久大伊人精品|