精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

東大華人博士讓GPT-4用「心智理論」玩德撲!完勝傳統算法,碾壓人類新手

人工智能 新聞
來自東京大學的Suspicion Agent利用GPT-4,在不完全信息博弈中表現出了高階的心智理論能力(ToM)。

在完全信息博弈中,每個博弈者都知道所有信息要素。

但不完全信息博弈不同,它模擬了現實世界中在不確定或不完全信息下進行決策的復雜性。

GPT-4作為目前最強大模型,具有非凡的知識檢索和推理能力。

但GPT-4能否利用已學習到的知識進行不完全信息博弈?

為此,東京大學的研究人員引入了Suspicion Agent這一創新智能體,通過利用GPT-4的能力來執行不完全信息博弈。

論文地址:https://arxiv.org/abs/2309.17277

在研究中,基于GPT-4的Suspicion Agent能夠通過適當的提示工程來實現不同的功能,并在一系列不完全信息牌局中表現出了卓越的適應性。

最重要的是,博弈過程中,GPT-4表現出了強大的高階心智理論(ToM)能力。

GPT-4可以利用自己對人類認知的理解來預測對手的思維過程、易感性和行動。

這意味著GPT-4具備像人類一樣理解他人并有意影響他人的行為。

同樣的,基于GPT-4的智能體在不完全信息博弈中的表現也優于傳統算法,這可能會激發LLM在不完全信息博弈中的更多應用。

訓練方法

為了讓LLM能夠在沒有專門訓練的情況下玩各種不完全信息博弈游戲,研究人員將整個任務分解為下圖所示的幾個模塊,如觀察解釋器、游戲模式分析和規劃模塊。

并且,為了緩解LLM在不完全信息游戲中可能會被誤導這一問題,研究人員首先開發了結構化提示,幫助LLM理解游戲規則和當前狀態。

對于每種類型的不完全信息博弈,都可以編寫如下結構化規則描述:

一般規則:游戲簡介、回合數和投注規則;

動作描述:(動作 1 的描述)、(動作 2 的描述)......;

單局輸贏規則:單局輸贏或平局的條件;

輸贏回報規則:單局輸贏的獎勵或懲罰;

整局輸贏規則:對局數和整體輸贏條件。

在大多數不完全信息博弈環境中,博弈狀態通常表示為低級數值,如單擊向量,以方便機器學習。

但通過LLM,就可以將低層次的博弈狀態轉換為自然語言文本,從而幫助模式的理解:

輸入說明:接收到的輸入類型,如字典、列表或其他格式,并描述游戲狀態中的元素數量以及每個元素的名稱;

元素描述:(元素 11 的描述,(元素 2 的描述),....

轉換提示:將低級游戲狀態轉換為文本的更多指南。

利用博弈規則和觀測轉換規則,可以有效地將低級博弈狀態轉換為可讀文本,記為圖片

這種可讀文本能夠作為LLM的輸入。使用

,生成文本中每個元素圖片的條件分布可以建模為:

這里,圖片代表語言模型,參數為圖片M是生成文本圖片的長度,此模塊命名為觀察解釋器。

在不完全信息博弈中,這種表述方式能更容易理解與模型之間的交互。

研究人員引入了一種虛無規劃方法,該方法具有一個Reflexion模塊,旨在自動檢查對局歷史,使LLMs能夠從歷史經驗中學習和改進規劃,以及一個單獨的規劃模塊,專門用于做出相應的決策。

然而,虛無的規劃方法往往難以應對不完全信息博弈中固有的不確定性,尤其是在面對善于利用他人策略的對手時。

受這種適應性的啟發,研究人員設計出了一種新的規劃方法,即利用LLM的ToM能力來了解對手的行為,從而相應地調整策略。

實驗

定量評估

如表1所示,Suspicion Agent優于所有基線,并且基于GPT-4的Suspicion Agent在比較中獲得了最高的平均籌碼數。

這些發現有力地展示了在不完全信息博弈領域采用大型語言模型的優勢,同時也證明了研究提出框架的有效性。

下圖表明了Suspicion Agent和基線模型的行動百分比。

可以觀察到:

Suspicion Agent vs CFR:CFR算法是一種保守策略,它傾向于保守,經常在持有弱牌時棄牌。

而Suspicion Agent成功識別了這一模式,并策略性地選擇更頻繁地加注,向 CFR 施加棄牌壓力。

這使得即使Suspicion Agent的牌很弱或與CFR的牌相當的情況下,它積累了更多籌碼。

Suspicion Agent vs DMC:DMC基于搜索算法,采用了更多樣化的策略,包括虛張聲勢。它經常在自己手牌最弱和最強時都會加注。

作為回應,Suspicion Agent根據自己的手牌和觀察到的DMC的行為,減少了加注頻率,并更多地選擇跟注或棄牌。

Suspicion Agent vs DON:DON算法的立場更加激進,幾乎總是用強牌或中級牌加注,從不棄牌。

Suspicion Agent發現了這一點,并反過來盡量減少自己的加注,更多地根據公共牌和DON的行動選擇跟注或棄牌。

Suspicion Agent Vs NFSP:NFSP表現出跟注策略,選擇總是跟注并從不棄牌。

Suspicion Agent的應對方式是減少加注頻率,并根據公共牌和NFSP觀察到的行動選擇棄牌。

根據上述分析結果,可以看到Suspicion Agent具有很強的適應性,能夠利用其他各種算法所采用策略的弱點。

這充分說明了大語言模型在不完美信息博弈中的推理和適應能力。

定性評估

在定性評估中,研究人員在三個不完全信息博弈游戲(Coup、Texas Hold'emLimit 和 Leduc Hold'em)中對Suspicion Agent進行了評估。

Coup,中文翻譯是政變,這是一種紙牌游戲,玩家扮演政治家,試圖推翻其他玩家的政權。游戲的目標是在游戲中存活并積累權力。

Texas Hold'em Limit,即德州撲克(有限注),是一種非常流行的撲克牌游戲,有多個變體。「Limit」表示在每輪下注中有固定的上限,這意味著玩家只能下固定數額的賭注。

Leduc Hold'em是則是德州撲克的一個簡化版本,用于研究博弈論和人工智能。

在每種情況下,Suspicion Agent手中有一張Jack,而對手要么有一張Jack,要么有一張Queen。

對手最初選擇跟注而不是加注,暗示他們手牌較弱。在普通計劃策略下,Suspicion Agent選擇跟注以查看公共牌。

當這揭示出對手手牌較弱時,對手迅速加注,使Suspicion Agent處于不穩定的局面,因為Jack是最弱的手牌。

在一階理論心智策略下,Suspicion Agent選擇棄牌,以最小化損失。這個決定是基于觀察到對手通常在手中有Queen或Jack時才跟注。

然而,這些策略未能充分利用對手手牌的推測弱點。這一缺點源于它們不考慮Suspicion Agent的舉動可能如何影響對手的反應。

相比之下,如圖9所示,簡單的提示能夠讓Suspicion Agent了解如何影響對手的行動。有意選擇加注會給對手帶來壓力,促使他們棄牌并最小化損失。

因此,即使手牌的強度相似,Suspicion Agent也能夠贏得許多比賽,從而比基線贏得更多的籌碼。

此外,如圖10所示,在對手跟注或回應Suspicion Agent的加注情況下(這表明對手手牌強大),Suspicion Agent就會迅速調整策略,選擇棄牌以防止進一步損失。

這顯示了Suspicion Agent的出色戰略靈活性。

消融研究與組件分析

為了探索不同階ToM感知規劃方法如何影響大型語言模型的行為,研究人員在Leduc Hold'em和plaagainst CFR上進行了實驗和比較。

圖5中展示了采用不同ToM水平規劃的Suspicion Agent的行動百分比,并在表3中展示了籌碼收益結果。

圖片

表3:Suspicion Agent在使用不同級別ToM與CFRonLeduc Hold'em環境對弈時的比較結果以及100局游戲后的量化結果

可以觀察到:

基于Reflexion modulevanilla規劃在對局過程中傾向于更多地跟注和過牌(在對陣CFR和DMC時跟注和過牌比例最高),這無法施加壓力使對手棄牌,并導致許多不必要的損失。

但如表3所示,vanilla計劃的籌碼收益最低。

利用一階ToM,Suspicion Agent能夠根據自己的牌力和對對手牌力的估計做出決策。

因此,它加注的次數會多于普通計劃,但它棄牌的次數往往多于其他策略,目的是盡量減少不必要的損失。然而,這種謹慎的方法會被精明的對手模型所利用。

例如,DMC經常在拿著最弱的一手牌時加注,而CFR有時甚至會在拿著中級牌時加注,以對Suspicion Agent施加壓力。在這些情況下,Suspicion Agent的加倍傾向會導致損失。

相比之下,Suspicion Agent更擅長識別和利用對手模型的行為模式。

具體來說,當CFR選擇過牌(通常表示手牌較弱)或當DMC過牌(表明其手牌與公共牌不一致)時,Suspicion Agent會以虛張聲勢的方式加注,誘使對手棄牌。

因此,Suspicion Agent在三種規劃方法中表現出最高的加注率。

這種激進的策略讓Suspicion Agent即使手持弱牌也能積累更多籌碼,從而最大限度地提高籌碼收益。

為了評估后視觀察的影響,研究人員進行了一項后視觀察不納入當前游戲的消融研究。

如表4和表5所示,在沒有后視觀察觀察的情況下,Suspicion Agent仍能保持其相對于基線方法的性能優勢。

表4:比較結果表明了在萊德克牌局環境中將對手觀察結果納入對局歷史的影響

表5:比較結果表明,當Suspicion Agent在 Leduc Hold'em 環境中與CFR對弈時,在對局歷史中加入對手觀察結果的影響。結果是使用不同種子進行100局對局后的輸贏籌碼,輸贏籌碼數從1到14不等

結論

Suspicion Agent沒有進行任何專門的訓練,僅僅利用GPT-4的先驗知識和推理能力,就能在Leduc Hold'em等不同的不完全信息游戲中戰勝專門針對這些游戲訓練的算法,如CFR和NFSP。

這表明大模型具有在不完全信息游戲中取得強大表現的潛力。

通過整合一階和二階理論心智模型,Suspicion Agent可以預測對手的行為,并相應調整自己的策略。這使得它可以對不同類型對手進行適應。

Suspicion Agent還展示了跨不同不完全信息游戲的泛化能力,僅僅根據游戲規則和觀察規則,就可以在Coup和Texas Hold'em等游戲中進行決策。

但Suspicion Agent也有著一定的局限性。例如,由于計算成本限制,對不同算法的評估樣本量較小。

以及推理成本高昂,每局游戲耗費接近1美元,并且Suspicion Agent的輸出對提示的敏感性較高,存在hallucination的問題。

同時,在進行復雜推理和計算時,Suspicion Agent的表現也不盡人意。

未來,Suspicion Agent將在計算效率、推理魯棒性等方面進行改進,并支持多模態和多步推理,來實現對復雜游戲環境的更好適應。

同時,Suspicion Agent在不完全信息博弈游戲中的應用,也可以遷移到未來多模態信息的整合,模擬更真實的交互、擴展到多玩家游戲環境中。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-05-05 09:42:12

2023-05-30 13:29:25

2024-05-20 08:40:00

2023-06-19 08:19:50

2024-05-27 00:00:00

2023-08-27 12:54:59

GPT-4神秘版本Code

2023-08-24 14:22:00

智能模型

2023-05-29 09:55:11

GPT-4英偉達

2024-02-02 17:04:35

UCLALLMGPT-4

2023-10-14 13:09:53

谷歌模型

2023-06-25 09:38:04

GPT-4研究

2020-06-10 10:32:10

人工智能技術編輯

2023-11-26 17:14:05

2025-04-16 09:35:03

2024-02-26 00:50:00

數據AI

2023-11-02 12:10:00

AI訓練

2024-04-02 11:38:31

模型訓練

2023-06-18 12:42:33

GPT-4AI

2023-08-15 15:03:00

AI工具

2011-02-24 17:52:22

Watsonibm
點贊
收藏

51CTO技術棧公眾號

欧美在线观看18| 久久综合色综合88| 欧美美女15p| 久久久老熟女一区二区三区91| 欧美少妇精品| 中文字幕在线一区| 国产亚洲一区在线播放| 男人天堂视频在线| 欧美日韩一区二区高清| 亚洲四色影视在线观看| 中文字幕第10页| 成人欧美大片| 一区二区在线免费| 欧洲一区二区在线| 性生活免费网站| 久久久久久一区二区| 久久国产精品久久久久久久久久| 免费a在线观看播放| 91视频免费在观看| 99国产精品欲| 免费看的黄色欧美网站| 草民午夜欧美限制a级福利片| 欧美无人区码suv| 国产精品视频一区二区三区| 日韩欧美亚洲成人| 亚洲高潮无码久久| 国产区视频在线| 成人性色生活片免费看爆迷你毛片| 日韩暖暖在线视频| 青娱乐国产盛宴| 日韩精品久久久久久久电影99爱| 亚洲黄一区二区| 伊人成人免费视频| 久久69成人| 色综合婷婷久久| 丰满少妇大力进入| 污网站在线免费看| 亚洲图片欧美激情| 伊人久久大香线蕉午夜av| 久久视频www| 久久久青草青青国产亚洲免观| 风间由美久久久| 亚洲成人77777| 国产乱码精品一区二区三区五月婷| 国产精品美女免费| 潘金莲一级淫片aaaaaa播放| 伊人久久亚洲热| 欧美人成在线视频| 中文字幕在线观看成人| 一个色综合网| 草民午夜欧美限制a级福利片| 青青青视频在线播放| 精品视频97| 在线观看欧美www| 精品少妇人妻一区二区黑料社区| 日韩在线麻豆| 国产偷亚洲偷欧美偷精品| 精品中文字幕在线播放| 精品国产一区二区三区成人影院 | va婷婷在线免费观看| 激情成人综合网| 欧美午夜精品| 日韩精品在线影院| 色噜噜在线观看| 亚洲精品一级二级三级| 夜夜嗨av色综合久久久综合网 | 国产精品伦理在线| 中文字幕一区二区三区四区五区| 精品视频在线一区二区| 亚洲天堂网中文字| 黄色三级中文字幕| 蜜臀久久精品| 欧美性xxxxxx少妇| 欧美激情第四页| 91精品久久久久久综合五月天| 精品国产人成亚洲区| 国产福利在线观看视频| 国产精品极品在线观看| 精品视频一区在线视频| 婷婷色一区二区三区| 精品国产一区二区三区四区 | 蜜桃网站成人| 尤物视频在线免费观看| 一区二区三区精品| 国产网站免费在线观看| 久久久人成影片一区二区三区在哪下载| 欧美在线高清视频| 69av成年福利视频| 女人喷潮完整视频| 中文日产幕无线码一区二区| 欧美性色欧美a在线播放| 国内av一区二区| 欧美深夜视频| 中国china体内裑精亚洲片| 三上悠亚作品在线观看| 亚洲承认在线| 国产精品免费一区二区三区都可以| 国产精品人人妻人人爽| av中文字幕一区| 亚洲一区综合| 日韩电影免费看| 欧美日本一道本在线视频| 折磨小男生性器羞耻的故事| 国产91精品对白在线播放| 欧美床上激情在线观看| 丁香社区五月天| 国产suv精品一区二区三区| 鲁鲁狠狠狠7777一区二区| 国产一二三区在线观看| 日韩欧美在线国产| 国产精久久久久| 成人国产精品一级毛片视频| 久久久久久亚洲精品不卡| www.av88| 久久九九久久九九| 免费网站在线观看视频 | 亚洲一区二区免费| 精品一二三区视频| 亚洲国产成人av好男人在线观看| 中文字幕第80页| 窝窝社区一区二区| 欧美激情亚洲激情| 国产又大又黄的视频| 久久精品免视看| 日本在线xxx| 在线精品自拍| 久久天堂av综合合色| 艳妇乳肉豪妇荡乳av无码福利 | 91精品人妻一区二区三区蜜桃欧美| 欧美国产三区| 成人av色在线观看| а√天堂中文在线资源bt在线| 黑人巨大精品欧美一区二区一视频| 手机在线播放av| 99国产**精品****| 国产精品美女免费看| 国产日本在线视频| 色婷婷激情久久| 丝袜美腿中文字幕| 在线亚洲国产精品网站| 国产在线欧美日韩| bl视频在线免费观看| 欧美精品一区二区蜜臀亚洲| 精品欧美一区二区久久久久| 国产一区在线观看麻豆| 中文字幕中文字幕在线中心一区| 国内精品伊人| 伊人久久精品视频| 伊人精品在线视频| 自拍偷拍欧美精品| 善良的小姨在线| 综合一区二区三区| 91精品国产综合久久久久久丝袜 | 尤物国产在线观看| 91综合久久| 91九色视频导航| 国产成人l区| 日韩免费福利电影在线观看| 久久精品第一页| 成人在线视频一区| 成年人视频观看| 精品国产一级毛片| 91精品国产综合久久香蕉| bt在线麻豆视频| 精品日韩欧美在线| 日韩精品一区二区三| 91免费版在线| 亚洲少妇久久久| 仙踪林久久久久久久999| 国产中文字幕日韩| 在线不卡日本v二区707| 亚洲第一天堂无码专区| 亚洲精品午夜国产va久久成人| 久久综合av免费| 欧美男女交配视频| 国产精品videossex久久发布| 国产精品免费一区二区三区| 在线中文字幕播放| 中文字幕欧美日韩在线| 国产成人av免费看| 疯狂欧美牲乱大交777| 精品无码在线观看| 国产福利电影一区二区三区| 亚洲熟妇无码一区二区三区| 国产成人黄色| 亚洲xxxxx电影| 亚洲永久av| 久久最新资源网| 欧美成人免费| 欧美不卡123| 无码无套少妇毛多18pxxxx| 国产精品二三区| 亚洲av成人片色在线观看高潮 | 天天av天天翘天天综合网| 中日韩精品一区二区三区| 久久精品国产免费| 奇米精品一区二区三区| 婷婷伊人综合| 美日韩免费视频| 精品视频在线观看免费观看| 人人爽久久涩噜噜噜网站| 老司机在线看片网av| 日韩电影大片中文字幕| 99久久精品国产色欲| 色成人在线视频| 免费又黄又爽又色的视频| 欧美激情中文字幕| 伊人久久一区二区三区| 激情五月激情综合网| 欧美 日韩 国产在线观看| 99久久精品国产亚洲精品| 久久久久久久久久久一区| 久久九九精品视频| 国产精品丝袜高跟| 一个人看的www视频在线免费观看 一个人www视频在线免费观看 | 亚洲精品欧美专区| 69xxx免费| 26uuu成人网一区二区三区| 香蕉在线观看视频| 久久99久久精品| 久久久久免费精品| 亚洲激情成人| 日韩欧美猛交xxxxx无码| 日韩综合在线| 色99中文字幕| 妖精视频一区二区三区免费观看| 999在线观看免费大全电视剧| 成人国产网站| 欧美一区二区三区免费观看| 91视频欧美| 欧美精品videosex极品1| 成人免费网址| 久久福利视频导航| 黄色小网站在线观看| 色老头一区二区三区在线观看| 日本护士...精品国| 亚洲国产精品大全| 噜噜噜久久,亚洲精品国产品| 日韩女优视频免费观看| 国产美女永久免费| 欧美一区二区三区在线视频 | 精品国产亚洲一区二区三区在线观看| av天堂一区二区三区| 91精品国产福利| 99草在线视频| 日韩一区二区三区av| 国产日韩精品suv| 日韩欧美国产高清| 黄色av免费观看| 精品国产乱码久久久久久久久| 性一交一乱一色一视频麻豆| 欧美成人猛片aaaaaaa| 黄色aaa大片| 日韩经典一区二区三区| 欧美性孕妇孕交| 一区二区三区四区在线观看视频| sese在线视频| 久久艳片www.17c.com| 污污网站在线观看| 午夜精品视频网站| 天堂在线中文网官网| 国产精品h在线观看| 成人午夜在线| 亚洲xxxxx电影| 九色丨蝌蚪丨成人| 欧美一区二区在线视频观看| 日韩精品一卡| 精品一二三四五区| 久久久国产亚洲精品| 在线观看亚洲色图| 国产99一区视频免费| 国产福利短视频| 亚洲国产岛国毛片在线| 日韩欧美123区| 午夜精品久久久久影视| 7799精品视频天天看| 欧美精品在欧美一区二区少妇 | 日韩精品在线免费观看视频| 狠狠色伊人亚洲综合网站l| 日韩视频第一页| av老司机在线观看| 国产精品88a∨| 欧美成人一级| 欧美一级片免费观看| 羞羞色午夜精品一区二区三区| 人妻av无码专区| 日韩av网站在线观看| 日本wwwwwww| 国产日韩欧美精品一区| 成年人av电影| 在线亚洲欧美专区二区| 国产麻豆精品一区| 国产视频精品xxxx| 麻豆传媒视频在线观看免费| 91精品国产91久久久久| 91麻豆精品国产综合久久久| 国产精品一区二区三区不卡 | 中文字幕久热精品在线视频 | 国产日韩综合一区二区性色av| 国产精品国产| 亚洲精品偷拍视频| 日韩综合小视频| 亚洲av人人澡人人爽人人夜夜| 国产欧美精品一区二区色综合 | 欧美连裤袜在线视频| 欧美精品一卡| 成人免费在线观看视频网站| av一区二区久久| 青草草在线视频| 欧美日韩国产片| 三级在线观看| 久久久爽爽爽美女图片| 天天综合91| 日本黑人久久| 一区二区91| 无码人妻一区二区三区在线| 最新国产の精品合集bt伙计| 91porny九色| 亚洲人成啪啪网站| 国产高清中文字幕在线| 91手机在线播放| 香蕉国产精品| 欧美美女一级片| 国产午夜久久久久| www.色国产| 日韩精品中文字幕久久臀| 婷婷av在线| 91高跟黑色丝袜呻吟在线观看| 日本午夜一区| mm1313亚洲国产精品无码试看| 成人av手机在线观看| 青娱乐国产在线视频| 欧美一卡二卡三卡| 国产黄网站在线观看| 国产欧美va欧美va香蕉在线| 日韩一级毛片| 亚洲国产日韩欧美在线观看| 欧美激情综合五月色丁香小说| 黄色片网站在线免费观看| 亚洲精品97久久| 欧美aaaaa性bbbbb小妇| 国产伦精品一区二区三区免费视频| 欧美日韩综合| 色哟哟无码精品一区二区三区| 亚洲亚洲精品在线观看| www.国产精品视频| 欧美极品少妇xxxxⅹ裸体艺术| 日韩视频一区二区三区四区| 黄色录像特级片| 成人午夜在线免费| 日本午夜精品理论片a级app发布| 精品国产乱码久久久久久闺蜜 | 国产视频久久久久久| 亚洲国产wwwccc36天堂| 婷婷色在线观看| 奇米4444一区二区三区 | 午夜免费欧美电影| 97在线国产视频| 91免费国产在线观看| 天天爱天天做天天爽| 中文字幕亚洲综合久久| 精品一区二区三区视频在线播放| 欧美 日韩 国产精品| 粉嫩av一区二区三区| 久久狠狠高潮亚洲精品| 国产一区二区三区在线视频| 国产精品久久久久久久久免费高清 | 国产91在线播放| 四季av一区二区三区免费观看| 制服下的诱惑暮生| 天天综合色天天综合色h| 蜜桃视频在线播放| 成人夜晚看av| 亚洲国产一区二区三区高清| 免费一级做a爰片久久毛片潮| 欧美日韩不卡视频| 国产蜜臀av在线播放| 欧美高清视频一区二区三区在线观看| 日韩电影在线观看一区| 国产日韩欧美在线观看视频| 亚洲成人在线网| 韩国成人在线| 欧美一区二区三区综合| 久久亚洲私人国产精品va媚药| 亚洲午夜精品久久久| 欧美激情在线播放| 精品国产aⅴ| 91精品人妻一区二区三区蜜桃2| 狠狠操狠狠色综合网| 香蕉视频在线看| 激情五月综合色婷婷一区二区| 日韩不卡免费视频| 国产精品99re| 日韩亚洲第一页| 日本亚洲不卡| 日本网站在线看| 色婷婷亚洲综合| av在线视屏| 亚洲最新免费视频| 日韩三级影院|