精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

當GPT-4反思自己錯了:性能提升近30%,編程能力提升21%

人工智能 新聞
GPT-4 的思考方式,越來越像人了。

人類在做錯事時,會反思自己的行為,避免再次出錯,如果讓 GPT-4 這類大型語言模型也具備反思能力,性能不知道要提高多少了。

眾所周知,大型語言模型 (LLM) 在各種任務上已經(jīng)表現(xiàn)出前所未有的性能。然而,這些 SOTA 方法通常需要對已定義的狀態(tài)空間進行模型微調(diào)、策略優(yōu)化等操作。由于缺乏高質(zhì)量的訓練數(shù)據(jù)、定義良好的狀態(tài)空間,優(yōu)化模型實現(xiàn)起來還是比較難的。此外,模型還不具備人類決策過程所固有的某些品質(zhì),特別是從錯誤中學習的能力。

不過現(xiàn)在好了,在最近的一篇論文中,來自美國東北大學、MIT 等機構(gòu)的研究者提出 Reflexion,該方法賦予智能體動態(tài)記憶和自我反思的能力。

為了驗證方法的有效性,該研究評估了智能體在 AlfWorld 環(huán)境中完成決策任務的能力,以及在 HotPotQA 環(huán)境中完成知識密集型、基于搜索問答任務的能力,在這兩項任務的成功率分別為 97% 和 51%。

圖片

論文地址:https://arxiv.org/pdf/2303.11366.pdf

項目地址:https://github.com/GammaTauAI/reflexion-human-eval

如下圖所示,在 AlfWorld 環(huán)境中,房間里擺設(shè)了各種物品,要求讓智能體給出推理計劃以拿到某件物體,下圖上半部分由于智能體低效的計劃而失敗。經(jīng)過反思后,智能體意識到錯誤,糾正推理軌跡,給出簡潔的軌跡方式(如圖下半部分)。

圖片

模型反思有缺陷的搜索策略:

圖片

這篇論文表明,你可以通過要求 GPT-4 反思「你為什么錯了?」并為自己生成一個新的提示,將這個錯誤原因考慮在內(nèi),直到結(jié)果正確,從而將 GPT-4 的性能提高驚人的 30%。

圖片

網(wǎng)友不禁感嘆:人工智能的發(fā)展速度已經(jīng)超過了我們的適應能力。

圖片

方法介紹

Reflexion 智能體的整體架構(gòu)如下圖 1 所示,其中 Reflexion 利用 ReAct(Yao et al., 2023)。在第一次試驗中,智能體從構(gòu)成初始查詢的環(huán)境中獲得任務,然后智能體執(zhí)行由 LLM 生成的一系列動作,并從環(huán)境中接收觀察和獎勵。對于提供描述型或持續(xù)型獎勵的環(huán)境,該研究將輸出限制為簡單的二元成功狀態(tài)以確保適用性。

圖片

在每個動作 a_t 之后,智能體會計算一個啟發(fā)性函數(shù) h,如下圖所示

圖片

這個啟發(fā)性函數(shù)旨在檢測智能體產(chǎn)生信息幻覺(即虛假或錯誤的信息)或效率低下,并「告訴」智能體何時需要反思(reflexion),其中 t 是 time step,s_t 是當前狀態(tài),Ω 表示重復動作循環(huán)的次數(shù),ε 表示執(zhí)行動作的最大總數(shù),[a_o, o_0 . . . , a_(t?1), o_(t?1)] 代表軌跡歷史。repeat 是一個簡單的函數(shù),用于確定產(chǎn)生相同結(jié)果的重復動作循環(huán)的次數(shù)。

如果函數(shù) h 告訴智能體需要反思,那么智能體會查詢 LLM 以反映其當前任務、軌跡歷史和上次獎勵,然后智能體在后續(xù)試驗中會重置環(huán)境再重試。如果函數(shù) h 沒有告訴智能體需要反思,那么智能體會將 a_t 和 o_t 添加到其軌跡歷史記錄中,并向 LLM 查詢下一個動作。

如果如果啟發(fā)式 h 建議在 time step t 時進行反思,則智能體會根據(jù)其當前狀態(tài) s_t、最后的獎勵 r_t、先前的動作和觀察 [a_0, o_0, . . . , a_t, o_t],以及智能體現(xiàn)有的工作存儲 mem,啟動一個反思過程。

反思的目的是通過反復試驗幫助智能體糾正「幻覺」和低效率問題。用于反思的模型是一個使用特定的失敗軌跡和理想的反思示例來 prompt 的 LLM。

圖片

智能體會迭代地進行上述反思過程。在實驗中,該研究設(shè)置在智能體內(nèi)存中存儲的反思最多為 3 次,這是為了避免查詢超出 LLM 的限制。以下幾種情況,運行會終止:

  • 超過最大試驗次數(shù);
  • 未能在兩次連續(xù)試驗之間提高性能;
  • 完成任務。

實驗及結(jié)果

AlfWorld 提供了六種不同的任務和 3000 多個環(huán)境,這些任務要求智能體理解目標任務,制定子任務的順序計劃,并在給定環(huán)境中執(zhí)行操作。

該研究在 134 個 AlfWorld 環(huán)境中測試智能體,任務包括尋找隱藏物體(例如,在抽屜里找到水果刀)、移動物體(例如,將刀移到砧板上 ),以及用其他對象來操縱另一個對象(例如,在冰箱中冷藏西紅柿)。 

在沒有反思的情況下,智能體的準確率為 63%,之后加入 Reflexion 進行對比。結(jié)果顯示,智能體在 12 次試驗中能夠處理好 97% 的環(huán)境,在 134 項任務中僅有 4 項沒有解決。

圖片

接下來的實驗是在 HotPotQA 中進行了,它是一個基于維基百科的數(shù)據(jù)集,包含 113k 個問答對,主要用來挑戰(zhàn)智能體解析內(nèi)容和推理的能力。

在 HotpotQA 的 100 個問答對測試中,該研究將基礎(chǔ)智能體和基于 Reflexion 的智能體進行比較,直到它們在連續(xù)的試驗中無法提高準確性。結(jié)果顯示基礎(chǔ)智能體并沒有性能提高,在第一次試驗中,基礎(chǔ)智能體準確率為 34%,Reflexion 智能體準確率為 32%,但在 7 次試驗后,Reflexion 智能體表現(xiàn)大幅改善,性能提升接近 30%,大大優(yōu)于基礎(chǔ)智能體。

圖片

類似地,在測試模型編寫代碼的能力時,加入 Reflexion 的 GPT-4 也顯著優(yōu)于常規(guī)的 GPT-4:

圖片

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-04-04 11:20:40

GPT-4OpenAI

2023-03-29 10:31:40

MIT論文

2023-11-03 13:07:00

AI模型

2023-05-24 10:01:24

代碼模型

2024-06-28 13:40:03

2020-02-06 11:15:58

Python命令代碼

2023-10-20 08:12:00

JDK21線程池配置

2023-06-19 08:19:50

2024-02-07 12:13:03

AI模型

2025-04-16 09:35:03

2020-10-09 17:43:25

計算機CPU技術(shù)

2023-04-10 09:23:36

模型AI

2023-04-04 09:09:10

GPT-4編程程序員

2023-10-14 17:24:49

2023-09-26 17:36:52

GPT-4AI

2024-04-02 07:27:38

ReALM人工智能iOS 18

2023-09-15 13:32:00

AI模型

2021-12-29 11:06:25

Java代碼技巧

2025-03-03 07:39:23

2017-12-28 10:39:23

編程網(wǎng)站編輯
點贊
收藏

51CTO技術(shù)棧公眾號

免费av一级片| 国产女主播喷水高潮网红在线| gogo在线高清视频| 成人爱爱电影网址| 欧美一级在线播放| 久久久久久成人网| 91国内精品白嫩初高生| 一本大道久久a久久综合| 天天综合中文字幕| 五月婷婷丁香网| 日本欧美韩国一区三区| 欧美国产日韩在线| 韩国女同性做爰三级| 岛国一区二区| 天天av天天翘天天综合网| 台湾成人av| 精品人妻午夜一区二区三区四区| 国产精品久久久久9999赢消| 亚洲国产三级网| 丰满少妇在线观看| 羞羞网站在线看| 久久久一区二区| 91欧美激情另类亚洲| 自拍偷拍欧美亚洲| 偷拍欧美精品| 日韩精品有码在线观看| 国产一区二区在线观看免费视频| 爱看av在线| 国产精品免费人成网站| 国产日韩欧美精品| 在线观看色网站| 影音先锋亚洲精品| 日韩亚洲综合在线| 欧美激情 一区| 欧美亚洲国产日韩| 欧美日韩精品欧美日韩精品| 精品国产一区二区三区在线| 美国成人毛片| 国产成人亚洲综合a∨婷婷| 国产精品久久久久久久久久尿| 久久久久久久久久久久久久免费看| 蜜桃成人av| 精品久久久久久久久久久久包黑料 | 裸模一区二区三区免费| 91久久久久久久久久久久| 亚洲狼人精品一区二区三区| 久久中文字幕在线视频| 永久免费av无码网站性色av| 欧美有码在线| 日韩午夜小视频| 蜜桃福利午夜精品一区| 免费福利视频一区二区三区| 亚洲成人激情av| 六月婷婷激情网| 思思99re6国产在线播放| 久久影院午夜论| 精品午夜一区二区| 性欧美8khd高清极品| 极品销魂美女一区二区三区| 国产福利精品在线| 免费观看成人毛片| 激情文学一区| 久久久免费观看视频| 内射一区二区三区| 久久精品国产亚洲夜色av网站| 国产日韩一区| 在线精品国产欧美| 国产激情在线免费观看| 色橹橹欧美在线观看视频高清| 欧美刺激午夜性久久久久久久| 成年人三级黄色片| av在线播放一区二区| 欧美久久久久免费| 在线免费看v片| 91麻豆精品| 欧美一级高清大全免费观看| 欧美日韩理论片| 亚洲精品在线播放| 亚洲第一av网站| 粉嫩av懂色av蜜臀av分享| 精品视频高潮| 国产丝袜精品第一页| 无码h肉动漫在线观看| 精品视频黄色| 日韩视频精品在线| 欧美三级视频网站| 国产精品嫩模av在线| 亚洲精品一线二线三线| 一级国产黄色片| 国产九一精品| 丝袜亚洲另类欧美重口| 手机在线免费看片| 黄色欧美成人| 45www国产精品网站| 一级一片免费看| 日韩av成人高清| 国产一区香蕉久久| 超碰福利在线观看| av中文字幕在线不卡| 欧美一区二区福利| 免费观看在线午夜影视| 亚洲精品少妇30p| 国产二区视频在线| 国产电影一区二区三区爱妃记| 欧美年轻男男videosbes| 波多野结衣电影免费观看| 欧美91在线| 尤物九九久久国产精品的特点| 成人一级黄色大片| 亚洲国产精品一区| 国产精品亚洲综合天堂夜夜| 国产片在线播放| 91色九色蝌蚪| 在线成人av电影| 另类视频在线| 欧美日韩一区三区四区| 2018国产精品| 日韩精品影视| 久久久久成人网| 自拍偷拍精品视频| 成人h精品动漫一区二区三区| 极品尤物一区二区三区| 色视频在线看| 亚洲最新在线观看| 少妇黄色一级片| a级日韩大片| 最近2019中文字幕第三页视频 | 亚洲欧美激情在线视频| 野花社区视频在线观看| 久久美女视频| 97国产在线观看| 99精品视频免费看| 欧美高清在线视频| 免费国产黄色网址| 国模大尺度视频一区二区| 日韩高清欧美高清| 男人的午夜天堂| 丝袜美腿成人在线| 国内精品视频在线播放| 97影院秋霞午夜在线观看| 在线观看日韩电影| 国产精品无码永久免费不卡| 自产国语精品视频| 国产精品美女av| 黄色小视频免费在线观看| 一区二区三区四区精品在线视频 | 成人自拍视频网站| 免费av网站在线看| 欧美午夜在线观看| 加勒比一区二区| 91久久在线| 国产成人免费电影| 69xxx在线| 欧美精品久久一区| 中文字幕伦理片| 羞羞答答国产精品www一本 | 一区二区三区精| 中文在线一区二区| 欧美精品aaaa| 伊人久久大香线蕉综合网蜜芽| 久久久久久久一区二区| 成人午夜免费在线观看| 亚洲欧洲三级电影| 艹b视频在线观看| 精品欧美久久| 国产精品久久久久久久久久东京| 黄色片免费在线| 在线观看91精品国产入口| 国产aⅴ激情无码久久久无码| 鲁大师成人一区二区三区 | 免费裸体美女网站| 伊人春色之综合网| 国产精品国产三级国产专播精品人| 色欲久久久天天天综合网| 国产精品国产三级国产专播品爱网| 国产精品视频分类| 日韩久久电影| 91美女片黄在线观看游戏| fc2ppv国产精品久久| 日韩欧美亚洲另类制服综合在线| 免费三片在线播放| 成人av网站免费| 欧美a v在线播放| 红桃成人av在线播放| 国产精品日韩欧美大师| 国产精品实拍| 精品国产伦一区二区三区观看方式| 久久精品视频8| 久久蜜桃av一区二区天堂 | 日韩亚洲视频| 亚洲三级电影| 欧美激情欧美激情在线五月| 亚洲欧美另类视频| 亚洲成av人片在线观看| 极品白嫩的小少妇| 国产欧美一区二区色老头| 神马影院我不卡| 蜜桃在线一区| 国产91精品久久久久久| 337p日本欧洲亚洲大胆鲁鲁| 91精品国产手机| 国产一级精品视频| 国产精品污污网站在线观看| 精品国产aⅴ一区二区三区东京热 久久久久99人妻一区二区三区 | 亚洲综合色av| 久久青青视频| 久久综合久中文字幕青草| 日本高清视频网站| 欧美亚洲国产bt| 久久久99精品| 国产偷国产偷亚洲高清人白洁| 欧美视频亚洲图片| 久久av一区二区三区| 亚洲激情图片| 日本一道高清一区二区三区| 国产在线观看91精品一区| 国产精品yjizz视频网| 中文综合在线观看| 国产普通话bbwbbwbbw| 色综合久久六月婷婷中文字幕| 国产三级精品三级观看| 久久综合精品国产一区二区三区| 天美一区二区三区| 老牛影视一区二区三区| 成人国产一区二区三区| jvid福利在线一区二区| 国产一区国产精品| 久久免费福利| 57pao国产精品一区| 9191在线播放| 在线播放日韩av| 无码国产色欲xxxx视频| 日韩一区二区三区免费看| 中文字幕有码无码人妻av蜜桃| 亚洲蜜臀av乱码久久精品蜜桃| 国产综合精品久久久久成人av| 99在线视频精品| 亚洲国产日韩在线一区| 日韩高清不卡在线| www黄色av| 在线国产日韩| 99久久99久久精品| 日韩欧美字幕| 欧美日韩一区在线视频| 欧美日韩一本| 国产亚洲情侣一区二区无| 看亚洲a级一级毛片| 91精品久久久久久| 色综合视频一区二区三区44| 国产盗摄xxxx视频xxx69| 周于希免费高清在线观看| 久久久久久97| 青草视频在线免费直播| 欧美成人黄色小视频| 永久免费av在线| 在线播放国产一区中文字幕剧情欧美| 青青操视频在线| 亚洲精品网址在线观看| 丰满人妻av一区二区三区| 精品久久久久久亚洲综合网| 性一交一乱一伧老太| 欧美大胆人体bbbb| 亚洲精品一级片| 精品日韩一区二区| 免费看国产片在线观看| 精品成人一区二区三区| 免费观看a视频| 亚洲精品国精品久久99热| 日韩中文字幕免费观看| 亚洲精品videossex少妇| 天堂成人在线观看| 精品视频www| 精品视频三区| 久久亚洲精品网站| 男女在线视频| 2018日韩中文字幕| 国产精品久久久久av电视剧| 国产精品96久久久久久| 成人黄色在线| 91超碰rencao97精品| 中文字幕日韩高清在线| 精品在线不卡| 精品国产乱码| 亚洲一区二区不卡视频| 正在播放日韩欧美一页| 男女日批视频在线观看| 国产日韩精品视频一区二区三区 | 99久久99热这里只有精品| 三级网在线观看| 国产精品www994| 自慰无码一区二区三区| 玖玖在线精品| 免费不卡av网站| www.成人网.com| 国产免费无遮挡吸奶头视频| 亚洲国产成人在线| 国产精品成人免费观看| 欧美日韩另类在线| 97超碰资源站| 日韩成人在线视频观看| av小片在线| 色偷偷av一区二区三区| 制服丝袜在线播放| 国产91色在线免费| 国产成年精品| 久久久精品有限公司| 欧美激情另类| 日韩av三级在线| 精品一区二区三区免费视频| 亚洲av永久无码精品| 国产精品亲子伦对白| 国产香蕉在线视频| 欧美老肥妇做.爰bbww| 天堂中文网在线| 久久精品久久久久久| 欧美亚洲日本精品| 国产欧美日韩亚洲精品| 香蕉久久夜色精品国产使用方法 | 婷婷国产v国产偷v亚洲高清| 中文字幕 欧美激情| 亚洲成人网久久久| 免费黄网站在线播放| 热99精品只有里视频精品| 国产精品麻豆| 日韩国产欧美一区| 99国产精品久久久久久久成人热| 亚洲欧美视频二区| 成人免费三级在线| 欧美成人aaa片一区国产精品| 在线视频综合导航| 日批视频在线播放| 欧美大胆在线视频| 欧美日韩视频免费看| 欧美1o一11sex性hdhd| 欧美日韩亚洲一区二区三区在线| 国产又大又黄又粗又爽| 久久先锋影音av| 日韩精品视频免费看| 日韩午夜电影在线观看| 香蕉视频网站在线观看| 日韩免费在线看| 欧美高清视频看片在线观看| 国产一级黄色录像片| 久久精品国产免费看久久精品| 国产麻豆xxxvideo实拍| 亚洲美女偷拍久久| 国产区精品在线| www.亚洲成人| 日韩免费在线电影| 偷拍视频一区二区| 日本不卡视频在线观看| 亚洲午夜久久久久久久久红桃 | 亚洲第一福利网站| av观看在线| 91文字幕巨乱亚洲香蕉| 91精品国产福利在线观看麻豆| 天天爽夜夜爽一区二区三区| 久久综合狠狠综合久久综合88| 欧美日韩精品区| 日韩成人免费视频| 激情aⅴ欧美一区二区欲海潮| 国产综合欧美在线看| 在线国产精品一区| 亚洲激情 欧美| 天天射综合影视| 日韩一区av| 国产va免费精品高清在线观看| 欧美极品中文字幕| 欧美午夜aaaaaa免费视频| 国产精品污www在线观看| 中文字字幕在线中文乱码| yellow中文字幕久久| **国产精品| 老司机午夜网站| 99在线精品观看| 天天做天天爱夜夜爽| 亚洲天天在线日亚洲洲精| 123成人网| 亚洲乱码一区二区三区三上悠亚 | 在线视频观看一区二区| 亚洲美女免费在线| 亚洲AV无码成人片在线观看| 韩国三级日本三级少妇99| 欧美激情在线精品一区二区三区| 色婷婷狠狠18| 亚洲精品久久嫩草网站秘色| 丰满人妻一区二区三区无码av| 97视频在线观看播放| 禁断一区二区三区在线| 天堂在线中文在线| 亚洲一区二区三区三| 性xxxx18| 国产日韩av高清| 91tv官网精品成人亚洲| 国产精品igao网网址不卡| 亚洲成人第一页| av大全在线免费看| 3d动漫精品啪啪一区二区三区免费| 激情久久五月| 成年人看的免费视频|