精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Hinton和LeCun再交鋒,激辯LLM能否引發智能奇點!LeCun:人類理解能力碾壓GPT-4

人工智能 新聞
大模型能否理解自己所說,Hinton和LeCun再次吵起來了。LeCun新論文證明,GPT-4回答問題準確率僅為15%,自回歸模型不及人類。

AI大佬的激戰再次掀起。

Hinton在線直接點名LeCun,說他對AI接管風險的看法對人類的影響微乎其微。

這意味著,他把自己的意見看得很重,而把許多其他同樣有資格的專家的意見看得很輕。

圖片

在Hinton看來,他們之間意見分歧的核心論點是「LLM是真正理解自己說什么」。

圖片

當然了,一直站在末日派中的Hinton認為大模型有了意識,而LeCun、吳恩達等人卻認為LLM不明白自己所說。

對此,LeCun反駁道,大模型顯然對其閱讀和生成的內容有「一些」理解,但這種理解是非常有限和膚淺的。

總的來說,目前自回歸大模型沒有對推理和規劃能力,遠未及人類水平的智能。

恰在近日,LeCun發表了一篇新論文,再提自回歸LLM做得不好。

論文中,研究人員介紹了一個通用AI助手基準GAIA。

其中提出了需要一系列基本能力的現實世界問題,比如推理、多模態處理、網頁瀏覽和一般的工具使用熟練程度。

圖片

論文地址:https://arxiv.org/pdf/2311.12983.pdf

結果表明,GAIA設計的問題對人類來說簡直輕而易舉,而對大多數高級AI來說卻很有挑戰性。

即,人類回答準確率為92%,而用上插件的GPT-4回答準確率僅為15%。

通用人工智能助手基準——GAIA

GAIA的產生,既是因為需要修訂AI基準,也是因為發現了LLM評估的不足之處。

研究人員提出的通用人工智能助手的基準——GAIA,包含了466個精心設計的問題和答案,以及相關的設計方法。

這些問題對AI系統具有挑戰性,大多數需要復雜的代數。

但又能給出唯一的、符合事實的答案,從而實現簡單而穩健的自動評估。

圖片

GAIA問題示例

設計選擇

第一個原則:瞄準概念上簡單但對人類來說可能乏味的問題。

這些問題多種多樣的,植根于現實世界,對當前的人工智能系統具有挑戰性。

因此,這些問題的設計將重點放在基本能力上,如通過推理快速適應、多模態理解和潛在的多樣化工具使用,而不是專業技能上。

問題一般包括查找和轉換從不同來源收集到的信息,如提供的文檔或開放且不斷變化的網絡,從而得出準確的答案。

第二個原則:可解釋性。

由于高度精選的問題數量有限,因此與匯總問題相比,該基準更易于使用。

任務的概念簡單性(人類成功率為 92%)使得用戶很容易理解模型的推理軌跡。

第三個原則:對記憶的魯棒性。

為了完成一項任務,GAIA系統必須計劃并成功地完成一些步驟,因為從當前的訓練前數據中,得到的答案是設計成純文本的。

第四個原則:易用性。

研究者的任務是附加文件的簡單提示。至關重要的是,問題的答案是事實,簡明和明確的。

這些特性允許簡單、快速和事實性的評估。

評估

GAIA的設計的評估是自動化的、快速的、真實的。

在實踐中,除非另有說明,否則每個問題都需要一個答案,這個答案要么是一個字符串(一個或幾個單詞) ,一個數字,要么是用逗號分隔的字符串或浮點列表。

每個問題,只有一個正確答案。

因此,評估是通過模型的答案和地面真值之間的準確匹配來完成的。

如下圖,回答GAIA問題時,像GPT-4這樣的人工智能助手,需要完成幾個步驟,可能需要使用工具或者讀取文件。

圖片

GAIA的構成

想要在GAIA上獲得完美的分數,大模型需要先進的推理能力、多模態的理解、編碼能力和一般的工具使用,例如網頁瀏覽。

根據解決問題所需步驟的數量和回答問題所需的不同工具的數量,可以將問題分為三個難度增加的級別。

- 1級問題通常不需要任何工具,或者最多只需要一個工具,但不超過5個步驟。

- 第2級問題通常涉及更多的步驟,大約在5到10之間,需要結合不同的工具。

- 第三級是一個近乎完美的普通助理的問題,需要采取任意長的動作序列,使用任意數量的工具,并進入一般的世界。

GPT-4表現如何

使用GAIA評估大型語言模型只需要具備向模型發出提示的能力,即API訪問權限。

研究人員在提問前使用一個前綴提示詞,以便于提取答案,具體參見下圖。

圖片

研究人員評估了GPT-4帶插件和不帶插件的版本,以及以GPT-4為后端的AutoGPT。

目前,GPT-4需要手動選擇插件。相反,AutoGPT能夠自動進行這一選擇。

研究人員采用的的非LLM基準包括人類注釋者和網絡搜索。對于后者,他們在搜索引擎中輸入問題,并檢查是否能從搜索結果的第一頁中推導出答案。

這使他們能夠評估研究人員的問題答案是否可以輕松地在網絡上找到。只要API可用,就運行模型三次,并呈現得到的平均結果。

GPT-4插件

與GPT-4不同的是,目前還沒有帶插件的GPT-4 API,研究人員不得不手動進行ChatGPT查詢。

在撰寫本文時,用戶必須手動在一個高級數據分析模式(具有代碼執行和文件讀取能力)和最多三個第三方插件之間進行選擇。研究人員根據任務給定的最重要功能的最佳猜測,選擇第一種模式或選擇第三方插件。研究人員通常依賴于:

(i)一個用于閱讀各種類型鏈接的工具,

(ii)一個網絡瀏覽工具,

(iii)一個用于計算的工具。

遺憾的是,目前無法在一段時間內使用一組穩定的插件,因為插件經常更改或從商店中消失。

同樣,GPT-4的官方搜索工具也被移除,因為它可能繞過付費墻,但最近又重新推出。因此,研究人員對帶插件的GPT4的評分是GPT-4潛力的「預估」,是基于更穩定和自動選擇插件的估計。

結果

研究人員的評估結果如下圖所示。

研究人員提出的難度等級,大致根據步驟數量和使用的不同能力數量定義,與當前模型的性能相關,增強了它們的有效性。

雖然人類在所有層面上表現出色,但當前最好的LLM表現不佳。

總的來說,GAIA允許清晰地對有能力的助手進行排名,同時也為未來幾個月甚至幾年的改進留下了很大的空間。

人類通過網絡搜索可能會獲得文本結果,從中可以推斷出一級難度問題的正確答案,但當涉及到稍微復雜一點的查詢時,這種方法就不那么有效了,并且比典型的大型語言模型(LLM)助手稍慢,因為用戶需要瀏覽首批搜索結果。

這證實了LLM助手作為搜索引擎的競爭者的潛力。

GPT-4在沒有插件的情況下的結果與其他情況的差異表明,通過工具API或訪問網絡增強LLM可以提高答案的準確性,并解鎖許多新的用例,確認了這一研究方向的巨大潛力。

特別是,GPT-4加上插件表現出了諸如回溯或查詢優化等行為,當結果不令人滿意時,以及相對較長的計劃執行時間。

AutoGPT-4允許GPT-4自動使用工具,但其在二級難度,甚至與不帶插件的GPT-4相比,一級難度的結果也令人失望。這種差異可能來自AutoGPT-4依賴GPT-4 API(提示和生成參數)的方式。

與其他LLM相比,AutoGPT-4也較慢。總的來說,人類與帶插件的GPT4的合作似乎到目前為止提供了最佳的得分與所需時間比。

下圖顯示了按能力劃分的模型得分。

圖片

不出所料,GPT-4無法處理文件和多模態問題,但能夠解決注釋者使用網絡瀏覽解決的問題,主要是因為它正確地記住了需要結合起來才能得到答案的信息片段。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-03-28 15:39:00

AIChatGPT

2023-10-24 19:42:50

AI訓練

2023-10-25 12:43:36

AI模型

2023-05-05 09:42:12

2024-01-18 13:39:00

AI訓練

2023-03-27 17:45:16

研究AI

2023-04-03 14:47:12

GPT-4科研

2024-06-24 17:45:16

2024-02-02 17:04:35

UCLALLMGPT-4

2024-01-12 13:38:54

業務購物ToC

2023-12-07 06:50:07

AI谷歌

2023-06-25 09:38:04

GPT-4研究

2023-03-29 10:31:40

MIT論文

2023-11-13 19:31:47

GPT-4VLLaVABard

2024-03-05 11:18:14

模型訓練

2024-05-20 08:40:00

2023-06-19 08:19:50

2023-11-03 13:07:00

AI模型

2021-02-25 10:23:01

人工智能科技機器學習

2025-04-16 09:35:03

點贊
收藏

51CTO技術棧公眾號

日韩**一区毛片| 91插插插插插插| 美洲精品一卡2卡三卡4卡四卡| 国产一区在线看| 九九精品视频在线观看| 欧美色图校园春色| 蜜桃av在线| 国产精品久久久久影视| 成人国产精品免费视频| 亚洲欧美一区二区三区四区五区| 成人另类视频| 欧美性生活久久| 肉大捧一出免费观看网站在线播放| 精品国产无码一区二区| 鲁大师成人一区二区三区| 日韩网站在线观看| 日本黄色动态图| 国产成人午夜性a一级毛片| 亚洲精品菠萝久久久久久久| 欧美日韩在线高清| 国产av一区二区三区精品| 麻豆久久婷婷| 中文字幕一精品亚洲无线一区 | 直接在线观看的三级网址| 97成人超碰视| 亚洲aaa激情| а中文在线天堂| 韩日在线一区| 亚洲人成在线观看| 免费看毛片的网站| 国产麻豆一区二区三区| 欧美日韩亚洲国产一区| 精品少妇人妻av一区二区| 欧美在线播放视频| 久久婷婷五月综合| 久久男人av| 91精品久久久久久蜜臀| 午夜激情在线观看视频| 怡红院在线播放| 国产精品国产三级国产aⅴ原创| 精品久久久三级| 一级片视频免费| 日韩黄色免费电影| 欧美精品国产精品日韩精品| 成人免费毛片xxx| 综合伊思人在钱三区| 精品国产一区二区三区久久久蜜月 | 亚洲a级黄色片| 日韩欧美一区二区三区免费观看 | 国产三级一区| 一区二区免费在线| 今天免费高清在线观看国语| 国产网站在线免费观看| 国产精品不卡一区二区三区| 亚洲精品欧洲精品| 韩国福利在线| 久久精品亚洲乱码伦伦中文| 久久久水蜜桃| 人成免费电影一二三区在线观看| 91影院在线免费观看| 国产精品美女诱惑| 国产精品嫩草影院桃色| 激情综合色播五月| 91在线免费看网站| 国产wwwxxx| 国产不卡视频一区二区三区| 国产日韩在线看| 在线观看免费观看在线| 久久99在线观看| 91在线观看免费观看| www.爱爱.com| 不卡视频一二三四| 久久综合给合久久狠狠色| 视频一区二区在线播放| 久久综合久久鬼色中文字| 国产视频在线观看一区| 天天在线女人的天堂视频| av成人免费在线观看| 成人av片网址| 日本精品一二区| 91首页免费视频| 国产在线一区二区三区欧美| 免费国产黄色片| 久久综合色播五月| 在线视频91| 波多野结衣在线播放| 欧美日韩一区二区免费在线观看| 久久久久久久久久久免费视频| 人人鲁人人莫人人爱精品| 欧美日韩精品二区第二页| 8x8x成人免费视频| caoporn成人| 亚洲视频在线观看视频| 午夜精品一区二区三区视频| 中文精品在线| 国产区亚洲区欧美区| 精品人妻无码一区二区色欲产成人 | 性欧美在线看片a免费观看| www.欧美色| 国产主播一区二区三区| 精品久久蜜桃| 麻豆影视在线观看_| 亚洲成人免费看| 一本久道中文无码字幕av| www.久久99| 亚洲精品视频二区| caoporn91| 日韩激情视频在线观看| 999在线免费观看视频| 无码国产精品高潮久久99| 国产精品久久久久久久久免费相片| 国产成人一区二区三区别| 亚洲天堂av在线| 日韩视频在线一区二区| 韩国三级hd中文字幕| 欧美私人啪啪vps| 国产精品美女久久| 日韩在线观看视频网站| 久久亚洲一级片| 男女激情免费视频| 91精品在线免费视频| 亚洲高清av在线| 极品颜值美女露脸啪啪| 免费人成黄页网站在线一区二区| 久久99蜜桃综合影院免费观看| 成人video亚洲精品| 欧美色窝79yyyycom| 三级男人添奶爽爽爽视频| 中文在线日韩| 国产成人精品视频在线观看| 99er热精品视频| 欧美激情一区二区在线| 蜜臀av色欲a片无码精品一区| 亚洲伦理影院| 亚洲毛茸茸少妇高潮呻吟| 国产一级大片在线观看| 国产精品一级在线| 天堂av一区二区| 成人欧美大片| 亚洲精品福利在线观看| 精品无码免费视频| 国产黑丝在线一区二区三区| 色乱码一区二区三区熟女 | 黄色在线成人| 99re视频在线观看| a视频在线免费看| 91精品婷婷国产综合久久性色 | 97精品欧美一区二区三区| www.桃色av嫩草.com| 亚洲男同1069视频| 亚洲综合123| 秋霞欧美视频| 日本精品久久中文字幕佐佐木| 熟妇人妻一区二区三区四区| 亚洲午夜久久久久久久久久久 | 久久精品国产亚洲| 一级黄色大片网站| 中文字幕一区二区在线播放| 999在线观看| 成人一区而且| 国产色视频一区| 黄色网页在线免费观看| 欧美一区二区三区免费大片| 成人免费毛片xxx| 国产不卡在线一区| 91九色在线观看视频| 中文字幕中文字幕精品| 国产91九色视频| 在线免费看av| 欧美一区二区三区免费视频| 国产精品99无码一区二区| 99精品欧美一区二区三区综合在线| 无码播放一区二区三区| 国产日产精品一区二区三区四区的观看方式 | 精品久久一区二区三区蜜桃| 免费在线看污片| 在线免费一区三区| 在线看的片片片免费| 高清在线不卡av| 免费在线激情视频| 久久免费av| 97久久精品午夜一区二区| 麻豆国产在线| 综合网日日天干夜夜久久| 国产免费不卡视频| 性做久久久久久| 无码少妇一区二区| 国产一区二区美女| 中国丰满人妻videoshd| 综合国产视频| 亚洲一区二区中文| 超级碰碰久久| 另类视频在线观看| 日本免费不卡| 欧美一区二区精品| 天堂网中文字幕| 亚洲男人的天堂网| 成人片黄网站色大片免费毛片| 狠狠色丁香婷婷综合久久片| 可以在线看的av网站| 91综合久久| 国产精品久久亚洲| 亚洲精品国产嫩草在线观看| 欧美日韩高清区| 国产黄色在线| 亚洲成人久久久| 中文字幕二区三区| 亚洲一区二区成人在线观看| 亚洲黄色小说视频| 成人av先锋影音| 久久6免费视频| 久久亚洲不卡| 欧美亚洲日本一区二区三区 | 成人免费av资源| 中文字幕国内自拍| 亚洲一区二区成人| 青青视频免费在线| 欧美日本成人| 精品国产一区二区三区日日嗨| 亚洲青青一区| 国产99久久精品一区二区永久免费| 黄网页免费在线观看| 日韩精品亚洲精品| 高h震动喷水双性1v1| 欧美一区二区在线观看| 国产99久久久久久免费看| 精品久久久一区| 国产探花在线播放| 成人免费在线视频| 日本综合在线观看| 久久久夜色精品亚洲| 亚洲一二三不卡| 日韩黄色一级片| 久久亚洲人体| 先锋欧美三级| 欧美日韩成人在线一区| 在线观看免费黄色网址| 在线视频观看日韩| 波多野结衣av一区二区全免费观看| 日韩在线第七页| 欧美日本韩国国产| 婷婷亚洲成人| 免费精品视频一区二区三区| 国产精品任我爽爆在线播放| 国产精品普通话| 涩涩网在线视频| 97视频在线观看成人| 182在线视频观看| 九九热最新视频//这里只有精品| 岛国视频免费在线观看| 亚洲欧美日韩综合| 久蕉在线视频| 国产一区二区三区视频| 国产黄在线播放| 色偷偷av亚洲男人的天堂| 欧美精品videos另类| 国产性色av一区二区| 成人影视在线播放| 在线中文字幕日韩| a黄色在线观看| 精品国产一区二区三区久久狼5月 精品国产一区二区三区久久久狼 精品国产一区二区三区久久久 | 欧美偷拍第一页| 国产精品国产a| 91视频青青草| 亚洲精品美国一| 欧美特黄一级片| 亚洲综合激情网| 国产成人无码一区二区三区在线 | 欧美一级二级三级乱码| 国产女同91疯狂高潮互磨| 欧美精品色一区二区三区| 国产伦理吴梦梦伦理| 欧美成人一区二区三区| 色婷婷av一区二区三区之红樱桃| 欧美精品一区二| 头脑特工队2免费完整版在线观看| 亚洲天堂av网| dy888亚洲精品一区二区三区| 欧美黑人巨大xxx极品| 亚洲国产精品精华素| 国外成人免费在线播放| 台湾佬成人网| 亚洲字幕在线观看| 少妇精品导航| 自拍偷拍99| 伊人久久综合| 亚洲 中文字幕 日韩 无码| 国产一区二区精品久久| 国产精品久久AV无码| 欧美经典一区二区| 欧美日韩中文字幕在线观看| 午夜婷婷国产麻豆精品| 中文字幕一区二区三区四区免费看| 6080日韩午夜伦伦午夜伦| 天天舔天天干天天操| 视频在线观看一区二区| 国产va在线视频| 国产日韩综合一区二区性色av| 久久综合五月婷婷| 在线视频欧美一区| 国产一区亚洲| 婷婷丁香激情网| 看片的网站亚洲| 亚洲一区二区在线免费| 国产亚洲欧美日韩在线一区| 久草国产在线观看| 在线观看视频一区二区欧美日韩| 性做久久久久久久久久| 中文字幕日韩欧美| 中文在线免费视频| y111111国产精品久久婷婷| 日本一区二区免费高清| 中国丰满人妻videoshd| 福利电影一区二区| 卡通动漫亚洲综合| 欧美伊人久久大香线蕉综合69| 手机看片一区二区三区| 欧美日韩第一页| 91丨精品丨国产| 欧美日韩最好看的视频| 91久久午夜| 拔插拔插华人永久免费| 国产亚洲精久久久久久| 国产精品999在线观看| 精品久久人人做人人爱| 成人免费网站在线观看视频| 国产精品久久久久久久久久| 亚洲欧美成人vr| 久久精品在线免费视频| 久久99精品国产麻豆不卡| 日本黄色网址大全| 激情成人在线视频| 99草在线视频| 亚洲欧洲日产国产网站| 亚洲深夜视频| 久久99精品久久久久久久青青日本 | 日韩精品一区二区三区四区五区 | 欧美成a人片免费观看久久五月天| 动漫3d精品一区二区三区| 欧美在线日韩| 宇都宫紫苑在线播放| 亚洲女女做受ⅹxx高潮| 国产精品系列视频| 久久天堂电影网| 成人开心激情| 日韩影院一区| 久久电影网站中文字幕| 亚洲欧美综合7777色婷婷| 欧美日韩一区二区欧美激情 | 亚洲天堂中文字幕在线观看| 久久久成人精品一区二区三区 | 国产chinese中国hdxxxx| 综合久久久久久| 国产熟女一区二区三区五月婷 | 精品欧美国产| 亚洲制服av| 无码少妇精品一区二区免费动态| 欧美四级电影在线观看| porn亚洲| 91在线精品播放| 亚洲激情黄色| av黄色免费网站| 天天综合网天天综合色| 亚洲三级中文字幕| 国产精品久久久久国产a级| 99久久夜色精品国产亚洲狼| 人妻体体内射精一区二区| 亚洲国产精品久久不卡毛片| 亚洲精品一区二区三区不卡| 午夜精品理论片| 伊人久久大香线蕉无限次| 亚洲一级免费在线观看| 亚洲精品欧美在线| 午夜成人鲁丝片午夜精品| 国产精品久久久久久久久久久久久| 日本一二区不卡| 亚洲美女高潮久久久| 欧美日韩中文在线| 欧美三级黄网| 精品婷婷色一区二区三区蜜桃| 日韩福利电影在线| 高h视频免费观看| 亚洲精品一区二区在线| 日韩成人在线电影| 僵尸世界大战2 在线播放| 久久久99久久| 亚洲网站免费观看| 国模精品视频一区二区| 日韩欧美视频在线播放| 国产51自产区| 欧美中文字幕一区二区三区 | 国产91精品久久久久| 日韩成人激情| 北京富婆泄欲对白| 欧美日韩中字一区| 女海盗2成人h版中文字幕| 中文字幕一区二区三区最新| 91亚洲精华国产精华精华液| 91久久精品国产91性色69| 国产91av在线|