精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

圖靈測試已死!ChatGPT通過人類考試也不算,超強AI評估新秀「邏輯謎題」

人工智能 新聞
如何給大模型一個真正公平評價標準呢?論文作者Melanie Mitchell表示,人工智能領域的人們正在為如何評估這些系統而苦苦掙扎。

世界最強AI——ChatGPT可以通過各種考試,甚至輸出回答讓人難以辨別真假。

然而,它也有力所不及之處,那便是解決簡單的視覺邏輯難題。

在一項由屏幕上排列的一系列色彩鮮艷的塊組成的測試中,大多數人都能找出連接的圖案。

但是,根據研究人員今年 5 月的一份報告,GPT-4在一類圖案的測試中正確率僅為1/3,而在另一類圖案中正確率僅為3%。

論文地址:https://arxiv.org/pdf/2305.07141.pdf

這項研究背后的團隊,旨在為了測試AI系統的能力提供一個更好的基準,并幫助解決GPT-4等大型語言模型的難題。

論文作者Melanie Mitchell表示,人工智能領域的人們正在為如何評估這些系統而苦苦掙扎。

AI評估如何有效?

在過去的兩三年里,LLM 在完成多項任務的能力上已經超越了以前的人工智能系統。

它們的工作原理很簡單,就是根據數十億在線句子中單詞之間的統計相關性,在輸入文本時生成可信的下一個單詞。

對于基于LLM構建的聊天機器人來說,還有一個額外的元素:人類訓練員提供了大量反饋,以調整機器人的反應。

令人驚嘆的是,這種類似于自動完成的算法是在大量人類語言存儲的基礎上訓練出來的,其能力的廣度令人嘆為觀止。

其他人工智能系統可能會在某項任務中擊敗 LLM,但它們必須在與特定問題相關的數據上進行訓練,無法從一項任務推廣到另一項任務。

圖片

哈佛大學的認知科學家Tomer Ullman表示,從廣義上講,對于LLM背后發生的事情,兩個陣營的研究人員持有截然相反的觀點。一些人將算法的成就歸因于推理或理解的閃光點。其他人(包括他自己和Mitchell等人)則要謹慎得多。

討論雙方的研究人員表示,像邏輯謎題這樣揭示人類與AI系統能力差異的測試,是朝著正確方向邁出的一步。

紐約大學認知計算科學家Brenden Lake說,這種基準測試有助于揭示當今機器學習系統的不足之處,并理清了人類智能的要素。

關于如何最好地測試LLM,以及這些測試意義的研究也很實用。

Mitchell說,如果要將LLM應用于現實世界的各個領域,比如醫學、法律。那么了解它們的能力極限就非常重要。

圖靈測試死了嗎?

長期以來,機器智能最著名的測試一直是圖靈測試。

圖靈測試是英國數學家和計算大師艾倫·圖靈在1950年提出,當時計算機還處于起步階段。

圖靈提出了一個評估,他稱之為「模仿游戲」。

在這個場景中,「人類法官」與一臺計算機、和一個看不見的人進行簡短的、基于文本的對話。

這個人類能可靠地檢測出哪臺是計算機嗎?圖靈表示,這是一個相當于「機器能否思考」的問題。

圖片

Mitchell指出,圖靈并沒有具體說明場景的許多細節,因此沒有確切的標準可循。

其他研究人員認為,GPT-4和其他LLM現在很可能通過了「圖靈測試」,因為它們可以騙過很多人,至少是在短對話中。

5月,AI21實驗室的研究人員報告說,超過150萬人玩過他們基于圖靈測試的在線游戲。

玩家正確識別機器人的比例僅為60%,這并不比偶然性好多少。

然而,在這種游戲中,熟悉LLM的研究人員可能仍然會獲勝。通過利用AI系統的已知弱點,就會很容易發現LLM。

關鍵是要讓LLM走出自己的「舒適區」。

谷歌軟件工程師Fran?ois Chollet建議,向LLM演示一些場景,這些場景是LLM在其訓練數據中經常看到的場景的變體。在許多情況下,LLM的回答方式是,吐出最有可能與訓練數據中的原始問題相關聯的單詞,而不是針對新情景給出的正確答案。

然而,Chollet和其他人對,把以欺騙為中心的測試作為計算機科學的目標持懷疑態度。

基準測試有危險

相反,研究人員在評估人工智能系統時,通常不采用圖靈測試,而是使用旨在評估特定能力(如語言能力、常識推理和數學能力)表現的基準。

越來越多的研究團隊也開始轉向,為人類設計的學術和專業考試。

GPT-4發布時,OpenAI在一系列專為機器設計的基準測試中測試了其性能,包括閱讀理解、數學和編碼。

根據技術報告,GPT-4在其中大部分測試中都取得了優異成績。

此外,GPT-4還參加了30項考試,GRE、評估美國醫生臨床知識現狀的考試、為美國高中生設計的各種特定科目的考試等等。

后來,有研究人員提到的一個挑戰是,模型是在大量文本中訓練出來的,它們可能已經在訓練數據中看到過類似的問題,因此實際上可能是在尋找答案。這個問題其實被「污染」了。

研究人員還指出,LLM在考試問題上的成功可能一擊就破,可能無法轉化為在現實世界中所需的強大能力。

在解釋這些基準的含義時,還有一個更深層次的問題。

一個在考試中表現出色的人,一般可以被認為在其他認知測試中表現出色,并且掌握了某些抽象概念。

然而,LLM工作方式與人類截然不同。因此,用我們評判人類方式,來推斷人工智能系統,并不總是有效的。

這可能是因為LLM只能從語言中學習。如果沒有在物理世界中,它們無法像人那樣體驗語言與物體、屬性和情感的聯系。

很明顯,他們理解單詞的方式與人類不同。

另一方面,LLM 也擁有人類所不具備的能力,比如,它們知道人類寫過的幾乎每一個單詞之間的聯系。

OpenAI的研究員Nick Ryder也認為,一項測試的表現可能,不會像獲得相同分數的人那樣具有普遍性。

他表示,我認為,我們不應該從對人類和大型語言模型的評估中得出任何等價的結論。OpenAI 的分數 "并不代表人類的能力或推理能力。它的目的是說明模型在該任務中的表現如何。

人工智能研究人員表示,為了找出LLM的優勢和劣勢,需要更廣泛和嚴格的審查。豐富多彩的邏輯謎題可能是其中的一個候選者。

邏輯謎題登場

2019年,在LLM爆發之前,Chollet在網上發布了,自己創建的一種新的人工智能系統邏輯測試,稱為抽象和推理語料庫(ARC) 。

解題者要看幾個方格變為另一種圖案的可視化演示,并通過指出下一個方格將如何變換來表明他們已經掌握了變化的基本規則。

Chollet表示,ARC 捕捉到了「人類智慧的標志」。從日常知識中進行抽象,并將其應用于以前從未見過的問題的能力。

當前,幾個研究團隊現在已經使用ARC來測試LLM的能力,沒有一個能實現接近人類的表現。

Mitchell和她的同事制作了一系列新的謎題——被稱為ConceptARC——它們的靈感來自ARC,但在兩個關鍵方面有所不同。

ConceptARC測試更容易。Mitchell的團隊希望確保基準測試,不會錯過機器能力的進步,哪怕是很小的進步。另一個區別是,團隊選擇特定的概念進行測試,然后為每個主題的變體概念創建一系列謎題。

性能差意味著什么

研究人員將ConceptARC任務分配給GPT-4和400名在線應征者。

人類在所有概念組中的平均得分率為 91%(其中一組為 97%);GPT-在一組中的得分率為33%,在所有其他組中得分不到30%。

研究人員證明,AI仍然無法接近人類的水平。然而令人驚訝的是,它能解決一些從未被訓練過的問題。

研究小組還測試了Chollet競賽中的領先聊天機器人。

總的來說,他們比GPT-4做得更好,但表現比人類差,在一個類別中得分最高,為77%,但在大多數類別中得分不到60%。

不過,Bowman表示,GPT-4在ConceptARC考試中的失利并不能證明它缺乏基本的抽象推理能力。

其實,ConceptARC對GPT-4有些不利,其中一個原因是它是一項視覺測試。

目前,GPT-4僅能接受文本作為輸,因此研究人員給GPT-4提供了代表圖像的數字數組。相比之下,人類參與者看到了圖像。

推理論證

Bowman指出,與其他實驗綜合起來表明,LLM至少已經獲得了對抽象概念進行推理的基本能力。

但LLM的推理能力總體上是「參差不齊的」,比人類的推理能力更有限。不過,隨著LLM的參數規模擴大,推理能力相應地也會提高。

許多研究人員一致認為,測試LLM抽象推理能力和其他智力跡象的最佳方法,仍然是一個開放的、未解決的問題。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-12-04 09:13:00

GPT-4測試

2025-02-20 13:50:00

AI生成訓練

2023-09-25 09:00:00

ChatGPT人工智能

2023-03-29 08:13:17

2024-07-05 21:18:11

CPO

2025-04-03 10:00:52

2025-07-29 02:55:00

語言模型反向圖靈

2023-01-01 13:22:03

AI圖靈

2025-06-13 08:06:41

2022-02-25 10:46:46

搜索推薦Meta數據安全

2023-03-02 06:01:00

ExcelAI工具

2023-03-27 17:32:56

ChatGPT人工智能

2022-09-15 10:44:42

SidecarIstioeBPFizer

2023-02-06 07:37:29

Java編程語言

2011-01-07 10:18:28

RSSWeb

2011-05-11 09:01:29

面向對象技術函數式語言

2023-08-17 13:30:28

AI測試

2024-10-29 14:45:00

人工智能開源

2023-02-27 14:55:54

技術研究

2023-06-04 13:42:50

人類AI圖靈
點贊
收藏

51CTO技術棧公眾號

精品国产乱码久久久久久郑州公司| 日韩欧美专区在线| 国产精品一久久香蕉国产线看观看| 特级西西www444人体聚色| 97精品国产综合久久久动漫日韩| 国产精品初高中害羞小美女文| 亚洲mm色国产网站| 成年人免费高清视频| 国产精品亚洲一区二区在线观看| www国产成人免费观看视频 深夜成人网| 欧美亚洲日本黄色| а天堂中文在线资源| 欧美经典影片视频网站| 亚洲国产成人一区二区三区| 91黄色精品| 性少妇xx生活| 天天综合网站| 一区二区三区.www| 日韩av一区二区三区美女毛片| 91影院在线播放| 最新亚洲激情| 精品国模在线视频| 瑟瑟视频在线观看| 99国产精品久久一区二区三区| 色综合久久88色综合天天6| 91欧美精品成人综合在线观看| 国产福利拍拍拍| 亚洲一级毛片| 亚洲新中文字幕| 日本va中文字幕| wwww亚洲| 久久久久久久久久久久久久久99| 日韩免费视频在线观看| 久久机热这里只有精品| 亚洲天堂av资源在线观看| 欧美在线免费观看视频| 日韩中文一区二区三区| 天天干,夜夜爽| 久久综合九色| 2021国产精品视频| 国产真人真事毛片| 国内精品久久久久久久久电影网| 精品对白一区国产伦| 欧美三级午夜理伦三级| 91caoporm在线视频| 久久影院午夜论| 黄色一区三区| 免费观看国产精品| 国产成人在线网站| 国产69精品99久久久久久宅男| 三上悠亚作品在线观看| 五月天久久久| 亚洲精品福利视频| 毛茸茸free性熟hd| 在线精品自拍| 欧美写真视频网站| chinese少妇国语对白| 午夜小视频福利在线观看| 成人免费在线视频| 黄色www在线观看| 巨大荫蒂视频欧美大片| 亚洲欧洲成人自拍| 免费成人进口网站| 性爱视频在线播放| 午夜成人免费电影| 欧美二区在线视频| 国产最新在线| 亚洲精品中文字幕乱码三区| 超级碰在线观看| 国产精品天堂| 成人avav影音| 91日本在线观看| 亚洲自拍一区在线观看| 欧美日本亚洲韩国国产| 一区二区成人精品| 能直接看的av| 视频小说一区二区| 日韩欧美国产成人一区二区| 中文字幕99页| 天堂99x99es久久精品免费| 亚洲男人的天堂在线| 日韩毛片无码永久免费看| 欧美日一区二区| 精品亚洲一区二区三区在线播放 | 热这里只有精品| av在线网址观看| 欧美日韩激情小视频| 国产91在线亚洲| 24小时免费看片在线观看| 一本色道综合亚洲| 男人添女人下面高潮视频| 欧美国产大片| 欧美午夜精品伦理| 亚洲免费av一区| 久久影视三级福利片| 日韩精品一区二| 我和岳m愉情xxxⅹ视频| 欧美调教在线| 日韩亚洲第一页| 日韩av片在线播放| 理论片日本一区| 好吊色欧美一区二区三区| www在线免费观看| 午夜欧美一区二区三区在线播放| 日韩欧美猛交xxxxx无码| 日韩伦理在线一区| 欧美一区二区视频在线观看2022 | 欧美丰满少妇xxxxx做受| 四虎影院中文字幕| 国产日韩综合| 欧美性受xxxx白人性爽| 日日噜噜噜噜人人爽亚洲精品| 久久精品国产免费看久久精品| 国产伦精品一区二区三区四区视频 | 色呦呦在线播放| 欧美色综合天天久久综合精品| 精品免费国产一区二区| 欧美黑人巨大xxxxx| 色婷婷综合久久久中文字幕| 佐佐木明希电影| 四季av一区二区三区免费观看| 韩国福利视频一区| 精品人妻无码一区二区| 国产精品麻豆一区二区 | 日韩高清在线一区| 国偷自产av一区二区三区小尤奈| 在线看三级电影| 亚洲一区二区在线视频| 成人亚洲免费视频| 欧美日韩伦理| 国产精品成人久久久久| 曰批又黄又爽免费视频| 久久亚洲综合av| 亚洲一区二区三区av无码| а√在线中文网新版地址在线| 欧美另类久久久品| 久久久久久久久久影视| 久久精品色播| 欧美精品videosex极品1| 五月婷婷激情网| 奇米影视7777精品一区二区| 91日韩久久| 国产鲁鲁视频在线观看特色| 天天综合网天天综合色| 国产人妖在线观看| 韩日精品视频| 超碰97国产在线| 福利片在线观看| 亚洲自拍偷拍麻豆| 免费在线观看日韩av| 欧美日韩mv| 国产精品海角社区在线观看| 国产丝袜在线视频| 久久久美女艺术照精彩视频福利播放| 一区二区免费在线观看| 欧美天堂一区| 欧美成人午夜剧场免费观看| 久久亚洲精品石原莉奈| 国产日韩欧美亚洲| 中文字幕丰满乱码| 亚洲国产一区二区在线观看 | 国模极品一区二区三区| 欧美 日韩 人妻 高清 中文| 国产精品久久久久精k8| 国产精品自在自线| 欧美福利电影在线观看| 国产精品一区二区三区毛片淫片| h视频在线免费| 91麻豆精品国产无毒不卡在线观看| 波多野结衣福利| 日韩专区中文字幕一区二区| 亚洲欧美日韩国产yyy| 松下纱荣子在线观看| 日韩欧美一区在线观看| 久久精品国产亚洲AV无码男同 | √天堂8资源中文在线| 国产视频综合在线| 亚洲无码精品在线播放| 久久久午夜电影| 色天使在线观看| 日韩av密桃| 国产精品r级在线| 色综合成人av| 精品久久久国产精品999| 波多野结衣av在线观看| 亚洲欧美高清| 手机在线视频你懂的| 老牛国内精品亚洲成av人片| 国产精品国模在线| av在线播放网| 欧美大片在线观看一区| 在线观看日本视频| 亚洲欧美偷拍三级| 国产精品无码毛片| 99av国产精品欲麻豆| 午夜精品区一区二区三 | 美女视频久久| 性xxxxfreexxxxx欧美丶| 三级精品视频久久久久| 欧美视频xxx| 精品久久久久久久大神国产| 免费黄色在线网址| www.亚洲激情.com| 鲁一鲁一鲁一鲁一澡| 久久一区91| 91免费看片网站| 天堂av中文在线| 精品国产免费一区二区三区四区| 波多野结衣av无码| 亚洲高清视频的网址| 在线免费观看a级片| 久久99蜜桃精品| 麻豆md0077饥渴少妇| 嫩草影视亚洲| 国产欧美日韩专区发布| 亚洲天堂电影| 欧美精品成人在线| 午夜视频在线观看网站| 亚洲精品在线视频| 日本精品999| 丁香五六月婷婷久久激情| 亚洲一区二区乱码| 国产成人在线网站| 亚洲自偷自拍熟女另类| 欧美日韩精选| 蜜臀av.com| 欧美午夜精彩| 欧洲亚洲一区二区| 午夜精品福利影院| 久久精品ww人人做人人爽| 中文字幕亚洲在线观看| 91久久精品国产91久久性色tv| 日韩福利影视| 国产伦精品免费视频| 成人日韩在线观看| 精品久久国产精品| 午夜视频成人| 中文字幕亚洲无线码a| 猫咪在线永久网站| 亚洲男人天堂网站| 精品人妻一区二区三区日产乱码 | 少妇被狂c下部羞羞漫画| 国产精品国产三级国产在线观看| 欧美亚洲一级二级| 亚洲成a人片77777在线播放| 国产精品久久久久久久久久东京| 精品孕妇一区二区三区| 日韩在线观看网站| 麻豆视频在线观看免费网站| 色老头一区二区三区| 亚洲精品18p| 欧美视频自拍偷拍| 国产又色又爽又黄的| 精品久久中文字幕久久av| 国产成人在线播放视频| ...xxx性欧美| 久久高清内射无套| 夜夜精品视频一区二区| 国产极品视频在线观看| heyzo一本久久综合| 日韩av片免费观看| 国产精品白丝jk黑袜喷水| 免费观看一区二区三区| 97久久超碰国产精品| 风间由美一二三区av片| 成人综合在线网站| 黄色网址在线视频| 懂色av中文字幕一区二区三区| 污污视频网站免费观看| 免费高清成人在线| 男女曰b免费视频| 老妇喷水一区二区三区| 少妇一晚三次一区二区三区| 亚洲国产精品一区| av网站在线观看不卡| 久久视频在线| 国产精品一线二线三线| 日韩综合在线视频| 六月丁香激情网| 日本女人一区二区三区| 91视频福利网| 麻豆国产精品777777在线| 91好吊色国产欧美日韩在线| 欧美精品日本| av电影一区二区三区| 亚洲精品婷婷| 97久久国产亚洲精品超碰热| 久久一区二区三区喷水| 丰满少妇大力进入| 免费在线欧美视频| 又黄又色的网站| 亚洲国产精品av| 丰满少妇一区二区三区| 中文字幕在线不卡视频| 日韩福利片在线观看| 亚洲图片欧美视频| 久久久91视频| 在线精品亚洲一区二区不卡| 超碰福利在线观看| 在线成人免费网站| 国产黄在线播放| 精品中文字幕久久久久久| 国产原创精品视频| 97久久国产精品| 一个人看的www视频在线免费观看| 成人黄色大片在线免费观看| 色综合中文网| 亚洲一区二区精品在线| 在线欧美一区| www.亚洲自拍| 国产aⅴ精品一区二区三区色成熟| 一级黄色电影片| 国产精品久久久久久久久果冻传媒 | 91九色精品国产一区二区| 欧美日韩在线免费观看视频| 影视亚洲一区二区三区| 超碰在线97免费| 久久99国产精品麻豆| 久久只有这里有精品| 亚洲国产精品综合小说图片区| 美日韩一二三区| 日韩欧美美女一区二区三区| 日韩免费网站| 国产精品日韩久久久久| 国产成人黄色| 三级在线免费观看| 精品亚洲欧美一区| 国产不卡一二三| 一区二区欧美在线观看| 99精品在线播放| 亚洲精品美女视频| 久久久男人天堂| 国产精品视频福利| 韩国欧美一区| 久久婷婷综合色| 国产999精品久久| 性欧美13一14内谢| 亚洲欧美另类小说视频| 亚洲性生活大片| 日韩在线www| 国产999精品在线观看| 激情小说综合区| 99国产精品99久久久久久粉嫩| www.男人天堂| 欧美午夜xxx| 国产成人精品毛片| 欧美老肥婆性猛交视频| 午夜视频在线观看精品中文| 成年丰满熟妇午夜免费视频| 国产999精品久久| 四虎永久在线精品| 亚洲精品按摩视频| 美脚恋feet久草欧美| 不卡视频一区二区| 99综合在线| 日本少妇xxx| 欧美国产1区2区| 伊人网av在线| 亚洲乱码一区av黑人高潮| 日本在线观看高清完整版| 国产精品久久久久久av福利软件| 高清一区二区三区| 国产h视频在线播放| 国产一区在线视频| 久久精品这里有| 亚洲欧美视频在线| 日本成人一区二区| 天天想你在线观看完整版电影免费| 日本美女一区二区三区视频| 男男做爰猛烈叫床爽爽小说| 亚洲精品免费看| 天堂成人在线| 91精品久久久久久久| 精品久久久中文字幕| 成人在线免费观看av| 成人免费视频视频| 久久精品视频1| 日韩精品视频中文在线观看| 国产黄a三级三级三级av在线看| 成人黄动漫网站免费| 欧美日韩精品一本二本三本| 中文字幕55页| 欧美日韩亚洲一区二区| 蜜桃视频网站在线观看| 国产欧美综合精品一区二区| 日本午夜精品视频在线观看| 欧美爱爱小视频| 国产一区二区三区在线看| 欧美一区久久久| 久久国产精品免费观看| 久久久亚洲欧洲日产国码αv| 草久视频在线观看| 日韩国产高清视频在线| 欧美男男gaygay1069| 视频一区二区视频| 97aⅴ精品视频一二三区| 国产精品高潮呻吟久久久| 久久成人在线视频| 久久93精品国产91久久综合| 亚洲制服在线观看|