精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM智能「參差不齊」!AI大牛Karpathy用表情包解釋「9.9<9.11」

人工智能 新聞
前段時(shí)間沖上熱搜的問題「9.11比9.9大嗎?」,讓幾乎所有LLM集體翻車。看似熱度已過,但AI界大佬Andrej Karpathy卻從中看出了當(dāng)前大模型技術(shù)的本質(zhì)缺陷,以及未來的潛在改進(jìn)方向。

一邊是OpenAI、Meta、Mistral、DeepMind等巨頭們爭先恐后地發(fā)模型,幾乎每天都能聽到重磅消息,給人一種「技術(shù)進(jìn)步日新月異,AGI僅在眼前」的錯(cuò)覺。

圖片

另一邊又是「9.9<9.11」難題繼續(xù)發(fā)揮余熱,從推特到微博,引發(fā)了全球網(wǎng)友的關(guān)注。

圖片

雖然LLM失智也不是第一天了,但幾乎全部大模型都在如此簡單的問題上翻車,的確罕見。

這種量級(jí)的討論熱度,也自然引來了大佬Karpathy的圍觀。他甚至表示,這已經(jīng)成為自己最喜歡的LLM測試了。

圖片

GPT-4o的失手概率是1/3,但Claude幾乎3/3全敗

下面是Karpathy本人的實(shí)測結(jié)果。即使提示了Claude「按實(shí)數(shù)算,別按版本號(hào)算」,也根本不起作用。

圖片

突然和輔導(dǎo)孩子寫作業(yè)的家長狠狠共情了

但是Karpathy這種級(jí)別的大佬,怎么會(huì)滿足于找樂子?

作為AI技術(shù)界KOL,他今天發(fā)了一篇長推,把近半年來出現(xiàn)的LLM「失智」現(xiàn)象全部盤了一遍,并給出了相當(dāng)言簡意深的分析。

他將這種現(xiàn)象描述為「鋸齒智能」或「參差不齊的智能」(jagged intelligence)。

圖片

最先進(jìn)的LLM既可以執(zhí)行各種困難任務(wù)(比如解決復(fù)雜的數(shù)學(xué)問題),但同時(shí)又在一些非常愚蠢的問題上深陷泥沼。

LLM「失智」集錦

首先是OpenAI研究員Noam Brown,他今年2月發(fā)推,感慨LLM玩不好井字棋游戲(tic-tac-toe)。

圖片

難道是LLM不清楚游戲規(guī)則?眼看著用戶馬上就贏了,Gemini還在傻傻提示「游戲越來越讓人興奮了!你下一步走哪?」

圖片

而且不僅僅是Gemini的問題,ChatGPT也一樣犯傻。

圖片

你可能會(huì)懷疑是RLHF起了作用,讓LLM必須輸給人類。

但Noam表示,即使提示模型要它拿出最佳表現(xiàn),也不會(huì)有什么提升。LLM并沒有在謙讓你,它可能是真的不行。

對(duì)此,Karpathy的概括是,模型做出了「毫無道理」的決策。

Noam本人則認(rèn)為是訓(xùn)練數(shù)據(jù)的鍋,互聯(lián)網(wǎng)上并沒有足夠多的5歲孩子在討論井字棋游戲的策略。

這似乎是佐證了一部分研究的觀點(diǎn):LLM更多依靠記憶,實(shí)質(zhì)上只是記住了某個(gè)問題的解決流程,并沒有發(fā)展出可遷移到不同問題的抽象推理能力。

圖片

論文地址:https://arxiv.org/abs/2307.02477

還有一個(gè)讓人類哭笑不得的例子:LLM好像連字母都數(shù)不清。

「barrier里面有多少個(gè)字母『r』?」——「兩個(gè)」

圖片

不僅是ChatGPT,最新發(fā)布的所謂「開源王者」,405B參數(shù)的Llama 3.1也會(huì)犯懵。

圖片

不過好在Llama 3.1沒有那么多「蜜汁自信」,經(jīng)過提示還能及時(shí)修改答案

或許是因?yàn)椴幌嘈臗hatGPT連這種任務(wù)都搞不明白,各路網(wǎng)友想了各種辦法。

CoT提示也用上了——

圖片

最后一步還是出錯(cuò)了

眼見CoT也不起作用,更有耐心的網(wǎng)友開始進(jìn)行手把手教學(xué):

讓ChatGPT先把所有字母一個(gè)個(gè)寫出來,然后它才能發(fā)現(xiàn)里面有3個(gè)字母「r」。

圖片

更神奇的事情還有——如果你給所有字母加個(gè)圈,LLM就不會(huì)數(shù)錯(cuò)了!

圖片

Karpathy是如何解釋這種現(xiàn)象的呢?

他認(rèn)為,這源于當(dāng)今的大多數(shù)LLM缺乏「自知之明」,也就是self-knowledge,模型無法分辨自己能做什么、不能做什么。

直接結(jié)果就是模型的「無知者無畏」,不僅看到任務(wù)就上手嘗試,而且充滿「蜜汁自信」。

如果LLM能說出,「我不是很擅長數(shù)字母,讓我用代碼解釋器來解決這個(gè)問題」,情況就會(huì)大為改觀。

圖片

類似的問題在其他模態(tài)上也很常見,比如最近一篇標(biāo)題很吸睛的論文:「視覺語言模型都是盲人」。

圖片

論文地址:https://arxiv.org/pdf/2407.06581

作者發(fā)現(xiàn),在很多人類準(zhǔn)確率可以達(dá)到100%的、極其簡單的任務(wù)上,大模型的表現(xiàn)竟然有些荒謬。

圖片

不僅準(zhǔn)確率低,而且非常不穩(wěn)定,就像一個(gè)很聰明,但實(shí)際看不到準(zhǔn)確圖像的「盲人」或「高度近視」。

比如下面這個(gè)典型案例:人類一眼就能看出兩圓相交,Claude卻很自信地表示「這是相切圓,絕對(duì)沒相交」。

圖片

那么,這個(gè)問題有解嗎?

Karpathy表示,最近Meta發(fā)布的Llama 3.1論文中就給出了類似的解決方案。

圖片

論文地址:https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

論文提出,后訓(xùn)練階段應(yīng)該實(shí)現(xiàn)模型的對(duì)齊,讓它發(fā)展出「自知之明」,知道自己知道什么,僅靠往里面添加事實(shí)知識(shí)是無法根除幻覺問題的。

因此Llama團(tuán)隊(duì)提出了一種名為「知識(shí)探測」的訓(xùn)練方式。

先從預(yù)訓(xùn)練數(shù)據(jù)中截取片段,讓模型只能根據(jù)自己所知的信息生成回答,在反饋過程中否決那些有連貫信息但與原始數(shù)據(jù)相悖的答案。

圖片

這種方法可以鼓勵(lì)模型只回答自己了解的問題,拒絕生成不確定的答案。

「參差不齊的智能」

盤點(diǎn)過這些LLM翻車案例之后,我們似乎對(duì)Karpathy提出的「鋸齒智能」有了更直觀的體會(huì)。

大模型有一些極其出色的能力,能完成許多困難任務(wù),但會(huì)在十分簡單的事情上有災(zāi)難性的失敗。這種忽高忽低的智商,的確類似「鋸齒」的形狀。

比如視覺大模型已經(jīng)可以很好地識(shí)別數(shù)千種狗和花了,卻無法判斷兩個(gè)圓是否重疊。

哪些任務(wù)是大模型擅長的,哪些是不擅長的?這種分界并不總是很明顯,我們似乎可以逐漸發(fā)展出一些直覺來幫助判斷。

但要明白,所謂的「困難」和「簡單」任務(wù),都是按照人類標(biāo)準(zhǔn)衡量的。

和AI不同,人類從出生到成年,接觸到的知識(shí)以及發(fā)展出的問題解決能力都是高度相關(guān)的,而且同步線性提高。

Karpathy的這種觀點(diǎn),與著名的「Moravec悖論」有異曲同工之妙。

這個(gè)論斷由CMU機(jī)器人研究所教授Hans Moravec等人在上世紀(jì)80年代提出,大意是:對(duì)人類容易的事情,對(duì)機(jī)器反而是困難的,反之亦然。

比如,邏輯推理和創(chuàng)造力,在人類看來屬于高級(jí)認(rèn)知技能,需要較高的教育水平或長期訓(xùn)練,但對(duì)于機(jī)器來說卻通常是微不足道的;

而人類能輕松完成的任務(wù),例如視覺和運(yùn)動(dòng)技能,對(duì)機(jī)器而言極具挑戰(zhàn)性。

圖片


讓計(jì)算機(jī)在智力測試或跳棋游戲中表現(xiàn)出成人水平相對(duì)容易,但在感知和移動(dòng)能力上,很難或不可能達(dá)到一歲兒童的技能。


此外,Karpathy的措辭也很有意味。

去年哈佛、沃頓、BCG等機(jī)構(gòu)聯(lián)合發(fā)表了一篇有關(guān)AI能力的實(shí)證論文,同樣用到了「jagged」這種形容。

圖片

論文地址:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4573321

連Karpathy本人都懷疑,自己是不是看到過這篇論文才會(huì)提出這種描述。

圖片

論文提出,AI的能力呈現(xiàn)出一種「鋸齒狀的技術(shù)邊界」(jagged technological frontier)。

同一困難程度的任務(wù),有一些是AI能輕松完成的,有些卻遠(yuǎn)在它們能力范圍之外。

對(duì)于前者,AI可以補(bǔ)足,甚至徹底取代人類工作;但對(duì)能力范圍外的任務(wù)會(huì)有不準(zhǔn)確的輸出,使用時(shí)反而會(huì)拉低人類的工作水平。

圖片

但Karpathy認(rèn)為,即使目前AI的能力有種種問題,也并不構(gòu)成根本缺陷,也有可行的解決方案。

正如他上面的推文所描述的,其根本原因是模型缺乏自我認(rèn)知,這需要我們開發(fā)更有效、更精細(xì)的后訓(xùn)練(post-training)方法,比如Llama 3.1論文所提出的。

目前的AI訓(xùn)練思路僅僅是「模仿人類標(biāo)簽并擴(kuò)展規(guī)模」。這個(gè)方法的確有效,否則我們也不會(huì)看到今天的成就。

但要繼續(xù)提升AI的智能,就不能只寄希望于「scale up」,還需要整個(gè)開發(fā)棧中進(jìn)行更多工作。

在這個(gè)問題沒有被完全解決之前,如果要將LLM用于生產(chǎn)環(huán)境,就應(yīng)該只限于它們擅長的任務(wù),注意「鋸齒狀邊緣」,并始終保持人類的參與度。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2013-12-02 09:56:30

云計(jì)算

2011-03-30 11:05:07

服務(wù)器選購利用率

2017-05-25 09:44:43

云計(jì)算價(jià)格質(zhì)量

2010-11-23 16:44:03

云計(jì)算行業(yè)應(yīng)用

2024-05-30 13:06:40

2024-07-29 08:28:00

模型AI

2021-06-04 15:50:49

AI 數(shù)據(jù)人工智能

2024-11-21 14:30:00

模型訓(xùn)練

2023-07-05 15:18:42

AI自動(dòng)駕駛

2021-06-04 16:48:22

潮數(shù)

2021-07-04 16:29:08

人工智能AI

2025-08-29 09:03:10

2021-01-04 21:20:11

數(shù)據(jù)分析數(shù)據(jù)大數(shù)據(jù)

2024-07-16 13:20:59

2013-12-02 00:02:58

2023-07-06 13:50:47

AI智能

2021-11-16 22:43:03

手機(jī)內(nèi)存系統(tǒng)

2009-08-07 13:39:13

C#定義整型數(shù)組
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产一卡二卡三卡四卡| 乱熟女高潮一区二区在线| 最新黄色网址在线观看| 中文字幕午夜精品一区二区三区 | 欧美一级视频在线播放| 三级av在线| 精品一区二区三区不卡| 91国产视频在线| 中国美女黄色一级片| 大香伊人久久精品一区二区| 欧美性三三影院| 免费在线黄网站| 91电影在线播放| 99国产精品99久久久久久| 成人网在线观看| 午夜影院免费在线观看| 欧美精品一级| 中文字幕成人在线| chinese麻豆新拍video| 国产亚洲观看| 色婷婷综合久久久中文一区二区| 男人天堂新网址| 一区二区三区视频网站| 91视频国产资源| 成人区精品一区二区| 最新在线中文字幕| 久久久成人网| 97欧美精品一区二区三区| 国产大学生自拍| 久久国产电影| 在线播放精品一区二区三区 | 久热爱精品视频线路一| 成人性生交大免费看| 久久影视三级福利片| 制服丝袜一区二区三区| 亚洲成人福利在线| 久久久人成影片一区二区三区在哪下载 | 欧美一区二区三区免费在线看| 国产偷人视频免费| 爱啪啪综合导航| 亚洲国产毛片aaaaa无费看| 中文字幕中文字幕99| 午夜小视频在线| 国产欧美精品在线观看| 欧洲亚洲一区二区| 免费国产在线观看| 91碰在线视频| 精品久久久久久一区二区里番| 午夜免费福利视频| 国产一区二区三区蝌蚪| 成人妇女免费播放久久久| 中文字幕一区二区三区波野结| 久久激情综合| 国产精品大片wwwwww| 五月婷婷激情视频| 丝袜亚洲另类欧美| 国产精品流白浆视频| 国产精品免费av一区二区| 亚洲二区在线| 97在线免费观看| 黄色在线视频网址| 三级久久三级久久久| 热久久这里只有| 黄色污污视频软件| 日韩精品一区第一页| 国产精品日韩在线| 91福利在线观看视频| 国产一区二区三区久久悠悠色av| 91手机在线播放| 丁香花免费高清完整在线播放 | 91久久极品少妇xxxxⅹ软件| 亚洲国产剧情在线观看| www..com久久爱| 欧美一区二视频在线免费观看| 国产九色在线| 亚洲欧洲精品一区二区精品久久久 | www.偷拍.com| 国产日韩三级| 国产香蕉精品视频一区二区三区| 懂色av粉嫩av浪潮av| 亚洲天天综合| 性欧美长视频免费观看不卡| 精品国产乱子伦| 免费观看成人鲁鲁鲁鲁鲁视频| 国产主播在线一区| 亚洲精品911| 久久色在线观看| 久久久国产精华液999999| 国产丝袜在线播放| 色88888久久久久久影院按摩| 亚洲36d大奶网| 成人看片爽爽爽| 亚洲欧美精品一区二区| 午夜爽爽爽男女免费观看| 亚洲精品社区| 国产日韩欧美日韩| 天堂91在线| 亚洲色图在线看| 精品人妻一区二区三区四区在线 | 欧美三级在线播放| 无码人妻一区二区三区一| 禁断一区二区三区在线| 欧美福利小视频| 乱子伦一区二区三区| 国产成人欧美日韩在线电影| 日本10禁啪啪无遮挡免费一区二区| 黄色免费在线看| 色婷婷av一区二区三区gif| 午夜免费视频网站| 奇米影视亚洲| 91wwwcom在线观看| 99久久精品日本一区二区免费| 国产午夜亚洲精品理论片色戒| 大胆欧美熟妇xx| 国产人妖一区| 亚洲午夜色婷婷在线| 黄色小说在线观看视频| 韩国成人精品a∨在线观看| 日韩av一区二区三区美女毛片| 国模私拍视频在线播放| 日韩一区二区三区免费看| 成人黄色免费网址| 99热在线精品观看| 高清av免费一区中文字幕| 美女羞羞视频在线观看| 在线精品视频一区二区三四| 亚洲男人在线天堂| 亚洲一级特黄| 成人欧美视频在线| 宅男网站在线免费观看| 欧美日韩你懂得| 国产伦精品一区二区三区视频女| 国产精品视频久久一区| 成人午夜电影免费在线观看| av理论在线观看| 91精品麻豆日日躁夜夜躁| 女人裸体性做爰全过| 一级做a爱片久久毛片| 日韩电影在线免费| 欧美日韩在线精品一区二区三区| 欧美a级在线观看| 欧美成人伊人久久综合网| 欧美丰满熟妇bbbbbb| 麻豆传媒一区二区三区| 亚洲欧美久久234| 中文.日本.精品| 最近2019中文字幕第三页视频| 久久人人爽人人爽人人片av免费| www国产精品av| 九色在线视频观看| 一区二区导航| 国产成人av网址| 国产三级视频在线| 91福利视频网站| 俄罗斯毛片基地| 老司机午夜精品99久久| 一区二区三区四区欧美日韩| 日韩在线电影| 久久国产精品电影| 午夜精品一二三区| 天天操天天干天天综合网| 91精品国产自产| 久久久久欧美精品| 亚洲国产精品一区二区第四页av| 欧美亚洲二区| 精品中文字幕乱| 天天干天天爽天天操| 欧美日韩一区二区在线| 内射中出日韩无国产剧情| 视频一区视频二区中文字幕| 午夜精品一区二区在线观看| 亚洲精品第一| 久久99视频免费| 午夜在线观看视频18| 色成年激情久久综合| 蜜桃视频最新网址| 成人性生交大片免费| 国产中文字幕免费观看| 欧美精品一区二区三区精品| 国产一区二中文字幕在线看| 秋霞在线午夜| 亚洲色图av在线| 国产精品一级视频| 午夜精品久久久| 久久久免费看片| 成人午夜私人影院| 国产精品无码专区av在线播放| 91精品综合久久久久久久久久久 | 高潮久久久久久久久久久久久久 | 最好看的2019年中文视频| 国产乱人乱偷精品视频| 亚洲v中文字幕| 国产农村妇女精品一区| 国产成人精品免费看| 日韩av在线综合| 亚洲成av人片乱码色午夜| 国产精品一区二区在线观看 | 五月天综合视频| 国产高清久久久久| 日本人视频jizz页码69| 亚洲精品欧洲| 中日韩在线视频| 免费一区二区| 97超级碰碰| 国产成人毛片| 91高清免费在线观看| 成人在线视频亚洲| 亚洲欧美另类自拍| 亚洲欧美国产高清va在线播放| 欧美亚洲图片小说| 偷偷操不一样的久久| 亚洲人成网站精品片在线观看| wwwwww日本| 成人黄色在线视频| 黄色片免费网址| 日韩一区欧美二区| 国产在线观看福利| 在线电影一区| 日韩精品福利片午夜免费观看| 精品国产中文字幕第一页| 精品国产综合久久| 精品亚洲自拍| 国产精品久久亚洲| 欧美高清hd| 成人精品久久一区二区三区| 亚洲精品粉嫩美女一区| 2018日韩中文字幕| 丰乳肥臀在线| 欧美精品videosex极品1| 高潮毛片在线观看| 日韩在线观看高清| a√资源在线| 中文字幕在线精品| 国产精品秘入口| 亚洲男女性事视频| 日本1级在线| 亚洲免费视频观看| 欧洲免费在线视频| 亚洲精品一区二区在线| 日本在线丨区| 亚洲欧美日韩视频一区| 可以在线观看的黄色| 精品视频久久久久久久| 日韩精品久久久毛片一区二区| 韩国精品主播一区二区在线观看 | 日韩欧美三级视频| 欧美日韩另类在线| 国产www在线| 天天色综合天天| 亚洲天堂一区在线| 色综合久久中文字幕| 黄色av网站免费观看| 欧美亚洲一区二区在线观看| 一区精品在线观看| 欧美精品一卡两卡| www.久久色| 亚洲国产精品成人精品| 婷婷亚洲一区二区三区| 亚洲色图35p| 欧美一区二区三区在线观看免费| 久久久精品一区| 怡红院在线观看| 久久免费视频网| 欧美性猛片xxxxx免费中国| 午夜精品久久久久久久99黑人| 制服丝袜专区在线| 国产精品91久久久| 只有精品亚洲| 国产高清在线一区二区| 先锋影音国产精品| 天堂一区二区三区| 午夜精品影院| 精品少妇人妻av免费久久洗澡| 先锋影音国产一区| 中文字幕资源在线观看| 国产suv一区二区三区88区| 免费无码一区二区三区| 欧美激情一区三区| 91日韩中文字幕| 欧美日韩国产精品| 亚洲视频中文字幕在线观看| 日韩欧美视频一区| 飘雪影视在线观看免费观看 | 538精品在线观看| 午夜电影久久久| 亚洲一级视频在线观看| 精品黑人一区二区三区久久 | 91免费精品国偷自产在线在线| 你懂的视频在线一区二区| 国产精品久久久久久久免费观看| 性一交一乱一伧国产女士spa| 老色鬼久久亚洲一区二区| 青娱乐精品在线| 久久这里只有精品6| 91视频综合网| 日本福利一区二区| 蜜桃久久一区二区三区| 国产偷v国产偷v亚洲高清| 欧美日韩亚洲国产成人| 午夜日韩激情| 尤蜜粉嫩av国产一区二区三区| 国产成人在线观看| 免费看黄色三级| 图片区小说区国产精品视频| 91麻豆一区二区| 日韩电影大片中文字幕| 先锋成人av| 国产精品亚洲美女av网站| 亚洲第一论坛sis| 日本高清视频免费在线观看| 日韩精品高清不卡| 亚洲国产精品成人综合久久久| 亚洲品质自拍视频| 在线免费观看日韩视频| 亚洲精品日韩在线| 国产偷倩在线播放| 亚洲影院色在线观看免费| 国产真实有声精品录音| 人妻夜夜添夜夜无码av| 国产成人在线网站| 夫妻性生活毛片| 欧美人与z0zoxxxx视频| 日韩欧美电影在线观看| 欧美激情啊啊啊| 日韩精品中文字幕吗一区二区| 先锋影音欧美| 天堂一区二区在线| 国产精品无码永久免费不卡| 亚洲成a人v欧美综合天堂下载| 精品国产av一区二区| 久久精品99久久久香蕉| 成人午夜一级| 日本在线免费观看一区| 美女日韩在线中文字幕| 国产精品久久不卡| 亚洲成人激情av| 人人妻人人澡人人爽人人欧美一区| 久久久电影免费观看完整版| 欧美成a人片免费观看久久五月天| 日韩激情久久| 日韩中文字幕不卡| 舐め犯し波多野结衣在线观看| 欧美性xxxx极品hd欧美风情| 日本黄色大片视频| 国内成人精品一区| 欧美交a欧美精品喷水| 成人在线观看你懂的| 99riav久久精品riav| 中日韩精品视频在线观看| 日韩精品免费在线观看| 亚洲精品中文字幕| 欧洲精品亚洲精品| 欧美aⅴ一区二区三区视频| 亚洲一级片在线播放| 欧美日韩国产影片| 99久久精品免费观看国产| 成人av资源| 99在线精品视频在线观看| 中文字幕精品视频在线| 欧美性猛交xxxx| 国产视频二区在线观看| 成人国产精品一区二区| 欧美91大片| 50一60岁老妇女毛片| 日韩欧美在线视频| 国产高清一级毛片在线不卡| 成人免费网站在线看| 国产精品v日韩精品v欧美精品网站| 国内精品模特av私拍在线观看| 超碰公开在线| 国产综合动作在线观看| 欧美亚洲三级| 麻豆精品国产免费| 亚洲大胆人体在线| 久久夜夜操妹子| 51xx午夜影福利| 久久一二三国产| 91好色先生tv| 国模gogo一区二区大胆私拍| 精品国产91久久久久久浪潮蜜月| 中文字幕一区久久| 偷拍日韩校园综合在线| av在线女优影院| 国产精品二区三区| 免播放器亚洲一区| 久久99久久98精品免观看软件| 精品亚洲一区二区三区在线观看| 国产69精品久久久久9999人| 日本一道在线观看| 99国产精品国产精品久久| 国产又大又长又粗| 欧亚精品在线观看| 亚洲无中文字幕| 一本色道久久综合亚洲精品图片| 7878成人国产在线观看| 69久成人做爰电影| 超碰超碰超碰超碰超碰| 国产欧美综合在线| 国产91麻豆视频| 国产日韩欧美自拍|