精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

LLM智能「參差不齊」！AI大牛Karpathy用表情包解釋「9.9<9.11」

作者：新智元 2024-08-07 10:05:00

人工智能新聞

前段時(shí)間沖上熱搜的問題「9.11比9.9大嗎？」，讓幾乎所有LLM集體翻車。看似熱度已過，但AI界大佬Andrej Karpathy卻從中看出了當(dāng)前大模型技術(shù)的本質(zhì)缺陷，以及未來的潛在改進(jìn)方向。

一邊是OpenAI、Meta、Mistral、DeepMind等巨頭們爭先恐后地發(fā)模型，幾乎每天都能聽到重磅消息，給人一種「技術(shù)進(jìn)步日新月異，AGI僅在眼前」的錯(cuò)覺。

另一邊又是「9.9<9.11」難題繼續(xù)發(fā)揮余熱，從推特到微博，引發(fā)了全球網(wǎng)友的關(guān)注。

雖然LLM失智也不是第一天了，但幾乎全部大模型都在如此簡單的問題上翻車，的確罕見。

這種量級(jí)的討論熱度，也自然引來了大佬Karpathy的圍觀。他甚至表示，這已經(jīng)成為自己最喜歡的LLM測試了。

GPT-4o的失手概率是1/3，但Claude幾乎3/3全敗

下面是Karpathy本人的實(shí)測結(jié)果。即使提示了Claude「按實(shí)數(shù)算，別按版本號(hào)算」，也根本不起作用。

突然和輔導(dǎo)孩子寫作業(yè)的家長狠狠共情了

但是Karpathy這種級(jí)別的大佬，怎么會(huì)滿足于找樂子？

作為AI技術(shù)界KOL，他今天發(fā)了一篇長推，把近半年來出現(xiàn)的LLM「失智」現(xiàn)象全部盤了一遍，并給出了相當(dāng)言簡意深的分析。

他將這種現(xiàn)象描述為「鋸齒智能」或「參差不齊的智能」（jagged intelligence）。

最先進(jìn)的LLM既可以執(zhí)行各種困難任務(wù)（比如解決復(fù)雜的數(shù)學(xué)問題），但同時(shí)又在一些非常愚蠢的問題上深陷泥沼。

LLM「失智」集錦

首先是OpenAI研究員Noam Brown，他今年2月發(fā)推，感慨LLM玩不好井字棋游戲（tic-tac-toe）。

難道是LLM不清楚游戲規(guī)則？眼看著用戶馬上就贏了，Gemini還在傻傻提示「游戲越來越讓人興奮了！你下一步走哪？」

而且不僅僅是Gemini的問題，ChatGPT也一樣犯傻。

你可能會(huì)懷疑是RLHF起了作用，讓LLM必須輸給人類。

但Noam表示，即使提示模型要它拿出最佳表現(xiàn)，也不會(huì)有什么提升。LLM并沒有在謙讓你，它可能是真的不行。

對(duì)此，Karpathy的概括是，模型做出了「毫無道理」的決策。

Noam本人則認(rèn)為是訓(xùn)練數(shù)據(jù)的鍋，互聯(lián)網(wǎng)上并沒有足夠多的5歲孩子在討論井字棋游戲的策略。

這似乎是佐證了一部分研究的觀點(diǎn)：LLM更多依靠記憶，實(shí)質(zhì)上只是記住了某個(gè)問題的解決流程，并沒有發(fā)展出可遷移到不同問題的抽象推理能力。

論文地址：https://arxiv.org/abs/2307.02477

還有一個(gè)讓人類哭笑不得的例子：LLM好像連字母都數(shù)不清。

「barrier里面有多少個(gè)字母『r』?」——「兩個(gè)」

不僅是ChatGPT，最新發(fā)布的所謂「開源王者」，405B參數(shù)的Llama 3.1也會(huì)犯懵。

不過好在Llama 3.1沒有那么多「蜜汁自信」，經(jīng)過提示還能及時(shí)修改答案

或許是因?yàn)椴幌嘈臗hatGPT連這種任務(wù)都搞不明白，各路網(wǎng)友想了各種辦法。

CoT提示也用上了——

最后一步還是出錯(cuò)了

眼見CoT也不起作用，更有耐心的網(wǎng)友開始進(jìn)行手把手教學(xué)：

讓ChatGPT先把所有字母一個(gè)個(gè)寫出來，然后它才能發(fā)現(xiàn)里面有3個(gè)字母「r」。

更神奇的事情還有——如果你給所有字母加個(gè)圈，LLM就不會(huì)數(shù)錯(cuò)了！

Karpathy是如何解釋這種現(xiàn)象的呢？

他認(rèn)為，這源于當(dāng)今的大多數(shù)LLM缺乏「自知之明」，也就是self-knowledge，模型無法分辨自己能做什么、不能做什么。

直接結(jié)果就是模型的「無知者無畏」，不僅看到任務(wù)就上手嘗試，而且充滿「蜜汁自信」。

如果LLM能說出，「我不是很擅長數(shù)字母，讓我用代碼解釋器來解決這個(gè)問題」，情況就會(huì)大為改觀。

類似的問題在其他模態(tài)上也很常見，比如最近一篇標(biāo)題很吸睛的論文：「視覺語言模型都是盲人」。

論文地址：https://arxiv.org/pdf/2407.06581

作者發(fā)現(xiàn)，在很多人類準(zhǔn)確率可以達(dá)到100%的、極其簡單的任務(wù)上，大模型的表現(xiàn)竟然有些荒謬。

不僅準(zhǔn)確率低，而且非常不穩(wěn)定，就像一個(gè)很聰明，但實(shí)際看不到準(zhǔn)確圖像的「盲人」或「高度近視」。

比如下面這個(gè)典型案例：人類一眼就能看出兩圓相交，Claude卻很自信地表示「這是相切圓，絕對(duì)沒相交」。

那么，這個(gè)問題有解嗎？

Karpathy表示，最近Meta發(fā)布的Llama 3.1論文中就給出了類似的解決方案。

論文地址：https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

論文提出，后訓(xùn)練階段應(yīng)該實(shí)現(xiàn)模型的對(duì)齊，讓它發(fā)展出「自知之明」，知道自己知道什么，僅靠往里面添加事實(shí)知識(shí)是無法根除幻覺問題的。

因此Llama團(tuán)隊(duì)提出了一種名為「知識(shí)探測」的訓(xùn)練方式。

先從預(yù)訓(xùn)練數(shù)據(jù)中截取片段，讓模型只能根據(jù)自己所知的信息生成回答，在反饋過程中否決那些有連貫信息但與原始數(shù)據(jù)相悖的答案。

這種方法可以鼓勵(lì)模型只回答自己了解的問題，拒絕生成不確定的答案。

「參差不齊的智能」

盤點(diǎn)過這些LLM翻車案例之后，我們似乎對(duì)Karpathy提出的「鋸齒智能」有了更直觀的體會(huì)。

大模型有一些極其出色的能力，能完成許多困難任務(wù)，但會(huì)在十分簡單的事情上有災(zāi)難性的失敗。這種忽高忽低的智商，的確類似「鋸齒」的形狀。

比如視覺大模型已經(jīng)可以很好地識(shí)別數(shù)千種狗和花了，卻無法判斷兩個(gè)圓是否重疊。

哪些任務(wù)是大模型擅長的，哪些是不擅長的？這種分界并不總是很明顯，我們似乎可以逐漸發(fā)展出一些直覺來幫助判斷。

但要明白，所謂的「困難」和「簡單」任務(wù)，都是按照人類標(biāo)準(zhǔn)衡量的。

和AI不同，人類從出生到成年，接觸到的知識(shí)以及發(fā)展出的問題解決能力都是高度相關(guān)的，而且同步線性提高。

Karpathy的這種觀點(diǎn)，與著名的「Moravec悖論」有異曲同工之妙。

這個(gè)論斷由CMU機(jī)器人研究所教授Hans Moravec等人在上世紀(jì)80年代提出，大意是：對(duì)人類容易的事情，對(duì)機(jī)器反而是困難的，反之亦然。

比如，邏輯推理和創(chuàng)造力，在人類看來屬于高級(jí)認(rèn)知技能，需要較高的教育水平或長期訓(xùn)練，但對(duì)于機(jī)器來說卻通常是微不足道的；

而人類能輕松完成的任務(wù)，例如視覺和運(yùn)動(dòng)技能，對(duì)機(jī)器而言極具挑戰(zhàn)性。

讓計(jì)算機(jī)在智力測試或跳棋游戲中表現(xiàn)出成人水平相對(duì)容易，但在感知和移動(dòng)能力上，很難或不可能達(dá)到一歲兒童的技能。

此外，Karpathy的措辭也很有意味。

去年哈佛、沃頓、BCG等機(jī)構(gòu)聯(lián)合發(fā)表了一篇有關(guān)AI能力的實(shí)證論文，同樣用到了「jagged」這種形容。

論文地址：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4573321

連Karpathy本人都懷疑，自己是不是看到過這篇論文才會(huì)提出這種描述。

論文提出，AI的能力呈現(xiàn)出一種「鋸齒狀的技術(shù)邊界」（jagged technological frontier）。

同一困難程度的任務(wù)，有一些是AI能輕松完成的，有些卻遠(yuǎn)在它們能力范圍之外。

對(duì)于前者，AI可以補(bǔ)足，甚至徹底取代人類工作；但對(duì)能力范圍外的任務(wù)會(huì)有不準(zhǔn)確的輸出，使用時(shí)反而會(huì)拉低人類的工作水平。

但Karpathy認(rèn)為，即使目前AI的能力有種種問題，也并不構(gòu)成根本缺陷，也有可行的解決方案。

正如他上面的推文所描述的，其根本原因是模型缺乏自我認(rèn)知，這需要我們開發(fā)更有效、更精細(xì)的后訓(xùn)練（post-training）方法，比如Llama 3.1論文所提出的。

目前的AI訓(xùn)練思路僅僅是「模仿人類標(biāo)簽并擴(kuò)展規(guī)模」。這個(gè)方法的確有效，否則我們也不會(huì)看到今天的成就。

但要繼續(xù)提升AI的智能，就不能只寄希望于「scale up」，還需要整個(gè)開發(fā)棧中進(jìn)行更多工作。

在這個(gè)問題沒有被完全解決之前，如果要將LLM用于生產(chǎn)環(huán)境，就應(yīng)該只限于它們擅長的任務(wù)，注意「鋸齒狀邊緣」，并始終保持人類的參與度。

責(zé)任編輯：張燕妮來源：新智元

LLM 大模型技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

国产一卡二卡三卡四卡| 乱熟女高潮一区二区在线| 最新黄色网址在线观看| 中文字幕午夜精品一区二区三区 | 欧美一级视频在线播放| 三级av在线| 精品一区二区三区不卡| 91国产视频在线| 中国美女黄色一级片| 大香伊人久久精品一区二区| 欧美性三三影院| 免费在线黄网站| 91电影在线播放| 99国产精品99久久久久久| 成人网在线观看| 午夜影院免费在线观看| 欧美精品一级| 中文字幕成人在线| chinese麻豆新拍video| 国产亚洲观看| 色婷婷综合久久久中文一区二区| 男人天堂新网址| 一区二区三区视频网站| 91视频国产资源| 成人区精品一区二区| 最新在线中文字幕| 久久久成人网| 97欧美精品一区二区三区| 国产大学生自拍| 久久国产电影| 在线播放精品一区二区三区 | 久热爱精品视频线路一| 成人性生交大免费看| 久久影视三级福利片| 制服丝袜一区二区三区| 亚洲成人福利在线| 久久久人成影片一区二区三区在哪下载 | 欧美一区二区三区免费在线看| 国产偷人视频免费| 爱啪啪综合导航| 亚洲国产毛片aaaaa无费看| 中文字幕中文字幕99| 午夜小视频在线| 国产欧美精品在线观看| 欧洲亚洲一区二区| 免费国产在线观看| 91碰在线视频| 精品久久久久久一区二区里番| 午夜免费福利视频| 国产一区二区三区蝌蚪| 成人妇女免费播放久久久| 中文字幕一区二区三区波野结| 久久激情综合| 国产精品大片wwwwww| 五月婷婷激情视频| 丝袜亚洲另类欧美| 国产精品流白浆视频| 国产精品免费av一区二区| 亚洲二区在线| 97在线免费观看| 黄色在线视频网址| 三级久久三级久久久| 热久久这里只有| 黄色污污视频软件| 日韩精品一区第一页| 国产精品日韩在线| 91福利在线观看视频| 国产一区二区三区久久悠悠色av| 91手机在线播放| 丁香花免费高清完整在线播放 | 91久久极品少妇xxxxⅹ软件| 亚洲国产剧情在线观看| www..com久久爱| 欧美一区二视频在线免费观看| 国产九色在线| 亚洲欧洲精品一区二区精品久久久 | www.偷拍.com| 国产日韩三级| 国产香蕉精品视频一区二区三区| 懂色av粉嫩av浪潮av| 亚洲天天综合| 性欧美长视频免费观看不卡| 精品国产乱子伦| 免费观看成人鲁鲁鲁鲁鲁视频| 国产主播在线一区| 亚洲精品911| 久久色在线观看| 久久久国产精华液999999| 国产丝袜在线播放| 色88888久久久久久影院按摩| 亚洲36d大奶网| 成人看片爽爽爽| 亚洲欧美精品一区二区| 午夜爽爽爽男女免费观看| 亚洲精品社区| 国产日韩欧美日韩| 天堂91在线| 亚洲色图在线看| 精品人妻一区二区三区四区在线 | 欧美三级在线播放| 无码人妻一区二区三区一| 禁断一区二区三区在线| 欧美福利小视频| 乱子伦一区二区三区| 国产成人欧美日韩在线电影| 日本10禁啪啪无遮挡免费一区二区| 黄色免费在线看| 色婷婷av一区二区三区gif| 午夜免费视频网站| 奇米影视亚洲| 91wwwcom在线观看| 99久久精品日本一区二区免费| 国产午夜亚洲精品理论片色戒| 大胆欧美熟妇xx| 国产人妖一区| 亚洲午夜色婷婷在线| 黄色小说在线观看视频| 韩国成人精品a∨在线观看| 日韩av一区二区三区美女毛片| 国模私拍视频在线播放| 日韩一区二区三区免费看| 成人黄色免费网址| 99热在线精品观看| 高清av免费一区中文字幕| 美女羞羞视频在线观看| 在线精品视频一区二区三四| 亚洲男人在线天堂| 亚洲一级特黄| 成人欧美视频在线| 宅男网站在线免费观看| 欧美日韩你懂得| 国产伦精品一区二区三区视频女| 国产精品视频久久一区| 成人午夜电影免费在线观看| av理论在线观看| 91精品麻豆日日躁夜夜躁| 女人裸体性做爰全过| 一级做a爱片久久毛片| 日韩电影在线免费| 欧美日韩在线精品一区二区三区| 欧美a级在线观看| 欧美成人伊人久久综合网| 欧美丰满熟妇bbbbbb| 麻豆传媒一区二区三区| 亚洲欧美久久234| 中文.日本.精品| 最近2019中文字幕第三页视频| 久久人人爽人人爽人人片av免费| www国产精品av| 九色在线视频观看| 一区二区导航| 国产成人av网址| 国产三级视频在线| 91福利视频网站| 俄罗斯毛片基地| 老司机午夜精品99久久| 一区二区三区四区欧美日韩| 日韩在线电影| 久久国产精品电影| 午夜精品一二三区| 天天操天天干天天综合网| 91精品国产自产| 久久久久欧美精品| 亚洲国产精品一区二区第四页av| 欧美亚洲二区| 精品中文字幕乱| 天天干天天爽天天操| 欧美日韩一区二区在线| 内射中出日韩无国产剧情| 视频一区视频二区中文字幕| 午夜精品一区二区在线观看| 亚洲精品第一| 久久99视频免费| 午夜在线观看视频18| 色成年激情久久综合| 蜜桃视频最新网址| 成人性生交大片免费| 国产中文字幕免费观看| 欧美精品一区二区三区精品| 国产一区二中文字幕在线看| 秋霞在线午夜| 亚洲色图av在线| 国产精品一级视频| 午夜精品久久久| 久久久免费看片| 成人午夜私人影院| 国产精品无码专区av在线播放| 91精品综合久久久久久久久久久 | 高潮久久久久久久久久久久久久 | 最好看的2019年中文视频| 国产乱人乱偷精品视频| 亚洲v中文字幕| 国产农村妇女精品一区| 国产成人精品免费看| 日韩av在线综合| 亚洲成av人片乱码色午夜| 国产精品一区二区在线观看 | 五月天综合视频| 国产高清久久久久| 日本人视频jizz页码69| 亚洲精品欧洲| 中日韩在线视频| 免费一区二区| 97超级碰碰| 国产成人毛片| 91高清免费在线观看| 成人在线视频亚洲| 亚洲欧美另类自拍| 亚洲欧美国产高清va在线播放| 欧美亚洲图片小说| 偷偷操不一样的久久| 亚洲人成网站精品片在线观看| wwwwww日本| 成人黄色在线视频| 黄色片免费网址| 日韩一区欧美二区| 国产在线观看福利| 在线电影一区| 日韩精品福利片午夜免费观看| 精品国产中文字幕第一页| 精品国产综合久久| 精品亚洲自拍| 国产精品久久亚洲| 欧美高清hd| 成人精品久久一区二区三区| 亚洲精品粉嫩美女一区| 2018日韩中文字幕| 丰乳肥臀在线| 欧美精品videosex极品1| 高潮毛片在线观看| 日韩在线观看高清| a√资源在线| 中文字幕在线精品| 国产精品秘入口| 亚洲男女性事视频| 日本1级在线| 亚洲免费视频观看| 欧洲免费在线视频| 亚洲精品一区二区在线| 日本在线丨区| 亚洲欧美日韩视频一区| 可以在线观看的黄色| 精品视频久久久久久久| 日韩精品久久久毛片一区二区| 韩国精品主播一区二区在线观看 | 日韩欧美三级视频| 欧美日韩另类在线| 国产www在线| 天天色综合天天| 亚洲天堂一区在线| 色综合久久中文字幕| 黄色av网站免费观看| 欧美亚洲一区二区在线观看| 一区精品在线观看| 欧美精品一卡两卡| www.久久色| 亚洲国产精品成人精品| 婷婷亚洲一区二区三区| 亚洲色图35p| 欧美一区二区三区在线观看免费| 久久久精品一区| 怡红院在线观看| 久久免费视频网| 欧美性猛片xxxxx免费中国| 午夜精品久久久久久久99黑人| 制服丝袜专区在线| 国产精品91久久久| 只有精品亚洲| 国产高清在线一区二区| 先锋影音国产精品| 天堂一区二区三区| 午夜精品影院| 精品少妇人妻av免费久久洗澡| 先锋影音国产一区| 中文字幕资源在线观看| 国产suv一区二区三区88区| 免费无码一区二区三区| 欧美激情一区三区| 91日韩中文字幕| 欧美日韩国产精品| 亚洲视频中文字幕在线观看| 日韩欧美视频一区| 飘雪影视在线观看免费观看 | 538精品在线观看| 午夜电影久久久| 亚洲一级视频在线观看| 精品黑人一区二区三区久久 | 91免费精品国偷自产在线在线| 你懂的视频在线一区二区| 国产精品久久久久久久免费观看| 性一交一乱一伧国产女士spa| 老色鬼久久亚洲一区二区| 青娱乐精品在线| 久久这里只有精品6| 91视频综合网| 日本福利一区二区| 蜜桃久久一区二区三区| 国产偷v国产偷v亚洲高清| 欧美日韩亚洲国产成人| 午夜日韩激情| 尤蜜粉嫩av国产一区二区三区| 国产成人在线观看| 免费看黄色三级| 图片区小说区国产精品视频| 91麻豆一区二区| 日韩电影大片中文字幕| 先锋成人av| 国产精品亚洲美女av网站| 亚洲第一论坛sis| 日本高清视频免费在线观看| 日韩精品高清不卡| 亚洲国产精品成人综合久久久| 亚洲品质自拍视频| 在线免费观看日韩视频| 亚洲精品日韩在线| 国产偷倩在线播放| 亚洲影院色在线观看免费| 国产真实有声精品录音| 人妻夜夜添夜夜无码av| 国产成人在线网站| 夫妻性生活毛片| 欧美人与z0zoxxxx视频| 日韩欧美电影在线观看| 欧美激情啊啊啊| 日韩精品中文字幕吗一区二区| 先锋影音欧美| 天堂一区二区在线| 国产精品无码永久免费不卡| 亚洲成a人v欧美综合天堂下载| 精品国产av一区二区| 久久精品99久久久香蕉| 成人午夜一级| 日本在线免费观看一区| 美女日韩在线中文字幕| 国产精品久久不卡| 亚洲成人激情av| 人人妻人人澡人人爽人人欧美一区| 久久久电影免费观看完整版| 欧美成a人片免费观看久久五月天| 日韩激情久久| 日韩中文字幕不卡| 舐め犯し波多野结衣在线观看| 欧美性xxxx极品hd欧美风情| 日本黄色大片视频| 国内成人精品一区| 欧美交a欧美精品喷水| 成人在线观看你懂的| 99riav久久精品riav| 中日韩精品视频在线观看| 日韩精品免费在线观看| 亚洲精品中文字幕| 欧洲精品亚洲精品| 欧美aⅴ一区二区三区视频| 亚洲一级片在线播放| 欧美日韩国产影片| 99久久精品免费观看国产| 成人av资源| 99在线精品视频在线观看| 中文字幕精品视频在线| 欧美性猛交xxxx| 国产视频二区在线观看| 成人国产精品一区二区| 欧美91大片| 50一60岁老妇女毛片| 日韩欧美在线视频| 国产高清一级毛片在线不卡| 成人免费网站在线看| 国产精品v日韩精品v欧美精品网站| 国内精品模特av私拍在线观看| 超碰公开在线| 国产综合动作在线观看| 欧美亚洲三级| 麻豆精品国产免费| 亚洲大胆人体在线| 久久夜夜操妹子| 51xx午夜影福利| 久久一二三国产| 91好色先生tv| 国模gogo一区二区大胆私拍| 精品国产91久久久久久浪潮蜜月| 中文字幕一区久久| 偷拍日韩校园综合在线| av在线女优影院| 国产精品二区三区| 免播放器亚洲一区| 久久99久久98精品免观看软件| 精品亚洲一区二区三区在线观看| 国产69精品久久久久9999人| 日本一道在线观看| 99国产精品国产精品久久| 国产又大又长又粗| 欧亚精品在线观看| 亚洲无中文字幕| 一本色道久久综合亚洲精品图片| 7878成人国产在线观看| 69久成人做爰电影| 超碰超碰超碰超碰超碰| 国产欧美综合在线| 国产91麻豆视频| 国产日韩欧美自拍|