精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型集體失智!9.11和9.9哪個大,幾乎全翻車了

人工智能 新聞
一覺醒來,一眾響當當的大模型開始認為“9.11>9.9”了?

沒眼看……“9.11和9.9哪個大”這樣簡單的問題,居然把主流大模型都難倒了??

強如GPT-4o,都堅定地認為9.11更大。

圖片

谷歌Gemini Advanced付費版,同樣的口徑。

圖片

新王Claude 3.5 Sonnet,還一本正經的給出離譜的計算方法。

圖片

9.11 = 9 + 1/10 + 1/100
9.9 = 9 + 9/10

到這一步還是對的,但下一步突然就不講道理了

如上所示,9.11比9.90大0.01。
你想讓我進一步詳細解釋小數的比較嗎?

圖片

這你還解釋啥啊解釋,簡直要懷疑是全世界AI聯合起來欺騙人類了。

艾倫AI研究所成員林禹臣換了個數字測試,GPT-4o依舊翻車,他表示:

一方面AI越來越擅長做數學奧賽題,但另一方面常識依舊很難

圖片

也有網友發(fā)現了華點,如果是說軟件版本號,那么9.11版本確實比9.9版本更大(更新)。

而AI都是軟件工程師開發(fā)的,所以……

圖片

那么,究竟是怎么回事?

先進大模型集體翻車

一覺醒來,一眾響當當的大模型開始認為“9.11>9.9”了?

發(fā)現這個問題的是Riley Goodside,有史以來第一個全職提示詞工程師

簡單介紹下,他目前是硅谷獨角獸Scale AI的高級提示工程師,也是大模型提示應用方面的專家。

圖片

最近他在使用GPT-4o時偶然發(fā)現,當提問:

9.11 and 9.9——which is bigger?

GPT-4o竟毫不猶豫回答前者更大。

面對這一常識性“錯誤”,他不死心地又去問了其他大模型,結果幾乎全軍覆沒。

好家伙,身為一名提示工程師,他敏銳意識到可能是“打開方式有誤”。

于是他又換了個問法,將提問限定在“實數”,結果還是翻車了。

圖片

不過,有網友試著給提問換了個順序,沒想到這下AI竟反應過來了。

圖片

看到AI對詞序如此“敏感”,該網友進一步推測:

先問哪個更大,AI會沿著明確路徑開始比較數字。
但如果只是隨便說說數字,沒有明確目的,AI可能會開始“胡思亂想”。

圖片

看到這里,其他網友也紛紛拿相同提示試了一把,結果翻車的不在少數。

圖片

面對這一個詭異的問題,國產大模型表現如何呢?

我們簡單測試一番,問題也換成中文提問,結果翻車率也比較高,選取幾個有代表性的展示:

Kimi也是不加解釋就直接給出錯誤結論。

圖片

智譜清言APP上的ChatGLM,自動觸發(fā)了聯網查詢,然后描述了自己的比較方法,可惜卻執(zhí)行錯了。

圖片

不過也有表現不錯的,騰訊元寶先復述了一遍選項,然后直接做對。

圖片

字節(jié)豆包是少數能把比較方法描述清楚,而且用對的。甚至還聯系實際舉例來驗證。

圖片

比較可惜的是文心一言,面對這個問題,也是觸發(fā)了聯網查詢。

圖片

本來都已經做對了,但突然話鋒一轉又導向了錯誤結論。

圖片

不過從文心一言的思路解釋上,也可以看出背后問題所在。

由于大模型以token的方式來理解文字,當9.11被拆成“9”、“小數點”和“11”三部分時,11確實比9大。

由于OpenAI使用的Tokenizer開源,可以用來觀察大模型是如何理解這個問題。

圖片

上圖可以看出,9和小數點分別被分配為“24”和“13”,小數點后的9同樣也是“24”,而11被分配到“994”

所以使用這種tokenizer方法的大模型會認為9.11更大,其實是認為11大于9

也有網友指出,像是書籍目錄里第9.11節(jié)也比第9.9節(jié)大,所以最終可能還是訓練數據里見這種見得多了,而手把手教基礎算數的數據很少。

也就是問題本身對人類來說,一看就知道問的是算數問題,但對AI來說是一個模糊的問題,并不清楚這兩個數字代表什么。

只要向AI解釋明白這是一個雙精度浮點數,就可以做對了。

圖片

在有額外條件的情況下,tokenizer這一步依然會給11分配更大的token。但是在后續(xù)自注意力機制的作用下,AI就會明白要把9.11連起來處理了。

圖片

后來Goodside也補充,并不是說大模型無論如何都認定了這個錯誤結論。而是當以特定方式提問時,許多領先模型都會告訴你9.11>9.9,這很奇怪。

圖片

經過反復嘗試后他發(fā)現,想讓AI上這個當,需要把選項放在提問前面,如果調換順序就不會出錯。

但是只要選項在問題前面,改變提問的方式,如加標點、換詞匯都不會有影響。

圖片

雖然問題很簡單,錯誤很基礎。

但了解出錯原理之后,許多人都把這個問題當成了檢驗提示詞技巧的試金石,也就是:用什么提問方法能引導大模型的注意力機制正確理解問題呢?

首先,大名鼎鼎的Zero-shot CoT思維鏈,也就是“一步一步地想”,是可以做對的。

圖片

不過角色扮演提示,在這里作用就有限了。

圖片

剛好最近也有微軟和OpenAI都參與的一項研究,分析了1500多份論文后發(fā)現,隨著大模型技術的進步,角色扮演提示不像一開始那樣有用了……

圖片

具體來說,同一個問題提示“你是一個天才……”比“你是一個傻瓜……”的正確率還低。

也是讓人哭笑不得了。

圖片

One More Thing

與此同時,路透社的OpenAI秘密模型「草莓」泄漏消息更新了。

圖片

更新內容為:另一位線人報告,OpenAI已經在內部測試了新模型,在MATH數據集上得分超過90%。路透社無法確定這是否與“草莓”是同一個項目。

圖片

MATH數據集包含競賽級別的數學題,目前不用多次采樣等額外方法,最高分是谷歌Gemini 1.5 Pro數學強化版的80.6%。

圖片

但是OpenAI新模型在沒有額外提示情況下,能不能自主解決“9.11和9.9哪個大?”。

突然沒信心了,還是等能試玩了再看結果吧……

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-08-07 10:05:00

LLM大模型技術

2023-06-06 17:48:35

罷工人工智能AI

2024-08-02 14:58:00

2025-10-10 09:06:15

2025-07-17 10:47:33

2024-08-07 12:28:23

2025-02-20 13:44:01

2024-07-17 12:13:11

2025-02-14 10:47:40

2025-10-28 09:16:38

2023-11-03 07:47:12

機器資源大模型:

2025-05-19 17:18:57

AI模型o3

2025-04-03 09:42:05

2024-10-24 13:40:00

AI大模型

2024-08-13 13:11:02

2025-02-18 10:25:10

2021-01-22 15:27:22

5nm芯片芯片制程廠商

2025-05-21 09:02:20

2023-12-04 12:02:05

2025-11-13 08:00:00

大推理模型AI人工智能
點贊
收藏

51CTO技術棧公眾號

欧美一区二区福利在线| 久久精品一区二区三区不卡牛牛| 另类图片亚洲另类| 少妇熟女视频一区二区三区| 狼人综合视频| 国产精品乱人伦中文| 国产91精品入口17c| 国语对白永久免费| 亚洲欧洲日韩| 亚洲精品一区久久久久久| 最新天堂在线视频| 美女扒开腿让男人桶爽久久软| 国产免费观看久久| 国产精品二区三区四区| 国产精品欧美综合| 一区免费在线| 日韩中文字幕在线| 成年人网站免费在线观看| 欧美一区=区三区| 欧美日韩亚洲一区二| 男女爱爱视频网站| 国产毛片在线| www.在线成人| 亚洲一区二区三区毛片| 销魂美女一区二区| 亚洲青色在线| 欧美成人黄色小视频| 成人黄色a级片| 四虎影视精品| 精品久久久久久综合日本欧美| 亚洲欧美自拍另类日韩| 中文字幕在线高清| 午夜精品一区二区三区电影天堂| 亚洲永久一区二区三区在线| 激情小视频在线| av在线播放一区二区三区| 91麻豆国产精品| 中国一区二区视频| 丝袜美腿亚洲色图| 日本高清视频一区| 精品国产免费观看| 亚洲免费黄色| 国内精品国产三级国产在线专| 久久国产精品国语对白| 视频在线不卡免费观看| 中文字幕久久久av一区| 免费在线观看成年人视频| 免费萌白酱国产一区二区三区| 欧美高清性hdvideosex| 国产又大又黄又粗的视频| 345成人影院| 亚洲一级在线观看| 奇米777四色影视在线看| 国产三区在线观看| 亚洲三级电影全部在线观看高清| 樱花www成人免费视频| 91最新在线| 国产精品二三区| 在线精品亚洲一区二区| 日韩成人影视| 136国产福利精品导航| 宅男一区二区三区| a级毛片免费观看在线| 自拍偷拍欧美激情| 国产av熟女一区二区三区| 日本乱理伦在线| 亚洲不卡一区二区三区| 日韩国产欧美亚洲| 天天免费亚洲黑人免费| 在线精品视频一区二区三四| 欧美wwwwwww| 久久中文字幕一区二区| 精品久久一二三区| 88久久精品无码一区二区毛片| 国产区精品区| 久久久91精品国产| 欧美成人免费观看视频| 亚洲日本视频| 欧美性一区二区三区| 精产国品一区二区| 激情六月婷婷久久| www国产亚洲精品| 四虎精品在线| 国产精品天干天干在线综合| 在线精品亚洲一区二区| 丁香花电影在线观看完整版| 激情成人中文字幕| 国产精品区在线| 亚洲乱码一区| 亚洲视频999| 久久高清内射无套| 国产精品日韩久久久| 国产精品一区二区3区| 亚洲成人第一区| 国产日韩三级在线| 中文精品无码中文字幕无码专区| 原纱央莉成人av片| 7777精品伊人久久久大香线蕉超级流畅| 亚洲欧美日韩网站| 天天做夜夜做人人爱精品| 在线播放日韩精品| 日本在线视频免费观看| 秋霞国产午夜精品免费视频| yellow视频在线观看一区二区| 蜜桃视频在线免费| 一区二区三区丝袜| 牛夜精品久久久久久久| 精品视频在线你懂得| 在线看欧美日韩| 国产精品99无码一区二区| 人禽交欧美网站| 精品在线视频一区二区| 激情视频在线观看| 在线欧美小视频| 北京富婆泄欲对白| 99久久综合| 亲爱的老师9免费观看全集电视剧| 国产又粗又长视频| 国产亚洲va综合人人澡精品| 丁香六月激情婷婷| 国产精品免费精品自在线观看| 亚洲欧美另类自拍| 国产精品99精品无码视| 国产一区高清在线| 亚洲国产另类久久久精品极度| 精品人人视频| 欧美大黄免费观看| 加勒比婷婷色综合久久| 奇米精品一区二区三区在线观看| 国产精品久久久一区二区三区| 在线观看美女网站大全免费| 欧美视频第一页| www.男人天堂| 国语精品一区| 亚洲最大福利视频网| 欧美激情午夜| 欧美日韩小视频| 亚洲av无码国产精品麻豆天美| 亚洲精品麻豆| 国模精品一区二区三区| 人妖欧美1区| 日韩女优av电影| 亚洲熟女www一区二区三区| 久久精品国产在热久久| 天堂精品视频| 欧美一级做a| 精品国产一区二区三区四区在线观看| 国产黄色免费视频| 国产三级一区二区| 国产精品久久久毛片| 青青草成人影院| 国产日韩欧美日韩大片| 日韩在线免费电影| 欧美一区二区日韩一区二区| 久久人妻无码aⅴ毛片a片app| 理论电影国产精品| 国产盗摄视频在线观看| 国产一区二区三区免费在线| 欧美插天视频在线播放| www香蕉视频| 亚洲国产精品久久久久秋霞影院| 91超薄肉色丝袜交足高跟凉鞋| 欧美三级小说| 好吊色欧美一区二区三区| segui88久久综合9999| 亚洲精品456在线播放狼人| 99久热在线精品996热是什么| 91美女片黄在线观看| 狠狠热免费视频| 亚洲先锋影音| 国产一区二区三区高清视频| 在线中文字幕播放| 中文字幕亚洲无线码在线一区| 国产精品无码白浆高潮| 一区二区三区.www| 欧美丰满少妇人妻精品| 视频一区视频二区在线观看| 亚洲在线不卡| 精品国产乱子伦一区二区| 欧洲成人免费视频| 欧美三级黄网| 亚洲丁香婷深爱综合| 国产伦精品一区二区三区视频网站| 欧美韩国日本一区| 免费看三级黄色片| 久久亚洲综合| 激情视频小说图片| 全球av集中精品导航福利| 国产精品久久久久久久久久久不卡 | 欧美女优在线观看| 欧美老女人在线| 国产成人无码精品久久久久| 欧美国产精品专区| 日本天堂在线播放| 免费久久精品视频| 青草青青在线视频 | 亚洲免费av网| 色吊丝一区二区| 91免费观看网站| 新版的欧美在线视频| 北条麻妃99精品青青久久| 亚洲人在线观看视频| 在线不卡欧美精品一区二区三区| 国产精品suv一区二区69| 国产欧美日韩卡一| 一级黄色电影片| 精品在线视频一区| 六月丁香婷婷激情| 女生裸体视频一区二区三区| 欧美一级日本a级v片| 久久伦理中文字幕| 国产精品丝袜久久久久久高清| 欧美久久天堂| 精品中文字幕视频| av亚洲在线| 亚洲女同精品视频| 亚洲av无码专区在线| 欧美视频一区二区三区四区| 国产成人在线播放视频| 亚洲视频香蕉人妖| 亚欧精品视频一区二区三区| 99久久综合色| 中国特级黄色片| 久久爱www久久做| 午夜免费一区二区| 久久久久国产精品一区二区 | 久久一日本道色综合久久| 青草视频在线观看视频| 亚洲成av人电影| 一本一生久久a久久精品综合蜜 | 国产亚洲欧美日韩精品一区二区三区| 91国内揄拍国内精品对白| 欧美四级在线| 欧美丰满少妇xxxxx| 国产日产一区二区三区| 日韩中文字幕在线观看| 免费a在线看| 久久久精品国产网站| 日本在线免费| 中文字幕亚洲情99在线| 欧美激情黑人| 久久av资源网站| 超碰在线观看免费| 精品久久久91| 国产在线看片| 久久国产精品99国产精| 91最新在线视频| 欧美放荡办公室videos4k| 女人黄色免费在线观看| 久久久久久久国产| 九色porny丨国产首页在线| 97国产在线观看| 成人美女大片| 国产精品久久久久久久av大片| 国产91精品在线| 91系列在线播放| 9l视频自拍九色9l视频成人| 岛国视频一区免费观看| 美女一区二区在线观看| 麻豆av一区二区| 欧美理论在线播放| 欧美 日韩 国产 在线观看| 欧美激情麻豆| 香港三级韩国三级日本三级| 午夜亚洲一区| 午夜国产一区二区三区| 狠狠色丁香婷综合久久| 少妇精品无码一区二区| 91麻豆国产福利在线观看| 免费黄色片网站| 亚洲日本在线观看| 国产一级做a爰片在线看免费 | 亚洲网站免费观看| 91精品国产综合久久香蕉的特点| 亚洲欧美另类视频| 亚洲美女激情视频| 国产成人l区| 性视频1819p久久| 亚洲高清黄色| 91探花福利精品国产自产在线| 精品素人av| 亚洲人成网站在线播放2019| 欧美日韩国产色综合一二三四| 欧美成人三级在线视频| 青青青爽久久午夜综合久久午夜| 欧美午夜精品理论片| 成人aa视频在线观看| 久久久久久国产免费a片| 亚洲精选视频免费看| 日本一区二区免费电影| 日韩一区二区电影| 日本一卡二卡四卡精品| 欧美精品免费在线观看| free欧美| 福利视频久久| 欧美一级淫片| 人体内射精一区二区三区| 捆绑紧缚一区二区三区视频| 午夜男人的天堂| 亚洲色大成网站www久久九九| 国产99久久久| 欧美电影免费观看完整版| a视频网址在线观看| 韩国一区二区电影| 亚洲三级在线| 人禽交欧美网站免费| 亚洲午夜伦理| 在线视频一二区| 国产三级精品视频| 成人免费视频毛片| 91精品国产一区二区三区| 性感美女视频一二三| 美女福利精品视频| 成人福利一区二区| 欧美日韩亚洲免费| 亚洲手机视频| 中文字幕乱妇无码av在线| 国产精品视频第一区| 无码人妻丰满熟妇奶水区码| 欧美精品一区二区精品网| 成人免费在线| 国产欧美va欧美va香蕉在| 经典一区二区| 免费成人在线视频网站| 国产成人av电影免费在线观看| 极品色av影院| 欧美撒尿777hd撒尿| 伦理片一区二区三区| 欧美激情18p| 91久久偷偷做嫩草影院电| gogogo免费高清日本写真| 强制捆绑调教一区二区| 成人国产精品久久久网站| 日韩欧美国产黄色| 四虎影院在线域名免费观看| 97在线视频一区| 给我免费播放日韩视频| 欧美性猛交内射兽交老熟妇| 韩国v欧美v亚洲v日本v| frxxee中国xxx麻豆hd| 欧美日本精品一区二区三区| lutube成人福利在线观看| 国产精品xxxxx| 成人三级视频| 182午夜在线观看| 亚洲欧洲无码一区二区三区| 国产一区二区三区三州| 日韩在线免费视频观看| 一区在线不卡| 神马午夜伦理影院| 国产福利一区二区三区视频在线| 国产这里有精品| 精品少妇一区二区三区| sm在线观看| 快播亚洲色图| 丝袜美腿亚洲综合| 女教师淫辱の教室蜜臀av软件| 欧美日韩精品免费| 中文字幕中文字幕在线中高清免费版| 亚洲自拍偷拍色图| 在线成人欧美| 久久亚洲AV成人无码国产野外| 色视频一区二区| 亚洲成人三级| yellow视频在线观看一区二区| aa国产精品| 手机av在线不卡| 欧美一级爆毛片| 国产美女精品写真福利视频| 美女亚洲精品| 久久99这里只有精品| 欧美成人三级在线观看| 日韩精品亚洲元码| 欧美成人黄色| www.亚洲成人网| 91看片淫黄大片一级在线观看| 亚洲天堂五月天| 久久av.com| 理论片一区二区在线| 在线免费视频a| 亚洲影院免费观看| 黄色小视频在线免费观看| 国产欧美在线观看| 狠狠综合久久av一区二区老牛| 中文字幕在线观看的网站| 欧美日韩国产免费一区二区| 污污视频在线| 日韩福利二区| 粉嫩绯色av一区二区在线观看| 一级黄色av片| 久久久久久欧美| 日韩精品欧美| 欧产日产国产精品98| 欧美女孩性生活视频| av丝袜在线| 一区二区三区久久网| 99在线精品观看| 国产色综合视频| 日韩av片永久免费网站| 欧美精品国产|