精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM又曝致命缺陷:根本不會看時鐘!博士驚呆,準確率不及50%

人工智能 新聞
AI能寫論文、畫圖、考高分,但連「看表讀時間」「今天是星期幾」都錯得離譜?最新研究揭示了背后驚人的認知缺陷,提醒我們:AI很強大,但精確推理還離不開人類。

有些任務對人類來說輕而易舉,但AI頻頻出錯。

比如,單詞「strawberry」中有幾個字母「r」一度難倒一眾頂尖LLM。

最新的研究揭示:看鐘表或日歷,對AI來說也很難。

圖片

圖1:在測試實例中,6款大模型均無法正確讀取指針式時鐘,僅2款能理解日歷

來自英國愛丁堡大學等機構的研究者,揭示了這個令人深思的AI現象。

他們模擬了時鐘和年歷,系統考察了多模態語言大模型(MLLM)解讀時間與日期的能力。

結果令人失望:

AI系統讀取時鐘的準確率僅為38.7%,判斷日歷日期的準確率則只有26.3%。

在ICLR 2025的LLM推理與規劃研討會(ICLR 2025 Workshop on  Reasoning and Planning for LLMs)上,他們展示了這些LLM出人意料的缺陷。

圖片

論文鏈接:https://arxiv.org/abs/2502.05092

為了探究MLLMs處理時間任務的能力,他們我們構建了精確定制的測試集,包含兩個子集:ClockQA和CalendarQA。

ClockQA涵蓋了六類模擬時鐘圖像(含羅馬數字、缺失秒針及不同表盤顏色等變體)及其對應的時間問題;

CalendarQA包含了十年的年歷圖像,問題設置從簡單到復雜:

元旦是星期幾?  

3月15日是星期幾?  

當年的第153天是哪天?

圖片

圖2:DateTimeReasoning任務概覽及其兩個主要子集:ClockQA和CalendarQA

雖然數據集規模較小,但它的設計能有效探測時間推理、視覺解析和日期/時間推斷的核心維度。

初步發現表明:盡管某些模型在時鐘讀時或日歷問答中展現潛力,但根本問題依然存在。

其中,在時鐘讀時中,Gemini-2.0的時分針誤差較低;在日歷問答中,o1模型的準確率最高。

詳細結果

表1總結了各模型在兩個任務中的表現。

ClockQA任務中,Gemini-2.0取得了最高的精確匹配(Exact Match, EM)分數(22.58%)和最小的小時/分鐘誤差,顯示出其在理解時鐘方面相較其他模型更具優勢。

然而,整體的EM分數仍然偏低,說明多模態大語言模型(MLLMs)在讀表任務上依舊存在明顯困難。

相比之下,GPT-o1CalendarQA任務中表現突出,準確率達到80%,展現出其在日期運算和邏輯推理方面的強大能力。其他模型則明顯落后,表明日期計算和結構化布局解析仍然是AI面臨的難點。

整體而言,除了GPT-o1在CalendarQA中的高表現外,其余模型在ClockQA和CalendarQA兩個任務中的總體表現都不理想

表1:各模型在時鐘任務(左)和日歷任務(右)中的表現。↑表示數值越高越好;↓表示數值越低越好

鐘表讀時任務仍容易出錯。

在ClockQA子集中,模型的表現明顯不如日歷類問題(見表1)。

圖4a和圖3a顯示,即使是在標準表盤下,模型的表現仍較差,有些模型甚至傾向于給出某個「默認」時間。

使用羅馬數字或風格化的指針會進一步增加錯誤率。

而去掉秒針后,并沒有簡化模型的推理過程,說明模型在識別指針和理解角度方面存在根本性的問題。

日歷推理分析稍好。

與之相比,部分模型在日歷類任務和某些題型上表現更佳。

GPT-o1在CalendarQA子集中表現尤為突出,總體準確率高達80%(見表1和圖3b)。

圖3:ClockQA與CalendarQA的錯誤分析

圖3(a)中的點表示模型預測的時間(縱軸)與真實時間(橫軸)之間的關系。黑色虛線(y=x)代表理想情況下模型預測完全正確的情況。

圖3(b)展示了各模型按年份的準確率表現。空白柱表示該模型在對應年份的準確率為0%。

像GPT-o1和Claude-3.5等閉源模型,在處理常見節假日的問題上優于開源模型。

這可能是因為訓練數據中包含了這些節日的記憶模式(見圖4b)。

然而,對于一些不太知名或需要復雜計算的問題(例如「第153天」),模型的準確率大幅下降,這說明偏移類推理能力難以遷移。

在這類問題上的表現,小型或開源模型(如MiniCPM、Qwen2-VL-7B和Llama3.2-Vision)幾乎是隨機的,這一點尤為明顯。

圖4:基于問題類型與類別的ClockQA及CalendarQA分析

研究還揭示了另一個問題:當AI在訓練時接觸到的數據有限,特別是面對像閏年或復雜日歷計算這樣的少見現象時,它的表現就會明顯下滑。

盡管大語言模型(LLM)在訓練中接觸過大量關于「閏年」概念的解釋,但這并不意味著它們能夠完成涉及視覺判斷的相關任務所需的推理。

這項研究強調了兩個方面的改進需求:

一是需要在訓練數據中加入更多有針對性的示例;

二是需要重新思考AI如何處理邏輯推理與空間感知相結合的任務,尤其是那些它們平時接觸不多的任務。

盡信AI,不如無AI

AI系統正確讀取時鐘的準確率僅為38.7%,判斷日歷日期的準確率則只有26.3%。

早期的系統通過標注樣本進行訓練,但讀取時鐘需要的是另一種能力——空間推理。

這可能是AI這次表現不佳的原因,論文作者、愛丁堡大學研究人員Rohit Saxena解釋道:

模型必須識別指針重疊、測量角度,還要適應各種不同的表盤設計,比如羅馬數字或藝術化的刻度。

AI要認出「這是個鐘表」相對容易,但真正讀出時間就難多了。

日期判斷同樣令人頭疼。

當被問到日期推理問題時,AI的錯誤率也很高。比如, 「今年的第153天是星期幾?」這類問題。

這個缺陷也令人意外,因為算術本應是計算機的基本能力之一。

但正如Saxena所解釋的那樣,AI處理算術的方式和傳統計算機不同:

算術對傳統計算機來說很簡單,但對大語言模型就不是這樣了。AI并不是運行數學算法,而是根據訓練數據中學到的模式來預測答案。

所以它有時可以答對算術問題,但推理過程既不一致也不基于規則,而我們的研究正是揭示了這個差距。

這項研究是近年來不斷增長的一個研究方向的一部分,聚焦于AI的「理解」方式與人類理解方式之間的差異。

AI模型是通過識別熟悉的模式來得出答案的,當訓練數據中有足夠的示例時,它們表現優秀,但在需要泛化或進行抽象推理時就會失敗。

最重要的是,研究再次提醒我們,過度依賴AI的輸出可能帶來風險。

Saxena表示:「AI的確很強大,但當任務既涉及感知又需要精確推理時,我們仍然需要進行嚴格測試、設置備用邏輯,很多情況下還必須有人類介入。」

另一名作者、愛丁堡大學博士生Aryo Pradipta Gema,則表示如今的AI研究往往強調復雜的推理任務,但具有諷刺意味的是,很多系統在應對更簡單的日常任務時仍顯吃力。

我們的研究發現表明,現在已經到了必須解決這些基礎能力缺陷的時候了。否則,AI在那些對時間敏感的現實應用中,可能始終難以真正落地。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-11-18 09:30:00

2025-07-21 09:05:00

模型AI芯片

2023-11-20 21:56:04

AI推理

2021-05-23 09:51:29

代碼開發Facebook

2024-04-15 11:48:09

2023-10-28 13:36:48

模型ChatGPT

2024-10-21 14:16:36

2023-12-01 10:20:00

谷歌技術

2023-11-24 17:01:30

模型推理

2025-07-03 09:49:43

2024-06-06 10:08:32

2018-11-14 10:01:30

谷歌開源機器學習

2023-03-03 18:31:23

網絡承運商路由

2019-01-29 10:27:27

量子計算機芯片超算

2020-10-18 12:27:35

人工智能人臉識別技術

2016-11-10 20:50:20

微軟開源

2023-11-01 13:47:12

模型研究

2011-05-23 09:21:42

2020-10-09 08:31:00

AI

2023-10-26 08:40:15

模型隱私推理
點贊
收藏

51CTO技術棧公眾號

在线观看一区二区三区视频| av不卡在线免费观看| 亚洲熟女综合色一区二区三区| 国产伦精品一区二区三区视频 | 国产高清无密码一区二区三区| 欧美日韩电影在线观看| 亚洲熟妇一区二区三区| 丁香婷婷久久| 亚洲成av人片在线| 亚洲精品一区二| 精品国产va久久久久久久| 香蕉久久a毛片| 久久手机免费视频| 伊人网伊人影院| 久久99精品久久久野外观看| 福利微拍一区二区| 亚洲欧美日韩不卡| 欧美高清成人| 国产电影精品久久禁18| 国产精品精品久久久久久| 18精品爽视频在线观看| 欧美电影一区| 亚洲欧洲日产国产网站| 欧美日韩一区二区区别是什么| 激情亚洲影院在线观看| 亚洲成人免费影院| 中国一级大黄大黄大色毛片| yw视频在线观看| 成人激情动漫在线观看| 亚洲一区二区三区视频| 波多野结衣视频在线观看| 尤物网精品视频| 欧美www在线| 91久久久久久久久久久久久久| 亚洲人挤奶视频| 亚洲精品一区二区精华| av在线免费观看不卡| 四虎地址8848精品| 欧美最猛性xxxxx直播| 日韩精品xxxx| 成入视频在线观看| 亚洲午夜精品在线| 一二三在线视频| 日本不卡三区| 日韩理论片一区二区| 欧美午夜免费| 国产资源在线播放| 国产丝袜欧美中文另类| 噜噜噜噜噜久久久久久91| 视频一区 中文字幕| 懂色一区二区三区免费观看| 成人欧美视频在线| 国产伦精品一区二区三区免.费| 全部av―极品视觉盛宴亚洲| 国产97在线亚洲| 手机看片久久| 91免费版在线| 美女主播视频一区| 男同在线观看| 国产亚洲成年网址在线观看| 欧美性天天影院| 久草视频视频在线播放| 国产三级欧美三级日产三级99| 美国av一区二区三区| 四虎影院在线域名免费观看| www国产成人| 日产精品高清视频免费| 成人在线播放视频| 国产欧美一区二区精品性色| 三区精品视频| 麻豆视频在线观看免费| 亚洲日本乱码在线观看| 超碰超碰超碰超碰超碰| 成人av影院在线观看| 精品久久久久久久久久| 国产精品动漫网站| 欧美videos粗暴| 91精品国产色综合久久| 2018国产精品| 亚洲黄页网站| www高清在线视频日韩欧美| 免费在线观看a级片| 欧美日本一区| 午夜伦理精品一区| 久久久蜜桃一区二区| 蜜臀久久久久久久| av观看久久| 日韩porn| 中文字幕日韩一区| 草草视频在线免费观看| **在线精品| 91精品国产综合久久香蕉麻豆| 亚洲成a人片在线www| 亚洲裸色大胆大尺寸艺术写真 | jizz在线观看中文| 亚洲欧美日韩在线| 欧美韩国日本在线| 美女国产精品久久久| 亚洲精品视频网上网址在线观看| 亚洲少妇xxx| 中文精品视频| 91老司机精品视频| 神马亚洲视频| 亚洲六月丁香色婷婷综合久久| 免费成人午夜视频| 国产aⅴ精品一区二区四区| 亚洲国产精品专区久久| 日日碰狠狠添天天爽| 在线一区视频| 亚洲综合精品伊人久久| 番号在线播放| 精品国产精品三级精品av网址| 中文字幕第88页| 欧美韩一区二区| 欧美成人中文字幕| 在线免费看av片| 91亚洲午夜精品久久久久久| 国产麻豆电影在线观看| 巨茎人妖videos另类| 欧美成人伊人久久综合网| 国产精品成人无码免费| 一本色道久久综合亚洲精品高清| 91在线观看免费| 波多野结衣在线网站| 欧美日韩国产页| 一级全黄裸体片| 天天色综合色| 国产精品视频网站| 国产尤物视频在线| 狠狠色狠狠色综合日日五| 波多野结衣网页| 97视频精品| 国产精品丝袜视频| 美国一级片在线免费观看视频| 婷婷开心激情综合| 亚洲麻豆一区二区三区| 亚洲免费二区| 成人av电影天堂| 黄网站在线免费看| 欧美日韩国产经典色站一区二区三区 | 成人免费看片98| 国产在线精品一区二区三区不卡| 亚洲v国产v在线观看| 3d性欧美动漫精品xxxx软件| 亚洲成人久久久久| 日韩av一区二区在线播放| 国产精品88av| 欧美黄色免费网址| 大奶在线精品| 国产做受高潮69| 熟妇人妻av无码一区二区三区| 亚洲一区二区成人在线观看| 不许穿内裤随时挨c调教h苏绵| 黄页网站一区| 国产欧美亚洲日本| 日韩欧美精品一区二区三区| 国产视频久久久久| 亚洲天堂男人av| 欧美国产一区二区| 伊人色在线观看| 无需播放器亚洲| 91成人免费看| 91禁在线看| 日韩国产精品一区| 久久久久久久久久成人| 中文字幕第一区第二区| 中文字幕成人免费视频| 一个色综合网| 国产精品一级久久久| 黄色视屏在线免费观看| 亚洲视频在线观看网站| 一本色道久久综合无码人妻| 亚洲女厕所小便bbb| 丰满人妻一区二区三区免费视频棣| 999亚洲国产精| 日韩区国产区| 麻豆精品一区| 欧美一区在线直播| 三区四区电影在线观看| 欧美成人猛片aaaaaaa| www.伊人久久| 国产精品久久久久久福利一牛影视| 黄色片免费网址| 亚洲国产黄色| 亚洲精品自在在线观看| 1204国产成人精品视频| 日av在线播放中文不卡| 麻豆免费在线视频| 亚洲激情免费观看| 波多野结衣视频在线观看| 亚洲精品成人a在线观看| 免费成人深夜夜行p站| 美女一区二区视频| 男女猛烈激情xx00免费视频| 国精一区二区| 国产精品入口免费| 日韩欧美2区| 隔壁老王国产在线精品| 免费a级人成a大片在线观看| 亚洲大胆人体在线| 一级黄色片在线观看| 五月婷婷久久综合| 男人av资源站| 久久无码av三级| 美女日批在线观看| 蜜臂av日日欢夜夜爽一区| 亚洲熟妇国产熟妇肥婆| 国产精品毛片久久| 欧美一区二区三区精美影视| 中文字幕一区日韩精品| 国产精品稀缺呦系列在线| 国产美女精品写真福利视频| www亚洲精品| 国产视频第一区| 亚洲成年人在线播放| 国产乱码精品一区二区三区精东| 色网站国产精品| 亚洲国产精品成人无久久精品| 中文字幕亚洲精品在线观看| 蜜桃传媒一区二区亚洲av| 国产凹凸在线观看一区二区| 制服丝袜中文字幕第一页| 天堂久久一区二区三区| 欧美综合在线播放| 欧美日韩一视频区二区| eeuss中文| 成人在线免费观看网站| 欧美色欧美亚洲另类七区| 日韩动漫一区| 国产日韩欧美一区二区| 亚洲国产高清在线观看| 91社区国产高清| 久久国产三级| 国产精品香蕉av| a成人v在线| 国产九九精品视频| 你懂得影院夜精品a| 欧美最猛性xxxxx(亚洲精品)| 成人性生交大片免费看在线播放| 欧美成人精品影院| 黄a在线观看| 免费成人高清视频| 在线视频国产区| 久久99视频免费| 色呦呦呦在线观看| 欧美激情视频播放| heyzo高清国产精品| 国内精品久久久久伊人av | 秋霞午夜一区二区| 人成在线免费网站| 91爱视频在线| 丝袜美腿诱惑一区二区三区| 国产97在线亚洲| 日本成人福利| 国产在线观看91精品一区| 图片一区二区| 亚洲一区二区三区777| 中文字幕亚洲在线观看| 国产精品毛片va一区二区三区| youjizzjizz亚洲| 国产乱码一区| 久久成人av| 亚洲欧洲日韩精品| 一本一道久久综合狠狠老| 污污污污污污www网站免费| 精品福利电影| 青青在线视频观看| 麻豆精品在线观看| 中文字幕55页| av日韩在线网站| 人妻精品久久久久中文| 国产精品久久一卡二卡| 国产97免费视频| 亚洲一区二区美女| 国产成人在线视频观看| 欧美日韩国产中文| 亚洲精品无amm毛片| 精品一区二区三区四区在线| 在线观看精品一区二区三区| 欧美理论电影在线观看| 免费看男女www网站入口在线| 国产精品91在线| 日韩精品一区国产| 欧美大香线蕉线伊人久久| 色喇叭免费久久综合| 91传媒免费视频| 西西人体一区二区| 久久久久久久久久一区二区| 成人丝袜高跟foot| 久久久久亚洲AV成人无在| 一区av在线播放| 成人免费视频国产免费| 日韩免费成人网| 欧美日韩免费做爰大片| 久久精品国产视频| 中文字幕在线看片| 成人有码在线视频| 性人久久久久| 丰满人妻一区二区三区53号| 天堂久久久久va久久久久| 国产精品一级无码| 亚洲国产精品精华液ab| 国产精品.www| 欧美精品xxxxbbbb| 狠狠狠综合7777久夜色撩人| 九九热这里只有在线精品视| 日韩久久一区二区三区| 国产偷久久久精品专区| 99久久99视频只有精品| 国产高清精品在线观看| 国产精品一卡二卡在线观看| 国内精品卡一卡二卡三| 天天影视涩香欲综合网| 精品人妻一区二区三区浪潮在线| 一区二区av在线| 日本视频网站在线观看| 你懂的一区二区| 福利视频一二区| 国产精品18久久久久久久久| 日韩精品电影一区二区三区| 粉嫩老牛aⅴ一区二区三区| 亚洲国产日韩在线观看| 日韩在线视频网站| 日韩影片中文字幕| 久久偷看各类wc女厕嘘嘘偷窃| 国产综合网站| 一级片免费在线观看视频| 中文字幕va一区二区三区| 日本中文字幕久久| 亚洲精品www久久久| 黑人极品ⅴideos精品欧美棵| 91情侣偷在线精品国产| 久久五月天小说| 午夜激情av在线| 国产欧美日韩三级| 黄色网址中文字幕| 亚洲欧美日韩区| 成人影院大全| 欧美一区二区三区精美影视 | 欧美大尺度做爰床戏| 久久亚洲一级片| 日韩不卡在线播放| 日韩精品视频在线观看网址| 成年女人在线看片| 精品日韩美女| 国产亚洲福利| www.色多多| 色婷婷久久久久swag精品 | yourporn久久国产精品| 久久精品99国产| 99国产精品国产精品毛片| 中文字幕第15页| 亚洲免费福利视频| 国产一区二区三区朝在线观看| 日韩av大全| 麻豆精品久久精品色综合| 中文字幕精品亚洲| 欧美高清一级片在线| 在线观看午夜av| 国产精品国产三级欧美二区| av成人天堂| 欧美图片第一页| 欧美天堂一区二区三区| 精品欧美色视频网站在线观看| 91探花福利精品国产自产在线| 欧美一区二区三区免费看| 日本xxxx免费| 精品美女国产在线| 九色在线视频蝌蚪| 国产日韩精品电影| 欧美成人69av| 中文字幕 亚洲一区| 日本韩国欧美在线| 国产日产一区二区三区| 成人欧美一区二区| 久久国产成人| 久久一级免费视频| 精品久久99ma| 欧美××××黑人××性爽 | 亚洲最大福利视频| 夜夜爽av福利精品导航| 人妻熟人中文字幕一区二区| 日韩欧美一区中文| 成人av观看| 日本丰满大乳奶| 99国产一区二区三精品乱码| 中文字幕 国产精品| 久久天天躁狠狠躁夜夜躁2014| 麻豆一区一区三区四区| 深夜黄色小视频| 亚洲成人免费在线| 麻豆免费在线观看| 欧美高清性xxxxhdvideosex| 国产乱子轮精品视频| 亚洲日本视频在线观看| xxxxx成人.com| 日韩动漫一区| 日本一本在线视频| 在线观看国产一区二区| 深夜国产在线播放|