精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI記憶偽裝被戳穿!GPT、DeepSeek等17款主流大模型根本記不住數字

人工智能
最近,來自約翰?霍普金斯大學與中國人民大學的團隊設計了三套實驗,專門把關鍵線索藏在上下文之外,逼模型「憑記憶」作答,從而檢驗它們是否真的在腦海里保留了信息。

在進入本文之前,我們先來玩個 10 秒小游戲:

  • 在心里選一個「1-10」的整數。
  • 現在設想我問:「你想的是 5 嗎?」
  • 如果聽到是自己的數字,你會本能地答 Yes,其余統統 No。

這件小事背后其實考驗的是你大腦的工作記憶 —— 保持一個念頭、隨時對比外部問題并作出一致回應。

圖 1: 當 ChatGPT 告訴我們他心中已經想好一個數字,并回答該數字不是 4。我們要如何判斷 ChatGPT 是否在說謊?

同樣的小游戲,大模型會如何反應呢?它們是否真的能做到像人類一樣,不輸出但在心中想好一個數字?我們又如何檢驗?

最近,來自約翰?霍普金斯大學與中國人民大學的團隊設計了三套實驗,專門把關鍵線索藏在上下文之外,逼模型「憑記憶」作答,從而檢驗它們是否真的在腦海里保留了信息。

  • 論文標題:LLMs Do Not Have Human-Like Working Memory
  • 論文鏈接:https://arxiv.org/abs/2505.10571
  • 作者:Jen-Tse Huang(黃任澤)、Kaiser Sun、Wenxuan Wang、Mark Dredze

一、什么是工作記憶?如何測量人類的工作記憶?傳統評估為什么不夠?

在人類大腦里,工作記憶(Working Memory)負責把剛獲得的信息保留幾秒到幾十秒,并在此基礎上進行推理、計算、對話等復雜操作。沒有它,人會前后矛盾、無法心算,也難以進行連貫交流。

而大模型常被比作「會說話的大腦」。如果它們缺少這一能力,離真正的「通用人工智能」就還差關鍵一塊拼圖。

以往工作常常使用 N-Back Task 來評估大模型的工作記憶。受試者看到(或聽到)一串字母 / 數字,并需持續回答「當前字母 / 數字是否與 N 步之前相同?」 難度隨 N 增大而增加,被廣泛用作神經影像和認知心理實驗的標準工具。

但是直接拿來直接測 LLM 并不合適。人類測試時僅能看到當前的字母 / 數字,而 LLM 輸入窗口內本身就包含全部歷史 token,「回看 N 步」并非真正的內部記憶調用,而是簡單的文本匹配。

圖 2: 為人類設計的評估工作記憶的常用泛式:N-Back Task。受試者看(聽)到一連串字母 / 數字序列,并持續回答「當前字母 / 數字是否與 N 步之前相同?」

二、三大實驗逐個拆解 LLM 的「記憶漏洞」

實驗 1: 數字猜謎(Number Guessing Game)

任務流程:大模型先在心里想好一個數字,用戶重復提問「你想的是 X(1-10)嗎?」重復 2000 次。統計每個數字大模型回答「是」的頻率。

評測要點:1-10 上回答「是」的概率和必須為 1,即 10 個數字總得有一個 Yes。

圖 3: 17 個模型對每個數字回答「是」的分布情況。

團隊統計了來自 5 個模型家族的 17 個模型,發現大部分模型在所有情況下居然都會回答「否」(即在圖中全為 0)!團隊又進一步統計了每個模型的概率加總:

圖 4: 17 個模型對每個數字回答「是」的概率加總。

結果發現僅有 GPT-4o-2024-08-06 以及 LLaMA-3.1-8B 版本做到了能在概率加總上接近 1。而其他模型,不管來自哪個模型家族,不管是不是推理模型,都全軍覆沒,模型根本沒有在「腦內」存數字!

圖 5: GPT-4o-2024-08-06 模型對其他數字范圍回答「是」的分布情況。

彩蛋:在所有測試里,LLM 都對數字 7(甚至 17,37)情有獨鐘 —— 看來「人類幸運數字」迷信也傳染給了模型!

實驗 2: 是?非問答(Yes?No Game)

任務流程:在心里選好一個具體物體(如「鉛筆」),然后僅用 Yes/No 回答一連串比較:是否比 X 重?比 Y 長?比 Z 大?

人類會如何做?每次遇到新的問題的時候,把內心想的物體與問題里的物體做比較,輕輕松松作答。若沒有工作記憶呢?如果做不到在心中想好具體的物體,在每次遇到新問題時,只能回去檢查之前的所有問題與答案,推理要如何回答新問題才能避免跟之前自相矛盾。

團隊持續問大模型 250 次問題,并統計了最終大模型止步于第幾個問題的直方圖:

圖 6: GPT-4o-2024-08-06 以及 GPT-4o-Mini-2024-07-18 模型在自相矛盾前回答問題數量的頻率直方圖。

結果發現問到 20?40 題時,GPT?4 級別模型開始露餡:「比汽車大」同時又「比足球小」之類的尺寸悖論橫飛。長上下文(Long-Context)推理能力更強的 GPT-4o 在通過的次數以及平均回答問題數上均超過更弱的 GPT-4o-Mini,但總計 200 次測試中也僅僅有 27 次成功通過。這說明大模型僅通過其長上下文能力在完成任務,而非一個一致的工作記憶。

實驗 3: 數學魔術(Math Magic)

任務流程:心中記住 4 個隨機數(如 3?5?2?9),然后依次執行 10 步心算:復制、置底、插入、刪除、…… 最終理論上剩下 2 個相同的數。

團隊沿用實驗 1 中的 17 個模型,統計它們最后 2 個數字相同的概率:

圖 7: 17 個模型在數學魔術中的準確率,下圖為使用 CoT 的模型以及推理模型(LRM)。

結果發現主流模型正確率普遍非常低。研究者嘗試加 CoT 也沒用。 DeepSeek?R1 以 39% 勉強排名第一,但仍有巨大提升空間。值得注意的是模型表現與實驗 1 一致 ——LLaMA-3.1-8B 效果超群。

三、小結

論文共測試 GPT、o1/3/4、LLaMA、Qwen、DeepSeek 等 17 個熱門模型,無一通過三項考驗:

  • LLaMA?3.1?8B 在數字猜謎最接近「人類」—— 概率和 0.98,在數學魔術上不用 CoT 也能超越 o1。
  • DeepSeek?R1 在數學魔術拿到 39.3% 正確率的最高分,但仍遠不到及格線。
  • 體量更大、推理鏈更長≠更好工作記憶;有的升級版甚至退步。

一句話:尚無開源或閉源 LLM 通過「三關」。這意味著什么?

  • 對話更真實?未來要讓 AI 像人一樣「邊想邊聊」,就得補上真正的工作記憶機制,而不僅是無限上下文窗口。
  • 長鏈推理?現有 CoT 更多是把「草稿」寫進提示里,并非模型在腦中運算。
  • 新研究方向!或借鑒認知科學,引入可讀寫的「內存格」;或通過 RL、神經模塊化等方法,讓模型學會在體內保留并操縱隱變量。
責任編輯:趙寧寧 來源: 機器之心
相關推薦

2025-04-27 10:16:56

2025-10-29 12:10:00

Docker云原生運維

2025-07-02 08:47:00

2023-08-10 08:46:52

2025-03-31 08:00:00

AI模型測評

2025-07-28 07:42:08

2025-03-14 11:57:43

2025-06-23 09:12:00

2025-05-08 08:10:25

大模型DeepSeekAPI

2025-06-03 08:32:00

2024-03-28 14:45:56

2023-11-18 09:40:58

數據模型

2018-09-27 18:35:45

邊緣計算

2018-08-20 09:35:00

邊緣計算數據中心網絡

2023-08-30 13:09:43

AI數據

2023-06-05 12:32:48

模型論文

2024-07-12 14:53:42

點贊
收藏

51CTO技術棧公眾號

av手机免费看| 国内av免费观看| 国产视频网站在线| 青青青伊人色综合久久| 日韩中文字幕精品| 伊人免费视频二| 8x8ⅹ拨牐拨牐拨牐在线观看| 99在线精品视频| 国产精品久久久久久久久借妻| 欧美一级片在线视频| 哺乳一区二区三区中文视频| 日韩欧美成人区| 一本一生久久a久久精品综合蜜 | 中出一区二区| 亚洲精品久久久久久久久久久久| 国产精品视频黄色| 欧美高清另类hdvideosexjaⅴ| 2020国产成人综合网| 成人黄色av网站| yjizz国产| 欧美1区2区视频| 亚洲欧美日韩网| 下面一进一出好爽视频| 久久野战av| 亚洲激情成人在线| 国产日韩影视精品| 最新国产の精品合集bt伙计| 日韩av观看网址| 美国一级片在线观看| 精品淫伦v久久水蜜桃| 欧美精品视频www在线观看 | 亚洲第一毛片| 久久久精品一区二区| 色无极影院亚洲| 大桥未久女教师av一区二区| 欧美日韩一级二级三级| 欧美 日韩 国产一区| 麻豆蜜桃在线| 亚洲天堂成人网| 视频在线观看成人| 欧美中文在线| 成人黄色国产精品网站大全在线免费观看 | wwwwxxxx国产| 国产精品15p| 欧美一级电影网站| 中文字幕资源在线观看| 亚洲综合av一区二区三区| 国内成人在线| 精品国产一区二区三区久久狼5月 精品国产一区二区三区久久久狼 精品国产一区二区三区久久久 | 国产真人无码作爱视频免费| 高清在线视频不卡| 亚洲国产精品久久人人爱蜜臀| 久久最新免费视频| 99国产在线播放| 久久精品久久综合| 国产精品嫩草视频| 亚洲天堂视频在线播放| 日本女人一区二区三区| 国产97在线|亚洲| 在线观看日本网站| 久久精品电影| 日韩男女性生活视频| 你懂的国产在线| 亚洲一区二区三区四区五区午夜| 性视频1819p久久| 国产精品815.cc红桃| 国产一区二区三区不卡av| 精品国产一区二区精华| 中文字幕第九页| 精品伊人久久久| 日韩精品欧美激情| 国产毛片久久久久久久| 精品久久久久久久久久久aⅴ| 国产一区二区三区在线观看视频 | 成人黄色一区二区| 欧美成人精品三级网站| 91福利国产精品| 性生活免费在线观看| 97精品资源在线观看| 日韩一区二区麻豆国产| 色哟哟无码精品一区二区三区| 国产精伦一区二区三区| 亚洲美女精品久久| 99精品全国免费观看| 911久久香蕉国产线看观看| 欧美激情精品久久久久久| 国产精品99精品| 麻豆精品91| 91精品一区二区| 国产极品久久久| 91网站在线观看视频| 亚洲天堂电影网| 在线免费观看污| 欧美日韩国产精品一区| 日日摸日日碰夜夜爽av | 亚洲一区中文字幕| 天天操天天干天天爱| 7799精品视频天天看| 日韩欧美视频第二区| 久色乳综合思思在线视频| 欧美日韩精品国产| 久久69国产一区二区蜜臀| 国产精品久久久久久久久久白浆| 免费毛片在线看片免费丝瓜视频 | 亚洲一区二区三区sesese| 国产精品久久久久久免费| 国产成人精品一区二区三区网站观看| 国产亚洲欧美一区二区| 91se在线| 亚洲成人动漫一区| 天天干天天爽天天射| 91综合久久爱com| 亚洲人成电影网站色xx| 欧美成人三级在线观看| 日韩和欧美的一区| 国产精品久久久久免费| 黄色的网站在线观看| 精品女同一区二区三区在线播放 | 成人午夜视频精品一区| 蜜桃在线一区二区三区| 国产精品一区二区三区四区五区| av天在线观看| 欧美性xxxx极品高清hd直播| 香蕉视频xxxx| 欧美国产小视频| 欧美一区二区影院| 亚洲精品国产精品国| 国产精品乱人伦一区二区| 狠狠97人人婷婷五月| 精品视频一区二区三区| 日韩亚洲综合在线| 黄色污污网站在线观看| www.爱久久.com| 波多野结衣 作品| 欧美亚洲二区| 亚洲最新av在线网站| 久久精品视频1| 成人久久久精品乱码一区二区三区| 亚洲在线观看一区| 美女写真久久影院| 日韩国产精品视频| 国产成人在线观看网站| 国产成人精品www牛牛影视| 一本一道久久a久久综合精品| 色综合一本到久久亚洲91| 日韩精品极品在线观看| 日韩免费黄色片| 国产高清一区日本| 国产卡一卡二在线| 日韩专区视频| 久久精品国产69国产精品亚洲| 中日韩av在线| 中文字幕精品—区二区四季| 91蝌蚪视频在线观看| 一呦二呦三呦国产精品| 青青草原一区二区| 男男激情在线| 色婷婷综合久久| 国产精品久久久久无码av色戒| 国产亚洲永久域名| 麻豆蜜桃91| 免费观看一级欧美片| 精品视频—区二区三区免费| 久草国产精品视频| 久久久91精品国产一区二区三区| 黄色动漫网站入口| 精品产国自在拍| 国产一区二区在线免费视频| 超碰免费在线播放| 日韩久久久久久| 久草免费在线视频观看| av一区二区不卡| 亚洲乱码中文字幕久久孕妇黑人| 亚洲精品无吗| 国产精品久久久久免费a∨| 91精彩在线视频| 欧美精品精品一区| 久久久美女视频| av一区二区三区黑人| 日韩一级免费在线观看| 最新国产一区| 成人激情视频网| 男人添女人下部高潮视频在线观看 | 91在线porny国产在线看| 黄色片视频在线免费观看| 成人情趣视频| 91久久极品少妇xxxxⅹ软件| 91在线三级| 这里只有精品视频在线| 国产美女免费看| 亚洲成va人在线观看| 中文字幕在线1| 国产一区二区在线观看免费| 国产手机免费视频| 欧美一区二区性| aa成人免费视频| 在线一区av| 不卡毛片在线看| 天天在线女人的天堂视频| 风流少妇一区二区| 男人靠女人免费视频网站| 欧美色女视频| 国产精品果冻传媒潘| 婷婷综合六月| 欧美大片在线看| av在线免费观看网| 精品国产乱子伦一区| 免费一级a毛片| 亚洲国产精品一区二区久久恐怖片| 人人人妻人人澡人人爽欧美一区| 国产精品1024久久| 九色porny91| 亚洲第一精品影视| 一区二区在线观看网站| 日韩高清在线免费观看| 91久久久在线| 日本综合久久| 97在线观看视频| 综合久久2019| 中文国产亚洲喷潮| 青青草在线播放| 亚洲精品在线三区| 中文字幕av久久爽| 欧美午夜片欧美片在线观看| 九九热国产在线| 国产精品不卡在线观看| 乐播av一区二区三区| www.av亚洲| 免费不卡的av| 国产一区二区三区四区五区美女| 国产免费人做人爱午夜视频| 91久久久久| 国产在线视频综合| 婷婷久久国产对白刺激五月99| 欧美大香线蕉线伊人久久国产精品| 97久久亚洲| 亚洲影院色无极综合| 婷婷丁香久久| 国产精品视频永久免费播放| 精品91久久| 奇米影视亚洲狠狠色| 福利影院在线看| 欧美激情亚洲激情| 蜜桃成人365av| 久久99热精品| 手机电影在线观看| 欧美高清videos高潮hd| av软件在线观看| 久久久国产精品x99av | 国产乱人乱偷精品视频a人人澡| 色婷婷久久99综合精品jk白丝| 久久狠狠高潮亚洲精品| 亚洲成va人在线观看| 国产性xxxx高清| 精品国产精品自拍| 中文字幕激情小说| 91成人在线精品| 免费黄色一级大片| 欧美日韩一区二区在线观看 | 亚洲精品卡一卡二| 亚洲视频在线观看三级| 天堂网avav| 亚洲综合区在线| 日韩激情在线播放| 日韩欧美999| 亚洲精品91天天久久人人| 欧美午夜精品一区二区三区| 在线免费观看一级片| 337p亚洲精品色噜噜狠狠| av男人天堂网| 亚洲国产日韩欧美在线图片| 久草在线网址| 日韩中文在线观看| 亚洲成人黄色片| 亚洲成人精品久久久| 深夜视频在线免费| 亚洲性无码av在线| 香蕉视频网站在线观看| 久久不射热爱视频精品| 1234区中文字幕在线观看| 人体精品一二三区| 欧美极品在线| 国产精品免费一区二区| 啄木系列成人av电影| 亚洲不卡1区| 97色伦图片97综合影院| 日韩一级片免费视频| 日韩精品一二三| 免费人成视频在线播放| 91亚洲资源网| 91大神福利视频| 亚洲一级二级三级| 成年人视频免费| 日韩欧美中文字幕精品| 青青草在线免费视频| 久久亚洲精品中文字幕冲田杏梨| caoporn视频在线| 国产精品日韩专区| 加勒比色综合久久久久久久久| 欧美日韩在线高清| 欧美三级视频| 天天操天天爽天天射| 国产白丝精品91爽爽久久| 久久精品国产亚洲av久| 亚洲精品中文在线观看| 成人毛片18女人毛片| 欧美一区二区在线免费观看| 三级av在线| 久久99热这里只有精品国产| 欧美xnxx| 精品久久精品久久| 亚洲一级淫片| 搡女人真爽免费午夜网站| 岛国精品在线观看| 国产尤物在线播放| 在线看不卡av| 西西人体44www大胆无码| 久久精品视频中文字幕| 成人一区福利| 国产精品久久久久久久久久久久冷| 三区四区不卡| 粉嫩虎白女毛片人体| av电影天堂一区二区在线| 欧美性x x x| 欧美三级中文字幕| 日本电影一区二区在线观看| 久久99热精品这里久久精品| 日日夜夜亚洲精品| 日韩久久不卡| 丝袜亚洲精品中文字幕一区| 日韩精品人妻中文字幕有码| 亚洲免费观看视频| 国产精品伦一区二区三区| 一区二区三区无码高清视频| 中文av在线全新| 久久久久久久国产| 涩多多在线观看| 岛国毛片av在线| 国产女同性恋一区二区| 91精品国产高清久久久久久91裸体| 神马午夜电影一区二区三区在线观看| 最近免费中文字幕视频2019| 欧美片第1页| 狼狼综合久久久久综合网| 亚洲日韩视频| 国产精品久久久久久亚洲色 | 国产成人免费在线观看视频| 色婷婷国产精品| 日本天堂在线| 日韩美女在线播放| 九热爱视频精品视频| 成人av一级片| 91网站黄www| 日本视频网站在线观看| 日韩精品视频三区| 自拍网站在线观看| 欧洲av一区| 日本成人在线一区| 国产精品情侣呻吟对白视频| 欧美在线999| 青青青青在线| 亚洲xxx自由成熟| 欧美精品国产| 日本少妇xxxx| 欧美性猛交xxxx久久久| 韩国中文免费在线视频| 国产精品 欧美在线| 日韩激情图片| 亚洲精品mv在线观看| 亚洲一级二级在线| 三级在线播放| 国产啪精品视频| 综合av在线| 中文字幕在线播放一区| 色综合色狠狠综合色| 在线免费观看黄色网址| 7777精品伊久久久大香线蕉语言| 激情综合亚洲| 不卡一区二区在线观看| 欧美性感一类影片在线播放| 国产在线二区| 国产一区二区三区无遮挡| 久久综合影音| 久久精品亚洲a| 亚洲精品一区二区三区福利 | 三级视频在线播放| 国产精品视频资源| 国产精品chinese| 中文字幕国产综合| 制服丝袜中文字幕一区| aa级大片免费在线观看| 日产精品高清视频免费| 黄色日韩网站视频| 日韩女优在线观看| 深夜福利一区二区| 精品视频高潮| 日本国产一级片| 黑人巨大精品欧美一区免费视频| 午夜伦全在线观看| 好吊色欧美一区二区三区四区|