精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

SOTA大模型遇上加密數據評測:Qwen3未破10%,o1也栽了丨上海AI Lab等聯合研究

人工智能 新聞
上海AI Lab等聯合推出的CipherBank評測,用海量真實隱私場景數據和多類型密碼算法,硬核挑戰SOTA大模型。

大語言模型遇上加密數據,即使是最新Qwen3也直冒冷汗!

盡管當前的推理模型在各類基準測試中展現出卓越的性能,但在密碼學這一對邏輯嚴密性細節精確度要求近乎苛刻的專業領域,模型的推理能力仍有待深入探索。

密碼學不僅需要模型具備高階數學運算能力和嚴密的邏輯推理鏈條,更要求其能夠精準識別復雜加密模式中的潛在規律;成功解密需要模型具有極強的綜合推理能力

上海AI Lab等聯合推出的CipherBank評測,用海量真實隱私場景數據和多類型密碼算法,硬核挑戰SOTA大模型。

圖片

CipherBank的評測結果顯示,當前的大語言模型在密碼學解密任務上整體表現不佳,最優模型準確率未能過半絕大多數模型準確率不足20%,表明結構化和符號化推理仍是它們的顯著短板。

在CipherBank評測中,Claude-3.5-Sonnet和o1表現最佳,DeepSeek系列略優于通用模型,而 GPT-4o、Gemini等模型表現平庸,Qwen2.5, Llama3.1, Llama3.3等開源模型表現較差,即使是最新發布的Qwen3系列模型表現也不盡人意,30B和32B的模型準確率均未超過10%;整體顯示當前大模型在解密推理任務上仍存在明顯短板。

CipherBank:專門用來考驗大模型解密能力的測試題庫

CipherBank是一個全面真實精妙的密碼學解密基準測試集。它不僅僅是隨機文本的加密,而是精心構建了貼近現實世界隱私敏感場景的明文數據。

數據:涵蓋5大領域(如個人隱私、金融資產)、14個子領域(如身份信息、銀行信息)、89個細粒度標簽,共262個獨特明文。這些數據反映了真實的加密需求。

算法:包含3大類(替換密碼、置換密碼、自定義密碼)、9種典型及創新加密算法,從經典的Rot13、Vigenère到定制的DualAvgCode、ParityShift、WordShift等。設計了5個難度層級,從基礎到專家,全方位考驗模型的解密能力。

題庫:總共生成了2,358道 經過嚴格驗證的解密題目。每一題,都是對LLM推理能力的嚴峻拷問!

圖片

用研究者的話說:CipherBank,就是要讓LLMs在沒有“場外提示”的情況下,純靠本事闖過重重“密室”。

SOTA 模型實測:集體“滑鐵盧”,最高分未過半

研究團隊邀請了當前AI界的18位“頂流”選手(包括GPT家族、DeepSeek系列、Gemini系列、Claude 3.5、o1系列等)進行了這場硬核PK。

評估采用 3-shot 設置。模型拿到的是幾個明文-密文示例,需要像一位真正的密碼分析師一樣,從這些例子中自主學習加密規則、推斷密鑰,最終才能解密全新的密文。這評估的是真正的推理能力,而不是簡單的“記憶”或“窮舉”。

圖片圖片

集體“不及格”?:令人震驚的是,絕大多數SOTA模型得分慘淡,部分甚至接近零分。即使是表現最好的Claude-3.5和o1,準確率也未能突破50%。這說明,即使是古典密碼解密,對目前的LLMs來說依然是一個巨大的未被攻克的堡壘。

推理模型「略有優勢」:推理優化模型(DeepSeek-R1, o1)的平均表現確實優于通用聊天模型,這再次印證了推理優化在邏輯任務上的價值,但差距并沒有拉開到大家想象的那么大。

閉源模型「暫時領跑」:Claude-3.5以顯著優勢領跑,在替換密碼、置換密碼上展現了非凡能力,o1緊隨其后。但DeepSeek-V3/R1等開源模型的進步也很亮眼,正在奮力追趕。

性能差異「驚人」:同類模型在解密任務中的表現差異較大,例如o1與QwQ-32B-Preview的準確率相差幾十倍。

除此之外,研究團隊還對全新發布的Qwen3 32B系列模型進行了測試,發現即使是最新發布的Qwen3模型,測試準確率依舊不足10%

圖片

剝繭抽絲:大模型為何在解密上“犯難”?

為什么LLMs在解密上這么“掙扎”?研究團隊進一步做了細致分析:

怕長文本: 文本越長,模型越容易出錯!與人類解密不同,人類一旦成功找到解密方法之后,便能以近100%的成功率破解,而LLMs的“腦容量”在解密時會受到長度限制。

圖片

怕噪音干擾 :明文中加點兒錯別字或無關信息,模型性能“閃崩”!這暴露了模型在“猜測”而非“推理”——它們不是嚴格按規則解密,而是依賴文本的語義順暢度,一旦語義被破壞,就歇菜了。

怕數字轉換 :加密內容里混入數字?難度瞬間飆升!LLMs在處理涉及數字的轉換規則時顯得尤為吃力。

“提示”依賴癥 :如果在Prompt里直接告訴模型是什么算法,推理模型表現會大幅提升,而通用模型提升有限。這說明推理模型在“有向”推理時更有效,但自主從示例中發現規則的能力還不足。

圖片

錯誤分析:模型到底錯在哪兒?

研究團隊對模型的錯誤輸出進行了細致分類(遺漏/插入、姓名解密錯誤、語義推斷、重組、推理失敗等),將模型的錯誤分布總結為下圖(左圖為Chat model錯誤分布,右圖為Reasoning model的錯誤分布),并發現了一些有意思的現象:

圖片

推理模型「想太多」:有時在簡單的算法(比如Reverse)上,推理模型反而會“過度分析”,繞了遠路最終出錯。

對話模型「愛腦補」:更傾向于生成語義通順但并未完全符合解密規則的文本,容易出現“遺漏/插入”或“重組”錯誤,像是在“自由發揮”。

「姓名識別」的通病 :處理姓名等專有名詞的解密時,模型們普遍容易出錯,這可能是預訓練數據帶來的某種“記憶”干擾。

未來展望

那么,未來的 AI 應該往哪個方向努力,才能征服密碼解密這座“高山”呢?CipherBank的結果為人們指明了幾個關鍵的突破口:

擺脫「過度語義依賴」:讓模型訓練出純粹的、抽象的符號和結構化推理能力,不再僅僅依賴表面文本的“猜意思”或進行“語義補全”,尤其在處理不具備強語義規律的加密數據時。

增強「模式學習與泛化」:提升模型從少量示例中精準對比分析、高效提取隱含加密規則和密鑰的能力,并能將這些規則穩健地泛化應用于各種情況,包括處理混合文本(如數字與字母)以及對抗輕微的噪音干擾。

優化「推理執行的穩定性」:改進模型的思考流程,避免在看似簡單的任務上“過度思考”或陷入不必要的遞歸修正,確保推理過程更加直接、高效和穩定,能夠精確無誤地執行推斷出的解密步驟。

未來,大語言模型有望在密碼學領域取得更加顯著的進展。

項目主頁:https://cipherbankeva.github.io/

論文直達:https://arxiv.org/abs/2504.19093

測試數據:https://huggingface.co/datasets/yu0226/CipherBank

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-01-08 13:08:55

2025-04-29 09:06:00

2025-07-22 12:44:53

2025-09-05 09:02:00

2025-03-05 10:21:04

DeepSeekLVLM

2024-11-05 14:20:00

AI模型

2025-11-05 09:00:29

2025-09-15 08:52:00

AI模型開源

2025-04-29 07:47:27

2025-06-18 09:03:07

2025-09-26 10:59:55

AI模型數據

2025-05-06 00:35:33

2025-07-16 09:05:00

AI評測模型

2025-05-21 09:04:38

2024-09-24 11:01:03

2025-01-23 14:53:15

2024-09-18 09:17:00

OpenAI模型開源

2025-10-24 08:39:41

2025-04-30 10:59:04

2024-09-13 10:06:21

點贊
收藏

51CTO技術棧公眾號

免费看特级毛片| 日本77777| www.中文字幕久久久| 久久国产精品无码网站| 欧美大片免费观看在线观看网站推荐| 久久久久久婷婷| 日韩成人亚洲| 亚洲中国最大av网站| 日韩不卡av| 丁香花免费高清完整在线播放| 久久大逼视频| 久久久久久久999| 免费观看特级毛片| 欧美人体视频| 日韩一区二区在线免费观看| 久久久久久久久久久久久久国产| www免费在线观看| 久久久高清一区二区三区| 亚洲va久久久噜噜噜| 国产成人在线视频观看| 亚洲无中文字幕| 亚洲人成免费电影| 欧美在线一级片| 精品中文字幕一区二区三区四区 | 日韩精品中文字幕视频在线| 国产一区二区在线观看免费视频| 9i看片成人免费高清| 亚洲精品亚洲人成人网| 亚洲欧美成人一区| 国产三级电影在线观看| 91一区一区三区| 97免费高清电视剧观看| 探花国产精品一区二区| 欧美专区在线| 国内精品在线一区| 强行糟蹋人妻hd中文| 欧美大人香蕉在线| 一区二区三区日韩在线| 美女脱光内衣内裤| 秋霞蜜臀av久久电影网免费| 欧美精品一区二区三区高清aⅴ| 在线观看av免费观看| 激情中国色综合| 欧美日韩在线综合| 国产精品天天av精麻传媒| 18video性欧美19sex高清| 亚洲综合清纯丝袜自拍| 成人在线视频一区二区三区| 亚洲男同gay网站| 亚洲人成在线观看一区二区| 亚洲欧洲一二三| 日本三级在线播放完整版| 国产欧美日韩视频一区二区| 日本一区二区三区www| 欧洲毛片在线| 日本一区二区三区在线不卡| 婷婷五月色综合| av色图一区| 亚洲日穴在线视频| 亚洲一区 在线播放| 日本大胆在线观看| 一区二区三区视频在线观看| 国产毛片久久久久久国产毛片| 色女人在线视频| 午夜视频一区二区| 凹凸国产熟女精品视频| 性欧美又大又长又硬| 一本久久a久久免费精品不卡| 日韩欧美精品在线观看视频| 影视一区二区三区| 欧美丰满少妇xxxxx高潮对白| 999久久久精品视频| 亚洲3区在线| 精品国产亚洲一区二区三区在线观看| 50一60岁老妇女毛片| 杨幂一区二区三区免费看视频| 中日韩午夜理伦电影免费| 国产午夜手机精彩视频| 欧美精品首页| 日韩美女免费视频| 91影院在线播放| 国产成人在线视频播放| 久久亚洲一区二区| 毛片在线不卡| 亚洲不卡av一区二区三区| 超碰97人人射妻| 久久er热在这里只有精品66| 日韩欧美国产综合| 9.1成人看片免费版| 亚洲电影影音先锋| 欧美一区二区三区…… | 亚洲欧美日韩在线高清直播| 国精产品视频一二二区| 影音先锋中文字幕一区| 国产精品av网站| 成人激情四射网| 国产三级一区二区三区| 奇米777四色影视在线看| 中日韩脚交footjobhd| 欧美另类久久久品| 中文文字幕文字幕高清| 天天做天天爱天天爽综合网| 97精品视频在线播放| 一区二区三区午夜| 99久久久免费精品国产一区二区| 一区二区精品在线观看| 天堂8中文在线最新版在线| 欧美日韩国产成人在线免费| 人妻少妇精品视频一区二区三区| 99精品视频在线观看播放| 欧美一级电影久久| 国产成人三级在线播放| 中文字幕精品综合| 亚洲熟妇av一区二区三区漫画| 国产日韩欧美中文在线| 国产亚洲视频中文字幕视频| 中文字幕在线字幕中文| 韩日精品视频一区| 日韩在线第一区| 成人勉费视频| 日韩av最新在线| 青青青在线视频| 精品制服美女丁香| 亚洲高清视频在线观看| 日韩免费电影| 日韩精品免费在线播放| 久久精品免费av| 国产乱子伦视频一区二区三区 | 欧美日韩国产欧美日美国产精品| 熟妇高潮精品一区二区三区| 亚洲一级特黄| 99在线首页视频| yellow91字幕网在线| 在线不卡a资源高清| 少妇一级黄色片| 日韩国产高清影视| 午夜欧美一区二区三区免费观看| 中文字幕这里只有精品| 日韩精品小视频| 日韩av电影网| 99麻豆久久久国产精品免费| 欧洲精品一区二区三区久久| **爰片久久毛片| 久久99久久久久久久噜噜| av观看在线免费| 亚洲品质自拍视频网站| 无人码人妻一区二区三区免费| 亚洲综合色站| av日韩免费电影| 男人天堂亚洲| 亚洲第一福利网站| 国产成人无码精品亚洲| 91亚洲国产成人精品一区二区三| 免费看的黄色大片| 免费成人av| 国产精品91久久久| 超碰免费97在线观看| 欧美影片第一页| 亚洲国产精品一区二区久久hs| 美女视频黄 久久| 视色,视色影院,视色影库,视色网 日韩精品福利片午夜免费观看 | jlzzjlzzjlzz亚洲人| 一区二区三区精品在线观看| 国产精品熟妇一区二区三区四区 | 狠狠热免费视频| 手机亚洲手机国产手机日韩| 成人性教育视频在线观看| 亚洲区欧洲区| 亚洲精品久久久久中文字幕二区| 日本中文字幕第一页| 国产欧美精品一区| 成人性生交视频免费观看| 国内成人在线| 欧美精品一区二区三区四区五区| 国产精品99精品一区二区三区∴| 欧美成年人在线观看| 欧美在线 | 亚洲| 一本在线高清不卡dvd| 国产喷水在线观看| 成人激情免费电影网址| 国产精品无码av无码| 亚洲精品91| 免费成人深夜夜行视频| 日韩毛片免费看| 456亚洲影院| 毛片在线看网站| 精品中文视频在线| 国产欧美熟妇另类久久久| 精品久久久久久久中文字幕| 亚洲不卡的av| 91在线观看地址| 亚洲欧美天堂在线| 先锋a资源在线看亚洲| 在线观看免费91| 日韩av不卡一区| 成人网在线视频| 亚洲女色av| 欧美大肥婆大肥bbbbb| 你懂的在线网址| 日韩精品中午字幕| 中文字幕理论片| 精品久久久久久亚洲国产300| 成年人二级毛片| 久久久久久亚洲综合影院红桃| 深夜福利网站在线观看| 丝袜亚洲精品中文字幕一区| 嫩草影院中文字幕| 91亚洲国产成人久久精品| 久久99热只有频精品91密拍| 精品一级视频| 国产在线a不卡| 日韩电影大全网站| 国产91精品久久久久久| 超碰在线观看免费| 一区三区二区视频| 欧洲视频在线免费观看| 亚洲国产成人精品女人久久久 | 夜夜嗨aⅴ一区二区三区| 亚洲成a人片在线不卡一二三区 | 亚洲成人三级| 亚洲欧美国产视频| 天天干视频在线| 精品日产卡一卡二卡麻豆| 国产模特av私拍大尺度| 欧美亚洲国产一区二区三区| 在线观看免费av片| 天天免费综合色| 国产无精乱码一区二区三区| 亚洲精品日日夜夜| 中文字幕另类日韩欧美亚洲嫩草| 国产精品视频一区二区三区不卡| 日本xxxxxxxxx18| 久久丝袜美腿综合| 国产三级视频网站| 26uuuu精品一区二区| 99久久免费看精品国产一区| 成人av网站免费| 亚洲午夜久久久久久久久| 国产福利一区在线观看| 深爱五月综合网| 国产精品中文字幕日韩精品 | 天干夜夜爽爽日日日日| 欧美色视频日本高清在线观看| www..com国产| 欧美视频一区二区三区…| 亚洲免费在线观看av| 黑人巨大精品欧美一区二区免费| 五月婷婷中文字幕| 一本大道久久a久久精二百| 男人日女人网站| 一本大道av伊人久久综合| 免费又黄又爽又猛大片午夜| 欧美中文字幕一区| 亚洲系列在线观看| 56国语精品自产拍在线观看| 99热这里只有精品1| 日韩免费成人网| 欧美一级淫片aaaaaa| 亚洲精品日韩久久久| 国产午夜精品一区理论片| 在线成人激情黄色| 成年视频在线观看| 国产69精品久久久久9999| 电影在线观看一区| 国产精品白丝jk喷水视频一区| 国产精品成人国产| 91九色蝌蚪嫩草| 欧美午夜寂寞| 亚洲va久久久噜噜噜久久狠狠 | 丰满大乳国产精品| 国产视频精品xxxx| 天堂资源在线中文| 欧美激情一区二区三级高清视频 | 欧美性猛交xxxx富婆弯腰| 国产黄色免费视频| 91精品国产综合久久婷婷香蕉| www五月婷婷| 亚洲欧美精品一区| 成人在线免费看片| 97超碰国产精品女人人人爽| www.久久.com| 成人区精品一区二区| 视频一区中文| 日韩中文字幕在线不卡| 香蕉亚洲视频| 爱情岛论坛亚洲自拍| 久久午夜老司机| 欧美手机在线观看| 欧美日韩国产影院| 91中文字幕在线视频| 亚洲国产一区二区三区在线观看| av在线资源网| 午夜精品蜜臀一区二区三区免费| 成人福利片在线| 久精品国产欧美| 亚洲精品一二三区区别| 日韩 欧美 高清| 国产成人av网站| 久久久久久成人网| 亚洲成年人影院| 国产精品高潮呻吟AV无码| 亚洲精品短视频| 直接在线观看的三级网址| 日本三级韩国三级久久| 成人午夜三级| 综合视频免费看| 日本欧美在线看| 三级电影在线看| 亚洲一区二区三区三| 91欧美日韩麻豆精品| 亚洲精品网站在线播放gif| 日韩经典av| 成人免费视频在线观看超级碰| 蜜桃精品wwwmitaows| 国产精品久久久久7777| 国产一区二区三区在线观看免费视频| 国产中年熟女高潮大集合| 亚洲一级二级三级| 亚洲va天堂va欧美ⅴa在线| 日韩有码在线视频| 欧美日韩在线精品一区二区三区激情综合| 国产精品视频免费观看| 欧美+日本+国产+在线a∨观看| jizz大全欧美jizzcom| 国产日韩欧美在线一区| av资源免费观看| 亚洲第一区第一页| 国产第一页在线| 成人三级在线| 亚洲福利国产| 91丨porny丨对白| 亚洲图片欧美色图| 懂色av蜜臀av粉嫩av分享吧| 欧美黄色片免费观看| 日韩精品成人在线观看| 亚洲第一页在线视频| 黄色资源网久久资源365| 日韩一区二区三区四区视频| 欧美日韩一级大片网址| 香蕉视频在线看| 国产精品视频一区二区高潮| 欧美日中文字幕| xxx国产在线观看| 国产精品不卡视频| 国产精品嫩草影院精东| 久久精品国产成人| 免费一区二区三区在线视频| 在线观看18视频网站| 国产丶欧美丶日本不卡视频| 免费在线观看日韩| 亚洲国产欧美日韩精品| 伊人久久av| 日韩中文字幕一区二区| 久久精品国产亚洲aⅴ| 天海翼在线视频| 日韩精品一区二区三区视频 | 国产精品无av码在线观看| 日韩一区二区在线免费| 五月天开心婷婷| 亚洲一区欧美一区| 四虎永久在线精品免费网址| 国产91在线播放九色快色| 日韩www.| 国产伦精品一区二区三区妓女下载 | 日本精品一区二区| 免费av网站大全久久| 丁香花五月激情| 亚洲国产成人精品久久| 天然素人一区二区视频| 欧美 日韩 国产 在线观看| 国产成人高清在线| aaaaaa毛片| 久久精品成人欧美大片古装| 国产一区二区三区亚洲| 污视频免费在线观看网站| 亚洲毛片av在线| 视频午夜在线| 成人网在线免费观看| 夜夜嗨一区二区三区| 制服丨自拍丨欧美丨动漫丨| 日韩精品一区二区三区视频播放| 爱情电影社保片一区| 影音先锋欧美资源| 99在线精品视频| 91超薄丝袜肉丝一区二区| 欧美极品少妇与黑人| 国产欧美高清视频在线| 亚洲国产午夜精品| 色综合天天综合网天天狠天天| 免费av在线网站| 久久久免费看| 国产一区二区不卡老阿姨| 欧美日韩精品区| 久久久国产一区二区三区| 开心激情综合| 激情在线观看视频| 色综合久久天天综合网| 久久免费电影| 亚洲欧美99| 国产亚洲人成网站|