精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

微軟:LLM上下文學習并非真的學習!

發布于 2025-9-23 06:49
瀏覽
0收藏

大模型真的在“上下文學習”嗎?

微軟:LLM上下文學習并非真的學習!-AI.x社區

“大模型在上下文學習(ICL)雖在數學上符合學習定義,但只是對prompt內統計規律的擬合,而非對任務本質的掌握:一旦分布漂一點就翻車;示例夠多時,模型、提示詞、語言本身都不重要了——它只記得統計規律。”

研究動機

正例

反例

幾個例子就能解新任務,看起來像“學”

只是靠預訓練記憶+模板匹配,沒有真正“編碼”新知識

微軟把 PAC 學習框架搬到 ICL 場景,數學上證明 ICL 符合“學習”定義,但經驗上是否 robust 需要大規模實驗驗證。于是做了 189 萬條預測、4 個模型、9 個任務、7 種 prompt 策略,把能想到的變量都 ablate 了一遍。

實驗設計速覽

組件

要點

任務

9 個自動機任務(FSA/PDA),覆蓋正則、上下文無關語言,難度遞進。

分布偏移

訓練 P vs. 測試 Q,δ=‖P?Q‖∞ 最大 0.85,模擬 OOD。

Prompt 策略

0-100 shot、CoT、APO、Word Salad、Direct Encoding……

模型

GPT-4 Turbo / GPT-4o / Mixtral-8×7B / Phi-3.5 MoE

指標

準確率、δ-敏感度斜率、shot-增益斜率

微軟:LLM上下文學習并非真的學習!-AI.x社區

圖 1:每個任務對應一個概率自動機,通過控制轉移概率生成 ID/OOD 數據。

7 種 Prompt 策略

策略縮寫

全稱 / 關鍵說明

主要特點

MP

Modus Ponens
(僅給 exemplar,無 system prompt)

最“裸”的提示,無任務描述,易解析失敗

Desc

Description
(system prompt 里用自然語言說明任務)

常規做法,人類可讀,零樣本即可用

DE

Direct Encoding
(直接把自動機代碼/文法貼進 prompt)

理論計算機科學常用,對 OOD 稍魯棒

APO

Automated Prompt Optimization
(讓 LLM 自己用 dev set 迭代改寫 system prompt)

元提示,自動“搜”出高表現描述

CoT

Chain-of-Thought
(在 system prompt 里要求“一步一步想”)

生成中間推理步,FSM/PDA 類任務常最佳

SoT

Salad-of-Thought
(CoT 的詞匯全部隨機化,僅保留結構)

測“推理結構”vs“詞匯語義”貢獻

Word Salad

把 Desc 的 system prompt 詞匯隨機打亂

測“語義”vs“統計共現”貢獻

9 個自動機任務

覆蓋 FSA(有限狀態自動機) 與 PDA(下推自動機) 兩大復雜度等級,全部用 合成數據 生成,天然支持 ID→OOD 分布偏移。任務簡介如下:

任務

自動機類型

輸入形式

目標

OOD 變化

PARITY

FSA

二進制串

判斷 0 的個數是否為偶

字符出現概率

Pattern Matching

FSA

{a,b,c}*

是否含子串 "abcabb"

字符串長度↑

Reversal

PDA

l#r

l 是否等于 r 的反轉

字母表、長度↑

Stack

PDA

操作序列

模擬棧 push/pop 后是否匹配

序列長度↑

Hamiltonian

FSA

鄰接矩陣 + 路徑

路徑是否哈密頓

圖密度↑

Maze (Complete)

FSA

迷宮 + 路徑段 + 移動

移動能否連接兩段路徑

迷宮尺寸↑

Maze (Solve)

FSA

迷宮 + 完整移動

移動能否從 S 到 E

迷宮尺寸↑

Vending Machine (Ver.)

FSA

物品價目 + 操作序列

最終余額是否一致

序列長度↑

Vending Machine (Sum)

PDA

同上

計算

最終余額(非決策)

序列長度↑

7 條 ICL 關鍵發現

發現

數據說話

① 例子越多,人人變好

50-100 shot 時,模型間差距收斂,平均增益斜率 > 0(表 2)。

② 語言不重要,統計最重要

Word Salad(prompt 詞全隨機)極限性能≈正常 prompt(圖 5)。

③ 任務相似≠性能相似

Pattern Matching(FSA)94% vs. Reversal(PDA)61%,差距 31%(表 1)。

④ OOD 一碰就碎

CoT 對 δ 最敏感,斜率 ?1.4;modus ponens 最魯棒 ?0.4(表 2)。

⑤ 傳統 ML 更抗造

決策樹/kNN 在半數任務平均性能反超 ICL(表 1)。

⑥ 樣本順序影響有限

打亂 exemplar 位置,準確率波動 < 2%(表 7)。

⑦ 標簽污染實驗

隨機標簽也能“學會”——說明模型過度關注表面統計而非規則。

微軟:LLM上下文學習并非真的學習!-AI.x社區

表1:每個模型在各任務上的最高準確率,以及按shot數計算的峰值平均準確率。

微軟:LLM上下文學習并非真的學習!-AI.x社區

表2:各LLM的斜率與準確率,按提示策略與任務平均。而δ斜率接近零且略為負值,表明增加shot可持續提升準確率;但在OOD場景下,這種提升失效

微軟:LLM上下文學習并非真的學習!-AI.x社區

表7:各提示策略在打亂示例(shuffled exemplars)條件下的shot與δ斜率及平均準確率。

微軟:LLM上下文學習并非真的學習!-AI.x社區

在所有任務與模型上取平均,所有提示策略的準確率隨shot數增加均呈正斜率(5.2±1.6),且標準差σ的差距逐漸縮小(-2.6±0.5)。

微軟:LLM上下文學習并非真的學習!-AI.x社區

圖2:從上到下依次為所有任務、PARITY 和 Reversal 的平均準確率結果;Reversal 平均準確率較低且對 OOD 極為敏感,隨 δ 增大,即使 shot 數增加,準確率仍急劇下降。

微軟:LLM上下文學習并非真的學習!-AI.x社區

圖5:在所有模型與任務上取平均,左側為基線提示,右側為 word-salad 提示。

https://arxiv.org/pdf/2509.10414
IS IN-CONTEXT LEARNING LEARNING?
https://github.com/adewynter/is-icl-learning

本文轉載自??PaperAgent??

已于2025-9-23 06:49:48修改
收藏
回復
舉報
回復
相關推薦
国产精品久久久久婷婷二区次| 一区二区三区亚洲变态调教大结局 | 久久中文娱乐网| 久久人人爽人人| 精品无人区无码乱码毛片国产| 日本免费成人| 精品久久久久久亚洲国产300| 亚洲 国产 日韩 综合一区| 国产高清精品软件丝瓜软件| 翔田千里一区二区| 美日韩在线视频| 久久久久久久久久久国产精品| 国产精品原创视频| 午夜精品久久久久久久久久久| 亚洲精品久久区二区三区蜜桃臀 | 亚洲欧美激情四射在线日| 亚洲图色中文字幕| 小视频免费在线观看| 亚洲男人电影天堂| 日韩理论片在线观看| 日韩欧美中文字幕公布| 久久久久99精品成人片| 成人免费高清在线播放| 国产一区二区成人久久免费影院 | 免费在线观看黄色网| av一二三不卡影片| 亚洲专区国产精品| 少妇一级淫片日本| 亚洲少妇一区| 久久久久五月天| 懂色av粉嫩av浪潮av| 女人抽搐喷水高潮国产精品| 91精品综合久久久久久| 热久久精品免费视频| 2018av在线| 亚洲精品中文字幕乱码三区 | 国内自拍一区| 色视频www在线播放国产成人| 香港三级日本三级| 亚洲视频一起| 欧美一区二区三区视频免费播放| 亚洲最大综合网| 欧美性猛交xxx高清大费中文| 亚洲成人综合在线| 成人午夜免费在线视频| 国产不卡在线| 亚洲欧美日韩久久精品| 在线免费观看成人| 久久bbxx| 成人欧美一区二区三区1314| 亚洲精品高清国产一线久久| av网站在线免费观看| 国产三级精品视频| 欧美一区免费视频| 黄色在线视频观看网站| 久久色中文字幕| 欧洲av一区| 免费福利在线视频| 欧美国产精品v| 天天人人精品| 调教视频免费在线观看| 最新热久久免费视频| 一区二区三区四区国产| 日韩精品成人av| 亚洲少妇最新在线视频| 国产人妻互换一区二区| 日韩伦理电影网站| 亚洲妇熟xx妇色黄| 久久久999视频| 日日av拍夜夜添久久免费| 色综合色综合色综合| 88av.com| 999色成人| 精品少妇一区二区三区日产乱码| 亚洲午夜久久久久久久久| 日韩精选在线| 伊人久久久久久久久久久久久| 美女100%露胸无遮挡| 亚洲色图国产| 97在线视频一区| 在线永久看片免费的视频| 免费观看日韩电影| 91九色国产社区在线观看| 国产麻豆一精品一男同| 成人一区二区三区中文字幕| 欧美国产综合视频| 午夜不卡视频| 午夜激情久久久| 嫩草av久久伊人妇女超级a| 精品久久毛片| 亚洲的天堂在线中文字幕| 国产一二三四五区| 欧美va天堂| 精品无人国产偷自产在线| 丰满大乳奶做爰ⅹxx视频| 亚洲瘦老头同性70tv| 色阁综合伊人av| 久久精品国产亚洲AV无码麻豆 | 18国产免费视频| 国产美女av一区二区三区| 久久精品第九区免费观看| 国产一区二中文字幕在线看| 国产精品16p| 日本欧美加勒比视频| 亚洲一区二区三区成人在线视频精品 | av一区二区三区免费| 神马久久精品| 中文字幕一区二区三区不卡| 女人帮男人橹视频播放| 成人涩涩视频| 亚洲第一色在线| 91精品久久久久久久久久久久| 欧美三区视频| 国产精品影片在线观看| 天天干天天干天天干| 亚洲欧洲三级电影| 欧美 日韩 国产一区| 久久99成人| 社区色欧美激情 | 亚洲一区欧美在线| 国产精品亚洲专一区二区三区| 欧美自拍资源在线| a国产在线视频| 欧美大片在线观看| 无码人妻精品中文字幕| 日韩avvvv在线播放| 精品日韩欧美| 成年网站在线视频网站| 欧美一区二区在线观看| 99久久99久久精品免费看小说.| 亚洲欧美视频| 九九九久久久| 国产丝袜在线播放| 在线综合视频播放| 国产探花在线视频| 人人精品人人爱| 日韩欧美电影一区二区| 成人爽a毛片免费啪啪| 亚洲激情第一页| 久草精品视频在线观看| 成人高清视频在线| 久久99久久99精品| 超碰精品在线| 久久久人成影片一区二区三区观看| 国产视频在线一区| 亚洲桃色在线一区| 欧美一级小视频| 亚洲精品午夜av福利久久蜜桃| 国产精品吴梦梦| 欧美13一16娇小xxxx| 欧美日韩一区久久| 国产大屁股喷水视频在线观看| 另类综合日韩欧美亚洲| 亚洲精品日韩精品| 国内自拍亚洲| 久久网福利资源网站| 国产男男gay体育生网站| 日韩毛片视频在线看| 91视频福利网| 国产伊人精品| 国产亚洲情侣一区二区无| 男人av在线播放| 亚洲人成网在线播放| 中文字幕高清在线免费播放| 国产日产欧产精品推荐色| 国产精品久久久毛片| 91精品婷婷色在线观看| 成人av片网址| 亚洲黄色中文字幕| 在线日韩精品视频| 国产免费无遮挡| 亚洲一区二区不卡免费| 岛国精品资源网站| 天堂蜜桃91精品| 中文字幕不卡每日更新1区2区| 麻豆精品久久| 69久久夜色精品国产7777| 久草在线免费福利资源| 欧美日韩国产小视频| 欧美被狂躁喷白浆精品| 成人免费高清视频在线观看| 日日碰狠狠躁久久躁婷婷| 999久久久免费精品国产| 成人在线资源网址| 欧美日韩不卡| 欧美精品在线播放| 男女污污视频在线观看| 欧美精品自拍偷拍| av资源免费观看| 国产精品高潮久久久久无| 2018国产精品| 日本不卡一区二区| 真人抽搐一进一出视频| 欧美综合久久| 国模精品娜娜一二三区| 91麻豆精品国产综合久久久 | 国产一区二区三区黄网站| 久久久免费电影| 日本三级视频在线观看| 亚洲精品98久久久久久中文字幕| 成年人免费高清视频| 亚洲婷婷综合色高清在线| 女尊高h男高潮呻吟| 国产乱妇无码大片在线观看| 日本美女高潮视频| 亚洲国产网站| 女同性恋一区二区| 精品免费一区二区| 国产chinese精品一区二区| 日韩亚洲国产免费| 日本一区二区在线免费播放| 天天色天天射天天综合网| 亚洲最新中文字幕| 欧美 日韩 国产 精品| 在线成人小视频| www.五月婷婷.com| 精品毛片网大全| 欧美成人精品欧美一级| 国产精品国产三级国产aⅴ入口| 右手影院亚洲欧美| 成人黄色网址在线观看| 天天操夜夜操很很操| 蜜桃视频第一区免费观看| 看av免费毛片手机播放 | 国产裸体舞一区二区三区| 黑人一区二区三区四区五区| 中文字幕成人一区| 日韩在线不卡| 视频在线99| 精品国产一区一区二区三亚瑟 | 精品高清一区二区三区| 精品97人妻无码中文永久在线| 中文字幕中文字幕在线一区 | 国产精品熟妇一区二区三区四区| 激情综合网最新| www.色就是色.com| 久久99精品视频| 做a视频在线观看| 久久精品999| 91精品999| 国产一级精品在线| 特黄特黄一级片| 国产又粗又猛又爽又黄91精品| 中文字幕视频三区| 狠狠狠色丁香婷婷综合久久五月| 激情黄色小视频| 久久精品72免费观看| 九九九九九九九九| 国产原创一区二区三区| 久草福利在线观看| 国产成人精品亚洲午夜麻豆| 日本xxxx免费| www.av精品| 大又大又粗又硬又爽少妇毛片 | 亚洲成人a级片| 成人天堂噜噜噜| 精品视频一二| 国产精品9999久久久久仙踪林| 久久a爱视频| 欧美久久久久久| 日韩高清欧美| 国产91视频一区| 99riav1国产精品视频| 免费无码国产v片在线观看| 久久精品人人做人人爽电影蜜月| 97公开免费视频| 麻豆国产精品视频| 久久久久久国产精品日本| 成人av免费观看| 国产美女免费无遮挡| 1区2区3区国产精品| 久久午夜无码鲁丝片| 欧美午夜精品久久久久久人妖 | 日韩女优电影在线观看| 熟妇人妻av无码一区二区三区| 日韩精品中文字幕在线播放| 在线观看国产原创自拍视频| 美女视频黄免费的亚洲男人天堂| 91av久久| 国产精品一区二区三区久久久| 日韩精品成人在线观看| 久久国产精品久久精品国产| 成人激情在线| av日韩一区二区三区| 久久久国产亚洲精品| 亚洲综合在线一区二区| 99精品偷自拍| 欧美肥妇bbwbbw| 欧美日韩在线视频观看| 国产情侣激情自拍| 亚洲精品一区二区网址| 超碰porn在线| 国产99久久精品一区二区| 日韩精品视频在线看| 秋霞毛片久久久久久久久| 欧美区一区二| 亚洲国产高清av| 99久久免费国产| 极品久久久久久| 在线免费一区三区| 你懂的网站在线| 久热精品在线视频| 浪潮色综合久久天堂| 国产欧美韩日| 伊人情人综合网| 欧美亚洲日本在线观看| av成人动漫在线观看| 欧美卡一卡二卡三| 欧美在线观看一区| 亚洲欧洲精品视频| 欧美成人高清视频| 日韩av懂色| 日产国产精品精品a∨| 日韩午夜精品| 亚洲成人激情小说| 国产精品传媒入口麻豆| 中文字幕精品无| 亚洲精品狠狠操| 男女视频在线| 亚洲mm色国产网站| 欧美一区二区三区激情视频| 高清在线观看免费| 成人午夜精品在线| 国产精品老熟女一区二区| 欧美少妇性性性| www 日韩| 国产精品成人va在线观看| 天天久久夜夜| ww国产内射精品后入国产| 国产99精品国产| 欧美精品xxxxx| 日韩一级片在线观看| 黄色一级片在线观看| 国产欧美在线视频| 久久成人综合| 午夜免费福利视频在线观看| 亚洲国产成人在线| 中日韩在线观看视频| 亚洲人成电影网站色xx| 日韩大尺度黄色| 日本亚洲导航| 美女网站在线免费欧美精品| 高清国产在线观看| 欧美日韩亚洲综合在线 | 可以在线观看的av| 国产精品 欧美在线| 亚洲成在人线免费观看| 韩国一区二区av| 欧美经典三级视频一区二区三区| 黄色片视频免费| 在线不卡国产精品| 国产精品99| 艳母动漫在线观看| 国产精品91一区二区| 五月天婷婷丁香| 日韩成人在线视频| 亚洲成人不卡| 亚洲精品9999| 国产麻豆视频精品| 日本三级网站在线观看| 日韩精品视频免费专区在线播放| 欧美极度另类| 一区二区三区四区五区精品 | 精品久久一区二区三区蜜桃| 国产精品综合色区在线观看| 国产真人做爰视频免费| 在线播放/欧美激情| 黄色的视频在线观看| 蜜桃网站成人| 久久99久久精品欧美| 黄色小视频在线免费看| 亚洲欧美日韩一区二区在线| 欧美xxxx网站| www.日本少妇| 国产欧美日韩在线| 国产三级小视频| 2025国产精品视频| 日韩精品dvd| 国产免费a级片| 在线观看欧美精品| 激情av在线| 日韩av电影免费播放| 国产尤物一区二区在线| 成人午夜视频在线播放| 久久人人爽人人爽人人片亚洲| 精品国产乱子伦一区二区| 韩国视频一区二区三区| 一区二区三区在线观看欧美 | 欧美1区2区3区4区| 精品亚洲一区二区三区四区| 亚洲一区欧美一区| av播放在线| 国内精品久久久久久久果冻传媒| 青椒成人免费视频| 国产无遮挡免费视频| 中文字幕九色91在线| 国产精品极品| 国产乱女淫av麻豆国产| 一本高清dvd不卡在线观看| 在线三级中文|