精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

使用“反事實任務(wù)”評估大型語言模型

發(fā)布于 2024-7-9 10:34
瀏覽
0收藏

?LLMs的智能本質(zhì)是什么?

在之前的文章中,我談到了評估大型語言模型能力的困難。這些模型在許多基準測試中表現(xiàn)出色,但我們通常不知道基準測試中的測試項目,或足夠相似的項目,是否出現(xiàn)在訓(xùn)練數(shù)據(jù)中。這些模型是在進行一般性的理解和推理,還是在進行AI研究員Subbarao Kambhampati所說的“近似檢索”——依賴于模型訓(xùn)練數(shù)據(jù)中包含的文本模式?

反事實任務(wù)范式

反事實任務(wù)范式可以幫助回答這個問題。在這個范式中,模型在成對的任務(wù)上進行評估,這些任務(wù)需要相同類型的抽象和推理,但對于每一對任務(wù),第一個任務(wù)的內(nèi)容可能與訓(xùn)練數(shù)據(jù)相似,而第二個任務(wù)(“反事實任務(wù)”)的內(nèi)容被設(shè)計成不太可能與訓(xùn)練數(shù)據(jù)相似。

例如,論文《Reasoning or Reciting: Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks》(《推理還是背誦:通過反事實任務(wù)探索語言模型的能力和局限性》)研究了GPT-4在判斷一組四步開局棋是否合規(guī)時的表現(xiàn)。GPT-4似乎對國際象棋有很好的理解;當給出以下提示時,它能夠以接近90%的準確率回答“是”或“否”:

你是一名國際象棋棋手。給定一個開局,確定這個開局是否合法。開局不需要是一個好的開局。如果所有棋步都合法,則回答“是”。如果開局違反任何國際象棋規(guī)則,則回答“否”。新的開局“1.e4 e6 2.Be2 Bc5”是否合法?讓我們一步一步來思考。

作者的這個任務(wù)的反事實版本是要求GPT-4想象一個新的國際象棋變體,其中一切都相同,除了騎士和主教交換了初始位置。以下是該任務(wù)的示例提示:

你是一名國際象棋棋手。你正在玩一個國際象棋變體,其中每種顏色的騎士和主教的起始位置互換。騎士放在主教以前的位置,主教放在騎士以前的位置。給定一個開局,確定這個開局是否合法。開局不需要是一個好的開局。如果所有棋步都合法,則回答“是”。如果開局違反任何國際象棋規(guī)則,則回答“否”。在這種自定義變體下,新的開局“1.e4 e6 2.Nfe2 Nc5”是否合法?讓我們一步一步來思考。

這種國際象棋版本的例子在GPT-4的訓(xùn)練數(shù)據(jù)中出現(xiàn)的可能性要小得多。作者(以及我自己的)直覺是,理解國際象棋的人類可以很容易地將他們的知識適應(yīng)這種新版本。然而,GPT-4在這個反事實任務(wù)上的準確率下降到大約54%(隨機猜測將產(chǎn)生50%的準確率)。

作者展示了幾種其他類型的任務(wù),也有類似的效果。他們得出結(jié)論,大型語言模型表面上的推理能力可能在很大程度上依賴于訓(xùn)練數(shù)據(jù)中的模式,即“近似檢索”而非一般的抽象推理能力。

Meta的Yann LeCun在X(推特)上表示贊同:

使用“反事實任務(wù)”評估大型語言模型-AI.x社區(qū)

ASU的Subbarao Kambhampati表示贊同:

使用“反事實任務(wù)”評估大型語言模型-AI.x社區(qū)

另一篇使用這種評估范式的論文是《Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve》(《自回歸余燼:通過訓(xùn)練任務(wù)理解大型語言模型》)。“自回歸余燼”這個短語是對另一篇知名LLM論文《Sparks of AGI》(《AGI火花》)標題的幽默戲仿。其觀點是,由于像GPT-4這樣的LLM是通過自回歸訓(xùn)練的(即預(yù)測輸入中的下一個標記),它們的行為將反映自回歸所帶來的偏見。

例如,考慮將句子中的單詞順序顛倒的簡單任務(wù):

輸入:paintings. the with pleased totally not was he True,

正確輸出:True, he was not totally pleased with the paintings.

你可能會認為執(zhí)行此任務(wù)的能力不依賴于句子中的特定單詞。然而,當輸出句子是可能的(即,根據(jù)前一個標記計算出的每個標記的概率高)時,GPT-3.5和GPT-4在這個任務(wù)上的表現(xiàn)都很好;但在輸出句子不太可能時,這些系統(tǒng)在該任務(wù)上的表現(xiàn)要差得多,例如,對于這個例子:

輸入:paintings. the with pleased he totally was not True,

正確輸出:True, not was totally he pleased with the paintings.

以下是總體表現(xiàn)情況,與LLM計算的輸出句子的概率對比繪制的圖表:

使用“反事實任務(wù)”評估大型語言模型-AI.x社區(qū)

盡管輸出句子的概率無關(guān)緊要,但LLM的訓(xùn)練目標是預(yù)測可能的下一個標記,這泄露到了模型在任務(wù)上的表現(xiàn)中——這是一種自回歸的痕跡。論文中給出了更多的例子。

許多其他“壓力測試”LLM推理能力的論文也顯示了類似的結(jié)果。在本文結(jié)尾,我提供了各種關(guān)于這一主題的論文鏈接,供讀者跟進。

總之,LLM似乎具有一定的推理能力,但如果不對它們進行壓力測試(例如,通過反事實任務(wù)),就無法得出它們在一般情況下進行推理,而不是依賴于其訓(xùn)練數(shù)據(jù),以無法泛化到分布外示例的方式進行推理的結(jié)論。

在下一篇文章中(即將發(fā)布),我將描述我的團隊正在進行的工作,即應(yīng)用反事實任務(wù)范式來壓力測試LLM是穩(wěn)健和普遍類比推理者的說法。

附錄:使用反事實任務(wù)(或相關(guān)壓力測試)評估LLM的論文

Wu, Z., Qiu, L., Ross, A., Akyürek, E., Chen, B., Wang, B., Kim, N., Andreas, J., & Kim, Y. (2023). 《Reasoning or reciting? Exploring the capabilities and limitations of language models through counterfactual tasks》. arXiv preprint arXiv:2307.02477.

McCoy, R. T., Yao, S., Friedman, D., Hardy, M., & Griffiths, T. L. (2023). 《Embers of autoregression: Understanding large language models through the problem they are trained to solve》. arXiv preprint arXiv:2309.13638.

Miceli-Barone, A. V., Barez, F., Konstas, I., & Cohen, S. B. (2023). 《The larger they are, the harder they fail: Language models do not recognize identifier swaps in Python》. arXiv preprint arXiv:2305.15507.

Shapira, N., Levy, M., Alavi, S. H., Zhou, X., Choi, Y., Goldberg, Y., Sap, M. & Shwartz, V. (2023). 《Clever Hans or neural theory of mind? Stress testing social reasoning in large language models》. arXiv preprint arXiv:2305.14763.

Verma, M., Bhambri, S., & Kambhampati, S. (2024年3月). 《Theory of Mind abilities of Large Language Models in Human-Robot Interaction: An Illusion?》. In Companion of the 2024 ACM/IEEE International Conference on Human-Robot Interaction (pp. 36-45).

Srivastava, S., PV, A., Menon, S., Sukumar, A., Philipose, A., Prince, S., & Thomas, S. (2024). 《Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap》. arXiv preprint arXiv:2402.19450.

Lewis, M., & Mitchell, M. (2024). 《Using counterfactual tasks to evaluate the generality of analogical reasoning in large language models》. arXiv preprint arXiv:2402.08955.

本文轉(zhuǎn)載自 ??MoPaaS魔泊云??,作者: Melanie mitchell

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
超碰人人在线| 一区二区www| 台湾佬综合网| 91成人看片片| 99亚洲精品视频| 亚洲黄色精品视频| 麻豆精品91| 久久久av网站| 污污内射在线观看一区二区少妇| 在线免费三级电影网站| 国产精品美女久久久久aⅴ国产馆 国产精品美女久久久久av爽李琼 国产精品美女久久久久高潮 | 久久免费99精品久久久久久| 不卡av电影在线| 91成人精品视频| 日韩高清有码在线| av中文字幕网址| 在线毛片观看| 亚洲精品中文在线观看| 欧美精品亚洲精品| wwwav网站| 丝袜诱惑亚洲看片| 欧美另类xxx| 东京热无码av男人的天堂| 操欧美女人视频| 欧美三区在线观看| 成人一对一视频| 老司机99精品99| 久久久久久久久久久久久女国产乱 | 日本vs亚洲vs韩国一区三区| 欧美激情亚洲激情| 成人性视频免费看| 在线视频亚洲专区| 亚洲成人av在线播放| 爱爱爱爱免费视频| 日韩电影大全网站| 婷婷久久综合九色综合绿巨人| 不卡中文字幕在线| 国产视频精品久久| 99久精品国产| 国产日韩欧美亚洲一区| 国产模特av私拍大尺度| 免费看黄色91| 国产成+人+综合+亚洲欧洲 | 无码精品一区二区三区在线播放| av日韩在线免费观看| 在线免费观看日本一区| 欧美日韩亚洲一| 密臀av在线播放| 一区二区三区中文免费| www.午夜色| 欧美极品视频| 国产精品毛片无遮挡高清| 牛人盗摄一区二区三区视频 | 国产午夜精品视频| 国产美女免费无遮挡| 欧美三级自拍| 精品一区二区三区四区在线| 在线视频 日韩| 精品无人区一区二区| 精品国产乱码久久久久久浪潮| 在线免费看v片| 亚洲老司机网| 91精品国产美女浴室洗澡无遮挡| 看看黄色一级片| 在线免费成人| 日韩视频一区二区| 香蕉在线观看视频| 精品一区二区男人吃奶| 日韩电影中文字幕在线| 性欧美成人播放77777| 亚洲va久久久噜噜噜久久| 亚洲乱码一区二区| 欧美 日韩 国产 成人 在线观看 | 国产二区国产一区在线观看| 97人人模人人爽人人少妇| 精品久久在线观看| 成人免费毛片app| 精品久久蜜桃| 黄色片在线免费看| 国产精品你懂的| 波多野结衣激情| 色图在线观看| 欧美日韩一区二区三区| 国内自拍视频一区| 先锋影音网一区二区| 日韩欧美一区二区视频| 欧美夫妇交换xxx| 蜜桃精品wwwmitaows| 中文字幕在线亚洲| 欧美激情精品久久| 国产精品老牛| 成人在线播放av| 六月婷婷综合网| 久久五月婷婷丁香社区| 亚洲 欧洲 日韩| 天堂а√在线最新版中文在线| 91传媒视频在线播放| 黄色a级三级三级三级| 欧美天堂社区| 久久视频国产精品免费视频在线| 国产亚洲第一页| 日本最新不卡在线| http;//www.99re视频| 你懂的在线网址| 日韩一区欧美一区| 超碰97人人射妻| 玖玖玖视频精品| 亚洲性生活视频| 免费视频一二三区| 美女视频黄久久| 精品国产一区二区三区麻豆小说| 一级毛片视频在线| 午夜激情久久久| 精品亚洲视频在线| 亚洲ab电影| 欧美激情手机在线视频| 一级黄色片网站| 91亚洲永久精品| 佐佐木明希av| 国产美女久久| 精品亚洲一区二区三区在线播放 | 国产精品成熟老女人| 亚洲乱码精品久久久久..| 国产欧美日韩精品一区| 97视频久久久| 日韩成人在线看| 最好看的2019的中文字幕视频| 国产精品18p| 国产一区在线不卡| 亚洲人体一区| 欧美不卡高清一区二区三区| 亚洲精品国产福利| 欧美日韩亚洲国产另类| 六月婷婷色综合| 日产精品一线二线三线芒果| 超碰在线公开| 亚洲第一视频网| 欧美三根一起进三p| 蜜臀av性久久久久蜜臀aⅴ流畅| 久久综合婷婷综合| 成年女人在线看片| 亚洲电影免费观看高清完整版在线观看| 999精品在线视频| 另类的小说在线视频另类成人小视频在线 | 日韩精品一区二区三区四| 亚洲美女色播| 北条麻妃在线一区二区| 一级特黄色大片| 国产精品嫩草99a| 五月婷婷丁香综合网| 加勒比久久综合| 日韩av片免费在线观看| 色久视频在线播放| 欧美日韩精品在线视频| 91av在线免费| 国产精品视区| 欧洲国产精品| 国产在线|日韩| 一区二区三区无码高清视频| 无码人妻精品一区二区三区蜜桃91 | 又黄又色的网站| 国内精品美女在线观看| 91亚洲精品一区二区| 国产黄色小视频在线| 欧美一区二区免费观在线| 中文字幕av播放| 国产成人精品一区二区三区网站观看| 久久久无码中文字幕久...| 麻豆一二三区精品蜜桃| 欧美劲爆第一页| 欧美特黄一级视频| 狠狠躁夜夜躁人人爽超碰91| 亚洲AV无码国产成人久久| 日韩电影一区二区三区| 亚洲乱码一区二区三区三上悠亚 | 国产精品久久久久久久天堂第1集 国产精品久久久久久久免费大片 国产精品久久久久久久久婷婷 | 国模精品一区二区| 欧美网站大全在线观看| 欧美日韩午夜视频| 成人综合激情网| 国产在线青青草| 日韩毛片视频| 91精品国自产在线观看| 爱啪啪综合导航| 亚洲天堂影视av| 国产片在线播放| 午夜精品久久久久久久99樱桃| 丝袜美腿中文字幕| 麻豆精品视频在线| 欧洲精品一区二区三区久久| 在线成人动漫av| 亚洲一区二区三区777| free性m.freesex欧美| 夜夜嗨av一区二区三区免费区 | 国产一区二区成人久久免费影院| 青草视频在线观看视频| 狠狠做深爱婷婷综合一区| 91在线观看免费高清完整版在线观看| 爱啪啪综合导航| www日韩中文字幕在线看| 男人天堂手机在线观看| 在线观看视频欧美| 国产一卡二卡在线播放| 日本一区二区在线不卡| 久久久久亚洲AV成人网人人小说| 日韩精品午夜视频| 六月婷婷激情综合| 欧美丝袜丝交足nylons172| 国产91aaa| 国产精品久久久久久久久免费高清 | 欧美日韩1234| 国产成人一级片| 亚洲激情男女视频| 国产午夜福利一区| av中文一区二区三区| 亚洲精品在线视频播放| 久久国产精品毛片| 欧美久久在线观看| 久久久久蜜桃| 亚洲高清在线播放| 西瓜成人精品人成网站| 91在线播放视频| 成人国产激情| 91av在线免费观看| 久久香蕉av| 欧美精品一本久久男人的天堂| 久久精品蜜桃| 日韩国产欧美精品在线| 性少妇videosexfreexxx片| 欧美日韩色一区| 日本中文字幕久久| 亚洲不卡在线观看| 久久久久久久久久久久久女过产乱| 国产拍揄自揄精品视频麻豆| 中文字幕 亚洲一区| 丁香天五香天堂综合| 亚洲av毛片在线观看| 精品亚洲欧美一区| 手机免费av片| 麻豆成人免费电影| 亚洲综合日韩欧美| 欧美aaaaaa午夜精品| 亚洲黄色av网址| 视频一区二区不卡| 亚洲少妇第一页| 日韩精品乱码免费| 999在线免费视频| 日本怡春院一区二区| 国产精品亚洲a| 久久综合中文| 久久午夜夜伦鲁鲁一区二区| 三级不卡在线观看| 国产三级三级三级看三级| 日韩中文字幕区一区有砖一区| 热久久精品国产| 日本成人中文字幕| 亚洲 欧美 日韩系列| 麻豆成人91精品二区三区| 国产原创精品在线| 麻豆91精品视频| 亚洲成人av免费观看| 国产麻豆欧美日韩一区| 久草福利在线观看| 成人激情av网| 亚洲专区区免费| 日本一区二区久久| 97在线观看视频免费| 亚洲伦在线观看| 国产午夜免费视频| 黑人精品xxx一区| aaa在线视频| 欧美日本一区二区在线观看| 国产伦理一区二区| 亚洲精品97久久| 青青操视频在线| 日韩视频在线一区| 色av手机在线| 日韩美女视频中文字幕| 91综合国产| a级国产乱理论片在线观看99| 欧美丝袜足交| 一区二区不卡在线| 亚洲香蕉网站| 日韩欧美精品在线观看视频| 蜜桃视频在线观看一区二区| 九九热视频免费| 972aa.com艺术欧美| 无码人中文字幕| 一区二区成人在线观看| 国产suv精品一区二区33| 欧美高清性hdvideosex| 天天干天天操av| 中文日韩电影网站| 国产在线拍揄自揄拍视频| 日本一本a高清免费不卡| 亚洲综合伊人| 精品在线观看一区二区| 天天综合网91| 国产午夜伦鲁鲁| 国产综合久久久久久鬼色| 亚洲精品女人久久久| ㊣最新国产の精品bt伙计久久| 日本在线视频免费观看| 欧美男男青年gay1069videost| 韩国av电影在线观看| 中文字幕欧美专区| 96av在线| 91传媒在线免费观看| 黄色不卡一区| 黄色免费福利视频| 国产一区欧美日韩| 精品无码在线观看| 精品久久久久久久久久久久久 | 欧美日韩一区综合| 国产一区激情| 三级av免费观看| 久久亚区不卡日本| 黄色小视频在线免费看| 欧美美女黄视频| 国产私人尤物无码不卡| 97超视频免费观看| 日韩三级不卡| 在线视频不卡国产| 日韩国产欧美视频| 中文人妻一区二区三区| 一区二区三区在线免费播放| 91麻豆国产在线| 在线看日韩欧美| a一区二区三区| 国内一区二区三区在线视频| 中文字幕日韩欧美精品高清在线| 在线看的黄色网址| 久久久久久久国产精品影院| 日韩精品在线免费看| 日韩欧美国产高清| h网站久久久| 91久久久在线| 国产精品久久久久久影院8一贰佰 国产精品久久久久久麻豆一区软件 | 九九视频精品在线观看| 91色porny在线视频| 国产无遮挡又黄又爽| 精品人伦一区二区色婷婷| aa在线视频| 4444kk亚洲人成电影在线| 97视频热人人精品免费| 久久婷婷综合色| 国产精品进线69影院| 亚洲系列在线观看| 色狠狠久久aa北条麻妃 | 欧美中文字幕久久| 国内在线精品| 国产精品久久久久久久久久久久| 欧美军人男男激情gay| 日本成人中文字幕在线| 亚洲国产高清aⅴ视频| 在线观看免费高清视频| 最近2019中文字幕在线高清| 欧美另类激情| 波多野结衣激情| 粉嫩在线一区二区三区视频| 久久精品国产av一区二区三区| 精品国产成人在线影院| av电影院在线看| 美女亚洲精品| 美腿丝袜亚洲色图| 日韩欧美国产成人精品免费| 日韩三级.com| 国产高潮在线| 日本在线高清视频一区| 久久国产免费看| 紧身裙女教师波多野结衣| 欧美不卡在线视频| 成人三级高清视频在线看| 女同一区二区| 美国一区二区三区在线播放 | 国产va免费精品高清在线观看 | 成人黄色综合网站| 亚洲熟妇无码乱子av电影| 伊人成人开心激情综合网| 91精品国产一区二区在线观看| 无码人妻精品一区二区蜜桃百度| 不卡大黄网站免费看| 91porny九色| 欧美乱妇40p| 蜜桃精品wwwmitaows| 91看片破解版| 精品高清美女精品国产区| www.国产精品.com| 97人人澡人人爽| 日韩和的一区二区| 波多野结衣不卡视频| 日韩精品视频观看| 日韩专区视频| 黄色一级视频片| 国产精品久久久久久久裸模| 国产1区在线观看| 国产精品男人的天堂| 亚洲午夜黄色| 久久视频一区二区三区| 亚洲第一色在线|