精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

00后國人論文登Nature,大模型對人類可靠性降低

人工智能 新聞
在Scaling-up中,近幾年的benchmarks越來越偏向于加入更多困難的例子,或者給予所謂“權威”來源更多權重,研究員也因此更傾向于優化模型在困難任務上的表現,導致在難度一致性上慢性惡化。

00后國人一作登上Nature,這篇大模型論文引起熱議。

簡單來說,論文發現:更大且更遵循指令的大模型也變得更不可靠了,某些情況下GPT-4在回答可靠性上還不如GPT-3。

與早期模型相比,有更多算力和人類反饋加持的最新模型,在回答可靠性上實際愈加惡化了。

結論一出,立即引來20多萬網友圍觀:

圖片

在Reddit論壇也引發圍觀議論。

圖片

這讓人不禁想起,一大堆專家/博士級別的模型還不會“9.9和9.11”哪個大這樣的簡單問題。

關于這個現象,論文提到這也反映出,模型的表現與人類對難度的預期不符。

換句話說,“LLMs在用戶預料不到的地方既成功又(更危險地)失敗”。

Ilya Sutskever2022年曾預測:

也許隨著時間的推移,這種差異會減少。

然而這篇論文發現情況并非如此。不止GPT,LLaMA和BLOOM系列,甚至OpenAI新的o1模型和Claude-3.5-Sonnet也在可靠性方面令人擔憂。

更重要的是,論文還發現依靠人類監督來糾正錯誤的做法也不管用。

有網友認為,雖然較大的模型可能會帶來可靠性問題,但它們也提供了前所未有的功能。

我們需要專注于開發穩健的評估方法并提高透明度。

圖片

還有人認為,這項研究凸顯了人工智能所面臨的微妙挑戰(平衡模型擴展與可靠性)。

圖片

更大的模型更不可靠,依靠人類反饋也不管用了

為了說明結論,論文研究了從人類角度影響LLMs可靠性的三個關鍵方面:

1、難度不一致:LLMs是否在人類預期它們會失敗的地方失敗?
2、任務回避:LLMs是否避免回答超出其能力范圍的問題?
3、對提示語表述的敏感性:問題表述的有效性是否受到問題難度的影響?

更重要的是,作者也分析了歷史趨勢以及這三個方面如何隨著任務難度而演變。

下面一一展開。

對于第1個問題,論文主要關注正確性相對于難度的演變

從GPT和LLaMA的演進來看,隨著難度的增加,所有模型的正確性都會明顯下降。(與人類預期一致)

然而,這些模型仍然無法解決許多非常簡單的任務。

這意味著,人類用戶無法發現LLMs的安全操作空間,利用其確保模型的部署表現可以完美無瑕。

令人驚訝的是,新的LLMs主要提高了高難度任務上的性能,而對于更簡單任務沒有明顯的改進。比如,GPT-4與前身GPT-3.5-turbo相比。

以上證明了人類難度預期與模型表現存在不一致的現象,并且此不一致性在新的模型上加劇了。

圖片

這也意味著:

目前沒有讓人類確定LLMs可以信任的安全操作條件。

在需要高可靠性以及識別安全操作空間的應用中,這一點尤其令人擔憂。這不禁令人反思:人類正在努力創造的前沿機器智能,是否真的是社會大眾所期望擁有的。

圖片

其次,關于第2點論文發現(回避通常指模型偏離問題回答,或者直接挑明“我不知道”)

相比較早的LLMs,最新的LLMs大幅度地提高了許多錯誤或一本正經的胡說八道的答案,而不是謹慎地避開超出它們能力范圍之外的任務。

這也導致一個諷刺的現象:在一些benchmarks中,新的LLMs錯誤率提升速度甚至遠超于準確率的提升(doge)。

圖片

一般來說,人類面對越難的任務,越有可能含糊其辭。

但LLMs的實際表現卻截然不同,研究顯示,它們的規避行為與困難度并無明顯關聯。

這容易導致用戶最初過度依賴LLMs來完成他們不擅長的任務,但讓他們從長遠來看感到失望。

后果就是,人類還需要驗證模型輸出的準確性,以及發現錯誤。(想用LLMs偷懶大打折扣)

圖片

最后論文發現,即使一些可靠性指標有所改善,模型仍然對同一問題的微小表述變化敏感。

舉個栗子,問“你能回答……嗎?”而不是“請回答以下問題……”會導致不同程度的準確性。

分析發現:僅僅依靠現存的scaling-up和shaping-up不太可能完全解決指示敏感度的問題,因為最新模型和它們的前身相比優化并不顯著。

而且即使選擇平均表現上最佳的表述格式,其也可能主要對高難度任務有效,但同時對低難度任務無效(錯誤率更高)

這表明,人類仍然受制于提示工程

圖片

更可怕的是,論文發現,人類監督無法緩解模型的不可靠性。

論文根據人類調查來分析,人類對難度的感知是否與實際表現一致,以及人類是否能夠準確評估模型的輸出。

結果顯示,在用戶認為困難的操作區域中,他們經常將錯誤的輸出視為正確;即使對于簡單的任務,也不存在同時具有低模型誤差和低監督誤差的安全操作區域。

圖片

以上不可靠性問題在多個LLMs系列中存在,包括GPT、LLaMA和BLOOM,研究列出來的有32個模型

這些模型表現出不同的Scaling-up(增加計算、模型大小和數據)以及shaping-up(例如指令FT、RLHF)。

圖片

除了上面這些,作者們后來還發現一些最新、最強的模型也存在本文提到的不可靠性問題:

包括OpenAI的o1模型、Antropicic的Claude-3.5-Sonnet和Meta的LLaMA-3.1-405B。

并有一篇文檔分別舉出了例子(具體可查閱原文檔)

圖片

此外,為了驗證其他模型是否存在可靠性問題,作者將論文用到的測試基準ReliabilityBench也開源了。

這是一個包含五個領域的數據集,有簡單算術(“加法”)、詞匯重組(“字謎”)、地理知識(“位置”)、基礎和高級科學問題(“科學”)以及以信息為中心的轉換(“轉換”)。

圖片

作者介紹

論文一作Lexin Zhou(周樂鑫),目前剛從劍橋大學CS碩士畢業(24歲),研究興趣為大語言模型評測。

在此之前,他在瓦倫西亞理工大學獲得了數據科學學士學位,指導老師是Jose Hernandez-Orallo教授。

圖片

個人主頁顯示,他曾有多段工作實習經歷。在OpenAI和Meta都參與了紅隊測試。(Red Teaming Consultancy )

圖片

關于這篇論文,他重點談到:

通用人工智能的設計和開發需要進行根本性轉變,特別是在高風險領域,因為可預測的錯誤分布至關重要。在此實現之前,依賴人類監督是一種危險。

評估模型時,考慮人類認為的難度和評估模型的回避行為,可以更全面地描述模型的能力和風險,而不僅僅關注在困難任務上的表現。

圖片

論文也具體提到了導致這些不可靠性的一些可能原因,以及解決方案:

 在Scaling-up中,近幾年的benchmarks越來越偏向于加入更多困難的例子,或者給予所謂“權威”來源更多權重,研究員也因此更傾向于優化模型在困難任務上的表現,導致在難度一致性上慢性惡化。

在shaping-up中(如RLHF),被雇傭的人傾向于懲罰那些規避任務的答案,導致模型更容易在面對自己無法解決的難題時“胡說八道”。

至于如何解決這些不可靠性,論文認為,可以使用人類難度預期去更好的訓練或微調模型,又或者是利用任務難度和模型自信度去更好的教會模型規避超出自身能力范圍的難題,等等。

對此,你有何看法?

文章:https://www.nature.com/articles/s41586-024-07930-y

責任編輯:張燕妮 來源: 量子位
相關推薦

2010-12-28 19:50:21

可靠性產品可靠性

2025-02-28 08:00:00

大語言模型DeepSeek機器學習

2010-12-28 20:16:24

2011-05-25 19:31:07

Stratus信息化

2014-10-10 10:10:01

A10 Network

2019-08-30 12:10:05

磁盤數據可靠性RAID

2009-04-08 10:23:00

軟交換網絡可靠

2013-11-04 17:04:22

容錯可靠

2024-05-09 08:04:23

RabbitMQ消息可靠性

2020-12-06 14:51:23

物聯網可靠性IOT

2010-12-28 19:55:20

軟件架構可靠性

2017-06-23 18:25:51

kafka數據可靠性

2025-09-23 09:06:00

AILLM系統

2023-12-15 12:52:32

模型數據

2024-07-25 13:56:49

2010-12-28 20:04:10

網絡的可靠性網絡解決方案可靠性

2023-06-01 14:25:17

數據中心服務器

2013-11-04 17:05:37

銀行容錯

2023-11-17 09:00:00

Kafka開發

2018-09-27 14:13:27

云服務可靠故障
點贊
收藏

51CTO技術棧公眾號

久久爱www久久做| 久久婷婷五月综合色丁香| 国产xxx精品视频大全| 久久久天堂国产精品女人| 黑人玩弄人妻一区二区三区| a'aaa级片在线观看| 久久久久综合网| 国产日韩欧美视频在线| 欧美色图一区二区| 久9久9色综合| 欧美电影一区二区| 国产av天堂无码一区二区三区| 青草久久伊人| 国内精品久久久久影院薰衣草| 欧美精品第一页在线播放| 18禁裸乳无遮挡啪啪无码免费| www.26天天久久天堂| 一区二区三区色| 欧美午夜精品久久久久免费视| 亚洲怡红院av| 亚洲精选一区| 永久免费精品影视网站| 亚洲 自拍 另类 欧美 丝袜| 视频在线观看免费高清| 波多野结衣二区三区| 女同性一区二区三区人了人一| 日韩成人中文电影| 男人的天堂最新网址| a级片在线免费观看| 国产精品欧美一级免费| 蜜桃av久久久亚洲精品| 99精品免费观看| 久久久久国产精品午夜一区| 九九热这里只有精品免费看| 91麻豆制片厂| 青青久久av| 欧美一区二区免费| 日日噜噜夜夜狠狠| 天堂中文最新版在线中文| 亚洲免费观看高清完整 | 91成人在线| 亚洲综合一二区| 久久久久九九视频| 亚洲精品日韩激情在线电影| 老熟妇仑乱一区二区av| 欧美色一级片| xxxx性欧美| 亚洲女优在线观看| 台湾色综合娱乐中文网| 日韩欧美成人午夜| 中文字幕第三区| 欧美jizz18| 欧美在线一区二区三区| 2022亚洲天堂| 黄色aa久久| 亚洲国产视频直播| 国产专区在线视频| 超碰在线免费播放| 亚洲欧美日韩久久| 在线视频精品一区| 欧美精品电影| 中文字幕中文字幕一区| 日产精品一线二线三线芒果| 青青草视频在线观看| av在线不卡电影| 国产欧美韩日| 人妻无码中文字幕免费视频蜜桃| 成人自拍视频在线| 国产精品久久久久久久久久久久午夜片| 国产裸体无遮挡| 国产一区二区日韩精品| 亚洲一区二区中文字幕| 国产三级小视频| 国产美女av一区二区三区| 91精品久久久久久久| 一二三区中文字幕| 国产一区91精品张津瑜| aaa级精品久久久国产片| 亚洲av无码一区二区乱子伦| 国产成人av一区二区三区在线| 波多野结衣一区二区三区在线观看 | 亚洲永久精品唐人导航网址| 亚洲人成在线电影| 中文字幕伦理片| 99精品视频在线观看播放| 久久精品国产欧美激情| 欧洲猛交xxxx乱大交3| 韩日在线一区| 欧美专区第一页| 亚洲午夜在线播放| 国产一区二区在线观看视频| av在线不卡观看| 天堂网www中文在线| 欧美国产精品中文字幕| 色一情一乱一乱一区91| av中文字幕在线观看第一页 | 亚洲第一精品电影| 成人无码www在线看免费| 国产一卡不卡| 久久天天躁狠狠躁夜夜av| 四虎成人精品永久免费av| 午夜在线a亚洲v天堂网2018| 国产精品一区二区女厕厕| 精品久久无码中文字幕| av午夜一区麻豆| 日韩欧美在线观看强乱免费| www久久日com| 精品久久中文字幕久久av| 美女少妇一区二区| 大陆精大陆国产国语精品| 亚洲欧美制服第一页| 一区二区三区影视| 久久国产精品久久久久久电车| 日韩电影二区| 丝袜美腿精品国产二区| 国产精品第一页在线观看| 日日夜夜免费精品| 97伦理在线四区| 欧美大片国产精品| 国产小视频自拍| 国产精品啊啊啊| 国产精品久久久久久久美男| 成人爽a毛片一区二区| 国产三级精品在线| 欧美精品自拍视频| 91精品国产一区二区在线观看| 亚洲国产精品一区二区久| a一级免费视频| 亚洲专区欧美专区| 国产99在线免费| 成人av毛片| 亚洲va在线va天堂| www激情五月| 欧美禁忌电影网| 久久青草福利网站| 99国产精品久久久久99打野战| 国产日本一区二区| 一区二区传媒有限公司| 日韩精品视频一区二区三区| 中文字幕日韩综合av| 成人免费看片98欧美| 国产宾馆实践打屁股91| 在线观看国产一区| 成人在线免费av| 亚洲欧美www| 综合激情网五月| 国产suv一区二区三区88区| 一区二区三区四区久久| a屁视频一区二区三区四区| 日韩成人高清在线| 国产午夜小视频| 国产成人啪午夜精品网站男同| 一区二区视频在线免费| 国产精品伦一区二区| 亚洲午夜女主播在线直播| 久久久久久久极品| proumb性欧美在线观看| 欧美一级片免费播放| 最新国产精品精品视频| 九色精品美女在线| av男人天堂av| 亚洲乱码一区二区三区在线观看| 在线不卡一区二区三区| 久久成人综合| 国产精品日本| 成人免费看片网址| 欧美xxxx做受欧美88bbw| 日韩欧美国产1| 欧美成人aaa片一区国产精品| 国产在线播放一区| 久久久成人精品一区二区三区| 亚洲影视资源| 久久成人av网站| 亚洲av无码一区二区乱子伦| 亚洲国产综合视频在线观看| 佐佐木明希电影| 99riav国产精品| 蜜桃导航-精品导航| 中文字幕色婷婷在线视频| 精品香蕉一区二区三区| 亚洲 欧美 中文字幕| 中文av一区二区| 亚洲午夜激情影院| 欧美成人日韩| 狠狠色狠狠色综合人人| 丝袜美腿一区| 精品国模在线视频| 精品乱子伦一区二区| 精品久久久久国产| 日韩毛片无码永久免费看| 久久精品国产在热久久| 97精品国产97久久久久久粉红| 试看120秒一区二区三区| 午夜美女久久久久爽久久| 国产精品无码2021在线观看| 欧美精品第一页| 亚洲精品在线观看av| 国产色91在线| 久久精品一卡二卡| 夜久久久久久| 亚洲精品日韩精品| 91精品日本| 亲爱的老师9免费观看全集电视剧| 国产高清一区在线观看| 日韩欧美亚洲一区二区| 日本熟女毛茸茸| 亚洲欧美在线高清| 国产伦精品一区二区免费| 久久亚洲欧洲| 超碰人人爱人人| 国产欧美高清视频在线| 亚洲在线免费视频| a欧美人片人妖| 欧美老少做受xxxx高潮| 日韩a在线观看| 欧美一区二区三区视频免费| 久久青青草视频| 日韩美女视频一区| 亚洲第一成人网站| 国产免费观看av| 成人精品视频一区二区三区| 亚洲精品高清无码视频| 精品二区视频| 自拍偷拍一区二区三区| 亚洲区小说区图片区qvod| 亚洲一区二区在线播放| av在线播放一区| 91精品国产91久久久久久不卡| 麻豆视频在线观看免费| 日韩精品福利网站| 亚洲av无码一区二区乱子伦| 欧美撒尿777hd撒尿| 男人午夜免费视频| 亚洲一卡二卡三卡四卡无卡久久| 午夜激情福利电影| 久久久不卡网国产精品二区| 日本高清免费在线视频| 蜜臀久久久99精品久久久久久| jizzjizzxxxx| 亚洲人体偷拍| 视色,视色影院,视色影库,视色网 日韩精品福利片午夜免费观看 | 在线观看免费观看在线| 欧美性猛交xxxx乱大交蜜桃 | 婷婷成人综合网| 国产成人综合在线视频| 中文字幕av资源一区| 波多野吉衣中文字幕| av爱爱亚洲一区| 国产精品熟女一区二区不卡| 开心九九激情九九欧美日韩精美视频电影 | 无码精品黑人一区二区三区 | 在线高清欧美| 国产精品久久电影观看| 国产免费不卡| 欧美一区二三区| 精精国产xxx在线视频app| 欧美激情伊人电影| 欧美1234区| 欧美日韩福利视频| 4438x成人网全国最大| 久久精品91久久久久久再现| 黄色成人影院| 久久伊人免费视频| 国产高清一区二区三区视频| 欧美成人激情视频| 日韩精品卡一| 久久久久久久久久久人体| 免费在线观看的电影网站| 欧美精品久久久久久久免费观看 | 99精品在线| 欧美日本不卡视频| 国产网址在线观看| 午夜精品久久久久影视| 日韩av男人天堂| 午夜电影一区二区三区| 你懂的国产在线| 91久久精品一区二区二区| 波多野结衣高清视频| 欧美天天综合网| 91禁在线观看| 日韩欧美一二区| 四虎永久在线观看| 亚洲日本欧美日韩高观看| 国产三级在线| 久久精品国产久精国产思思| 欧美理论片在线播放| 欧美一级电影在线| 99久久久国产精品免费调教网站| 国产免费成人av| 亚洲午夜精品| 精品国产免费一区二区三区 | 国产精品美女午夜av| 伊人久久大香线蕉综合影院首页| 成人资源av| 中文字幕精品影院| 可以在线看黄的网站| 狠狠噜噜久久| 中文字幕在线导航| 国产99精品国产| 日韩精品电影一区二区| 亚洲色图20p| 在线能看的av| 欧美日韩精品一二三区| 欧美一区二区公司| 国产一区二区三区毛片| 午夜小视频福利在线观看| 国产91|九色| 99久热在线精品视频观看| 国产一区免费观看| 91精品一区国产高清在线gif| 国产97在线 | 亚洲| 狠狠色丁香九九婷婷综合五月| 亚洲精品乱码久久| 1区2区3区国产精品| 日韩精品一区不卡| 日韩欧美国产电影| 色多多视频在线观看| 97精品伊人久久久大香线蕉 | 亚洲一区二区蜜桃| 成人丝袜18视频在线观看| 亚洲av毛片基地| 精品成人av一区| 国产情侣自拍小视频| 国产亚洲精品久久久| 96av在线| 亚洲伊人久久综合| 欧美综合久久| 无罩大乳的熟妇正在播放| 国产精品91xxx| 欧美日韩国产一二三区| 毛片在线网站| 性色av香蕉一区二区| 97久久精品一区二区三区的观看方式| 久久久久久亚洲精品不卡4k岛国 | 97人人模人人爽人人喊38tv| 日韩av自拍| 亚洲熟妇av一区二区三区| 成人看片黄a免费看在线| 亚洲国产123| 欧美三区在线观看| 久久伊伊香蕉| 欧美亚洲激情视频| 国产精品一区二区中文字幕| 日韩一二区视频| 理论电影国产精品| 精品国产aaa| 91福利小视频| 免费一级在线观看| 91黑丝高跟在线| 国产精品久久久久久久久久白浆| 国产激情片在线观看| 国产黄色精品网站| 91在线播放观看| 日韩午夜中文字幕| 黄色网页在线免费看| 成人高清视频观看www| 色婷婷色综合| 91女神在线观看| 国产精品久久久久久福利一牛影视| 中文字幕在线播| 亚洲午夜精品久久久久久性色| 欧美特大特白屁股xxxx| 欧美日韩精品免费观看| 久久一日本道色综合久久| 国产高潮呻吟久久| 欧美日韩在线电影| 麻豆传媒视频在线| 亚洲最大福利网| 欧美精品入口| 精品少妇人妻av一区二区三区| 亚洲妇女屁股眼交7| 日本黄色一区二区三区| 91成人性视频| 欧美日韩123| 中日韩av在线播放| 亚洲免费观看在线观看| 午夜精品小视频| 午夜精品在线视频| 国产亚洲一卡2卡3卡4卡新区| 精品999在线| 亚洲精品水蜜桃| 秋霞网一区二区| 日韩免费av一区二区| 久久蜜桃av| 91视频免费入口| 五月天婷婷综合| 国产女主播在线写真| 亚洲一区二区免费| 亚洲精品日韩久久| 精品一区二区三区蜜桃在线| 欧美猛男超大videosgay| 激情图片在线观看高清国产| 国产午夜精品在线| 日韩av电影天堂| 麻豆精品一区二区三区视频| 日韩电影中文字幕在线观看| 精品欧美日韩精品| 高清无码一区二区在线观看吞精| 91在线观看地址| 中日精品一色哟哟|