精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepMind終結大模型幻覺?標注事實比人類靠譜、還便宜20倍,全開源

人工智能 新聞
AI DeepMind 這篇論文一出,人類標注者的飯碗也要被砸了嗎?

大模型的幻覺終于要終結了?

今日,社媒平臺 reddit 上的一則帖子引起網友熱議。帖子討論的是谷歌 DeepMind 昨日提交的一篇論文《Long-form factuality in large language models》(大語言模型的長篇事實性),文中提出的方法和結果讓人得出大膽的結論:對于負擔得起的人來說,大語言模型幻覺不再是問題了。

我們知道,大語言模型在響應開放式主題的 fact-seeking(事實尋求)提示時,通常會生成包含事實錯誤的內容。DeepMind 針對這一現象進行了一些探索性研究。

首先,為了對一個模型在開放域的長篇事實性進行基準測試,研究者使用 GPT-4 生成 LongFact,它是一個包含 38 個主題、數千個問題的提示集。然后他們提出使用搜索增強事實評估器(Search-Augmented Factuality Evaluator, SAFE)來將 LLM 智能體用作長篇事實性的自動評估器。

對于 SAFE,它利用 LLM 將長篇響應分解為一組單獨的事實,并使用多步推理過程來評估每個事實的準確性。這里多步推理過程包括將搜索查詢發送到 Google 搜索并確定搜索結果是否支持某個事實 。

論文地址:https://arxiv.org/pdf/2403.18802.pdf

GitHub 地址:https://github.com/google-deepmind/long-form-factuality

此外,研究者提出將 F1 分數(F1@K)擴展為長篇事實性的聚合指標。他們平衡了響應中支持的事實的百分比(精度)和所提供事實相對于代表用戶首選響應長度的超參數的百分比(召回率)。

實證結果表明,LLM 智能體可以實現超越人類的評級性能。在一組約 16k 個單獨的事實上,SAFE 在 72% 的情況下與人類注釋者一致,并且在 100 個分歧案例的隨機子集上,SAFE 的贏率為 76%。同時,SAFE 的成本比人類注釋者便宜 20 倍以上。

研究者還使用 LongFact,對四個大模型系列(Gemini、GPT、Claude 和 PaLM-2)的 13 種流行的語言模型進行了基準測試,結果發現較大的語言模型通常可以實現更好的長篇事實性。

論文作者之一、谷歌研究科學家 Quoc V. Le 表示,這篇對長篇事實性進行評估和基準測試的新工作提出了一個新數據集、 一種新評估方法以及一種兼顧精度和召回率的聚合指標。同時所有數據和代碼將開源以供未來工作使用。

方法概覽

LONGFACT:使用 LLM 生成長篇事實性的多主題基準

首先來看使用 GPT-4 生成的 LongFact 提示集,包含了 2280 個事實尋求提示,這些提示要求跨 38 個手動選擇主題的長篇響應。研究者表示,LongFact 是第一個用于評估各個領域長篇事實性的提示集。

LongFact 包含兩個任務:LongFact-Concepts 和 LongFact-Objects,根據問題是否詢問概念或對象來區分。研究者為每個主題生成 30 個獨特的提示,每個任務各有 1140 個提示。

SAFE:LLM 智能體作為事實性自動評分者

研究者提出了搜索增強事實評估器(SAFE),它的運行原理如下所示:

a)將長篇的響應拆分為單獨的獨立事實;

b)確定每個單獨的事實是否與回答上下文中的提示相關;

c) 對于每個相關事實,在多步過程中迭代地發出 Google 搜索查詢,并推理搜索結果是否支持該事實。

他們認為 SAFE 的關鍵創新在于使用語言模型作為智能體,來生成多步 Google 搜索查詢,并仔細推理搜索結果是否支持事實。下圖 3 為推理鏈示例。

圖片

為了將長篇響應拆分為單獨的獨立事實,研究者首先提示語言模型將長篇響應中的每個句子拆分為單獨的事實,然后通過指示模型將模糊引用(如代詞)替換為它們在響應上下文中引用的正確實體,將每個單獨的事實修改為獨立的。

為了對每個獨立的事實進行評分,他們使用語言模型來推理該事實是否與在響應上下文中回答的提示相關,接著使用多步方法將每個剩余的相關事實評級為「支持」或「不支持」。具體如下圖 1 所示。

圖片

在每個步驟中,模型都會根據要評分的事實和之前獲得的搜索結果來生成搜索查詢。經過一定數量的步驟后,模型執行推理以確定搜索結果是否支持該事實,如上圖 3 所示。在對所有事實進行評級后,SAFE 針對給定提示 - 響應對的輸出指標為 「支持」事實的數量、「不相關」事實的數量以及「不支持」事實的數量。

實驗結果

LLM 智能體成為比人類更好的事實注釋者

為了定量評估使用 SAFE 獲得注釋的質量,研究者使用了眾包人類注釋。這些數據包含 496 個提示 - 響應對,其中響應被手動拆分為單獨的事實(總共 16011 個單獨的事實),并且每個單獨的事實都被手動標記為支持、不相關或不支持。

他們直接比較每個事實的 SAFE 注釋和人類注釋,結果發現 SAFE 在 72.0% 的單獨事實上與人類一致,如下圖 4 所示。這表明 SAFE 在大多數單獨事實上都達到了人類水平的表現。然后檢查隨機采訪的 100 個單獨事實的子集,其中 SAFE 的注釋與人類評分者的注釋不一致。

研究者手動重新注釋每個事實(允許訪問 Google 搜索,而不僅僅是維基百科,以獲得更全面的注釋),并使用這些標簽作為基本事實。他們發現,在這些分歧案例中,SAFE 注釋的正確率為 76%,而人工注釋的正確率僅為 19%,這代表 SAFE 的勝率是 4 比 1。具體如下圖 5 所示。

這里,兩種注釋方案的價格非常值得關注。使用人工注釋對單個模型響應進行評級的成本為 4 美元,而使用 GPT-3.5-Turbo 和 Serper API 的 SAFE 僅為 0.19 美元。

Gemini、GPT、Claude 和 PaLM-2 系列基準測試

最后,研究者在 LongFact 上對下表 1 中四個模型系列(Gemini、GPT、Claude 和 PaLM-2)的 13 個大語言模型進行了廣泛的基準測試。

具體來講,他們利用了 LongFact-Objects 中 250 個提示組成的相同隨機子集來評估每個模型,然后使用 SAFE 獲取每個模型響應的原始評估指標,并利用 F1@K 指標進行聚合。


結果發現,一般而言,較大的語言模型可以實現更好的長篇事實性。如下圖 6 和下表 2 所示,GPT-4-Turbo 優于 GPT-4,GPT-4 優于 GPT-3.5-Turbo,Gemini-Ultra 優于 Gemini-Pro,PaLM-2-L-IT-RLHF 優于 PaLM- 2-L-IT。


圖片

更多技術細節和實驗結果請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-04-01 07:00:00

模型AI

2023-03-29 19:35:43

ChatGPT標注數據

2023-03-29 15:14:15

數據AI

2023-03-31 13:23:31

ChatGPTNLPMTurk

2023-09-20 15:21:48

2023-09-18 13:14:00

AI工具

2025-07-07 06:36:14

大模型大模型開源人工智能

2023-04-26 12:19:09

大模型焦慮精神病學

2025-10-31 16:04:17

DeepMindGPT-5世界模型

2016-11-22 17:26:11

開源PowerShellLinux

2023-08-28 00:46:05

計算機模型

2024-11-02 10:28:03

2023-08-13 14:53:06

AI效率人工智能

2024-04-07 14:48:00

模型訓練

2025-08-07 09:18:29

2023-08-27 14:02:28

GPU大模型

2023-07-25 13:10:54

大模型文心大模型百度

2023-11-05 15:09:35

模型AI

2023-09-09 12:56:36

2024-08-07 12:25:39

點贊
收藏

51CTO技術棧公眾號

亚洲天堂免费视频| 亚洲最新视频在线观看| 国产精品一区二区三| 国产熟女一区二区| 欧美成a人片免费观看久久五月天| 中文字幕一区二区三区色视频| 国产97色在线| 久久免费看少妇高潮v片特黄| 国产精品极品| 欧美午夜电影一区| 免费一级特黄毛片| 色网站免费在线观看| 国产成人亚洲精品狼色在线| 欧美在线视频a| 天天天天天天天天操| 日韩三级毛片| 日韩午夜av电影| 搡女人真爽免费午夜网站| av片哪里在线观看| 久久日韩精品一区二区五区| 成人激情春色网| 五月激情六月丁香| 综合日韩在线| 国产视频亚洲精品| 人妻体体内射精一区二区| 超碰国产一区| 亚洲成人自拍偷拍| 国产人妻互换一区二区| 免费黄色片在线观看| 高清不卡在线观看av| 国产在线精品播放| 中文字幕在线欧美| 亚洲美女黄色| 欧美大片va欧美在线播放| 白白色免费视频| 操欧美女人视频| 67194成人在线观看| 又色又爽又高潮免费视频国产| 影音先锋在线播放| 一区二区中文字幕在线| 日韩精品一区二区三区色偷偷 | 97视频热人人精品| 中文字幕天堂在线| 性欧美videos另类喷潮| 97视频免费在线看| 国产一级生活片| 一区二区三区在线观看免费| 日日摸夜夜添一区| 国产欧美一区二区三区在线观看视频 | 一区二区三区免费| 99热这里只有精品7| 在线观看免费版| 亚洲国产精品激情在线观看| 欧美一二三区| 精华区一区二区三区| 2023国产精品自拍| 久久精精品视频| 青青青草原在线| 91麻豆国产福利在线观看| 国产综合精品一区二区三区| 色噜噜一区二区三区| av激情综合网| 美女被啪啪一区二区| 你懂的视频在线| 国产欧美日韩激情| 亚洲一区二区三区精品在线观看| gogogo高清在线观看免费完整版| 国产欧美日产一区| 亚洲精品永久www嫩草| 日本亚洲精品| 亚洲精品老司机| 久久亚洲国产成人精品无码区| 黄色羞羞视频在线观看| 亚洲第一av色| 日批视频在线免费看| 欧美香蕉视频| 欧美精品丝袜久久久中文字幕| 亚洲免费成人在线视频| 日韩在线亚洲| 日韩电影中文字幕在线| 第一次破处视频| 天天做综合网| 欧美国产在线视频| 黄色片视频免费| 极品少妇一区二区| 147欧美人体大胆444| 色婷婷av一区二区三| 久久久久久夜精品精品免费| 制服国产精品| 91jq激情在线观看| 在线观看国产日韩| 日本黄色大片在线观看| 中国av一区| 不卡伊人av在线播放| 日韩三级视频在线播放| 免费人成在线不卡| 国产精品香蕉视屏| 国产黄色免费在线观看| 亚洲精品国久久99热| 日本一本二本在线观看| 综合欧美精品| 欧美精品一区二区不卡 | 欧美高清视频看片在线观看| 国产一区二区三区毛片| 国产盗摄x88av| 爽好久久久欧美精品| 亚洲一区二区三区sesese| 日韩一二三四| 一区二区理论电影在线观看| av五月天在线| 人人香蕉久久| 欧美大奶子在线| 岳乳丰满一区二区三区| 成人爽a毛片一区二区免费| 亚洲日本japanese丝袜| 午夜影院在线播放| 日韩一区二区麻豆国产| 97在线观看免费视频| 亚洲国产欧美国产综合一区| 成人国产亚洲精品a区天堂华泰| 亚洲色图欧美视频| 亚洲卡通动漫在线| 亚洲国产精品三区| 亚洲午夜久久| 久久久之久亚州精品露出| 亚洲一区二区天堂| www久久久久| 日韩伦理在线免费观看| 91麻豆精品国产综合久久久| 国产香蕉97碰碰久久人人| 国产成人精品一区二三区| 国产裸体歌舞团一区二区| 亚洲一区三区| 国产一区二区精品调教| 亚洲精品资源美女情侣酒店| 日韩久久精品视频| 国产精品白丝av| 97超碰免费观看| 日韩欧乱色一区二区三区在线| 精品中文字幕久久久久久| www..com国产| 99精品视频一区二区| 成年人看的毛片| 国产福利资源一区| 欧美大片免费观看在线观看网站推荐| 国产免费不卡av| 一区在线中文字幕| 天美一区二区三区| 91精品国产调教在线观看| 成人黄色av网| 成人免费看片| 日韩免费一区二区三区在线播放| 男人操女人的视频网站| 国产一区二区视频在线| 9191国产视频| 999精品视频在这里| 欧美黑人又粗大| 日本加勒比一区| 黄色一区二区在线| 亚洲国产精品自拍视频| 玖玖精品视频| 夜夜爽www精品| 精品视频在线观看免费观看| 欧美日韩第一页| 日批视频免费播放| 欧美视频在线观看免费网址| 在线观看日本中文字幕| 日本不卡不码高清免费观看 | 你懂的视频一区二区| 亚洲影视中文字幕| 69av成人| 亚洲天堂av在线免费| 中文字幕福利视频| 亚洲免费在线电影| 国产伦精品一区二区三区精品| 国产精品久久777777毛茸茸| 日韩免费毛片| 电影91久久久| 8x拔播拔播x8国产精品| 国产在线视频网站| 日韩一区二区在线观看视频| 日韩精品乱码久久久久久| 久久综合丝袜日本网| 精品久久久久久久无码| 久久精品亚洲欧美日韩精品中文字幕| 国产精品久久精品国产| 欧美大片1688| 久久国产精品偷| 天堂在线资源网| 欧美群妇大交群的观看方式| 久久久香蕉视频| 久久蜜桃一区二区| 天天操天天干天天做| 国内自拍视频一区二区三区| 欧美一区二区三区在线播放 | 麻豆传媒在线免费看| 精品播放一区二区| 波多野结衣在线观看视频| 亚洲视频网在线直播| 激情综合丁香五月| 精品一区二区在线观看| 欧美久久久久久久久久久久久| 欧美精品一区二区久久| 高清视频在线观看一区| 偷拍视频一区二区三区| 操91在线视频| 国产乱子伦三级在线播放| 精品久久久久久综合日本欧美| 国产美女www| 亚洲午夜久久久久久久久电影网| 蜜桃传媒一区二区亚洲| 成人精品小蝌蚪| 国产成人黄色网址| 亚洲在线电影| 免费cad大片在线观看| av永久不卡| 精品国产一区二区三区免费 | 在线播放欧美女士性生活| 日韩视频免费观看高清| 亚洲日韩欧美一区二区在线| 熟女俱乐部一区二区| 成人中文字幕在线| 亚洲美女性囗交| 日韩国产一区二| 国产午夜大地久久| 欧美国产高潮xxxx1819| 一区二区日本伦理| 国产成人短视频在线观看| 国产精品一区二区免费看| 99国内精品久久久久| 国产精品视频精品| 9i看片成人免费高清| 久久久午夜视频| 男男gaygays亚洲| 欧美成人免费一级人片100| 成人不用播放器| 亚洲午夜久久久久久久| 婷婷国产在线| 亚洲精品99久久久久中文字幕| 草逼视频免费看| 91精品中文字幕一区二区三区| 中文字幕男人天堂| 欧美性猛片aaaaaaa做受| 国产无套丰满白嫩对白| 精品免费在线观看| 日干夜干天天干| 亚洲va国产天堂va久久en| 国产 日韩 欧美 成人| 亚洲综合色噜噜狠狠| 久草视频手机在线观看| 亚洲精品免费在线观看| 999精品久久久| 国产精品短视频| caoporn91| 亚洲欧美另类图片小说| 日本黄色片免费观看| 综合中文字幕亚洲| 欧美日韩午夜视频| 亚洲欧美国产三级| 欧美国产日韩综合| 午夜精品一区在线观看| 可以免费看的av毛片| 色综合久久六月婷婷中文字幕| 日本熟女毛茸茸| 在线免费精品视频| 亚洲图片在线播放| 欧美一区国产二区| 黄色av一区二区三区| 亚洲电影免费观看高清| 视频国产在线观看| 在线观看日韩欧美| av网站网址在线观看| 欧美激情亚洲国产| 惠美惠精品网| 国产一区玩具在线观看| 亚洲日本视频在线| 久久av免费一区| av在线不卡顿| 国产美女永久无遮挡| 亚洲一区二区伦理| 在线观看的毛片| 国产乱人伦偷精品视频不卡 | 国产免费久久精品| 精品国产国产综合精品| 亚洲一级二级三级在线免费观看| 精品在线播放视频| 欧美日韩国产经典色站一区二区三区| 国产av精国产传媒| 日韩成人中文电影| 色大18成网站www在线观看| 国模精品视频一区二区| 日韩av电影资源网| 高清视频在线观看一区| 欧美日韩性在线观看| 日本xxx免费| 老司机精品视频网站| 欧美在线a视频| 91蜜桃免费观看视频| 日韩欧美综合视频| 日韩欧美综合在线视频| av片免费播放| 亚洲欧美三级伦理| 免费影视亚洲| 国产精品一二区| 国产精品qvod| 国产精品99久久久久久大便| 国产精品日本| 一起草最新网址| 国产欧美日韩精品在线| 国产精品日日夜夜| 在线电影院国产精品| 亚洲欧美日本在线观看| 久久久999精品视频| 厕沟全景美女厕沟精品| 国产精品一区二区免费| 亚洲九九在线| 日韩精品你懂的| 91亚洲精品久久久蜜桃网站 | 天天亚洲美女在线视频| 国产日韩精品suv| 伊人久久精品视频| 在线看片国产福利你懂的| 97se视频在线观看| 婷婷伊人综合| 久久撸在线视频| 国产亚洲1区2区3区| 圆产精品久久久久久久久久久| 欧美一级夜夜爽| 麻豆传媒视频在线| 国产精品视频免费在线观看| 日韩精品导航| 国产美女主播在线播放| 国产成人免费视频网站高清观看视频 | 国产一区二区免费| 免费高潮视频95在线观看网站| 91视频在线免费观看| 久久久久久影院| 亚洲一二区在线观看| 综合久久综合久久| 亚洲无码久久久久| 国产亚洲欧美日韩精品| 日本精品网站| 日韩亚洲欧美精品| 日韩高清在线观看| 韩国女同性做爰三级| 色美美综合视频| 麻豆av电影在线观看| 热草久综合在线| 国产精品亚洲片在线播放| 国产精品99久久免费黑人人妻| 久久婷婷久久一区二区三区| 少妇一级淫片免费放中国 | 韩国三级av在线免费观看| 欧美性在线观看| 一区二区三区视频免费观看 | 老鸭窝一区二区久久精品| 夜夜春很很躁夜夜躁| 欧美日韩国产在线播放网站| 自拍视频在线网| 亚洲一区二区三区777| 中文字幕午夜精品一区二区三区| www.欧美com| 亚洲成人av中文| 十八禁一区二区三区| 欧美一乱一性一交一视频| 国产videos久久| 久久久久久蜜桃一区二区| 中文字幕在线观看不卡| 国产高潮流白浆喷水视频| 欧美高清第一页| 思热99re视热频这里只精品| 日韩视频在线免费看| 国产精品伦理一区二区| 国产深喉视频一区二区| 久久久欧美一区二区| 精品国产aⅴ| 亚洲黄色片免费| 亚洲444eee在线观看| 美女毛片在线看| 成人黄色在线免费| 亚洲精品看片| 少妇视频在线播放| 精品久久久久久久久久久久久久久久久| 大桥未久在线播放| 色一情一乱一伦一区二区三欧美 | www.黄色网| 日韩欧美一区二区三区久久| 91免费在线| 国产一区二区无遮挡| 丝袜脚交一区二区| 国产少妇在线观看| 亚洲男人天堂古典| 久久久久久久久久久久电影| 欧美黑人经典片免费观看| 国产精品少妇自拍| 成人av免费播放| 国产精品伦子伦免费视频| 欧美日韩理论| 国产在线免费av| 精品视频在线播放免|