精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

比人類便宜20倍!谷歌DeepMind推出「超人」AI系統

人工智能 新聞
大模型的幻覺問題怎么解?谷歌DeepMind:用AI來做同行評審!事實核驗正確率超過人類,而且便宜20倍。

AI的同行評審來了!

一直以來,大語言模型胡說八道(幻覺)的問題最讓人頭疼,而近日,來自谷歌DeepMind的一項研究引發網友熱議:

大模型的幻覺問題,好像被終結了?

圖片

論文地址:https://arxiv.org/pdf/2403.18802.pdf

項目地址:https://github.com/google-deepmind/long-form-factuality

在這篇工作中,研究人員介紹了一種名為 "搜索增強事實性評估器"(Search-Augmented Factuality Evaluator,SAFE)的方法。

對于LLM的長篇回答,SAFE使用其他的LLM,將答案文本分解為單個敘述,然后使用諸如RAG等方法,來確定每個敘述的準確性。

圖片

——簡單來說就是:AI答題,AI判卷,AI告訴AI你這里說的不對。

真正的「同行」評審。

另外,研究還發現,相比于人工標注和判斷事實準確性,使用AI不但便宜20倍,而且還更靠譜!

圖片

目前這個項目已在GitHub上開源。

長文本事實性檢驗

大語言模型經常胡說八道,尤其是有關開放式的提問、以及生成較長的回答時。

比如小編隨手測試一下當前最流行的幾個大模型。

ChatGPT:雖然我的知識儲備只到2021年9月,但我敢于毫不猶豫地回答任何問題。

圖片

Claude 3:我可以謙卑且胡說八道。

圖片

為了對大模型的長篇回答進行事實性評估和基準測試,研究人員首先使用GPT-4生成LongFact,這是一個包含數千個問題的提示集,涵蓋38個主題。

LongFact包含兩個任務:LongFact-Concepts和LongFact-Objects,前者針對概念、后者針對實體。每個包括30個提示,每個任務各有1140個提示。

圖片

然后,使用搜索增強事實性評估器(SAFE),利用LLM將長篇回復分解為一組單獨的事實,并使用多步驟推理過程來評估每個事實的準確性,包括使用網絡搜索來檢驗。

此外,作者建議將F1分數進行擴展,提出了一種兼顧精度和召回率的聚合指標。

SAFE工作流程

如上圖所示,首先提示語言模型將長篇響應中的每個句子拆分為單個事實。

然后,通過指示模型將模糊的引用(代詞等)替換為上下文中引用的適當實體,將每個單獨的事實修改為自包含的事實。

為了對每個獨立的個體事實進行評分,研究人員使用語言模型來推理該事實是否與上下文中相關,并且使用多步驟方法對每個相關事實進行評定。

如上圖所示,在每個步驟中,模型都會根據要評分的事實和先前獲得的搜索結果生成搜索查詢。

在設定的步驟數之后,模型執行推理以確定搜索結果是否支持該事實。

比人類更好用

首先,直接比較對于每個事實的SAFE注釋和人類注釋,可以發現,SAFE在72.0%的單個事實上與人類一致(見下圖),表明SAFE幾乎達到了人類的水平。

圖片

——這還沒完,跟人類一致并不代表正確,如果拿正確性PK一下呢?

研究人員在所有SAFE注釋與人類注釋產生分歧的案例中,隨機抽樣出100個,然后人工重新比較到底誰是正確的(通過網絡搜索等途徑)。

圖片

最終結果讓人震驚:在這些分歧案例中,SAFE注釋的正確率為76%,而人工注釋的正確率僅為19%(見上圖),——SAFE以將近4比1的勝率戰勝了人類。

然后我們再看一下成本:總共496個提示的評分,SAFE發出的 GPT-3.5-Turbo API調用成本為64.57美元,Serper API調用成本為 31.74 美元,因此總成本為96.31美元,相當于每個響應0.19美元。

而人類標注這邊,每個響應的成本為4美元,——AI比人類便宜了整整20多倍!

對此,有網友評價,LLM在事實核驗上有「超人」級別的表現。

圖片

評分結果

據此,研究人員在LongFact上對四個模型系列(Gemini、GPT、Claude和PaLM-2)的13個語言模型進行了基準測試,結果如下圖所示:

圖片

研究人員發現,一般情況下,較大的模型可以實現更好的長格式事實性。

例如,GPT-4-Turbo比GPT-4好,GPT-4比GPT-3.5-Turbo好,Gemini-Ultra比Gemini-Pro更真實,而PaLM-2-L-IT-RLHF比PaLM-2-L-IT要好。

在兩個選定的K值下,三個表現最好的模型(GPT-4-Turbo、GeminiUltra和PaLM-2-L-IT-RLHF),都是各自家族中超大杯。

另外,Gemini、Claude-3-Opus和Claude-3-Sonnet等新模型系列正在趕超GPT-4,——畢竟GPT-4(gpt-4-0613)已經有點舊了。

是誤導嗎?

對于人類在這項測試中顏面盡失的結果,我們不免有些懷疑,成本應該是比不過AI,但是準確性也會輸?

Gary Marcus表示,你這里面關于人類的信息太少了?人類標注員到底是什么水平?

為了真正展示超人的表現,SAFE需要與專業的人類事實核查員進行基準測試,而不僅僅是眾包工人。人工評分者的具體細節,例如他們的資格、薪酬和事實核查過程,對于比較的結果至關重要。

「這使得定性具有誤導性?!?/span>

當然了,SAFE的明顯優勢就是成本,隨著語言模型生成的信息量不斷爆炸式增長,擁有一種經濟且可擴展的方式,來進行事實核驗將變得越來越重要。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-03-29 13:55:05

AI模型

2023-03-29 19:35:43

ChatGPT標注數據

2023-03-31 13:23:31

ChatGPTNLPMTurk

2019-10-22 15:19:27

AI 數據人工智能

2023-03-29 15:14:15

數據AI

2022-02-18 09:53:17

AI芯片設計

2023-05-30 12:50:16

2023-09-01 13:36:24

2024-12-17 12:53:45

AI自我進化谷歌

2023-08-30 07:29:39

SynthID谷歌

2016-12-02 20:10:22

人工智能唇語序列

2023-08-13 14:53:06

AI效率人工智能

2023-11-21 14:48:11

2024-01-07 22:58:56

2021-03-05 16:14:08

AI 數據人工智能

2024-04-07 08:50:00

谷歌框架

2025-06-30 14:00:14

AI編程谷歌

2025-03-13 10:28:07

2023-09-20 12:58:00

訓練研究

2024-06-25 10:43:39

AI?人工智能
點贊
收藏

51CTO技術棧公眾號

懂色av色香蕉一区二区蜜桃| 亚洲av无码国产综合专区| 精品欧美午夜寂寞影院| 无码av中文一区二区三区桃花岛| 精品网站在线看| 亚洲天堂五月天| 99精品视频在线| 精品国产91洋老外米糕| 日韩在线xxx| 黄色的网站在线观看| 波多野结衣在线一区| 国产suv精品一区二区| 日本裸体美女视频| 国产在线播放精品| 欧美日韩一区二区三区视频| 日韩精品一区二区在线视频| 青青国产在线| 国产麻豆日韩欧美久久| 国产国产精品人在线视| 欧美日韩免费一区二区| 国产精品一区二区99| 日韩亚洲欧美在线观看| 欧美日韩国产一级| 91久久国产综合久久91精品网站 | 黄色片免费在线观看视频| 日本成人动漫在线观看| 久草中文综合在线| 欧美一级大胆视频| 人妻久久一区二区| 国产一区三区在线播放| 亚洲国产精彩中文乱码av| 日本人视频jizz页码69| 在线看片福利| 亚洲国产日韩综合久久精品| 在线一区高清| 国产美女性感在线观看懂色av| 国产.欧美.日韩| 国产在线精品一区免费香蕉 | 国产美女久久久| 久久国产在线观看| 99久久亚洲精品蜜臀| 亚洲欧美视频在线| 三区精品视频| aⅴ在线免费观看| 1769免费视频在线观看| 日本一区二区久久| 欧美日韩视频在线一区二区观看视频| 国产成a人亚洲精v品无码| 免费观看在线色综合| 欧美亚洲一区在线| 中日韩精品视频在线观看| 欧美天堂亚洲电影院在线观看| 日韩中文字幕在线播放| 国产又粗又硬视频| 国产一区二区三区四区五区| 亚洲欧美成人一区二区在线电影| 稀缺呦国内精品呦| av综合网页| 精品国产在天天线2019| 人妻互换一二三区激情视频| 亚洲国产高清在线观看| 在线播放欧美女士性生活| 欧美特级aaa| 久久爱.com| 欧美日韩情趣电影| 色啦啦av综合| 二区三区精品| 精品日韩欧美一区二区| 日本久久久久久久久久| 国产精品视屏| 亚洲毛片在线免费观看| 右手影院亚洲欧美| 免费欧美激情| 在线视频精品一| 黄色av免费播放| 久久久国产精品| 欧美日韩第一视频| 日韩福利片在线观看| 国产精品日韩久久久| 日本视频久久久| 一级久久久久久| 另类小说综合欧美亚洲| 亚洲xxx大片| 蜜桃av鲁一鲁一鲁一鲁俄罗斯的| 成人sese在线| 欧美激情一区二区三区在线视频 | 欧美一级大片| 欧美性xxxxxx少妇| 欧美国产日韩在线视频| 福利在线一区| 亚洲欧美一区二区三区在线| 久久日免费视频| 午夜精品电影| 欧美中文字幕视频在线观看| 在线观看毛片视频| 国产不卡在线视频| 免费试看一区| 综合久久2019| 色视频欧美一区二区三区| 日本不卡一区二区在线观看| 97视频一区| 国产亚洲精品va在线观看| 久久噜噜色综合一区二区| 午夜日韩电影| 国产成人精品亚洲精品| 国产成人a人亚洲精品无码| 久久综合给合久久狠狠狠97色69| 一级一片免费播放| 波多野一区二区| 精品1区2区3区| 午夜视频在线观看国产| 久久综合成人| 欧美在线观看网站| 国产手机视频在线| 久久久久久久久久电影| 国产日韩欧美大片| 日韩高清在线| 亚洲精品一区二区三区在线观看| 国产又粗又黄又猛| 夜夜精品视频| 91成人免费观看| 国产高清美女一级毛片久久| 亚洲国产视频在线| 999久久久精品视频| 欧洲专线二区三区| 97人人做人人爱| www.蜜臀av.com| 国产精品色噜噜| 国产免费一区二区三区视频| 视频一区视频二区欧美| 色妞色视频一区二区三区四区| 天天操天天操天天操天天| 国产成人亚洲精品狼色在线| 一本一道久久a久久综合精品| 亚洲欧美一区二区三区| 日韩精品一区二区三区在线播放| 青青草华人在线视频| 日韩中文欧美在线| 欧美最大成人综合网| 成年女人在线看片| 欧美电影精品一区二区| 欧美国产日韩在线观看成人| 麻豆免费精品视频| 午夜精品福利一区二区| 日韩大尺度黄色| 国产视频精品一区二区三区| 国产精品成人网站| 国产成人免费av在线| 无码毛片aaa在线| www一区二区三区| x99av成人免费| 伊人网av在线| 国产精品久久久久久久久晋中 | aa级大片免费在线观看| 日韩亚洲欧美一区| 欧美日韩在线视频免费播放| 国产一区二区在线观看免费| 香蕉精品视频在线| 99久久999| 久久综合久久八八| a天堂视频在线| 一区二区激情视频| 一本色道久久hezyo无码| 亚洲午夜在线| 国产欧美综合精品一区二区| av男人的天堂在线观看| 日韩av最新在线| 黄色片中文字幕| 中文在线免费一区三区高中清不卡| 久草在在线视频| 久久在线播放| 91久久大香伊蕉在人线| 女人黄色免费在线观看| 亚洲国产精品久久久| www成人在线| 久久精品日产第一区二区三区高清版| 北条麻妃av高潮尖叫在线观看| 欧美呦呦网站| 成人免费高清完整版在线观看| 69成人在线| 亚洲国产精品网站| 国产精品国产精品国产| 亚洲视频在线观看一区| 岛国大片在线免费观看| 亚洲在线视频| 亚洲黄色成人久久久| 国产精品一区二区三区www| 午夜精品福利视频| 国产高清视频在线| 日韩欧美成人一区二区| www.国产com| 国产精品福利一区二区三区| 欧美性猛交乱大交| 亚洲一区日韩在线| 亚洲午夜精品一区二区| 成人春色在线观看免费网站| 日本久久久久亚洲中字幕| 男人资源在线播放| 亚洲激情视频在线| 亚洲中文字幕在线一区| 亚洲va韩国va欧美va| 日本美女bbw| 成人白浆超碰人人人人| 在线成人一区二区| 日本天堂在线播放| 亚洲免费影视| 精品日韩在线播放| 久久91麻豆精品一区| 2020国产精品久久精品不卡| 性国裸体高清亚洲| 久久成人人人人精品欧| 男同在线观看| 日韩你懂的在线播放| 人人妻人人爽人人澡人人精品| 尤物在线观看一区| 日韩欧美视频免费观看| 99精品视频一区二区三区| 国产无遮挡猛进猛出免费软件 | 久久久久久久久久久久久女国产乱| 性鲍视频在线观看| 日本vs亚洲vs韩国一区三区二区 | 成人欧美一区二区三区在线湿哒哒 | 久久国产欧美日韩精品| 一本大道熟女人妻中文字幕在线| 伊人久久大香线| 亚洲电影网站| 夜夜春成人影院| 国产三区二区一区久久| 精品国产三区在线| 国产精品一区二区三区在线播放| 久久人体大尺度| 91视频在线观看免费| 自拍偷拍一区二区三区| 国产精品免费不| 国产午夜精品一区| 亚洲精品国产九九九| 成人激情免费在线| 精品久久99| 国产精品欧美激情在线播放| 成人欧美magnet| 91高清免费在线观看| 538在线观看| 欧美激情精品久久久久久变态| 成人免费网站在线观看视频| 久久精品成人欧美大片古装| 日本在线免费网| 中文字幕最新精品| 91免费在线| 中文字幕视频在线免费欧美日韩综合在线看| 天堂av在线7| 精品国产a毛片| 天堂中文字幕av| 日韩av影视在线| 日韩porn| 亚洲欧美日韩精品久久亚洲区| 青青青草网站免费视频在线观看| 日韩精品丝袜在线| 青青草免费在线| 国产视频丨精品|在线观看| 日本一区二区三区在线观看视频| 国产婷婷成人久久av免费高清| 日本成人一区二区三区| 亚洲欧美激情精品一区二区| 美丽的姑娘在线观看免费动漫| 亚洲人免费视频| 亚洲 欧美 综合 另类 中字| 影音先锋成人在线电影| av中文字幕av| 欧美日一区二区在线观看| 日本手机在线视频| 国产精品一级| 久久久国产欧美| 久国产精品韩国三级视频| 亚洲成人av免费观看| 成人激情黄色小说| 青青草视频成人| 欧美国产激情一区二区三区蜜月| 国产老头老太做爰视频| 亚洲一区在线视频观看| 日韩欧美三级视频| 在线日韩国产精品| 国产乱人乱偷精品视频a人人澡| 日韩欧美国产1| 视频二区在线| 日韩中文字幕网| 欧美黄色视屏| 日本不卡视频在线播放| 亚洲一区二区av| av在线不卡一区| 欧美男同视频网| 国产女人18毛片| 先锋影音久久| www.久久久久久久久久久| 成人免费观看视频| www久久久久久久| 亚洲人精品午夜| 特级毛片www| 日韩欧美高清一区| 成年网站在线| 久久男人av资源网站| 欧美aaa大片视频一二区| 亚洲在线观看视频网站| 少妇愉情理伦片bd| 紧缚捆绑精品一区二区| 丰满大乳奶做爰ⅹxx视频| 国产精品欧美综合在线| 国产亚洲精品av| 欧美日韩亚洲综合一区| 国精产品乱码一区一区三区四区| 国产亚洲精品美女| 国产三级伦理在线| 成人欧美在线观看| 国产欧美日韩影院| 久操网在线观看| 韩国成人福利片在线播放| 亚洲自拍偷拍一区二区| 亚洲激情一二三区| 中文字幕视频免费观看| 亚洲大胆美女视频| 超鹏97在线| 国产精品高潮呻吟久久av黑人| 久久porn| 超碰97在线看| 奇米影视一区二区三区小说| 精品人妻一区二区三区日产| 亚洲欧洲av色图| 91丨九色丨海角社区| 精品视频在线播放| 黄色大片在线| 97久草视频| 亚洲免费二区| 在线黄色免费观看| 久久精品视频一区二区| 国产成人无码精品久在线观看| 欧美一级专区免费大片| 日韩在线免费电影| 国产黑人绿帽在线第一区| 日本在线中文字幕一区| 日韩欧美精品免费| 国产91精品一区二区| 印度午夜性春猛xxx交| 欧美日韩高清一区二区| 高清性色生活片在线观看| 欧美影院在线播放| 窝窝社区一区二区| jizzjizzxxxx| 99国产精品久| 日韩字幕在线观看| 亚洲第一av在线| 青草av在线| 成人资源av| 在线成人h网| 黄色在线免费播放| 婷婷综合久久一区二区三区| 男人天堂综合网| 国内精品久久久久久久久| 成人av综合网| 午夜精品久久久久久久无码| 91视频观看免费| 免费av网站在线| 国产一区二区三区久久精品 | 国产精品久久中文| 久久精品国产大片免费观看| wwwwwxxxx日本| 亚洲色图视频免费播放| 日韩视频在线观看视频| 外国成人免费视频| 中文字幕第22页| 亚洲最新视频在线观看| 日韩一级片免费观看| 97香蕉久久超级碰碰高清版| 私拍精品福利视频在线一区| 欧美日韩激情视频在线观看| 久久久高清一区二区三区| 亚洲无码精品国产| 萌白酱国产一区二区| 99亚洲乱人伦aⅴ精品| 免费成人午夜视频| 欧美国产日本韩| 国产美女免费看| 国产69精品久久久久9| 天堂一区二区三区四区| 中国黄色片免费看| 一区二区三区四区精品在线视频| 少妇精品高潮欲妇又嫩中文字幕| 日本韩国在线不卡| 国产精品二区不卡| 精品熟女一区二区三区| 色婷婷久久综合| a视频在线观看免费| 好看的日韩精品视频在线| 日本不卡的三区四区五区| 成人免费视频国产免费观看| 亚洲国产一区二区三区在线观看| av亚洲一区二区三区| 欧美人与动牲交xxxxbbbb| 久久夜色精品国产欧美乱极品| 国产一区二区在线视频聊天| 欧美激情中文字幕乱码免费| 国产一区二区精品福利地址|