精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

和谷歌搜索搶活,FRESHLLM「緊跟時事」,幻覺更少,信息更準

人工智能 新聞
在一篇最新的論文中,來自谷歌、馬薩諸塞大學阿默斯特分校、OpenAI 的研究者發現,Perplexity 和 GPT-4 w/prompting 的性能優于谷歌搜索。

大型語言模型的能力有目共睹,如 BARD 和 CHATGPT/GPT-4,被設計成多功能開放域聊天機器人,可以就不同主題進行多輪對話。它們能夠幫助人們完成諸多任務,但這并不代表它們是萬能的。

「幻覺」與過時的信息降低了這些大模型回復的可信度。尤其對于需要信息實時更新的領域(如公司股價)而言,這更是嚴重。

與 GPT-4 對話過程中,會發現它的信息更新有限制

這種現象可部分歸因于其參數中存在編碼的過時知識。雖然利用人類反饋或知識增強任務進行額外訓練可以緩解這一問題,這種方法并不容易推廣。另外,上下文學習是一種有吸引力的替代方法,可將實時知識注入 LLM 的提示中以生成條件。雖然近期的一些研究已經開始探索利用網絡搜索結果來增強 LLM,但如何充分利用搜索引擎的輸出來提高 LLM 的事實性尚不清楚。

在一篇最新的論文中,來自谷歌、馬薩諸塞大學阿默斯特分校、OpenAI 的研究者發現,Perplexity 和 GPT-4 w/prompting 的性能優于谷歌搜索。同時,越來越多的非科技人員在搜索查詢時使用 Perplexity 而不是其他 LLM。那么谷歌搜索真的會被 LLM 取代嗎?

有網友表示,雖然在簡單問題上,LLM 的表現更好,但是對于大模型的「幻覺」問題依然保持謹慎態度他們使用谷歌搜索驗證大模型的回復。

其實,研究者也致力于解決大模型知識過時的問題。接下來,我們一起看看他們的成果。

論文地址:https://arxiv.org/pdf/2310.03214.pdf

FRESHQA 數據集

在這項工作中,研究者先是創建了一個名為「FRESHQA」的新型質量保證基準,用于評估現有 LLM 生成內容的事實性。FRESHQA 包含 600 個自然問題,大致分為圖 1 所示的四大類。這些問題跨越了一系列不同的主題,具有不同的難度級別,并要求模型「理解」世界上的最新知識,以便能夠正確回答。

此外,FRESHQA 還具有動態性:一些 ground-truth 答案可能會隨著時間的推移而改變,被歸入特定類別的問題可能會在以后的某個時間點被重新分類。就比如,「馬斯克與現任配偶結婚多久了?」在當前是一個虛假推理問題,但如果馬斯克在未來再次結婚,該問題被歸入的類別就需要變一變了。

研究者招募了一些 NLP 研究人員(包括作者及其同事)和線上自由撰稿人來收集 FRESHQA 的數據。在四類問題中的每一類中,都要求注釋者撰寫兩種不同難度的問題:一跳(one-hop),即問題明確提到了回答該問題所需的所有相關信息,因此不需要額外的推理(例如,誰是 Twitter 的首席執行官);多跳(multi-hop),即問題需要一個或多個額外的推理步驟才能收集到回答該問題所需的所有相關信息(例如,世界上最高建筑的總高度是多少?)

研究者通過向不同的 LLM 提出問題和一些問答示范,然后對其回答進行采樣,以此來衡量它們在 FRESHQA 上的表現,然后對模型回答的事實準確性進行了廣泛的人工評估,包括超過 50K 個判斷。此處采用雙模式評估程序對每個回答進行評估:「RELAXED」模式只衡量主要答案是否正確,「STRICT」模式則衡量回答中的所有說法是否都是最新的事實(即沒有幻覺)。

這個評估過程揭示了新舊 LLM 的事實性,并揭示了不同問題類型帶來的不同模型行為。不出所料,在涉及快速變化知識的問題上,會出現平坦的縮放曲線:簡單地增加模型大小并不能帶來可靠的性能提升。在假前提問題上,他們也觀察到了類似的趨勢。不過,如果明確詢問「請在回答前檢查問題是否包含有效前提」,一些 LLM 就能夠揭穿假前提問題。

總體來說,FRESHQA 對當前的 LLM 來說確實是一個挑戰,指出了很大的改進空間。

提示搜索引擎增強的語言模型

受到上述探索的啟發,研究者進一步研究了如何通過將搜索引擎提供的準確和最新信息作為 LLM 響應的基礎,有效提高 LLM 的事實性。鑒于大型 LLMS 的快速發展和知識不斷變化的性質,研究者探索了上下文學習方法,使 LLM 能夠通過其提示關注推理時提供的知識。

隨后,研究者評估了 LLM 搜索引擎增強對 FRESHQA 的影響,并提出了一種簡單的少樣本提示方法 FRESHPROMPT。該方法通過將檢索自搜索引擎(谷歌搜索)的最新相關信息整合到提示中,極大地提升了 LLM 的 FRESHQA 性能。

下圖 3 為 FRESHPROMPT 的格式。

圖片

FRESHPROMPT 方法

FRESHPROMPT 方法利用一個文本提示來將來自搜索引擎的上下文相關的最新信息(包括相關問題的答案)引入到一個預訓練 LLM,并教導該模型對檢索到的證據進行推理。

更具體來講,給定一個問題 q,研究者首先逐字地使用 q 來查詢搜索引擎,這里是谷歌搜索。他們檢索了所有搜索結果,包括答案框、自然結果和其他有用的信息(如知識圖譜、眾包 QA 平臺上的問答)、以及搜索用戶問的相關問題。示例如下圖 6 所示。

對于每個這樣的結果,研究者提取了相關的文本片段 x 以及其他的信息,比如來源 s(如維基百科)、日期 d、標題 t 和高亮文字 h,然后創建包含 k 個檢索到的證據的列表 E = {(s, d, t, x, h)}。接下來這些證據將轉換成常見的格式(如上圖 3 左),并通過上下文內學習來調整模型。此外為了鼓勵模型基于最近的結果來專注于較新的證據,研究者從舊到新對提示中的證據 E 進行排序。

為了幫助模型來理解任務和預期的輸出,研究者在輸入提示的開頭提供了輸入輸出示例的少樣本演示。每個演示首先為模型提供一個問題示例以及該問題的一組檢索到的證據,然后對證據進行思維鏈推理以找到最相關、最新的答案(如上圖 3 右)。

盡管研究者在演示中包含了少數帶有錯誤前提的問題示例,但也嘗試了在提示中進行顯式錯誤前提檢查,比如「請在回答前檢查問題中是否包含有效前提」。下圖 7 展示了一個真實的提示。

實驗設置

對于 FRESHPROMPT 設置,研究者通過將檢索到的證據整合到輸入提示中,依次將 FRESHPROMPT 應用于 GPT-3.5 和 GPT-4 中。這些證據包括了自然搜索結果 0、搜索用戶問的相關問題 r、來自眾包 QA 平臺上的問答 a 以及來自知識圖譜和答案框的文本片段(如有)。考慮到模型上下文的限制,他們在根據相應日期排序后僅保留前 n 個證據(更靠近提示末尾)。

除非另有說明,研究者針對 GPT-3.5 使用了 (o, r, a, n,m) = (10, 2, 2, 5),針對 GPT-4 使用了 (o, r, a, n,m) = (10, 3, 3, 10)。此外,他們在提示的開頭包含了 m = 5 個問答演示。

實驗結果

FRESHPROMPT 顯著提升了 FRESHQA 的準確性。下表 1 展示了 STRICT 模式下的具體數字。可以看到,相對于原始 GPT-3.5 和 GPT-4,FRESHPROMP 實現了全方位的重大改進。

其中,GPT-4 + FRESHPROMPT 在 STRICT 和 RELAXED 模式下分別較 GPT-4 實現了 47% 和 31.4% 的絕對準確率提升。STRICT 和 RELAXED 之間絕對準確率差距的縮小(從 17.8% 到 2.2%)也表明,FRESHPROMP 可以極大地減少過時和幻覺答案的出現。

此外,GPT-3.5 和 GPT-4 最顯著的改進是在快速和緩慢變化的問題類別,這些問題涉及最新知識。這意味著,關于舊知識的問題也受益于 FRESHPROMPT。比如在 STRICT 模式下,對于包含 2022 年以前知識的有效前提的問題,GPT-4 + FRESHPROMPT 的準確率比 GPT-4 高了 30.5%;在 RELAXED 模式下這一數字是 9.9%。

此外,FRESHPROMPT 在假前提問題上也取得了顯著的進步,GPT-4 在 STRICT 和 RELAXED 模式下的準確率分別提升了 37.1% 和 8.1%。

圖片

此外,FRESHPROMPT 還展示出了以下結果:

  • 大幅度優于其他搜索增強方法;
  • 前提檢查增強了假前提問題的準確率,但會損害具有有效前提的問題的準確率;
  • 在輸入上下文的末尾提供更多最新的相關證據是有幫助的;
  • 自然搜索結果之外檢索到的其他信息提供了進一步增益;
  • 檢索到的證據越多會進一步提升 FRESHPROMPT;
  • 冗長的演示有助于回答復雜的問題,但也會增加幻覺。

研究者表示,他們目前僅針對每個問題進行一次搜索查詢,因此可以通過問題分解和多個搜索查詢來進一步實現提升。此外,由于 FRESHQA 包含的是相對簡單的英語問題,因此不清楚在多語言 / 跨語言 QA 和長格式 QA 上下文中的表現如何。最后 FRESHPROMPT 依賴上下文內學習,因此可能不如根據新知識來微調基礎 LLM 的方法。

更多技術細節,請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-28 08:20:00

2024-04-11 10:00:00

云計算芯片

2011-01-28 15:06:40

沃森人機大戰

2023-02-06 18:06:05

生物性ChatGPT金融圈

2022-11-18 12:06:48

App接口搜索

2023-12-10 15:15:18

開源模型工具

2016-01-31 16:49:42

漏洞Galaxy

2016-05-16 14:21:39

VR谷歌

2022-11-02 18:33:09

谷歌Chrome瀏覽器

2024-02-26 09:36:45

SoraOpen AIAPI

2022-10-26 13:36:59

模型計算

2025-01-06 07:40:00

AI訓練數據

2020-07-25 22:00:15

谷歌TikTok開發者

2025-08-06 04:11:00

JSONPromAI

2025-07-09 08:57:55

2012-05-15 09:26:09

Google測試

2013-10-09 10:07:06

谷歌AndroidiPhone

2024-01-18 11:20:08

2009-08-27 09:53:30

谷歌搜索LinuxLinux操作系統

2025-02-03 10:04:47

擴散模型數據分布
點贊
收藏

51CTO技術棧公眾號

在线观看视频在线观看| 亚洲va久久久噜噜噜久久狠狠| 91高清免费观看| 高清欧美性猛交xxxx黑人猛| 精品人伦一区二区三区蜜桃网站| 欧美亚洲另类久久综合| 97超碰国产在线| 91久久视频| 色偷偷av一区二区三区乱| www男人天堂| 日本一区免费网站| 一区二区三区精品| 日韩美女一区| 成人午夜视频一区二区播放| 噜噜噜躁狠狠躁狠狠精品视频| 中文字幕av一区二区三区谷原希美| 性久久久久久久久久久久久久| 91破解版在线观看| 中文字幕亚洲一区二区av在线| 粉嫩av一区二区三区免费观看| 国产成人精品片| 亚洲男女av一区二区| 精品日韩av一区二区| 久草福利视频在线| 69av成人| 亚洲精品欧美综合四区| 日本一区二区三区视频在线观看| 成人精品在线播放| 紧缚捆绑精品一区二区| 国产91在线播放九色快色| 欧美精品一区二区成人| 日韩欧美二区| 亚洲欧美综合图区| 国产又黄又粗又猛又爽的视频 | 欧美一区第一页| 欧美另类视频在线观看| 中文精品久久| 日韩视频免费看| 国产午夜精品福利视频| 亚洲v天堂v手机在线| 亚洲丁香久久久| 极品白嫩少妇无套内谢| 成人精品视频在线观看| 欧美日韩一二三| 三级在线免费看| 国产成人免费9x9x人网站视频| 午夜精品成人在线视频| 欧美视频在线观看视频| 不卡一本毛片| 亚洲国产精品尤物yw在线观看| 超薄肉色丝袜足j调教99| 青青青青在线| 亚洲欧洲精品一区二区精品久久久 | 国产喷白浆一区二区三区| 黑人另类av| 日韩在线视频免费| 91亚洲精品久久久蜜桃| 精品一区二区三区免费毛片| 视频一区二区免费| 99久久精品费精品国产一区二区| 国内成+人亚洲| 天堂网在线观看视频| 99re6这里只有精品视频在线观看| 肥熟一91porny丨九色丨| 高清一区二区三区四区| 成人aaaa免费全部观看| 欧美第一黄网| 国产黄色免费在线观看| 国产精品久久久久久久午夜片 | 欧美日韩国产在线一区| 久久久久中文字幕| 国产无遮挡又黄又爽| 国产视频久久| 国产成人一区二区三区小说| 亚洲精品一区二区二区| 久久99精品国产91久久来源| 51精品国产人成在线观看| 成人免费观看在线视频| www一区二区| 亚洲一卡二卡| 亚洲妇熟xxxx妇色黄| 午夜精品在线看| 北条麻妃av高潮尖叫在线观看| 精品肉辣文txt下载| 欧美卡1卡2卡| 国产一线在线观看| 国产一区二区三区四区五区| 精品国产一区二区三区久久狼黑人| 永久久久久久久| 亚洲黄色成人| 国产精品一区电影| 国精品人妻无码一区二区三区喝尿 | 91久久偷偷做嫩草影院| 天堂在线中文资源| 色爱综合网欧美| 北条麻妃久久精品| 黄色小说在线观看视频| 首页国产欧美日韩丝袜| 91在线视频九色| 午夜视频www| 中文字幕一区二区在线观看| 婷婷无套内射影院| 97人人做人人爽香蕉精品| 日韩区在线观看| 69视频在线观看免费| 午夜精品亚洲| 国产精品美女免费| 你懂的网站在线| 国产精品久久久久久久午夜片| 久久综合色视频| 麻豆传媒视频在线观看| 亚洲18色成人| 在线免费观看av网| 欧美猛男做受videos| 久久久久久久成人| 亚洲一区二区激情| 2020日本不卡一区二区视频| 中文字幕の友人北条麻妃| 亚洲国产尤物| 日韩精品免费看| 欧美黄色免费在线观看| 麻豆精品在线视频| 欧美日韩在线不卡一区| а√天堂中文在线资源8| 欧美一卡二卡三卡| 夫妇露脸对白88av| 国产日韩欧美在线播放不卡| av一区观看| 国产高中女学生第一次| 国产午夜精品一区二区三区四区| 日本大片免费看| 草民电影神马电影一区二区| 精品视频—区二区三区免费| 久久艹精品视频| 国内精品久久久久影院一蜜桃| 日韩国产在线一区| 亚洲欧美韩国| 亚洲精品www久久久| 国产精品变态另类虐交| 国产成人av电影在线| 好吊色这里只有精品| 亚洲日本中文| 日韩专区中文字幕| 91精品人妻一区二区三区果冻| 国产亚洲福利社区一区| 久久国产乱子伦免费精品| 欧美一级色片| 538国产精品一区二区免费视频| 高h调教冰块play男男双性文| 一区二区三区产品免费精品久久75| 91在线第一页| 欧美精品午夜| 国产精品 日韩| 国产99在线| 国产丝袜精品视频| 国产无遮挡又黄又爽又色视频| 久久久不卡网国产精品二区| 91蝌蚪视频在线观看| 精品国产一级毛片| 久久精品视频在线观看| 亚洲一区中文字幕在线| 亚洲欧美一区二区在线观看| 99日在线视频| 午夜精品免费| 国产偷久久久精品专区| 在线最新版中文在线| 亚洲人成在线播放| 一区二区乱子伦在线播放| 国产精品麻豆视频| 红桃视频一区二区三区免费| 国语精品一区| 精品亚洲欧美日韩| 免费高清视频在线一区| 麻豆成人在线看| www.精品久久| 国产无人区一区二区三区| 人妻内射一区二区在线视频| 激情婷婷综合| 成人性生交大片免费看小说 | 久久久久久亚洲精品| 亚洲欧洲综合在线| 欧美色中文字幕| 欧美黑吊大战白妞| 91色视频在线| 向日葵污视频在线观看| 欧美精品成人| 欧美日本韩国一区二区三区| 国产精品伦一区二区| 欧美成人免费全部观看天天性色| 欧美天堂在线视频| 日本韩国欧美三级| 中文字幕在线有码| 久久综合狠狠综合久久激情| 亚洲综合日韩欧美| 在线播放精品| 亚洲国产婷婷香蕉久久久久久99| 久久九九精品视频| 奇米成人av国产一区二区三区| 免费日本一区二区三区视频| 亚洲国产欧美一区二区三区久久| 一区二区三区麻豆| 亚洲一区二区视频在线| 午夜在线观看一区| 国产黄色成人av| www.超碰com| 国产综合激情| 一区二区视频在线免费| 免费看久久久| 91欧美日韩一区| 另类专区亚洲| 国内精品久久久久| 国产在线观看免费麻豆| 亚洲男女性事视频| 亚洲第一黄色片| 欧美日本在线播放| 日本中文字幕第一页| 一区二区三区在线观看视频| 成年人在线免费看片| 成人短视频下载 | 国产河南妇女毛片精品久久久| 国产成人av影视| 欧美精选一区| 正在播放国产精品| 欧洲激情视频| 欧美视频1区| 日韩激情毛片| 国产精品一区二区欧美| 免费精品一区| 亚洲精品日韩av| 色综合久久久| 国产精品私拍pans大尺度在线| 久久sese| 日本精品视频在线观看| 深夜成人在线| 91国在线精品国内播放| 国产丝袜在线观看视频| 欧美寡妇偷汉性猛交| 欧美性猛片xxxxx免费中国| 久久久黄色av| 黄网站免费在线观看| 色妞一区二区三区| 午夜激情视频在线观看| 伊人久久大香线蕉av一区二区| 日本人妖在线| 亚洲欧洲一区二区三区久久| 日韩私人影院| 一区二区欧美在线| 3p在线观看| 久久精品一偷一偷国产| 国产日产一区二区| 欧美成人午夜激情| 污污的视频在线观看| 欧美精品成人91久久久久久久| 色呦呦在线资源| 国内精品久久久久久影视8| 末成年女av片一区二区下载| 91高清视频免费| 免费成人美女女| 国产精品日韩在线| 国产aa精品| 国产高清一区二区三区| 日韩深夜影院| 日韩偷拍一区二区| 路边理发店露脸熟妇泻火| 精品国产黄a∨片高清在线| 国产精品视频自拍| 日本成人精品| 国产亚洲自拍偷拍| 伊甸园亚洲一区| 亚洲精品久久久久久一区二区| 91精品国产自产在线观看永久∴ | 午夜伦理在线| 欧美二区在线播放| 欧美激情网站| 国产精品视频内| 一本一道久久a久久| 精品蜜桃一区二区三区| 欧美视频网址| 日韩久久久久久久久久久久| 99热免费精品| 国产一级片自拍| 国产91丝袜在线播放九色| 毛片网站免费观看| 一区二区中文视频| 91浏览器在线观看| 8v天堂国产在线一区二区| 午夜久久久久久噜噜噜噜| 国产视频久久久| 日本美女在线中文版| 久久久久久有精品国产| av在线一区不卡| 国产在线精品一区二区三区| 日本精品三区| 亚洲熟妇无码一区二区三区导航| 日韩黄色小视频| 美女露出粉嫩尿囗让男人桶| 91视频一区二区| 国精品无码一区二区三区| 欧美日韩国产影院| 成人两性免费视频| 成人免费短视频| 91久久国产综合久久蜜月精品| 日韩激情毛片| 2022中文字幕| 蜜臀久久99精品久久久画质超高清| 久久久久无码精品| 国产精品普通话对白| 亚洲色图偷拍视频| 久久综合av免费| 精品在线视频免费观看| 欧美喷水一区二区| 爽爽视频在线观看| 欧美日韩国产成人在线观看| 99精品在免费线偷拍| 久久久久久久久久久久久久一区 | 免费又黄又爽又猛大片午夜| 精品毛片乱码1区2区3区| 午夜激情视频在线观看| 国产精品 欧美在线| 欧美91在线| 嫩草影院中文字幕| 精品一区二区免费在线观看| a天堂中文字幕| 狠狠躁夜夜躁久久躁别揉| www.五月激情| 美女av一区二区| 成人综合日日夜夜| 伊人久久大香线蕉综合75| 日韩国产精品久久久久久亚洲| 国产老熟女伦老熟妇露脸| 亚洲综合自拍偷拍| 精品国产亚洲AV| 欧美成人午夜激情在线| 国产亚洲久久| av不卡在线免费观看| 美国十次了思思久久精品导航| 韩国女同性做爰三级| 色天使色偷偷av一区二区| 青青免费在线视频| 欧美亚洲视频一区二区| 亚洲国产网址| 超碰网在线观看| 久久久久亚洲综合| 日韩在线播放中文字幕| 精品视频在线观看日韩| 日韩影院在线| 久久香蕉综合色| 久久婷婷激情| 国产精品三级网站| 国产原创视频在线观看| 国产日韩精品在线观看| 91日韩在线| 国产男女无遮挡猛进猛出| 亚洲精品欧美二区三区中文字幕| 91theporn国产在线观看| 色偷偷噜噜噜亚洲男人| 国产精品一区免费在线| 久久久天堂国产精品| 懂色av一区二区三区免费看| 国产午夜小视频| 亚洲男人av在线| 激情久久一区二区| 成人性做爰片免费视频| 国产成人av影院| 成年人免费高清视频| 亚洲欧美一区二区三区久久| 国产成人毛片| 免费日韩在线观看| 91丨porny丨首页| 中文字幕第99页| 欧美精品在线第一页| 林ゆな中文字幕一区二区| 久久久久狠狠高潮亚洲精品| 国产精品无遮挡| www.五月婷| 欧美最猛黑人xxxx黑人猛叫黄| 日韩国产综合| 真实乱偷全部视频| 日韩欧美国产免费播放| 18免费在线视频| 成人国产一区二区| 久久经典综合| 青娱乐国产在线| 亚洲欧美日韩国产中文| 国产专区精品| 无码人妻h动漫| 亚洲视频狠狠干| 亚洲色图 校园春色| 国产女同一区二区| 亚洲国产精品一区制服丝袜| 亚洲精品视频网址| 精品女同一区二区| 日韩欧美一区二区三区免费观看| 福利在线小视频| 久久精品夜色噜噜亚洲aⅴ| av中文字幕免费在线观看| 日本精品久久久| 一区二区在线| 国产高潮呻吟久久| 精品福利视频一区二区三区|