精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

維基百科+大模型打敗幻覺！斯坦福WikiChat性能碾壓GPT-4，準確率高達97.3%

作者：新智元 2024-01-03 13:37:00

人工智能新聞

大模型固有的幻覺問題嚴重影響了LLM的表現。斯坦福最新研究利用維基百科數據訓練大模型，得到的WikiChat成為首個幾乎不產生幻覺的聊天機器人。

大語言模型的幻覺問題被解決了！

近日，來自斯坦福的研究人員發布了WikiChat——被稱為首個幾乎不產生幻覺的聊天機器人！

論文發表在EMNLP 2023，并且在Github上開源了代碼：

論文地址：https://aclanthology.org/2023.findings-emnlp.157.pdf

項目代碼：https://github.com/stanford-oval/WikiChat

作者表示自己的最佳模型在新的基準測試中獲得了97.3%的事實準確性，而相比之下，GPT-4的得分僅為66.1%。

在「recent」和「tail」兩個知識子集中，這個差距甚至更大。

另外，作者還發現了檢索增強生成（RAG）的幾個缺點，并添加了幾個重要步驟，以進一步減輕幻覺，并改進「對話性」指標。

通過這些優化，WikiChat在事實性方面比微調后的SOTA RAG模型Atlas高出8.5%，

在相關性、信息性、自然性、非重復性和時間正確性方面也大大領先。

最后，作者將基于GPT-4的WikiChat提煉成7B參數的LLaMA，這個模型在事實準確性方面仍然能拿到91.1%的高分，

并且運行速度提高了6.5倍，能效更好，可以本地部署。

大模型+維基百科，一起擊敗幻覺

眾所周知，LLM的幻覺問題由來已久、根深蒂固，

而且曾給各家的大語言模型都造成過不同程度的影響。

基于LLM使用概率來推斷輸出的原理，幻覺這個問題很難徹底解決，

研究人員們為此投入大量的心血，小編也是很期待這個WikiChat的表現！

WikiChat，顧名思義，就是基于維基百科的知識進行訓練，聽起來還挺靠譜的。

除了論文和代碼，研究團隊還部署了可以直接對話的demo供大家測試，好文明！

Demo地址：https://wikichat.genie.stanford.edu/

于是小編迫不及待地要試一試WikiChat的實力。

WikiChat首先進行了自我介紹，表示自己會記錄對話用于研究，

另外，WikiChat有以下三種模式：

默認狀態是平衡輸出速度和準確性，我們可以在右邊的設置中調節。

WikiChat還額外添加了TTS功能，輸出是個溫柔的女聲。

好了，讓我們趕緊「Ask her about anything on Wikipedia」！

——開個玩笑，既然你不會中文，那小編這點英文水平，只能獻丑了......

（注意上面的這句中文不要點擊語音輸出，有可能導致整個聊天卡住無法恢復）

下面，我們首先問一個常識性問題：Sam Altman是OpenAI的CEO嗎？

其實小編想測試她知不知道Altman被開除，然后又王者歸來這件事，

不過這一句「在2020年離開YC，全職加入OpenAI」，貌似就有事實性的錯誤。

小編接下來使用游戲信息進行測試：介紹一下「原神」中的「宵宮」。

這個回答確實沒什么問題，卡池時間和配音演員也正確，

既然提到了配音演員，那順便問一下中文CV是誰：

這......不知道她為什么產生了這樣的幻覺？實際上維基百科中是有相關信息的：

那我們提醒她反思一下：

好家伙，給出了另一個錯誤答案，小編想了一下，應該說的是游戲中另一位角色的CV（負責《神女劈觀》中的戲腔部分，知名度較高）。

那么測試一下，知名度比較高的角色。

小編選擇了在維基百科上有單獨條目的雷電將軍：

這下連卡池時間都有事實性錯誤，——而維基百科中的相關描述是沒有問題的。

WikiChat對于自己一直心心念念的配音演員，倒是沒有回答錯誤。

小編于是不死心地又測試了一遍之前的問題：

WikiChat也是不死心地給出了和之前同樣的回答，并且在要求反思之后，變成了「道歉機器人」。

把模式調整到事實性優先：

WikiChat給出回答的速度要慢了很多，但還是只能道歉。

小編于是換了另一位有單獨百科條目的角色：

除了第一句，后面就開始滿嘴跑火車了。

最后，來問一下配音演員的問題（維基百科的單獨條目中包含此信息）：

......你這個聊天機器人是什么情況，認準了Juhuahua了是嗎？

測試到此結束，小編不知如何總結，有可能是我的問題有問題吧。

比如我問題的相關信息，在英語維基百科的語料中重要性很小。

不論如何，WikiChat在一些問題上的表現確實還不錯，比如宵宮那個問題，換成ChatGPT，就幾乎沒有任何沾邊的事實。

這說明研究人員確實采取了一些有效的優化方法，來解決LLM的幻覺問題。

WikiChat架構

這項工作的事實性基礎是信息檢索（IR），它基于聊天機器人的響應、以及從可信語料庫中檢索到的信息，然后生成方法利用檢索到的數據生成響應。

上圖展示了WikiChat的組件，以及一段示例對話（關于即將上映的電影）。

生成響應所采取的步驟包括：

1. 生成從維基百科檢索的查詢，

2. 總結和過濾檢索到的段落，

3. 從LLM生成響應，

4. 從LLM響應中提取聲明，

5. 使用檢索到的證據對LLM響應中的聲明進行事實核查，

6. 起草響應，

7. 完善響應。

研究人員使用用戶話語來檢索LLM可能不知道的信息，要求LLM做出回應，并對其進行事實檢查。

阻止LLM產生幻覺并不容易。一般情況下，當IR沒有檢索到任何相關信息，或知識語料庫中沒有相關信息時，LLM會產生幻覺來彌補不足。

因此，WikiChat會匯總和過濾檢索到的信息，而不是直接生成響應。

這里分別對LLM生成的每個聲明進行事實核查，并在必要時教系統說「我不知道」。

教LLM理解時間背景：例如，文章中的將來時態可能是指對話時的過去事件。

最重要的是，不能通過放棄這些必要的步驟來過早地優化速度，而是依靠模型蒸餾來減少延遲，直到達到高質量。

上圖中管道的每個階段都是使用上下文學習實現的。

生成的管道不特定于任何語料庫。雖然本文將管道應用于維基百科以創建WikiChat，但它適用于任何自由文本語料庫，包括個人和公司機密信息。

該管道也不特定于任何LLM，作者在本文中將其應用于三個不同的LLM。

策劃正確且與對話上下文相關的信息

LLM能夠解釋用戶話語，制定檢索范圍之外的響應，或者需要聚合來自多個來源的信息或得出結論，比如：

用戶：你認為蘋果會繼續成為科技行業的重要參與者嗎？

GPT-4：是的，......蘋果擁有良好的創新記錄、忠實的客戶群和穩健的財務狀況。全球市值最高的公司，市值超過2萬億美元。繼續探索增強現實、人工智能、自動駕駛汽車等新技術。這將幫助他們在競爭中保持領先地位。

但我們不能完全相信LLM，而是需要對它們的輸出進行事實檢查。此外，LLM不知道最近發生的事件。

在與用戶的對話中，WikiChat會識別何時需要訪問外部信息。這可能是因為最后一個用戶話語包含直接問題（例如「斯蒂芬·庫里是誰？」），或者需要其他信息才能做出全面的回答（例如「我真的很喜歡斯蒂芬·庫里」）。

第1階段，WikiChat生成一個搜索查詢，該查詢通過提示捕獲用戶的興趣（如下圖所示）。作者發現，現有的系統尤其難以適應時間環境。

WikiChat在查詢旁邊生成用戶需求的推斷時間。查詢時間可以是最近、year=yyyy或none之一，分別表示檢索到的信息應盡可能近、特定年份或時間不重要。

將查詢發送到信息檢索系統，從語料庫中獲取相關段落，并根據時態信息對排名靠前的結果進行重新排序，得到Npassages。

第2階段，由于這些段落可能包含相關和不相關部分的混合，WikiChat會提取檢索到的段落的相關部分，并將它們總結為要點，同時過濾掉不相關的部分（如下圖所示）。

第3階段，提示LLM生成對對話歷史記錄的響應。這種回應通常包含有趣且相關的知識，但本質上是不可靠的。

第4階段，LLM響應被分解為多種聲明（如下圖），此階段解析共同引用以減少歧義，并解析相對時間信息（如「當前」和「去年」），以使所有聲明自包含。

然后使用IR從知識語料庫中檢索Nevidence段落，以便每個聲明作為證據，并使用基于時間的重新排名來更好地處理時間敏感的主題。

第5階段，驗證提示（如下圖）使用思維鏈提示，將每個聲明分配給以下三類之一：檢索到的證據是否支持該聲明、反駁該聲明，或者證據中是否沒有足夠的信息來做出此決定。只有有證據支持的主張才會被保留。

使用收集到的信息來形成響應

實驗表明，在滿足所有會話標準的情況下一次性編寫最終響應，對于上下文學習具有挑戰性，尤其是有限的上下文長度，使得很難提供足夠的多輪對話，作為少量示例來涵蓋所有必要的方面。因此，這里采用兩步法：

第6階段，WikiChat根據給定的要點列表和對話歷史記錄生成響應草稿。

第7階段，生成反饋并進行優化——基于相關性、自然性、非重復性和時間正確性的響應。

反饋包含模型對每個標準的推理，以及每個標準的分數介于0到100之間，細化以此反饋為條件。

改進是以這種反饋和分數為條件的，作為一個思維鏈。

最后，我們來看一下WikiChat的效果：

上表展示了WikiChat的評估結果和模擬對話的基線。事實和時間準確性是百分比，其他指標是介于1和5之間的整數的平均值。

事實準確性來自人類評估，其他指標來自小樣本GPT-4。所有指標都是越高越好。

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

免费精品一区二区| brazzers精品成人一区| 亚洲综合伊人久久大杳蕉| 国产成人精品免费看| 国模gogo一区二区大胆私拍| 日韩av在线看免费观看| 一区二区三区无毛| 天天综合色天天综合| 丝袜足脚交91精品| 午夜久久久久久久久久| 一区二区久久| xvideos亚洲人网站| 国模私拍在线观看| 大地资源二中文在线影视观看| 黄在线观看网站| 98在线视频| 成人午夜大片免费观看| 国产精品视频yy9099| 久久97人妻无码一区二区三区| 视频精品在线观看| 欧美一区二区大片| 亚洲国产精品久久久久爰色欲| 好操啊在线观看免费视频| 91丝袜国产在线播放| 成人福利视频网| 麻豆成人免费视频| 欧美激情1区| 日韩在线中文字| 动漫精品一区二区三区| 91成人噜噜噜在线播放| 欧美日韩一区二区三区视频 | 成人羞羞视频在线看网址| 精品国偷自产国产一区| 免费在线观看污网站| 日韩欧美另类一区二区| 五月婷婷激情综合网| 看一级黄色录像| 老司机免费在线视频| 国产欧美视频一区二区三区| 久久亚洲国产精品日日av夜夜| 精品久久久久中文慕人妻| 蜜臀av一区二区在线观看| 欧美在线免费看| 懂色av.com| 好吊一区二区三区| 欧美成人小视频| 亚洲一区电影在线观看| 日韩在线欧美| 在线亚洲欧美视频| 国产黄色大片免费看| 欧洲专线二区三区| 亚洲精品视频免费| 无码h肉动漫在线观看| 久久久亚洲欧洲日产| 精品处破学生在线二十三| 91福利视频免费观看| 免费观看亚洲天堂| 日韩精品一区二区在线观看| 久久出品必属精品| 亚洲网一区二区三区| 精品少妇一区二区三区免费观看| 中文字幕在线视频一区二区| 久久天堂久久| 精品精品国产高清a毛片牛牛| 国产精品日日摸夜夜爽| 欧美xnxx| 欧美日本乱大交xxxxx| 亚洲综合123| 操欧美女人视频| 亚洲精品福利资源站| 亚洲自拍偷拍一区二区| 精品成人影院| 精品国产一区久久久| 免费看一级一片| 野花国产精品入口| 国产精品91免费在线| 一区二区视频网| 国产精品资源站在线| 国产精品污www一区二区三区| 手机看片国产1024| 国产喂奶挤奶一区二区三区| 亚洲区一区二区三区| a免费在线观看| 亚洲va欧美va人人爽午夜| 日韩av片在线看| а√天堂资源国产精品| 欧美一区二区视频在线观看2020 | 免费在线观看毛片网站| 中文字幕日本一区二区| 7799精品视频| 奇米777第四色| 国产一区二区三区站长工具| 久久久成人精品视频| 久久精品女人毛片国产| 水蜜桃久久夜色精品一区的特点| 成人免费网视频| 色哟哟中文字幕| 国产精品欧美一区二区三区| 日本男女交配视频| 日本一区二区电影| 日韩三级视频在线看| 丝袜美腿中文字幕| 一区二区三区午夜探花| 青青在线视频一区二区三区| 国产又爽又黄免费软件| www激情久久| 日本道在线视频| 亚洲成av在线| 亚洲成在人线av| 免费看一级黄色| 国产一区二区三区久久| 成人在线激情视频| 精品久久久久一区二区三区| 亚洲永久精品国产| 深夜黄色小视频| 日韩三级毛片| 欧美日韩电影在线观看| 中文字幕人妻精品一区| 成人黄色综合网站| 亚洲区成人777777精品| 国产经典一区| 日韩电影在线观看永久视频免费网站| 欧美做爰啪啪xxxⅹ性| 久久久久久自在自线| 99久久一区三区四区免费| 97人人在线| 日韩欧美a级成人黄色| 精品国产aⅴ一区二区三区东京热久久久久99人妻一区二区三区 | 欧美va久久久噜噜噜久久| 538国产精品视频一区二区| www.天堂av.com| 中文字幕一区二区三区蜜月| 成人黄色一区二区| 亚洲影院天堂中文av色| 久久久久久亚洲| 国产黄色片网站| 亚洲三级视频在线观看| 亚洲欧美日韩系列| 女人丝袜激情亚洲| 66m—66摸成人免费视频| 亚洲黄色a级片| 亚洲精品亚洲人成人网| xxxx在线免费观看| 日韩三级在线| 国产精品视频在线播放| 成人性生交大片免费看午夜| 色菇凉天天综合网| 波多野结衣av在线观看| 视频一区欧美日韩| 人禽交欧美网站免费| 国产高清不卡| 国产亚洲aⅴaaaaaa毛片| 69视频免费看| 国产欧美日韩卡一| 在线免费观看视频黄| 欧美艳星介绍134位艳星| 国产精品久久久久国产a级| 国产精品毛片一区二区三区四区| 色综合色狠狠综合色| 一区二区黄色片| 日韩电影一区二区三区| 任我爽在线视频精品一| 麻豆久久久久| 欧美大片免费看| 黄色片一区二区三区| 岛国av一区二区三区| 一色道久久88加勒比一| 蓝色福利精品导航| 日本a级片在线播放| 久久精品凹凸全集| 2019av中文字幕| 国产视频第一区| 欧美年轻男男videosbes| 懂色av懂色av粉嫩av| 成人小视频在线| 亚洲自偷自拍熟女另类| 欧州一区二区| 91视频免费进入| 色在线视频观看| 在线观看亚洲视频| 精品国产av鲁一鲁一区| 欧美日韩国产在线| 538精品视频| 国产乱人伦偷精品视频免下载| bt天堂新版中文在线地址| 欧美男gay| 亚洲最大福利视频网站| 涩涩视频在线| 久久九九亚洲综合| 神马午夜精品95| 欧美色爱综合网| 久久精品国产亚洲AV无码男同| 26uuu久久综合| 日本在线播放一区二区| 亚洲毛片一区| 中文字幕欧美日韩一区二区| 国产伦精品一区二区三区在线播放 | 久久国产精品72免费观看| 日本男女交配视频| 欧美一区二区三| 波多野结衣久草一区| 经典三级一区二区| 欧美激情亚洲自拍| av亚洲在线| 亚洲电影免费观看高清| 一级特黄aaa大片| 精品国产福利在线| 手机在线免费看毛片| 久久婷婷国产综合国色天香 | 99国产精品国产精品久久| 性猛交ⅹ×××乱大交| 一本久道久久综合婷婷鲸鱼| 一级日韩一区在线观看| 亚洲va久久久噜噜噜久久| 91麻豆精品秘密入口| 天天综合网站| 26uuu另类亚洲欧美日本老年| 国产在线观看av| 亚洲性夜色噜噜噜7777| 人妻一区二区三区四区| 欧美放荡的少妇| 久久久久精彩视频| 欧美日韩国产在线| 久久久久性色av无码一区二区| 国产精品久久久久久久久免费丝袜| av在线网站观看| 成人性视频网站| avtt中文字幕| 黄一区二区三区| 91亚洲免费视频| 日本怡春院一区二区| 亚洲国产精品久久久久爰色欲| 精品9999| 日本精品久久久久久久久久| 欧美在线二区| 在线观看成人免费| 五月天久久网站| 亚洲日本理论电影| 色婷婷亚洲mv天堂mv在影片| 色综合电影网| 精品72久久久久中文字幕| 欧美日本亚洲| 你微笑时很美电视剧整集高清不卡 | 91丨九色丨海角社区| 色婷婷av一区| 日韩精品成人免费观看视频| 色一情一伦一子一伦一区| www.国产色| 欧美日韩亚洲一区二| 国产情侣自拍av| 一本到高清视频免费精品| 国产精品第5页| 色激情天天射综合网| 久久久久久亚洲av无码专区| 日本久久精品电影| 自拍偷拍色综合| 欧美日韩三级视频| 国产三级按摩推拿按摩| 欧美一区二区三区视频免费| av网站在线观看免费| 精品日韩一区二区三区免费视频| 高h震动喷水双性1v1| 亚洲激情在线视频| 天堂在线一二区| 国产性色av一区二区| 欧美13一16娇小xxxx| 欧美猛少妇色xxxxx| 99久久精品免费看国产小宝寻花| 91av在线播放视频| 成人欧美magnet| 国产欧美日韩精品在线观看| 国产精品毛片aⅴ一区二区三区| 97视频中文字幕| 美国成人xxx| 色姑娘综合网| 亚洲国产不卡| 九九热只有这里有精品| 午夜在线精品| 亚洲va综合va国产va中文| 国产精选一区二区三区| 台湾佬美性中文| 久久先锋影音av| 少妇高潮一区二区三区喷水| 亚洲国产欧美一区二区三区丁香婷| 亚洲伊人成人网| 欧美日本不卡视频| 色呦呦视频在线| 中文字幕亚洲一区在线观看| 里番在线播放| 国产99久久精品一区二区| 国产精品视频一区二区三区| 精品国产中文字幕| 色天天综合网| 成人综合视频在线| 国内精品在线播放| 国内精品久久99人妻无码| 亚洲欧美一区二区视频| 午夜精品三级久久久有码| 欧美日韩国产天堂| 欧美一区二区公司| 日韩在线视频国产| 超碰一区二区| 成人黄色片视频网站| 欧美限制电影| 国产h视频在线播放| 久久精品999| 波多野结衣福利| 亚洲综合色区另类av| 中文字幕无码乱码人妻日韩精品| 亚洲第一中文字幕| a黄色片在线观看| 国产精品草莓在线免费观看| 成人午夜网址| 黄色一级片av| 另类调教123区| 国产aⅴ激情无码久久久无码| 亚洲大型综合色站| av官网在线观看| 中文字幕国产精品久久| 久久r热视频| 精品国产一区二区三区四区vr| 影音先锋日韩在线| 色婷婷综合网站| 久久久精品综合| 99久热在线精品996热是什么| 日韩免费在线观看| 久久精品视频免费看| 国产黑人绿帽在线第一区| 日韩在线你懂的| aa视频在线播放| 国产99久久久久久免费看农村| 国产黄色小视频网站| 欧美在线一区二区三区| 经典三级在线| 欧美在线视频免费| 色愁久久久久久| 国产青青在线视频| 成人黄色在线视频| 国产在线观看你懂的| 欧美zozozo| 四虎亚洲成人| 国产厕所精品在线观看| 欧美日韩一区自拍| 国产a√精品区二区三区四区| 亚洲蜜臀av乱码久久精品蜜桃| 国产精品国产精品国产专区| 日韩在线小视频| 精品久久久久久久久久岛国gif| 中文字幕一区二区三区四区五区六区 | 福利欧美精品在线| 日本熟妇人妻xxxx| 99久久伊人久久99| 亚洲男人的天堂在线视频| 亚洲久久久久久久久久久| 92国产精品| 日韩影视精品| 老司机免费视频一区二区 | 一区二区中文| 无码人妻少妇色欲av一区二区| 亚洲综合自拍偷拍| 日本激情一区二区| 青草成人免费视频| 精品国产123区| 亚洲这里只有精品| 亚洲欧美日韩在线| 人妻一区二区三区| 国产成人精品亚洲精品| 日韩免费av| 小日子的在线观看免费第8集| 亚洲电影第三页| 日韩电影网址| 国产精品日韩欧美综合| 91精品电影| 999精品免费视频| 色婷婷久久综合| 国产乱色在线观看| 国产精品一区在线播放| 久久狠狠婷婷| 成年人二级毛片| 亚洲а∨天堂久久精品9966| 欧美黑人一区| 裸体大乳女做爰69| www.亚洲免费av| 亚洲婷婷久久综合| 欧美成人精品三级在线观看| 国产欧美三级电影| 九九视频精品在线观看| 亚洲精品综合在线| 神马电影在线观看| 成人免费大片黄在线播放| 一区在线观看| 日本免费www| 精品国产一区二区国模嫣然| 久久久成人av毛片免费观看| 久久久99精品视频| 国产午夜亚洲精品羞羞网站| www.xxxx国产| 国产精品久久久久9999| 在线观看日韩av电影| 久久av红桃一区二区禁漫|