精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

譯文 精選
人工智能
生成式AI模型成為當前機器學習的熱點之一,GPT-4、Claude 2.1和Claude 3.0 Opus就是三種具有代表性的模型。本文將針對這三種模型進行評估和比較,并給出實驗結果對比分析。

想了解更多AIGC的內容,請訪問:

51CTO AI.x社區

http://www.jxzklqfsx.com/aigc/

簡介

當前,RAG(檢索增強生成)系統的新評估似乎每天都在發布,其中許多都集中在有關框架的檢索階段。然而,生成方面——模型如何合成和表達這些檢索到的信息,在實踐中可能具有同等甚至更大的意義。許多實際應用中的案例證明,系統不僅僅要求從上下文中返回事實數據,還需要將這些事實合成一個更復雜的響應。

為此,我們先后進行了幾個實驗,對GPT-4、Claude 2.1和Claude 3 Opus(https://www.anthropic.com/news/claude-3-family)三種模型的生成能力進行了評估和比較。本文將詳細介紹我們的研究方法、結果和在此過程中遇到的這些模型的細微差別,并說明為什么這些內容對使用生成式人工智能進行構建的人來說非常重要。

有興趣的讀者如果想重現上述實驗的結果,那么實驗中所需的一切都可以從GitHub存儲庫(https://github.com/Arize-ai/LLMTest_NeedleInAHaystack)中找到。

補充說明

  • 盡管最初的發現表明Claude的性能優于GPT-4,但隨后的測試表明,隨著戰略提示工程技術的出現,GPT-4在更廣泛的評估中表現出了卓越的性能。總之,RAG系統中固有的模型行為和提示工程當中還存在很多的問題。
  • 只需在提示模板中簡單地添加一句“請解釋自己,然后回答問題”,即可顯著提高(超過兩倍)GPT-4的性能。很明顯,當LLM說出答案時,這似乎有助于進一步展開有關想法。通過解釋,模型有可能在嵌入/注意力空間中重新執行正確的答案。

RAG階段與生成的重要性

圖1:作者創建的圖表

雖然在一個檢索增強生成系統中檢索部分負責識別和檢索最相關的信息,但正是生成階段獲取這些原始數據,并將其轉換為連貫、有意義和符合上下文的響應。生成步驟的任務是合成檢索到的信息,填補空白信息,并以易于理解和與用戶查詢相關的方式呈現。

在許多現實世界的應用中,RAG系統的價值不僅在于它們定位特定事實或信息的能力,還在于它們在更廣泛的框架內集成和情境化信息的能力。生成階段使RAG系統能夠超越簡單的事實檢索,并提供真正智能和自適應的響應。

測試#1:日期映射

我們運行的初始測試包括從兩個隨機檢索的數字中生成一個日期字符串:一個表示月份,另一個表示日期。模型的任務是:

  • 檢索隨機數#1
  • 隔離最后一位并遞增1
  • 根據結果為我們的日期字符串生成一個月
  • 檢索隨機數#2
  • 從隨機數2生成日期字符串的日期

例如,隨機數4827143和17表示4月17日。

這些數字被放置在不同深度的不同長度的上下文中。模型最初在完成這項任務時經歷了相當困難的時期。

圖2:初始測試結果

雖然這兩個模型都表現不佳,但在我們的初步測試中,Claude 2.1的表現明顯優于GPT-4,成功率幾乎翻了四倍。正是在這里,Claude模型的冗長本性——提供詳細、解釋性的回答——似乎給了它一個明顯的優勢,與GPT-4最初簡潔的回答相比,結果更準確。

在這些意想不到的實驗結果的推動下,我們在實驗中引入了一個新的變量。我們指示GPT-4“解釋自己,然后回答問題”,這一提示鼓勵了類似于Claude模型自然輸出的更詳細的響應。因此,這一微小調整的影響還是深遠的。

圖3:有針對性提示結果的初始測試

GPT-4模型的性能顯著提高,在隨后的測試中取得了完美的結果。Claude模型的成績也有所改善。

這個實驗不僅突出了語言模型處理生成任務的方式的差異,還展示了提示工程對其性能的潛在影響。Claude的優勢似乎是冗長,事實證明這是GPT-4的一種可復制策略,這表明模型處理和呈現推理的方式會顯著影響其在生成任務中的準確性??偟膩碚f,在我們的所有實驗中,包括看似微小的“解釋自己”這句話,都在提高模型的性能方面發揮了作用。

進一步的測試和結果

圖4:用于評估生成的四個進一步測試

我們又進行了四次測試,以評估主流模型將檢索到的信息合成并轉換為各種格式的能力:

  • 字符串連接:將文本片段組合成連貫的字符串,測試模型的基本文本操作技能。
  • 貨幣格式:將數字格式化為貨幣,四舍五入,并計算百分比變化,以評估模型的精度和處理數字數據的能力。
  • 日期映射:將數字表示轉換為月份名稱和日期,需要混合檢索和上下文理解。
  • 模運算:執行復數運算以測試模型的數學生成能力。

不出所料,每個模型在字符串連接方面都表現出了強大的性能,這也重申了以前的理解,即文本操作是語言模型的基本優勢。

圖5:貨幣格式化測試結果

至于貨幣格式化測試,Claude 3和GPT-4的表現幾乎完美無瑕。Claude 2.1的表現總體上較差。準確度在標記長度上變化不大,但當指針更接近上下文窗口的開頭時,準確度通常會更低。

圖6:正式的來自Haystack網站的測試結果

盡管在一代測試中取得了出色的結果,但Claude 3的準確性在一個僅用于檢索的實驗中有所下降。從理論上講,簡單地檢索數字也應該比操縱數字更容易——這使得性能的下降令人驚訝,也是我們計劃進一步測試的領域。如果有什么不同的話,這種違反直覺的下降只會進一步證實這樣一種觀點,即在使用RAG開發時,檢索和生成都應該進行測試。

結論

通過測試各種生成任務,我們觀察到,雖然Claude和GPT-4這兩個模型都擅長字符串操作等瑣碎任務,但在更復雜的場景中,它們的優勢和劣勢變得顯而易見(https://arize.com/blog-course/research-techniques-for-better-retrieved-generation-rag/)。LLM在數學方面仍然不太好!另一個關鍵結果是,“自我解釋”提示的引入顯著提高了GPT-4的性能,強調了如何提示模型以及如何闡明其推理對實現準確結果的重要性。

這些發現對LLM的評估具有更廣泛的意義。當比較像詳細的Claude和最初不那么詳細的GPT-4這樣的模型時,很明顯,RAG評估(https://arize.com/blog-course/rag-evaluation/)標準必須超越以前僅重視正確性這一點。模型響應的冗長引入了一個變量,該變量可以顯著影響他們的感知性能。這種細微差別可能表明,未來的模型評估應將平均答復長度視為一個值得注意的因素,從而更好地了解模型的能力,并確保更公平的比較。

譯者介紹

朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:Tips for Getting the Generation Part Right in Retrieval Augmented Generation,作者:Aparna Dhinakaran

鏈接:

nce.com/tips-for-getting-the-generation-part-right-in-retrieval-augmented-generation-7deaa26f28dc。

想了解更多AIGC的內容,請訪問:

51CTO AI.x社區

http://www.jxzklqfsx.com/aigc/

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2024-05-08 07:28:06

LLMLinguaLLM大型語言模型

2024-12-25 20:01:13

2024-03-27 13:32:00

AI數據

2023-07-12 16:10:48

人工智能

2024-06-24 17:45:16

2023-11-23 14:05:36

Claude 2.0聊天機器人

2024-05-20 08:20:00

OpenAI模型

2025-09-08 08:40:00

AI模型編程

2023-10-24 19:06:44

數據模型

2024-03-28 14:26:51

人工智能

2024-03-28 13:15:00

化學專業Claude 3GPT-4

2023-12-11 13:20:00

數據訓練

2024-12-18 13:24:30

谷歌AI大語言模型

2024-04-01 12:41:55

2025-08-07 09:07:21

2023-10-11 13:09:52

訓練模型

2024-04-12 17:41:28

GPT-4TurboClaude

2024-12-09 08:00:00

AI大模型人工智能

2024-03-05 11:17:40

AI模型

2025-05-26 02:15:00

點贊
收藏

51CTO技術棧公眾號

国产欧美日韩中文字幕| 亚洲精品一区二区三区香蕉| 天天爽天天狠久久久| 正在播放亚洲精品| 天天色综合色| 欧美xingq一区二区| 男人天堂网站在线| 亚洲第一页在线观看| 99国产精品久久久久久久| 精品一区二区三区三区| 日韩欧美xxxx| 久操视频在线观看| 成人免费视频播放| 国产999精品久久久| 国产色无码精品视频国产| julia中文字幕一区二区99在线| 一区二区三区av电影| 久久综合福利| 国产精品毛片久久久久久久av| 这里只有精品在线| 日韩电影中文字幕一区| 99热成人精品热久久66| 天天综合视频在线观看| 激情丁香综合五月| 欧美一级黑人aaaaaaa做受| 久久久国产一级片| 欧美久久亚洲| 色婷婷国产精品久久包臀| 国产日韩视频在线播放| 亚洲 欧美 精品| 精品一区二区在线视频| 97超级碰碰碰久久久| 潮喷失禁大喷水aⅴ无码| 北条麻妃一区二区三区在线| 欧美精品一卡两卡| 五十路熟女丰满大屁股| 思思99re6国产在线播放| 99久久久无码国产精品| 成人两性免费视频| 自拍偷拍18p| 欧美日本亚洲韩国国产| 亚洲精品99久久久久中文字幕| 男人添女荫道口喷水视频| 国产专区在线播放| 播五月开心婷婷综合| 国产欧美一区二区三区在线| 99精品在线播放| 欧美精品日韩| 按摩亚洲人久久| 欧美色图亚洲激情| 超碰97久久国产精品牛牛| 在线91免费看| 三上悠亚在线一区二区| 成人性生活视频| 午夜精品免费在线| 日韩人妻一区二区三区蜜桃视频| av每日在线更新| 国产三级精品在线| 国产精品久久久久久久久久久久午夜片 | 欧美一区二区三区在线播放| 国内精品偷拍视频| 久久国产精品露脸对白| 国产成人一区二区三区| 在线观看日韩中文字幕| 在线成人欧美| 久久久欧美精品| 久久97人妻无码一区二区三区| 97精品国产福利一区二区三区| 亚洲天堂成人在线| 久久久久久国产精品无码| 亚洲成aⅴ人片久久青草影院| 精品国产一区二区三区av性色 | 精品无码久久久久久久久| 国产精品7m凸凹视频分类| 色妞一区二区三区| 国产又粗又硬视频| 国产中文字幕一区二区三区 | 国产精品6699| 欧美另类高清videos的特点| 欧美aaa在线| 国产欧美日韩高清| 亚洲天堂中文网| 国内精品久久久久影院薰衣草| 92国产精品久久久久首页 | 亚洲小说区图片| 亚洲在线视频免费观看| 精品国产av无码一区二区三区| 国产区美女在线| 亚洲国产一区二区三区青草影视| 2018中文字幕第一页| www.九色在线| 欧美日韩性视频在线| av片中文字幕| 久久久久黄色| 欧美日韩国产电影| 天天干天天色天天干| 99久久这里有精品| 精品国产一区二区三区不卡| 97超碰在线免费观看| 精品久久影院| 久久手机精品视频| 久久久久久欧美精品se一二三四| 99热精品在线| 国产精品白嫩初高中害羞小美女| 亚洲一级视频在线观看| 国产精品99久| 免费中文日韩| 国产成人午夜| 精品久久久国产| 污视频免费在线观看网站| 亚洲第一二区| 亚洲欧美一区二区三区久久 | 国产ts人妖调教重口男| 99久久99久久精品国产片果冻| 色播五月综合| 国产桃色电影在线播放| 欧美视频一区在线观看| 国产乱国产乱老熟300部视频| 6080亚洲理论片在线观看| 亚洲图片制服诱惑| 午夜国产小视频| 欧美私人啪啪vps| 国产精品福利片| 亚洲卡一卡二卡三| 欧美经典一区二区三区| www.av91| 2019中文亚洲字幕| 亚洲美女av黄| 久久久无码一区二区三区| 日韩电影在线一区二区三区| 福利视频久久| 在线激情网站| 欧美色视频日本版| 亚洲区 欧美区| 欧美色女视频| 91精品国产高清久久久久久久久| 亚洲系列第一页| 成+人+亚洲+综合天堂| 最近中文字幕免费mv| 午夜激情成人网| 亚洲精品第一页| 欧美精品99久久久| 精品一区二区在线视频| 奇米精品在线| 天堂电影一区| 亚洲国产成人91精品| 精品无码久久久久成人漫画| 日本成人在线视频网站| 精品视频第一区| 亚洲性图自拍| 欧美一卡在线观看| 亚洲色图 激情小说| 老司机亚洲精品| 国内成+人亚洲| 久久免费电影| 欧美刺激午夜性久久久久久久| 日本黄色录像视频| 日本午夜一区二区| 日韩一区二区三区资源| 亚洲啊v在线| 日韩av影院在线观看| 久久久久性色av无码一区二区| 国产精品一区专区| 二级片在线观看| 亚洲伦乱视频| 亚洲国产欧美日韩精品| 国产在线视频99| jiyouzz国产精品久久| 黄色一级片av| 亚洲三级av| 欧美激情亚洲激情| 黑人精品一区二区三区| 香蕉影视欧美成人| 国产成人精品综合久久久久99| 欧美1区3d| 91在线国产电影| 精品美女在线观看视频在线观看| 91麻豆精品91久久久久久清纯| 欧美在线观看视频免费| 九七影院97影院理论片久久| 伊人激情综合网| 亚洲av人无码激艳猛片服务器| 国产三级久久久| 自拍偷拍一区二区三区四区| 国产精品精品国产一区二区| 91久久久在线| 日本伦理一区二区| 亚洲黄色av女优在线观看| 91video| 欧美国产精品久久| 亚洲男人天堂av在线| 精品国产一区二区三区小蝌蚪| 日本一区二区三区在线播放| av影片免费在线观看| 9191精品国产综合久久久久久| 曰本女人与公拘交酡| 成人av在线资源网站| 18岁视频在线观看| 色狮一区二区三区四区视频| 99久久精品久久久久久ai换脸| a'aaa级片在线观看| 亚洲色在线视频| 国产伦精品一区二区三区免.费 | 强行糟蹋人妻hd中文| 成人av在线一区二区三区| 日韩毛片在线免费看| 欧美精品系列| 成人在线免费观看视视频| 激情在线视频播放| 亚洲欧美日韩精品久久亚洲区| 中文字幕精品一区二| 亚洲精品国产精华液| 欧美无人区码suv| 久久99精品久久久| 日本午夜激情视频| 欧美3p视频| 国产欧美韩日| 欧洲亚洲精品| 久久久伊人日本| 青青视频在线观| 日韩一级精品视频在线观看| 国产中文字幕视频| 亚洲欧美二区三区| 久久久久久国产精品无码| 国产精品亚洲成人| 免费观看成人在线视频| 国产精品a久久久久| 亚洲mv在线看| 日韩啪啪网站| 91免费在线观看网站| 亚洲一级少妇| 欧美高清自拍一区| 成年午夜在线| 日韩精品一二三四区| www.色婷婷.com| 欧美午夜不卡在线观看免费| 亚洲日本韩国在线| 亚洲综合一区二区| 成人午夜免费影院| 久久亚洲私人国产精品va媚药| 色哟哟在线观看视频| 免费的成人av| 国产男女无遮挡| 亚洲激情一区| 日本男女交配视频| 亚洲一区色图| 一区二区不卡在线| 菠萝蜜一区二区| 国产免费一区二区三区| 伊色综合久久之综合久久| 成人免费黄色网| 26uuu亚洲电影| 国模精品视频一区二区| 亚洲区欧洲区| 欧美高跟鞋交xxxxhd| 岛国中文字幕在线| 久久精品2019中文字幕| 日本综合在线| 伊人伊人伊人久久| 黄色av网站免费在线观看| 3atv一区二区三区| 96亚洲精品久久久蜜桃| 7777精品伊人久久久大香线蕉超级流畅| 日本中文字幕在线观看视频| 色噜噜狠狠色综合欧洲selulu| www.久久久久久久| 欧美日韩亚洲精品一区二区三区| 国产情侣在线视频| 午夜婷婷国产麻豆精品| 日本学生初尝黑人巨免费视频| 亚洲国产aⅴ天堂久久| 久久免费视频精品| 亚洲欧洲日韩女同| 精品人妻伦九区久久aaa片| 亚洲欧美日韩中文字幕一区二区三区| 神马久久精品综合| 亚洲欧洲www| 国产一二三四区| 亚洲观看高清完整版在线观看| 国产亚洲精久久久久久无码77777| 亚洲国产人成综合网站| 日产电影一区二区三区| 精品久久久久久久久久久久久| 亚洲精品1区2区3区| 亚洲一区二区三区四区不卡| 日韩欧美亚洲一区二区三区| 欧美特黄级在线| 免费在线不卡av| 91精品国模一区二区三区| 日本高清不卡三区| 欧洲美女女同性互添| 久久精品欧美一区二区三区麻豆| www.88av| 国产精品色在线| 美女视频久久久| 亚洲国产视频一区| 中文字幕视频网| 欧美日韩精品免费观看视频| 亚洲第一精品网站| 精品在线欧美视频| 二区在线视频| 欧美俄罗斯乱妇| 成人性生交大片免费观看网站| 国产精品三级在线| 91精品尤物| 日韩在线电影一区| 真实国产乱子伦精品一区二区三区| 久久久久久久香蕉| 老鸭窝毛片一区二区三区| 亚洲精品www.| 99久久久精品| 五月婷婷综合激情网| 亚洲一区二区美女| 亚洲成人av网址| 欧美白人最猛性xxxxx69交| 高清中文字幕一区二区三区| 欧美老女人性生活| 欧美一级大黄| 岛国一区二区三区高清视频| 精品视频高潮| 亚洲欧美日韩精品在线| 亚洲茄子视频| 欧美一级小视频| 国产网红主播福利一区二区| 玖玖爱免费视频| 欧美视频一区二区三区四区 | 久久bbxx| 日韩美女视频在线观看| 亚洲精品一二三**| 亚洲精品高清国产一线久久| 国产精品日本欧美一区二区三区| 欧美美女性视频| 久久久久久久电影| 麻豆影视在线播放| 欧美性大战久久久久久久蜜臀| 香蕉视频免费在线看| 久久精品小视频| av成人在线播放| 蜜桃网站成人| 亚洲欧美日韩国产| 激情图片中文字幕| 久久婷婷色综合| 国产成人一区二区三区影院在线| 日韩欧美在线一区二区三区| 91在线网址| 欧美与欧洲交xxxx免费观看| av在线亚洲色图| 公共露出暴露狂另类av| 开心九九激情九九欧美日韩精美视频电影| 国产三级国产精品| 婷婷一区二区三区| 亚洲第一视频在线| 欧美肥婆姓交大片| 精品视频成人| 区一区二区三区中文字幕| 亚洲午夜视频| 日韩成人av影院| 亚洲综合色网站| а√中文在线资源库| 两个人的视频www国产精品| 成人国产一区| 艳色歌舞团一区二区三区| 蜜桃视频一区二区| 亚洲欧美综合7777色婷婷| 欧美老女人第四色| 精品欧美色视频网站在线观看| av在线亚洲男人的天堂| 野花国产精品入口| 美女爆乳18禁www久久久久久| 欧美三区免费完整视频在线观看| 国产丝袜在线| 国产在线一区二区三区播放| 丝袜美腿亚洲一区二区图片| 18精品爽国产三级网站| 日韩欧美一级片| 国模冰冰炮一区二区| 亚洲一区影院| 丁香婷婷综合激情五月色| 国产精品久久久久久久久久久久久久久久久 | 欧美一区二区免费在线观看| 一本久道中文字幕精品亚洲嫩| 天天综合视频在线观看| 国产精品一区二区三区在线观| 老司机精品福利视频| 卡通动漫亚洲综合| 亚洲精品美女久久久| 韩国理伦片久久电影网| 99久久免费观看| 国产日韩精品一区二区三区 | 一区二区欧美久久| 国产精品一区三区在线观看| 欧美 日本 亚洲| 国产精品成人在线观看| 欧美 日韩 国产 在线| 国产精品丝袜高跟| 99精品免费视频| 91成人福利视频| 国产午夜精品一区理论片飘花| 91九色鹿精品国产综合久久香蕉| 一区二区xxx|