精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus 原創

發布于 2024-5-13 07:10
瀏覽
0收藏

生成式AI模型成為當前機器學習的熱點之一,GPT-4、Claude 2.1和Claude 3.0 Opus就是三種具有代表性的模型。本文將針對這三種模型進行評估和比較,并給出實驗結果對比分析。

簡介

當前,RAG(檢索增強生成)系統的新評估似乎每天都在發布,其中許多都集中在有關框架的檢索階段。然而,生成方面——模型如何合成和表達這些檢索到的信息,在實踐中可能具有同等甚至更大的意義。許多實際應用中的案例證明,系統不僅僅要求從上下文中返回事實數據,還需要將這些事實合成一個更復雜的響應。

為此,我們先后進行了幾個實驗,對GPT-4、Claude 2.1和Claude 3 Opus(https://www.anthropic.com/news/claude-3-family)三種模型的生成能力進行了評估和比較。本文將詳細介紹我們的研究方法、結果和在此過程中遇到的這些模型的細微差別,并說明為什么這些內容對使用生成式人工智能進行構建的人來說非常重要。

有興趣的讀者如果想重現上述實驗的結果,那么實驗中所需的一切都可以從GitHub存儲庫(https://github.com/Arize-ai/LLMTest_NeedleInAHaystack)中找到。

補充說明

  • 盡管最初的發現表明Claude的性能優于GPT-4,但隨后的測試表明,隨著戰略提示工程技術的出現,GPT-4在更廣泛的評估中表現出了卓越的性能??傊琑AG系統中固有的模型行為和提示工程當中還存在很多的問題。
  • 只需在提示模板中簡單地添加一句“請解釋自己,然后回答問題”,即可顯著提高(超過兩倍)GPT-4的性能。很明顯,當LLM說出答案時,這似乎有助于進一步展開有關想法。通過解釋,模型有可能在嵌入/注意力空間中重新執行正確的答案。

RAG階段與生成的重要性

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus-AI.x社區

圖1:作者創建的圖表

雖然在一個檢索增強生成系統中檢索部分負責識別和檢索最相關的信息,但正是生成階段獲取這些原始數據,并將其轉換為連貫、有意義和符合上下文的響應。生成步驟的任務是合成檢索到的信息,填補空白信息,并以易于理解和與用戶查詢相關的方式呈現。

在許多現實世界的應用中,RAG系統的價值不僅在于它們定位特定事實或信息的能力,還在于它們在更廣泛的框架內集成和情境化信息的能力。生成階段使RAG系統能夠超越簡單的事實檢索,并提供真正智能和自適應的響應。

測試#1:日期映射

我們運行的初始測試包括從兩個隨機檢索的數字中生成一個日期字符串:一個表示月份,另一個表示日期。模型的任務是:

  • 檢索隨機數#1
  • 隔離最后一位并遞增1
  • 根據結果為我們的日期字符串生成一個月
  • 檢索隨機數#2
  • 從隨機數2生成日期字符串的日期

例如,隨機數4827143和17表示4月17日。

這些數字被放置在不同深度的不同長度的上下文中。模型最初在完成這項任務時經歷了相當困難的時期。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus-AI.x社區

圖2:初始測試結果

雖然這兩個模型都表現不佳,但在我們的初步測試中,Claude 2.1的表現明顯優于GPT-4,成功率幾乎翻了四倍。正是在這里,Claude模型的冗長本性——提供詳細、解釋性的回答——似乎給了它一個明顯的優勢,與GPT-4最初簡潔的回答相比,結果更準確。

在這些意想不到的實驗結果的推動下,我們在實驗中引入了一個新的變量。我們指示GPT-4“解釋自己,然后回答問題”,這一提示鼓勵了類似于Claude模型自然輸出的更詳細的響應。因此,這一微小調整的影響還是深遠的。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus-AI.x社區

圖3:有針對性提示結果的初始測試

GPT-4模型的性能顯著提高,在隨后的測試中取得了完美的結果。Claude模型的成績也有所改善。

這個實驗不僅突出了語言模型處理生成任務的方式的差異,還展示了提示工程對其性能的潛在影響。Claude的優勢似乎是冗長,事實證明這是GPT-4的一種可復制策略,這表明模型處理和呈現推理的方式會顯著影響其在生成任務中的準確性。總的來說,在我們的所有實驗中,包括看似微小的“解釋自己”這句話,都在提高模型的性能方面發揮了作用。

進一步的測試和結果

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus-AI.x社區

圖4:用于評估生成的四個進一步測試

我們又進行了四次測試,以評估主流模型將檢索到的信息合成并轉換為各種格式的能力:

  • 字符串連接:將文本片段組合成連貫的字符串,測試模型的基本文本操作技能。
  • 貨幣格式:將數字格式化為貨幣,四舍五入,并計算百分比變化,以評估模型的精度和處理數字數據的能力。
  • 日期映射:將數字表示轉換為月份名稱和日期,需要混合檢索和上下文理解。
  • 模運算:執行復數運算以測試模型的數學生成能力。

不出所料,每個模型在字符串連接方面都表現出了強大的性能,這也重申了以前的理解,即文本操作是語言模型的基本優勢。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus-AI.x社區

圖5:貨幣格式化測試結果

至于貨幣格式化測試,Claude 3和GPT-4的表現幾乎完美無瑕。Claude 2.1的表現總體上較差。準確度在標記長度上變化不大,但當指針更接近上下文窗口的開頭時,準確度通常會更低。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus-AI.x社區

圖6:正式的來自Haystack網站的測試結果

盡管在一代測試中取得了出色的結果,但Claude 3的準確性在一個僅用于檢索的實驗中有所下降。從理論上講,簡單地檢索數字也應該比操縱數字更容易——這使得性能的下降令人驚訝,也是我們計劃進一步測試的領域。如果有什么不同的話,這種違反直覺的下降只會進一步證實這樣一種觀點,即在使用RAG開發時,檢索和生成都應該進行測試。

結論

通過測試各種生成任務,我們觀察到,雖然Claude和GPT-4這兩個模型都擅長字符串操作等瑣碎任務,但在更復雜的場景中,它們的優勢和劣勢變得顯而易見(https://arize.com/blog-course/research-techniques-for-better-retrieved-generation-rag/)。LLM在數學方面仍然不太好!另一個關鍵結果是,“自我解釋”提示的引入顯著提高了GPT-4的性能,強調了如何提示模型以及如何闡明其推理對實現準確結果的重要性。

這些發現對LLM的評估具有更廣泛的意義。當比較像詳細的Claude和最初不那么詳細的GPT-4這樣的模型時,很明顯,RAG評估(https://arize.com/blog-course/rag-evaluation/)標準必須超越以前僅重視正確性這一點。模型響應的冗長引入了一個變量,該變量可以顯著影響他們的感知性能。這種細微差別可能表明,未來的模型評估應將平均答復長度視為一個值得注意的因素,從而更好地了解模型的能力,并確保更公平的比較。

譯者介紹

朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:Tips for Getting the Generation Part Right in Retrieval Augmented Generation,作者:Aparna Dhinakaran

鏈接:

nce.com/tips-for-getting-the-generation-part-right-in-retrieval-augmented-generation-7deaa26f28dc。

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
国产原创精品视频| 天天爽夜夜爽人人爽| 国产在线不卡一区二区三区| 亚洲最快最全在线视频| 免费99视频| 97超碰人人模人人人爽人人爱| 综合日韩在线| 国产香蕉精品视频一区二区三区| 亚洲理论中文字幕| 亚洲妇女成熟| 最新不卡av在线| 久久综合毛片| 精品人妻aV中文字幕乱码色欲| 老鸭窝91久久精品色噜噜导演| 久久精品国产亚洲精品| 中文字幕在线免费看线人| 亚洲aⅴ网站| 欧美性jizz18性欧美| 国产日韩第一页| 国产人成在线观看| 成人sese在线| 亚洲最大激情中文字幕| 国模私拍一区二区| 亚洲欧美日韩国产综合精品二区| 美女av一区二区| 欧美做受高潮6| 精品伊人久久久| 日韩欧美电影在线| 国产乱叫456| 国产国产一区| 在线观看91精品国产入口| av免费观看国产| а√中文在线8| 国产精品美日韩| 欧美日韩亚洲在线| 天天操天天干天天插| 国产成人亚洲精品青草天美| 成人在线小视频| 中文字幕欧美色图| 日韩二区三区在线观看| 日韩免费黄色av| av黄色在线播放| 老司机一区二区三区| 97久久精品国产| 国产午夜精品无码| 在线观看的日韩av| 久久久爽爽爽美女图片| 久久久久99精品成人片试看| 中文字幕一区二区精品区| 精品国产美女在线| 亚洲熟女少妇一区二区| 久久在线电影| 视频一区视频二区国产精品| 最新日韩免费视频| 91麻豆精品国产91久久久平台 | 欧美午夜久久久| 五十路熟女丰满大屁股| 蜜臀久久精品| 色综合天天视频在线观看 | 久久99精品久久只有精品| 国产精品亚洲精品| 国产麻豆免费观看| 国产成人一级电影| 精品国产福利| 九色在线观看视频| 中文字幕av不卡| 在线无限看免费粉色视频| 男人和女人做事情在线视频网站免费观看| 亚洲国产成人自拍| 国产精品av免费| 男人添女人下部高潮视频在线观看| 亚洲精品你懂的| 亚洲黄色网址在线观看| 免费av不卡在线观看| 精品久久久国产| av视屏在线播放| 国产欧美88| 亚洲成人av资源网| 色欲狠狠躁天天躁无码中文字幕| 四虎成人av| 欧美激情免费观看| 五月天激情四射| 狠狠色综合播放一区二区| 国产99午夜精品一区二区三区| 后进极品白嫩翘臀在线视频| 久久久www成人免费无遮挡大片| 视频一区视频二区视频| 在线中文免费视频| 日韩欧美在线中文字幕| 91丝袜超薄交口足| 日韩精品亚洲aⅴ在线影院| 在线视频免费一区二区| 激情综合五月网| 日韩影院在线观看| 国产精品高清一区二区三区| 男男激情在线| 亚洲乱码中文字幕| 欧美成人xxxxx| 国产精品国产亚洲精品| 亚洲精品国产免费| 美女三级黄色片| 最新成人av网站| 国产精品永久免费| 四虎免费在线观看| 中文字幕在线不卡| 成年人小视频网站| 国产精品极品国产中出| 最新国产精品拍自在线播放| 日韩美女黄色片| 久久99国产精品麻豆| 久久久精彩视频| 日本片在线看| 欧美日本精品一区二区三区| 亚洲狠狠婷婷综合久久久久图片| 99久久精品费精品国产| 欧洲美女免费图片一区| 不卡视频免费在线观看| 日本一区二区三区dvd视频在线| 久久在线中文字幕| 国产精品**亚洲精品| 亚洲一区av在线播放| 日本少妇性高潮| 国产福利一区二区三区视频在线 | 成人在线视频免费播放| 国产精品99久久| 国产精品高潮呻吟视频| 亚洲欧美一区二区三| 亚洲女性喷水在线观看一区| 日韩欧美在线免费观看视频| 免费毛片在线不卡| 97人人做人人爱| a级片免费视频| 中文字幕一区二区三中文字幕| 成人性生生活性生交12| 一本色道久久综合狠狠躁的番外| 久久久之久亚州精品露出| 国产精品一区二区黑人巨大| 国产精品短视频| the porn av| 欧美综合一区| 国产精品丝袜一区二区三区| 国自产拍在线网站网址视频| 日韩欧美综合在线视频| 99re久久精品国产| 噜噜爱69成人精品| 鲁鲁视频www一区二区| 免费一二一二在线视频| 日韩精品高清视频| 久久久成人免费视频| 国产午夜精品一区二区三区四区 | 国产精品夜夜嗨| av中文字幕av| 影音先锋欧美激情| 欧美激情亚洲国产| 噜噜噜久久,亚洲精品国产品| 亚洲一区二区在线观看视频| 亚洲少妇一区二区三区| 亚洲午夜激情在线| 精品一区在线播放| 国产亚洲一区二区手机在线观看 | 亚洲无人区码一码二码三码的含义| 久久精品免费| 亚洲一区二区三区色| 日韩成人精品一区二区三区| 久久久精品免费| 国产白浆在线观看| 午夜久久久久久| 法国伦理少妇愉情| 男人的天堂久久精品| 成人手机视频在线| 成人盗摄视频| 欧美一区二区三区……| 97视频在线观看网站| 3d成人h动漫网站入口| 欧美日韩精品一区二区三区视频播放 | 黄色片子免费看| 亚洲激情二区| 日韩一本精品| 日本一区二区三区电影免费观看| 久久久久国产精品免费| 毛片在线免费| 3d动漫精品啪啪一区二区竹菊| 久久黄色免费视频| 久久久精品影视| 一级黄色片在线免费观看| 亚洲茄子视频| 亚洲图片都市激情| 精品嫩草影院| 国产日韩在线精品av| 色呦呦网站在线观看| 亚洲美女www午夜| 国产露脸91国语对白| 精品欧美aⅴ在线网站| 国产又粗又硬视频| 成人精品免费看| 久久久精品麻豆| 伊人久久成人| 久久免费看毛片| 亚洲激情77| 2014亚洲精品| 精品国产美女a久久9999| 国内精品400部情侣激情| 无遮挡的视频在线观看| 亚洲精品国产suv| 国产三级三级在线观看| 91传媒视频在线播放| 久久免费在线观看视频| 国产精品传媒视频| 乐播av一区二区三区| 丰满少妇久久久久久久| 亚洲成人福利在线| 久久婷婷麻豆| 黄色大片中文字幕| 午夜精品久久| 在线观看成人一级片| 亚洲尤物av| 久久精品国产一区二区三区不卡| 欧美成人一级| 国产精品中文字幕在线观看| 天堂av中文在线观看| 欧美激情一级欧美精品| 国产在线更新| 最近日韩中文字幕中文| 青草久久伊人| 日韩高清免费在线| 丰满人妻一区二区三区免费| 欧美一级在线视频| 伊人网视频在线| 欧美亚洲一区二区在线| 天天操天天操天天操天天| 五月激情六月综合| 欧美日韩中文视频| 一级中文字幕一区二区| 一起操在线播放| 自拍偷自拍亚洲精品播放| av资源在线免费观看| 中文字幕不卡在线播放| 亚洲а∨天堂久久精品2021| 久久久精品tv| 成人免费无遮挡无码黄漫视频| 久久夜色精品一区| 韩国无码一区二区三区精品| 91蜜桃免费观看视频| 久久午夜夜伦鲁鲁片| 91丨porny丨首页| 国产精品无码网站| 久久综合狠狠综合久久激情 | 国产精品情趣视频| 一本一本久久a久久| 国产精品久久夜| 97精品在线播放| 亚洲天堂av老司机| 免费一级全黄少妇性色生活片| 一区二区三区四区五区视频在线观看 | 久久99国产精品视频| 欧美激情一区二区三区在线视频| 亚洲涩涩av| 四虎永久国产精品| 天天插综合网| av日韩在线看| 国产日韩欧美高清免费| 日韩av在线综合| 免费一级片91| 色姑娘综合天天| 成人福利视频网站| a天堂中文字幕| 国产精品乱码妇女bbbb| 欧美成人精品一区二区免费看片| 亚洲午夜精品在线| 国产伦精品一区二区三区视频网站| 在线国产电影不卡| 国产日韩欧美中文字幕| 精品国产成人系列| 五月婷婷六月丁香| 亚洲免费av网址| av在线女优影院| 久久影院在线观看| 成人爽a毛片免费啪啪动漫| 91av在线免费观看视频| 日韩另类视频| 99re视频| 亚洲免费毛片| 亚洲三区四区| 亚洲三级电影在线观看| 国产三级三级三级看三级| 国内精品久久久久影院薰衣草| 蜜桃色一区二区三区| 久久久久久**毛片大全| 国产精品国产精品88| 红桃av永久久久| 亚洲一卡二卡在线| 亚洲国产精品久久91精品| a天堂中文在线| 国内精品小视频| 精品176极品一区| 极品尤物一区二区三区| 欧美a级片视频| www.爱色av.com| 国产一区日韩二区欧美三区| 免费无码一区二区三区| 国产精品乱子久久久久| 国产精品第72页| 欧美情侣在线播放| 日韩福利一区二区| 免费99精品国产自在在线| 成人爱爱网址| 成人资源av| 99久久综合狠狠综合久久aⅴ| 国产v片免费观看| 国产一区二区三区久久久| 人人妻人人藻人人爽欧美一区| 亚洲精品中文在线| 伊人精品一区二区三区| 亚洲女人被黑人巨大进入| 欧美xxxx性xxxxx高清| 国产欧美精品一区二区三区介绍| 台湾色综合娱乐中文网| 欧美无砖专区免费| 国产黄人亚洲片| 日本一级片免费| 欧美日韩综合一区| 成人免费在线观看| 日韩免费在线看| 婷婷精品在线| 欧美 丝袜 自拍 制服 另类| 国产成人福利片| 免费在线观看一级片| 欧美久久免费观看| 在线免费观看黄| 国产精品美女久久久久av超清| 亚洲裸色大胆大尺寸艺术写真| 男人的天堂狠狠干| 成人自拍视频在线观看| 久草视频免费在线播放| 欧美一区国产二区| 成人短视频在线观看| 91精品国产自产在线| 久久精品国产大片免费观看| chinese少妇国语对白| 久久久久成人黄色影片| 探花视频在线观看| 亚洲天堂第二页| 亚洲综合在线电影| 色综合久久88色综合天天提莫| 久久午夜视频| 久久亚洲AV无码专区成人国产| 91极品美女在线| www 日韩| 91精品久久久久久久久| 91精品综合久久久久久久久久久 | 日本一二三区不卡| 亚洲第一av网| 亚洲天堂资源| 欧美在线视频二区| 日韩国产欧美三级| 乱老熟女一区二区三区| 91麻豆精品国产91久久久资源速度| 国产剧情在线| 国产精品久久国产三级国电话系列 | 国内精品在线观看视频| 26uuu国产日韩综合| 国产天堂第一区| 日韩视频在线免费| 超碰成人97| 青青在线视频免费| 亚洲天堂久久久久久久| 亚洲春色一区二区三区| 91爱视频在线| 久久美女精品| 深夜福利网站在线观看| 懂色av中文一区二区三区天美| 国产一区二区三区福利| 成人免费观看网址| 黄色成人精品网站| 国产美女永久免费无遮挡| 91精品国产黑色紧身裤美女| a级片免费在线观看| 欧美久久久久久| 精品一区二区国语对白| 国产精品成人网站| 在线看日韩av| 香蕉免费一区二区三区在线观看| 91av资源网| 亚洲欧美综合色| 亚洲欧美日韩精品永久在线| 国产免费一区二区三区在线观看 | 欧美日韩国内自拍| 天堂中文8资源在线8| 国产伦精品一区二区三区高清| 日韩成人午夜电影| 久久国产精品波多野结衣| 亚洲香蕉伊综合在人在线视看| 国产专区精品| 无码少妇一区二区三区芒果| 一区二区久久久久| 国产青青草在线| 成人做爰66片免费看网站| 久久国产尿小便嘘嘘| 国产尤物在线视频| 久久夜色精品国产亚洲aⅴ|