精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

英偉達新對話QA模型準確度超GPT-4,卻遭吐槽:無權重代碼意義不大

人工智能
今天,英偉達的全新對話 QA 模型「ChatQA-70B」在不使用任何 GPT 模型數據的情況下,在 10 個對話 QA 數據集上的平均得分略勝于 GPT-4。

昨天,Meta、紐約大學的研究者用「自我獎勵方法」,讓大模型自己生成自己的微調數據,從而在 Llama 2 70B 的迭代微調后超越了 GPT-4。今天,英偉達的全新對話 QA 模型「ChatQA-70B」在不使用任何 GPT 模型數據的情況下,在 10 個對話 QA 數據集上的平均得分略勝于 GPT-4。

一年多來,ChatGPT 及后續產品引發了生產和研究社區中構建問答(QA)模型的范式轉變。尤其是在實際應用中,QA 模型在以下情況成為首選:

  • 用戶能夠以對話方式與 QA 模型進行交互,并可以輕松提出后續問題;
  • 通才模型能夠以零樣本方式生成答案,無需針對數據集進行微調,同時媲美微調專家模型的準確度;
  • QA 模型能夠在開放域或長文檔設置中集成檢索到的證據塊,提供的上下文比 LLM 的上下文窗口長得多。

不過對于研究界而言,構建一個能夠媲美 GPT-4 等 SOTA 黑箱模型準確度的對話 QA 模型仍是一個巨大挑戰。

近日,在英偉達的一篇論文中,研究者提出了一個具有 GPT-4 級別準確度的白箱對話 QA 模型 ChatQA 70B。他們采用了兩階段指令調優方法以及用于對話 QA 的 RAG 增強檢索器、嚴格的數據管理過程。

  • 論文標題:ChatQA: Building GPT-4 Level Conversational QA Models
  • 論文地址:https://huggingface.co/papers/2401.10225
  • 論文標題:ChatQA: Building GPT-4 Level Conversational QA Models

具體來講,本文主要做出了以下貢獻:

  • 提出了兩階段指令調優方法和數據集管理方法,它們大大增強了 LLM 在零樣本對話 QA 任務中集成用戶提供或檢索上下文時的能力。本文方法顯著優于常規指令調優或基于 RLHF 的方法(如 Llama-2-Chat)。
  • 對于對話 QA 中的 RAG,展現出了在人類標注多輪 QA 數據集上微調 SOTA 單輪查詢檢索器的效果與使用基于 LLM 的 SOTA 查詢重寫模型(如 GPT-3.5-turbo)一樣好。
  • 基于 Llama2-7B、Llama2-13B、Llama2-70B 和內部 8B 預訓練 GPT 構建了一系列 ChatQA 模型,并在 10 個對話 QA 數據集上進行了全面研究,包括 5 個需要檢索的長文檔數據集和 3 個帶有表格的數據集。從平均得分結果來看,ChatQA-70B 可以在不使用任何來自 ChatGPT 模型的合成數據情況下優于 GPT 3.5-turbo (50.37) 和 GPT-4 (53.90)。
  • 探究了「無法回答」的場景,即所需要的答案不在提供或檢索的上下文中,因此 LLM 很容易產生幻覺。本文證明,在指令調優中添加少量「無法回答」的樣本可以引導模型在必要時生成「無法回答」的輸出,從而大大減少幻覺。ChatQA-70B 在這方面優于 GPT-3.5-turbo,但與 GPT-4 相比仍有輕微差距(約 3.5%)。

對于英偉達的全新對話 QA 模型,有人認為有趣的一點在于,它不依賴任何來自 OpenAI GPT 模型的合成數據。而像馬斯克旗下 xAI 的聊天機器人 Grok 使用了大量 OpenAI 的模型數據。

推特 @fahirmdz

不過,也有讀者對英偉達不提供模型權重和代碼的做法「很不感冒」。如果這些都不公開的話,再厲害也對 LLM 社區沒啥意義。

推特 @AiBeginners

方法細節

1.ChatQA 兩階段調優

研究者提出了一種用于 ChatQA 的兩階段指令調優方法,請參見圖 1。研究者的方法從預訓練的 LLM 基礎模型開始。在階段 1,研究者在指令遵循和對話聯合數據集上使用了監督微調(SFT)。之后,本文的模型表現出作為對話智能體遵循指令的良好能力。然而情境化或基于 RAG 的 QA 能力仍然有限。 

因此,研究者引入了一個稱為上下文增強指令調優的后續階段,它是專門為增強本文模型在對話 QA 中進行上下文感知或檢索增強生成的能力而設計的。

2.多輪問答檢索

在對話問答任務中,當文檔變得過于冗長而無法直接輸入 LLM 時,能夠處理對話式查詢的檢索器就變得至關重要。這種對話檢索器會對對話歷史和當前查詢進行編碼,然后從文檔中檢索相關上下文。之后,只有相關上下文才會被用作 LLM 的輸入。最先進的檢索器都是針對單輪查詢進行優化的,因此對多輪對話查詢的泛化能力有限。

在圖 2 中,研究者描述了他們的檢索器微調方法,以緩解這一問題。他們建議使用對話查詢和上下文對來進一步微調單輪檢索器,以更好地應對對話輸入。

另一種解決方案是對話查詢重寫法,它使用查詢重寫器根據對話歷史記錄重寫當前問題。重寫后的查詢直接作為單輪查詢檢索器的輸入,用于檢索相關上下文。除了嵌入和搜索成本外,查詢重寫模型還引入了大量額外的計算開銷來生成重寫后的查詢。

在表 1 中,研究者比較了五個數據集在零樣本設置下的查詢重寫和微調方法。

實驗及結果

1.實驗設置

研究者在不同規模的模型上進行了實驗。首先,為了顯示第二階段上下文增強指令調優的有效性,研究者將 Llama2-SFT7B/13B/70B 與第一階段監督微調(SFT)后的 Llama2-7B/13B/70B 基礎模型進行了比較。其次,與 Llama2-Chat-7B/13B/70B 進行比較,因為 Llama2-Chat 模型被證明具有強大的指令遵循和對話問答能力。

除了 Llama2 模型外,研究者還對自家的 GPT-8B 基礎模型進行了實驗,并與其第一階段的 SFT 基線(GPT-8BSFT)進行了比較。最后,還與兩個非常強大的 OpenAI 模型進行了比較:GPT-3.5-turbo (4k) 和 GPT-4 (8k)。

為了進行公平比較,研究者使用相同的上下文作為模型和基線的輸入。他們對所有基線的指令都進行了仔細調整,以確保它們取得盡可能好的結果。

研究者收集了五個包含長文檔的對話式問答數據集。他們將 Doc2Dial、QuAC 和 QReCC 文檔分割成大約 300 字的塊,并檢索前 5 個相關塊作為每個用戶問題的上下文。對于 TopioCQA 和 INSCIT,研究者遵循它們原始的分割方式,得到了更小的文本塊。

為了增加文檔長度的多樣性,研究者還收集了五個包含短文檔(少于 1500 字)的對話式問答數據集。平均而言,每個單詞將被分解為 1.5K 個 tokens。這些數據集包括 CoQA、DoQA、ConvFinQA、SQA 和 HybridDial。

考慮到 F1 分數是評估問答模型最常用的自動指標,研究者對 ConvFinQA 之外的所有數據集使用它。在 ConvFinQA 中,研究者使用精確匹配指標,因為 ConvFinQA 中的答案涉及從文檔中提取數字以及進行算術計算。因此,只有當答案與標準答案完全相同時,它才有意義。當模型生成算術公式時,研究者將使用計算器計算其最終結果,并與標準答案進行比較。此外,他們還進行了人工評估,以評估他們的最佳模型和 GPT-4 生成答案的正確性。

2.實驗結果

如表 2 所示,研究者比較了不同的模型變體和 OpenAI 模型在 10 個對話式問答數據集上的表現。

他們移除了微調階段的第一階段 SFT,僅在基礎 LLM 上應用第二階段的上下文增強指令調優。觀察數據可以發現平均得分下降了 1.9(從 54.08 降至 52.18)。除了 SQA 數據集外,移除第一階段會使模型在其他數據集上的表現一致地變差。

結果表明,即使在第二階段指令調優中也融合了第一階段 SFT 的所有數據集,第一階段仍然扮演著重要角色。因此,研究者認為先建立遵循指令的能力對第二階段的調整是有益的。

10 個數據集的人類評估結果如表 3 所示。首先,在大多數情況下(占比 69.09%),ChatQA-70B 模型和 GPT-4 表現相當。而 GPT-4 在勝率上略高于本文模型,大約高出 3.3%。這進一步證明了其模型在提供正確答案方面具有強大的能力。其次,在 ConvFinQA 任務中,本文模型比 GPT-4 有略微更好的勝率,這顯示了該模型在算術計算方面的強大能力。第三,GPT-4 在 SQA 任務上的勝率明顯更高,這表明在表格推理任務上,本文模型與 GPT-4 之間仍存在一定差距。

表 4 中,研究者進一步比較了本文模型和 OpenAI 模型在不同數據集類型的回話問答基準中的表現。

在表 5 中,研究者發現在需要檢索的數據集上,使用 top-5 數據塊作為訓練上下文會帶來一些改進。但在非檢索數據集上的性能卻有所下降。總體而言,這兩種模型的性能相當。這是因為在第二階段的調整中加入了 top-5 檢索數據塊,使其與需要檢索的推理階段保持一致,從而提高了 Avg-ret 分數。

表 6 展示了關于檢索上下文 / 語塊數量、上下文排序和不同檢索器如何影響對話質量保證結果的消融研究。

表 7 展示了本文模型與 OpenAI 模型在 QuAC 和 DoQA 數據集上進行了比較。

表 8 顯示了 ChatQA-70B 和 GPT-4 輸出的四個示例。

第一個例子是一個簡單的信息尋求問題,ChatQA-70B 和 GPT-4 都給出了正確的答案。在第二個例子中,模型需要找到隱含信息(以藍色高亮顯示)來給出答案。GPT-4 在給出答案時傾向于保守,它回答說上下文沒有提供關于年齡的確切信息,這也是正確的。

第三個和第四個例子都要求模型具有良好的表格理解和推理能力。在第三個例子中,ChatQA-70B 通過比較保護區的大小和 3100 公頃給出了正確的答案,而 GPT-4 則未能做到這一點。在第四個例子中,ChatQA-70B 正確列出了三個日期,但漏掉了一個日期,而 GPT-4 則正確回答了這個問題。

責任編輯:趙寧寧 來源: 機器之心
相關推薦

2023-12-09 14:30:50

2024-01-22 07:10:00

AI視頻

2022-05-20 10:43:30

AI模型

2024-01-30 20:08:07

谷歌GPT-4Bard

2018-09-15 14:54:11

iPhone手機iPhone XR

2021-03-15 10:03:10

框架自動化開發

2023-06-19 08:19:50

2021-05-26 16:00:51

微信表情移動應用

2024-09-02 09:25:00

AI研究

2023-10-08 13:11:00

訓練數據

2023-07-14 09:49:16

2023-12-26 08:17:23

微軟GPT-4

2025-04-16 09:35:03

2024-07-09 12:54:57

2023-10-14 17:24:49

2023-10-14 13:09:53

谷歌模型

2025-03-24 13:24:23

2023-05-29 09:55:11

GPT-4英偉達

2023-06-19 12:28:21

GPT人工驗證數據集
點贊
收藏

51CTO技術棧公眾號

一区二区三区四区在线观看视频 | av毛片在线看| 日韩中文字幕| 久久精品123| 日韩三级电影网址| 亚洲精品久久久久久一区二区| 日本亚洲一区二区三区| 五月婷婷激情在线| 国产精品激情| 欧美一级电影网站| 日本人体一区二区| 亚洲怡红院av| 成人嫩草影院| 欧美综合亚洲图片综合区| 精品91免费| 久久久久亚洲av片无码下载蜜桃| 深夜日韩欧美| 国产精品久久久久桃色tv| 欧美在线观看日本一区| 亚洲色图欧美另类| 免费在线国产视频| 国产成人综合精品三级| 久久精品国产一区二区电影| 欧美在线观看视频网站| 日本国产在线| 久久激情视频| 久久久久久国产精品| 在线播放国产视频| 免费在线观看黄色| 另类专区欧美蜜桃臀第一页| 亚洲香蕉av在线一区二区三区| 黄色一级片播放| 日本精品专区| 成人黄色综合网站| 韩国美女主播一区| 91av在线免费| 日韩a**中文字幕| 国产精品看片你懂得| 官网99热精品| 女人十八岁毛片| 免费观看久久av| 欧美天天综合网| 亚洲自拍偷拍一区二区三区| 国产精品一区二区三区在线免费观看| 91精品国产麻豆国产在线观看 | 国产日韩三级在线| 国产精品久久久久久影视| 久久久久久久毛片| 91视频亚洲| 亚洲国产欧美日韩另类综合| 国产一区高清视频| 日批视频免费在线观看| 四季av在线一区二区三区| 欧美丰满少妇xxxxx高潮对白| 美女在线免费视频| 午夜一区在线观看| 不卡av在线免费观看| 亚洲xxxx做受欧美| 91看片在线播放| 欧美手机在线| 国产亚洲欧美日韩一区二区| 在线免费看黄视频| 高清在线一区二区| 欧美日韩国产影院| 亚洲一区二区在线看| 亚洲伦理在线观看| 老牛国产精品一区的观看方式| 上原亚衣av一区二区三区| a级大片免费看| 日韩三级不卡| 亚洲国产精品久久| 国产又黄又猛的视频| 大香伊人中文字幕精品| 欧美国产精品中文字幕| 国产成人免费电影| 日韩在线视频免费| 久久激情综合网| 成人网在线观看| caoporn国产| 欧美日韩p片| 一区二区三区视频观看| 人妻熟人中文字幕一区二区| 北条麻妃在线一区二区免费播放 | 久久综合五月婷婷| 欧美日韩aaaaaa| 精品99在线视频| 亚洲第一图区| 国产精品国产自产拍高清av王其| 高清视频一区二区三区| 丁香花免费高清完整在线播放| 成人福利一区二区| 在线视频中文字幕第一页| 国产精品99久久久久| 国产成人免费观看| 久久精品蜜桃| 成人手机在线视频| 91九色在线视频| 狠狠狠狠狠狠狠| 欧美1区2区视频| 中文字幕在线看视频国产欧美在线看完整 | 99伊人成综合| 色综合久久88色综合天天看泰| 四虎永久免费在线观看| 日韩欧美高清在线播放| 亚洲欧美一区二区精品久久久| 国产成人精品一区二区三区在线观看 | 欧美日韩看看2015永久免费 | 日本韩国免费观看| 国产清纯白嫩初高生在线观看91| 精品一区国产| 嫩草在线视频| 一本色道久久综合精品竹菊| 成人黄色av片| av福利在线导航| 一二三区精品视频| 久久人妻无码一区二区| 黄色网在线免费看| 亚洲欧美一区二区视频| 先锋影音亚洲资源| 在线免费黄色| 国产欧美日韩久久| 成人网站免费观看入口| 亚洲欧美专区| 国产亚洲激情在线| 粉嫩aⅴ一区二区三区| 极品少妇xxxx精品少妇偷拍| 成人网页在线免费观看| 男男激情在线| 中文字幕va一区二区三区| 18禁裸男晨勃露j毛免费观看| 免费男女羞羞的视频网站在线观看 | 国产精品一区二区视频| 亚洲va久久久噜噜噜| h片在线免费看| 懂色av一区二区夜夜嗨| 国产精品yjizz| 欧美日韩在线看片| 色哟哟国产精品| 日韩av无码一区二区三区不卡| 9999久久久久| 欧美日韩国产二区| 国产免费视频一区二区三区| 精品午夜久久福利影院| 日韩欧美精品一区二区| 日韩精品毛片| 亚洲最新在线观看| 中文字幕无码毛片免费看| 欧美激情国产在线| 国产日韩av高清| 亚洲av无码乱码国产麻豆 | 日本黄色动态图| 蜜桃视频欧美| 欧美一区二三区| 日韩美女一级视频| 日韩欧美成人精品| 日本高清久久久| 色综合咪咪久久网| 成人激情视频免费在线| 欧美人xxx| 91精品欧美福利在线观看| 美女流白浆视频| 欧美精品国产一区| 成人免费视频网站| 黄色小说在线播放| 亚洲成人三级在线| 中文字幕亚洲精品在线| 91在线观看视频| 在线视频不卡国产| 精品极品在线| 这里是久久伊人| 亚洲av鲁丝一区二区三区| 一本一本久久| 欧美lavv| 岛国毛片av在线| 国产偷亚洲偷欧美偷精品 | 一卡二卡三卡日韩欧美| 无码人妻一区二区三区一| 最新日韩在线| 成人国产精品免费视频| av在线看片| 欧洲av一区二区嗯嗯嗯啊| av永久免费观看| 国产精品自拍在线| 无码播放一区二区三区| 极品美女一区二区三区| 欧美黑人狂野猛交老妇| 亚洲天堂中文在线| 亚洲女爱视频在线| 视色视频在线观看| 全国精品免费看| 国产精品国语对白| 三级在线视频| 欧美日韩午夜在线| 亚洲成人黄色av| 国产日韩欧美三级| 黑人另类av| 99久久er| 国外成人在线播放| 日日夜夜精品免费| 亚洲午夜免费福利视频| 天天影视色综合| 亚洲免费成人| 在线播放豆国产99亚洲| 日韩啪啪网站| 日本免费在线精品| 成人av手机在线| 国产精品网站在线| 无码人妻精品一区二区三| 欧美私人啪啪vps| 日本不卡二区高清三区| 成人av观看| 国产亚洲美女久久| 免费国产黄色片| 欧美高清你懂得| 无码人妻精品一区二区三区不卡| 亚洲精品国产无天堂网2021| 国产又粗又猛又爽又黄| 人人超碰91尤物精品国产| 日韩av一级大片| 红杏aⅴ成人免费视频| 国产美女搞久久| 国产视频在线播放| 国产亚洲精品激情久久| 欧美一区二区在线观看视频| 欧美男男青年gay1069videost| 欧美videossex极品| 国产亚洲人成网站| 欧美xxxxx精品| 国产精品资源在线| 欧美日韩理论片| 欧美日韩视频| 中国黄色录像片| 99久久.com| 国产精品久久久久久久久久直播| 污污网站在线观看| 日韩视频免费中文字幕| 国产欧美久久久| 欧美日韩aaaaa| 91精品国产乱码久久| 一区二区三区蜜桃| 免费国产羞羞网站美图| 不卡的av电影在线观看| 欧美熟妇精品一区二区| 国产一区二区免费视频| 日韩伦理在线免费观看| 欧美日韩一卡| 国产小视频免费| 国产综合网站| 日韩黄色短视频| 999亚洲国产精| 看av免费毛片手机播放| 久久精品国产亚洲夜色av网站| 日本成人黄色| 菠萝蜜一区二区| 亚洲7777| 图片区亚洲欧美小说区| 99热一区二区三区| 欧美精品色网| 国产九九九九九| 久久久久久久欧美精品| 久草在在线视频| 另类综合日韩欧美亚洲| 国产成人强伦免费视频网站| 国产91精品露脸国语对白| 亚洲精品乱码久久久久久蜜桃欧美| 成人美女在线观看| 三上悠亚影音先锋| 欧美国产成人在线| 午夜剧场免费在线观看| 亚洲一卡二卡三卡四卡无卡久久| 日韩成人免费在线视频| 亚洲婷婷国产精品电影人久久| 国产精品无码一区二区三| ww亚洲ww在线观看国产| 在线观看视频你懂得| 成人综合婷婷国产精品久久蜜臀| 丰满熟女人妻一区二区三区| 97超碰欧美中文字幕| 谁有免费的黄色网址| 中文字幕一区二| 国产成人无码精品久久久久| 在线观看av一区二区| 国产精品主播一区二区| 亚洲成年人在线播放| 国产黄色在线| 亚洲欧美日韩成人| 在线观看免费版| 久久久久久久亚洲精品| 高清电影一区| 99视频在线| 久久天堂久久| 91啪国产在线| 久久av国产紧身裤| 伊人狠狠色丁香综合尤物| 亚洲激情欧美| 在线视频观看一区二区| 久久综合五月天婷婷伊人| 国产激情视频网站| 国产精品久线观看视频| 国产成人自拍视频在线| 欧美精品色综合| 青梅竹马是消防员在线| 美女精品久久久| av网站在线看| 青草青草久热精品视频在线观看| 麻豆mv在线看| 欧美一级大片在线观看| 亚洲91在线| 日本10禁啪啪无遮挡免费一区二区| 欧美激情偷拍| 免费看涩涩视频| 久久电影网电视剧免费观看| 波多结衣在线观看| youjizz国产精品| 久久久久久久久免费看无码| 亚洲欧美视频在线观看| jizz国产在线观看| 亚洲精品第一国产综合精品| 日本黄视频在线观看| 精品国产依人香蕉在线精品| 亚洲欧美韩国| 国产精品电影观看| 国产福利一区二区精品秒拍| 精品国产一区二区三区免费| 亚洲乱码精品| 男人添女人荫蒂免费视频| 久久国内精品视频| www.99热| 欧美自拍偷拍一区| 飘雪影视在线观看免费观看 | 大桥未久一区二区三区| 日本不卡一区二区三区高清视频| 国产精品久久久久久久无码| 一区二区高清免费观看影视大全| 国产精品久久久久久久久久久久久久久久| 亚洲男人的天堂在线播放| 新版的欧美在线视频| 精品在线观看一区二区| 一道本一区二区| 真人bbbbbbbbb毛片| 精品久久久精品| 懂色av中文字幕| 亚洲欧洲日产国产网站| 欧美私人网站| 成人国产精品免费视频| 天天做天天爱天天综合网| 一区二区免费av| 国产精品久久久久久久裸模| 正在播放亚洲精品| 日韩精品一区二区三区蜜臀| 日本五码在线| 538国产精品一区二区免费视频| 老司机成人在线| 国产二区视频在线播放| 久久一区二区视频| 国产精品第六页| www.亚洲免费视频| 日韩精品亚洲专区在线观看| 欧美与动交zoz0z| 成人黄色在线网站| 亚洲影院在线播放| 中文字幕免费精品一区| 日韩免费大片| 996这里只有精品| 成人性生交大合| 日韩黄色在线播放| 在线看日韩欧美| 1769国产精品视频| 午夜欧美性电影| 国产乱子伦视频一区二区三区| 久草视频免费在线| 欧美人动与zoxxxx乱| 成人影院www在线观看| y111111国产精品久久婷婷| 国一区二区在线观看| 懂色av粉嫩av蜜乳av| 欧美写真视频网站| 国产羞羞视频在线播放| 欧美午夜精品久久久久免费视| 亚洲国产免费看| 亚洲精品国产91| 日韩一区二区三区电影在线观看| brazzers在线观看| 日韩福利二区| 国产aⅴ综合色| 波多野结衣视频在线观看| 欧美插天视频在线播放| 精品视频高潮| 国产高清999| 精品久久久一区二区| 国产写真视频在线观看| 久久久神马电影| 国产一区二区三区久久久久久久久| japanese中文字幕| 日韩手机在线导航| 日韩精品麻豆| 亚洲精品国产精品国自产| 岛国精品在线播放| 在线播放亚洲精品| 97色伦亚洲国产|