精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

媲美OpenAI事實性基準,這個中文評測集讓o1-preview剛剛及格

人工智能 新聞
評測集涵蓋 99 個主題和領域,能夠全面檢測模型在各個領域的知識水平,可以幫助各個領域的研究者識別最適合其特定需求的模型。

核心作者包括賀彥程,李世龍,劉佳恒,蘇文博。作者團隊來自淘天集團算法技術 - 未來生活實驗室團隊。為了建設面向未來的生活和消費方式,進一步提升用戶體驗和商家經營效果,淘天集團集中算力、數據和頂尖的技術人才,成立未來生活實驗室。實驗室聚焦大模型、多模態等 AI 技術方向,致力于打造大模型相關基礎算法、模型能力和各類 AI Native 應用,引領 AI 在生活消費領域的技術創新。

如何解決模型生成幻覺一直是人工智能(AI)領域的一個懸而未解的問題。為了測量語言模型的事實正確性,近期 OpenAI 發布并開源了一個名為 SimpleQA 的評測集。而我們也同樣一直在關注模型事實正確性這一領域,目前該領域存在數據過時、評測不準和覆蓋不全等問題。例如現在大家廣泛使用的知識評測集還是 CommonSenseQA、CMMLU 和 C-Eval 等選擇題形式的評測集。

為了進一步同步推進中文社區對模型事實正確性的研究,淘天集團算法技術 - 未來生活實驗室團隊提出了 Chinese SimpleQA,這是第一個系統性地全面評估模型回答簡短事實性問題能力的中文評測集,可以全面探測模型在各個領域的知識水平。具體來說,Chinese SimpleQA 主要有六個特點:

  1. 中文:專注于中文語言,并特地包含中國文化等特色知識相關的問題
  2. 全面性:涵蓋 6 個大類主題(中華文化、人文與社會科學、自然科學、生活藝術與文化、工程技術與應用科學、社會)和 99 個子類主題
  3. 高質量:我們進行了全面且嚴格的質量控制,有包括 52 位外包和 6 位算法工程師的參與
  4. 靜態:參考答案都是在時間上保持不變的,保證了評測集的長期有效性,可以長期作為模型知識能力的評估基準
  5. 易于評估:評測數據的問題和答案非常簡短,評測可以基于任意的模型,能夠以較低成本和較快速度進行高一致性的評測。
  6. 有難度和區分度:我們評估了 40 + 國內外開源和閉源大模型。目前在評測集上 o1-preview 都僅剛過及格線 (正確率 63.8), 其他大部分模型都處于低分狀態,其中 GPT-4o mini 僅 37.6 分,ChatGLM3-6B 和 Qwen2.5-1.5B 僅 11.2 和 11.1 的準確率。

基于中文 SimpleQA,我們對現有 LLM 的事實性能力進行了全面的評估。并維護一個全面的 leaderboard 榜單。同時我們也在評測集上實驗分析了推理 scaling law、模型校準、RAG、對齊稅等研究問題,后續本評測集都可以作為這些方向的重要參考之一。

總之,我們希望 Chinese SimpleQA 能幫助開發者深入了解其模型在中文領域的事實正確性,同時也能為他們的算法研究提供重要基石,共同促進中文基礎模型的成長。

圖片

圖片


  • 論文鏈接:https://arxiv.org/abs/2411.07140
  • 項目主頁:https://openstellarteam.github.io/ChineseSimpleQA
  • 數據集下載:https://huggingface.co/datasets/OpenStellarTeam/Chinese-SimpleQA
  • 代碼倉庫:https://github.com/OpenStellarTeam/ChineseSimpleQA

一、數據集構建

圖片

在構建 Chinese SimpleQA 數據集的過程中,我們采用了嚴格且周密的流程,確保數據質量達到高標準。主要分為自動化構建和質量控制兩個階段:

1. 自動化構建階段,主要包括五個步驟:

(1)知識內容提取與過濾:我們從維基百科等多種知識領域中收集大量富含知識的文本內容,并利用規則和質量評估模型篩除低質量數據。

(2)自動生成問答對:制定問題標準,基于高質量的知識內容,利用大型語言模型(LLM)基于標準條例自動生成問題與答案對。其中大概制定了 9 條嚴格的細則,包括:答案必須唯一且確定、答案不應隨時間變化等。

(3)自動質量驗證:通過 LLM 根據預先設定的標準對生成的問答對進行初步篩選,剔除不符合要求的樣本。

(4)結合工具驗證:引入 RAG 和 Agent 的方式,結合外部檢索工具收集驗證信息,指導 LLM 進一步準確評估答案的事實正確性。

(5)難度級別過濾:過濾掉過于簡單的樣本,提升數據集的難度,以發現 LLM 的普遍存在的知識邊界。具體來說,如果一個問題四個模型都能正確回答,則認為該問題過于簡單并予以舍棄。

2. 質量控制階段,我們引入了嚴格的人工驗證流程:

(1)每條數據在隱藏答案后交由兩位獨立的標注員進行標注,首先判斷問題是否符合預定標準。不符合的問題將被淘汰。然后要求每位標注員結合權威來源(如維基百科、百度百科)的相關信息填寫答案,同時需要提供至少兩個參考鏈接,確保答案可溯源。

(2)若兩位標注員的答案不一致,由第三位標注員進行復審,最終確定答案。

(3)安排多名算法工程師進行多輪抽檢與反饋,同時不斷細化標準

整個構建和標注過程中,初步生成了 10,000 對問答對,經過難度評估和多輪驗證,最終只保留了約 3,000 對高質量的問答對,確保了數據集的高質量和嚴謹性,希望為評估 LLM 的事實正確性提供正確的引導。

二、評測指標

評測方式和指標直接遵循 OpenAI 的方式,主要有以下四個指標:

圖片

三、評測榜單

我們評估了 17 個閉源模型和 24 個開源模型,排名榜如下:

圖片

不同模型在 Chinese SimpleQA 上的結果。關于指標,Correct(CO)、Not attempted(NA)、Incorrect(IN) 和 Correct given attempted(CGA) 分別表示 “回答正確率”、“未回答率”、“回答錯誤率” 和 “回答精確率”。關于主題,Chinese Culture(CC)、Humanities(HU)、Engineering, Technology、Applied Sciences(ETAS)、Life, Art, and Culture(LAC)、Society(SO) 和 Natural Science(NS) 分別表示 “中華文化”、“人文與社會科學”、“工程、技術與應用科學”、“生活、藝術與文化”、“社會” 以及 “自然科學”。

總的來看,o1-preview 表現最佳,同時有幾個近期專注于中文的閉源大模型(如 Doubao-pro-32k 和 GLM-4-Plus)的表現與 o1-preview 相近。從榜單表現來看,首先,“mini” 系列模型(如 o1-mini, GPT-4o-mini)的表現明顯不如其對應的大模型(如 o1-preview, GPT-4o),這表明 “mini” 系列在記憶事實知識方面有明顯的下降。其次通常越大的模型表現更好,例如 GPT、Qwen2.5、InternLM2.5 等系列。而小模型通常在 “未嘗試(NA)” 項上得分較高,比如 o1-mini 和 InternLM2.5-1.8B,其 NA 分數分別為 20.5 和 31.2,遠高于對應大模型的得分(如 o1-preview 的 12.2 和 InternLM2.5-20B 的 7.7)。另外,各模型在不同主題上的表現差異顯著,特別是中文社區的大模型(如 Doubao-pro-32k, GLM-4-Plus, Qwen-Max, Deepseek)在 “中國文化(CC)” 主題上明顯優于 GPT 或 o1 模型,而在科學相關主題(如 ETAS 和 NS)上,o1 則具有顯著優勢。

四、實驗發現

我們還在 Chinese SimpleQA 上探索了 inference scaling law、模型校準、RAG、對齊稅等熱門研究課題(具體詳見論文)。得出了以下幾個有見地的發現:

1. 更大規模的模型有更好的校準性能

我們要求模型在回答問題時提供 0 到 100 的信心指數,以衡量模型的校準程度,即模型對其答案的自信程度。理想的校準模型應該是信心指數與答案的實際準確率相匹配。實驗結果顯示,GPT-4o 的校準優于 GPT-4o-mini,而 o1-preview 優于 o1-mini。在 Qwen2.5 系列中,校準效果依次為 Qwen2.5-72B > Qwen2.5-32B > Qwen2.5-7B > Qwen2.5-3B,說明更大規模的模型具有更好的校準性能。此外,對于所有評估的模型,當信心指數大于 50 時,它們的信心水平都低于了完美校準線,表明它們普遍對自身回答的準確性過于自信。

圖片

2.O1 提出的推理 scaling law 在事實類 QA 上也成立

我們研究了不同模型在增加推理計算資源和回答準確性之間的關系。具體方式是從 Chinese SimpleQA 中隨機抽取 50 個樣本,每個樣本要求模型獨立回答 100 次。通過 Best-of-N 方法隨著推理次數的增加來計算模型的回答準確性。結果表明,隨著推理次數的增加,所有模型的響應準確性都提高,并最終達到上限。這一現象與 OpenAI o1 發布時提出的結論表現一致。

圖片

3.RAG 仍是快速提升模型能力的捷徑

我們同時在 Chinese SimpleQA 上探討了檢索增強生成(RAG)策略在提升 LLMs 事實正確性方面的效果。我們基于 LlamaIndex 和谷歌搜索 API 搭建了 RAG 系統。結果表明,所有模型在配置 RAG 后準確性都顯著提高,例如,Qwen2.5-3B 的性能提升了三倍多。同時,在配置 RAG 后各模型之間的性能差異也顯著減少,例如,帶有 RAG 的 Qwen2.5-3B 與 Qwen2.5-72B 的 F-score 相差僅 6.9%。這表明 RAG 可顯著縮小模型性能差距,使得較小模型在 RAG 支持下也能獲得高性能。因此,RAG 仍是增強 LLMs 事實性的一條強有效的捷徑。

圖片

4. 大部分模型都有明顯的 “對齊稅” 問題

我們對比分析了預訓練模型與對齊后的模型在評測集上的表現。結果顯示,盡管不同模型在后期訓練后表現各異,但大多數模型的表現都顯著下降。其中,Baichuan2 系列模型下降最為明顯,Baichuan2-7B 和 Baichuan2-13B 的 F-score 分別下降了 47% 和 28%。這反映出當前大多數大語言模型的對齊訓練在幻覺緩解方面仍有明顯不足,也突顯了評測集的價值。

圖片

圖片

評測集涵蓋 99 個主題和領域,能夠全面檢測模型在各個領域的知識水平,可以幫助各個領域的研究者識別最適合其特定需求的模型。目前 o1-preview 模型表現最為全面,但是評測結果展示了許多其他模型在特定垂直領域的強有力的表現(具體詳見論文和榜單)。

最后,歡迎廣大研究者使用我們的評測集進行實驗和研究。淘天集團算法技術 - 未來生活實驗室團隊將持續更新和維護數據集及評測榜單,為中文社區的發展貢獻力量。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-09-23 16:00:00

AI模型測評

2024-12-27 09:00:00

訓練模型數據

2025-01-02 09:53:17

2024-11-15 09:36:07

2024-11-21 12:43:06

2024-12-20 14:30:00

2025-01-23 10:45:52

2025-02-11 16:17:42

2024-06-21 13:04:43

2025-01-13 10:30:59

2025-03-20 09:46:06

OpenAI模型AI

2024-11-07 15:40:00

2024-09-13 06:32:25

2025-03-20 10:20:16

2025-04-18 09:13:00

2025-02-19 15:40:00

OpenAI編程模型

2025-05-14 10:09:12

2025-02-06 14:28:16

2025-02-13 08:30:00

2025-02-19 13:50:00

明星編程軟件
點贊
收藏

51CTO技術棧公眾號

日韩欧美一级特黄在线播放| 91色porny| 精品国产一区二区在线| 中文国产在线观看| 爱搞国产精品| 国产女主播在线一区二区| 国产日韩换脸av一区在线观看| 亚洲国产123| 精品人人人人| 欧美视频在线一区二区三区| 日本xxx免费| 欧洲成人av| 国产真实乱对白精彩久久| 高清欧美一区二区三区| avhd101老司机| 午夜久久av| 欧美性大战xxxxx久久久| 日本a级片在线观看| 男人天堂网在线| 国产传媒日韩欧美成人| 国产97在线亚洲| 久久免费精彩视频| 欧美熟乱15p| 日韩电影中文 亚洲精品乱码 | 亚洲澳门在线| 亚洲女人天堂成人av在线| 北条麻妃亚洲一区| 成人免费av电影| 亚洲第一成年网| 在线国产伦理一区| 精品99又大又爽又硬少妇毛片 | 精品国产成人在线| 国产又粗又大又爽的视频| 久久免费看视频| av在线这里只有精品| 91精品在线看| 亚洲一级片免费看| 久久亚洲影院| 2019中文字幕在线观看| 国产一级淫片免费| 影音先锋日韩精品| 久久精品视频在线| 国产又粗又猛又爽又黄的视频四季| 精品人人人人| 亚洲福利在线看| 在线观看免费看片| 国产精品亚洲欧美一级在线| 欧美日韩一区不卡| 高清av免费看| 成人国产精品入口免费视频| 欧洲精品一区二区| 人妻无码视频一区二区三区| 中文字幕色婷婷在线视频| 亚洲国产精品久久久久婷婷884 | 在线观看的日韩av| 欧美精品一本久久男人的天堂| 久久久精品成人| 成人黄色av| 色综合影院在线| 影音先锋男人看片资源| 日韩免费久久| 日韩在线视频观看| 国产精品99久久久久久成人| 香蕉精品视频在线观看| www.精品av.com| 中文字幕乱码av| 亚洲成人免费| 欧美国产日本在线| 精品深夜av无码一区二区老年| 欧美日韩国产综合网| 欧美激情网友自拍| 精品欧美一区二区三区免费观看 | 999国产精品一区| 精品欧美久久久| 亚洲 欧美 日韩在线| 天天躁日日躁狠狠躁欧美巨大小说 | 日韩成人手机在线| 黄色在线观看视频网站| 亚洲成a人片在线观看中文| 奇米影视亚洲色图| 麻豆免费版在线观看| 一本久道中文字幕精品亚洲嫩| 亚洲欧美另类动漫| 国产成人久久精品一区二区三区| 日韩一二三区不卡| 精品1卡二卡三卡四卡老狼| 午夜精品影视国产一区在线麻豆| 亚洲偷熟乱区亚洲香蕉av| 美国美女黄色片| 欧美成熟视频| 日韩av日韩在线观看| 亚洲一级av毛片| 风间由美一区二区三区在线观看| 久久综合九色综合网站| 午夜精品一区| 亚洲va韩国va欧美va精品| 男人舔女人下面高潮视频| 国产麻豆一区二区三区| 亚洲第一区第一页| 亚洲色图欧美色| 狠狠色狠狠色综合日日tαg| 国产suv精品一区二区三区88区| 亚洲天堂视频网| 成人性色生活片免费看爆迷你毛片| 久久99久久99精品蜜柚传媒| 在线观看免费黄色| 亚洲成人在线网站| 麻豆三级在线观看| 国产主播性色av福利精品一区| 国产一区二区美女视频| 国产一级免费av| 久久精品国产99国产精品| 精品高清视频| 亚洲丝袜精品| 欧美影视一区在线| 私密视频在线观看| 亚洲国产日韩欧美在线| 人人爽久久涩噜噜噜网站| 性中国古装videossex| 国产精品乱码一区二区三区软件| 青娱乐自拍偷拍| 国产一区二区三区精品在线观看| 亚洲欧美综合精品久久成人| 国产中文字字幕乱码无限| 麻豆91精品视频| 欧美精品亚洲| av资源中文在线天堂| 91精品国产综合久久久蜜臀图片 | 天海翼亚洲一区二区三区| 欧美国产视频一区二区| 国产精品无码久久av| 国产欧美久久久精品影院| 国产原创popny丨九色| 精品国产一区二区三区2021| 在线一区二区日韩| 成人a v视频| 91视频精品在这里| 97视频在线免费| 亚洲精品一区在线| 久久中文字幕在线视频| 无码人妻精品一区二区50| 91色在线porny| 免费成人在线视频网站| jizz久久精品永久免费| 欧美日韩福利视频| 亚洲精品97久久中文字幕| 亚洲欧美国产77777| 在线观看日本一区二区| 久久国产电影| 成人美女av在线直播| 永久av在线| 欧美精品九九99久久| 国产成人免费在线观看视频| 久久精品国产亚洲a| 亚洲图片在线观看| jizz欧美| 日韩有码在线电影| 91美女精品网站| 亚洲欧美日韩国产综合| 国产毛片久久久久久| 欧美激情性爽国产精品17p| 99国精产品一二二线| 手机在线免费av| 欧美xxx久久| 日韩欧美三级在线观看| 91视频免费播放| 亚洲最大综合网| 天天操综合网| av一区二区三区免费| 啊啊啊久久久| 一区二区欧美亚洲| 一级视频在线播放| 一区二区三区色| 伊人网综合视频| 久久中文在线| 欧美日韩在线免费观看视频| 国产在线视频欧美一区| 欧美激情在线观看视频| 午夜性色福利影院| 欧美唯美清纯偷拍| 日韩黄色免费观看| 91蜜桃在线免费视频| 国产真人无码作爱视频免费| 亚欧美无遮挡hd高清在线视频| 91麻豆蜜桃| 26uuu亚洲电影| 色偷偷av亚洲男人的天堂| 国产乱人乱偷精品视频| 香蕉影视欧美成人| 日本美女xxx| 成人国产一区二区三区精品| 蜜臀av午夜一区二区三区| 99久久精品费精品国产| 国产一区二区三区四区hd| 日本一区二区三区视频在线| 免费av一区二区| 毛片免费在线播放| 91精品国产91久久综合桃花| 国内精品福利视频| 亚洲男人的天堂一区二区| 短视频在线观看| 国产老妇另类xxxxx| 国产日产欧美视频| 欧美日韩亚洲一区三区| 无遮挡亚洲一区| 国产精品zjzjzj在线观看| 国产欧美精品在线播放| 51漫画成人app入口| 波霸ol色综合久久| 欧美视频综合| 欧美成人欧美edvon| 中文字幕在线播放av| 精品美女永久免费视频| 日本午夜在线观看| 久久久久国产一区二区三区四区| 午夜av中文字幕| 日韩精品国产欧美| 日韩av在线播放不卡| 香蕉国产精品| 亚洲欧洲国产精品久久| 一区二区三区韩国免费中文网站| 成人欧美一区二区| 亚洲精品三区| 国产精品久久久久久av下载红粉 | 亚洲欧美日韩国产另类专区| 91成人破解版| 99久久国产综合精品女不卡| 男人女人拔萝卜视频| 久久精品72免费观看| 免费日韩视频在线观看| 亚洲作爱视频| 日本精品久久久久久久久久| 91成人国产| av动漫免费观看| 日韩视频在线观看| 视频一区视频二区视频三区视频四区国产 | 国产三级电影在线| 亚洲精品一区二三区不卡| 免费a级片在线观看| 日韩欧美黄色影院| 国产av一区二区三区| 欧美日韩极品在线观看一区| 国产在线观看第一页| 色婷婷精品大视频在线蜜桃视频 | 在线观看不卡一区| 手机在线看片1024| 大桥未久av一区二区三区| av大片免费在线观看| 亚洲不卡av一区二区三区| 久久精品久久国产| 亚洲高清免费观看高清完整版在线观看| 欧美三级日本三级| 亚洲一区中文在线| 日韩精品在线免费看| 亚洲成人资源网| 欧美国产成人精品一区二区三区| 五月婷婷欧美视频| 成人毛片18女人毛片| 色就色 综合激情| 欧美性猛交xxxx乱大交hd| 在线精品视频小说1| 在线观看国产成人| 欧美一区二区三区四区视频| 精品国产乱码一区二区三| 欧美成人在线直播| 性xxxx18| 亚洲天堂网站在线观看视频| 91涩漫在线观看| 久热在线中文字幕色999舞| 超碰免费在线播放| 欧美成人免费观看| 成入视频在线观看| 日韩av手机在线看| 亚洲欧美久久精品| 国产久一道中文一区| 亚洲精品国产精品粉嫩| 台湾成人av| 欧美精品一卡| www.com毛片| 看电视剧不卡顿的网站| 日本xxxx免费| 久久综合九色综合97婷婷| 中文字幕第69页| 亚洲国产综合人成综合网站| 最近免费中文字幕大全免费版视频| 欧美色区777第一页| www.av日韩| 亚洲人成在线播放| a视频在线播放| 日韩av电影手机在线| 自拍偷拍亚洲图片| 久久国产精品免费一区| 色喇叭免费久久综合| 国产二区视频在线| 久久精品国产**网站演员| 青青草视频网站| 国产精品久久久久久亚洲伦| 国产污视频在线看| 欧美日韩一区二区在线观看| 亚洲精品18在线观看| 中文字幕在线亚洲| 九色porny丨首页入口在线| 国产裸体写真av一区二区| 国产成人一二片| 色呦呦网站入口| 米奇777在线欧美播放| 人妻换人妻仑乱| 中文字幕第一区第二区| 久久久久久久99| 欧美一区二区视频免费观看| 欧洲视频在线免费观看| 欧美激情在线观看视频| 视频欧美精品| 日韩精品久久久免费观看 | 久久亚洲影音av资源网| 久九九久频精品短视频| 97超碰人人看人人 | 欧美视频在线视频精品| 久久草.com| 欧美激情四色| 在线观看日本一区二区| 337p粉嫩大胆噜噜噜噜噜91av| 超碰在线国产97| 欧美久久高跟鞋激| 川上优的av在线一区二区| 欧美一级免费视频| 懂色av一区二区| 8x8x华人在线| 激情综合色丁香一区二区| 极品久久久久久久| 日本黄色一区二区| 深夜福利在线看| 国内成人精品视频| 中文字幕日韩在线| 亚洲av综合色区| 国产在线播精品第三| 亚洲av无一区二区三区| 欧美色中文字幕| eeuss影院www在线观看| 国产98色在线| 国产中文精品久高清在线不| 99999精品视频| 久久蜜桃一区二区| 探花视频在线观看| 国产丝袜精品第一页| 欧美少妇精品| 欧美精品成人一区二区在线观看| 国产麻豆综合| 色婷婷av777| 色噜噜狠狠成人网p站| 成人高清在线| 成人欧美一区二区三区黑人孕妇| 久久免费精品视频在这里| 岛国毛片在线播放| 亚洲人成在线观看一区二区| 国产裸体永久免费无遮挡| 久久精品久久久久久| 精品亚洲a∨一区二区三区18| 国产四区在线观看| 国产一区二区在线看| 国产这里有精品| 精品国产1区二区| 国产美女精品写真福利视频| 久久综合久久久| 欧美aaa在线| 精品视频第一页| 欧美一级二级三级乱码| 黑人另类精品××××性爽| 国产视频一区二区三区四区| 香蕉精品999视频一区二区| 国产高清一区二区三区四区| 欧美日韩一区在线观看| 羞羞电影在线观看www| 激情小说综合网| 日韩激情中文字幕| 放荡的美妇在线播放| 亚洲国产精品yw在线观看| 国产私拍福利精品视频二区| 欧美一级免费在线观看| 国产成人av电影在线播放| 国产性猛交╳xxx乱大交| 中文字幕不卡av| 视频一区中文字幕精品| 无码人妻丰满熟妇区96| 国产亚洲一二三区| xxxx国产精品| 日本久久久久久久| 国产精品传媒精东影业在线| 深田咏美中文字幕| 欧美在线观看一区| 欧美激情成人动漫| 日韩精品久久久毛片一区二区| 国产精品白丝av| 手机av免费观看| 欧美成在线视频| 国产成人三级| 一级黄色大片免费看| 色视频成人在线观看免| 超碰在线免费播放| 日韩精品一区二区三区四区五区|