精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

答案抽取正確率達(dá)96.88%,xFinder斷了大模型「作弊」的小心思

發(fā)布于 2024-6-17 12:46
瀏覽
0收藏

本文第一作者和通訊作者均來自上海算法創(chuàng)新研究院。其中,通訊作者李志宇博士畢業(yè)于中國人民大學(xué)計(jì)算機(jī)專業(yè),并曾在阿里巴巴、小紅書等互聯(lián)網(wǎng)公司從事算法落地與研究工作,曾參與了包括千億級(jí)商品知識(shí)圖譜、用戶圖譜和輿情圖譜的研發(fā)工作,累計(jì)發(fā)表論文四十余篇。李志宇當(dāng)前在上海算法創(chuàng)新研究院大模型部門(由熊飛宇博士帶領(lǐng))負(fù)責(zé)整體的技術(shù)研發(fā)工作。研究院主頁:https://www.iaar.ac.cn/


大語言模型(LLM)的迅速發(fā)展,引發(fā)了關(guān)于如何評(píng)估其公平性和可靠性的熱議。


盡管現(xiàn)有的評(píng)估框架如 OpenCompass、LM Eval Harness 和 UltraEval 以及各種 Benchmark 推動(dòng)了行業(yè)進(jìn)步,但專注于這些評(píng)估框架核心組件可信度或可靠性度量的團(tuán)隊(duì)卻為數(shù)不多。


近日,上海算法創(chuàng)新研究院和中國人民大學(xué)的研究團(tuán)隊(duì)發(fā)布了一篇名為《xFinder: Robust and Pinpoint Answer Extraction for Large Language Models》的論文。這篇論文深入分析了LLM評(píng)估框架的整體流程,重點(diǎn)評(píng)估了答案抽取器組件在大模型評(píng)估中的可靠性和一致性。

答案抽取正確率達(dá)96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區(qū)

當(dāng)前的評(píng)估框架主要依賴正則表達(dá)式(RegEx)來抽取答案,但這種方法存在明顯缺陷。人工復(fù)核結(jié)果顯示,其最佳抽取正確率僅為74.38%,評(píng)估結(jié)果極不可靠。


此外,RegEx方法容易被有意或無意地?cái)M合,增加了「作弊」的可能性,從而影響評(píng)估結(jié)果的可靠性和一致性。下圖展示了LLM評(píng)估框架中RegEx組件抽取錯(cuò)誤的情況。

答案抽取正確率達(dá)96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區(qū)

為了有效解決這一問題,上海算法創(chuàng)新研究院和中國人民大學(xué)的研究團(tuán)隊(duì)開發(fā)了一個(gè)名為 xFinder 的新模型,用于更準(zhǔn)確地抽取關(guān)鍵答案。


xFinder 具有以下優(yōu)勢(shì):


(1)不要求特定格式的答案輸出,具備較強(qiáng)的答案抽取魯棒性,抽取準(zhǔn)確率高達(dá)95.18%,顯著優(yōu)于目前最佳LLM評(píng)估框架中的RegEx方法。


(2)支持多樣化題型,能夠?qū)⒆帜高x擇題自動(dòng)轉(zhuǎn)換為問答題,并支持不同題型的混排評(píng)估,從而降低測(cè)試者擬合題型的可能性。 


方法介紹

答案抽取正確率達(dá)96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區(qū)

xFinder的實(shí)現(xiàn)過程主要包括LLM響應(yīng)內(nèi)容的生成、KAF數(shù)據(jù)集的標(biāo)注和xFinder的訓(xùn)練。為了實(shí)現(xiàn) xFinder 模型的有效訓(xùn)練,團(tuán)隊(duì)構(gòu)建了一個(gè)專門的數(shù)據(jù)集——關(guān)鍵答案查找(KAF)數(shù)據(jù)集。該數(shù)據(jù)集包含 26,900 個(gè)訓(xùn)練樣本、4,961 個(gè)測(cè)試樣本和 4,482 個(gè)泛化樣本,涵蓋多種評(píng)估任務(wù)。


大語言模型響應(yīng)生成


首先,研究團(tuán)隊(duì)從現(xiàn)有的主要評(píng)估基準(zhǔn)和報(bào)告中挑選了多個(gè)典型的評(píng)估任務(wù)數(shù)據(jù)集,這些任務(wù)被分類為四種類型:字母選項(xiàng)任務(wù)、短文本選項(xiàng)任務(wù)、分類標(biāo)簽任務(wù)和數(shù)學(xué)任務(wù)。


接著,團(tuán)隊(duì)使用不同系列的 LLM(如 Qwen、InternLM、ChatGLM 等)生成這些任務(wù)的數(shù)據(jù)對(duì)。通過多種 LLM,團(tuán)隊(duì)生成了豐富多樣的數(shù)據(jù)對(duì),為 xFinder 模型的訓(xùn)練提供了充分的數(shù)據(jù)支持。 


自動(dòng)標(biāo)注與人工復(fù)核


團(tuán)隊(duì)使用了一種策略,從 LLM 響應(yīng)中提取關(guān)鍵答案并將其用作標(biāo)簽,以構(gòu)建高質(zhì)量的 KAF 數(shù)據(jù)集。為提高訓(xùn)練集的標(biāo)注效率,他們采用了半自動(dòng)化流程,通過不同提示使用 GPT-4 生成了兩組標(biāo)注,并利用自一致性策略篩選出標(biāo)注不一致的項(xiàng)和所有數(shù)學(xué)問題,提交給人工復(fù)查。為了確保測(cè)試集和泛化集的有效性和可靠性,所有標(biāo)簽都經(jīng)過兩輪手動(dòng)注釋。 


訓(xùn)練 xFinder


為了增強(qiáng) KAF 數(shù)據(jù)集的多樣性和模型的泛化能力,研究團(tuán)隊(duì)采用了兩種數(shù)據(jù)增強(qiáng)策略:


(1)模擬 LLM 響應(yīng):對(duì) KAF 訓(xùn)練集中 50% 的字母選項(xiàng)問題進(jìn)行修改,增加或刪除一到兩個(gè)選項(xiàng),以模擬 LLM 的多樣化響應(yīng)。


(2)豐富提示形式:提取包含關(guān)鍵答案句子的 LLM 響應(yīng)的 10%,替換其中的提示部分,例如將「The final answer is A」替換為「Based on the context of the question, A is the most likely answer」。


此外,團(tuán)隊(duì)使用 XTuner 工具和 QLoRA 方法,對(duì) Llama 系列、Qwen 系列和 Gemma 系列等基座模型進(jìn)行微調(diào),最終獲得 xFinder。

答案抽取正確率達(dá)96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果


該團(tuán)隊(duì)進(jìn)行了廣泛的實(shí)驗(yàn),評(píng)估xFinder在不同任務(wù)上的表現(xiàn),并與現(xiàn)有的RegEx方法進(jìn)行了對(duì)比。


KAF 測(cè)試集上的結(jié)果


在 KAF 測(cè)試集上,xFinder-qwen1505 的平均提取準(zhǔn)確率達(dá)到了 96.88%,顯著高于最佳評(píng)估框架中的 RegEx 方法的 74.38%。


具體來看,xFinder-qwen1505 在字母選項(xiàng)任務(wù)中的提取準(zhǔn)確率為 97.35%;在短文本選項(xiàng)任務(wù)中為 96.83%;在分類標(biāo)簽任務(wù)中為98.05%;在數(shù)學(xué)選項(xiàng)任務(wù)中為 92.76%。這些結(jié)果表明,xFinder 在各類任務(wù)中均表現(xiàn)出色,顯著提升了評(píng)估的準(zhǔn)確性和可靠性。

答案抽取正確率達(dá)96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區(qū)

KAF 泛化集上的結(jié)果


在全新的 KAF 泛化集上(該泛化集使用了與 KAF 數(shù)據(jù)集中的訓(xùn)練集和測(cè)試集不同的 LLM 和測(cè)試任務(wù)生成的樣例構(gòu)造的),xFinder-qwen1505 展現(xiàn)了卓越的性能,平均提取準(zhǔn)確率達(dá)到了 93.42%。


實(shí)驗(yàn)結(jié)果表明,xFinder 的表現(xiàn)不僅優(yōu)于其他基于 RegEx 的評(píng)估框架,甚至顯著優(yōu)于 GPT-4,充分展示了其高魯棒性和泛化能力。

答案抽取正確率達(dá)96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區(qū)

在現(xiàn)實(shí)世界場(chǎng)景中的評(píng)估


研究團(tuán)隊(duì)使用 xFinder 和傳統(tǒng)評(píng)估框架對(duì) 10 種 LLM 進(jìn)行了綜合評(píng)估。評(píng)估任務(wù)涵蓋了 CommonsenseQA、BoolQ 和 GSM8K 等。通過對(duì) 10 種不同的 LLM 應(yīng)用五種答案提取方案,進(jìn)行了一系列對(duì)比實(shí)驗(yàn)。


概括起來,實(shí)驗(yàn)結(jié)果主要揭示了三個(gè)關(guān)鍵發(fā)現(xiàn):


(1)同一模型在不同框架下的排名常常出現(xiàn)較大差異,難以準(zhǔn)確反映模型的真實(shí)能力,顯示出一致性較低。


(2)不同的 xFinder 在這些實(shí)驗(yàn)中顯示出了高度的一致性,并且在提取答案的準(zhǔn)確率上也超越了其他評(píng)測(cè)框架,表明 xFinder 是一種更加可靠的評(píng)測(cè)方法。


(3)與傳統(tǒng)的字母選項(xiàng)設(shè)置相比,直接使用選項(xiàng)文本能顯著提升排名的一致性,反映了字母選項(xiàng)設(shè)置的不穩(wěn)定性。更多的細(xì)節(jié)和實(shí)驗(yàn)結(jié)果已在附錄中展示,這些內(nèi)容進(jìn)一步證實(shí)了上述發(fā)現(xiàn)的有效性。

答案抽取正確率達(dá)96.88%,xFinder斷了大模型「作弊」的小心思-AI.x社區(qū)

結(jié)語


總的來說,xFinder通過優(yōu)化關(guān)鍵答案提取模塊,提高了LLM評(píng)估的準(zhǔn)確性和可靠性。實(shí)驗(yàn)結(jié)果表明,xFinder在多種任務(wù)上均表現(xiàn)出色,具備較高的魯棒性和泛化能力。未來,該研究團(tuán)隊(duì)將繼續(xù)優(yōu)化xFinder,并研究其他評(píng)估關(guān)鍵問題,為L(zhǎng)LM性能的可靠評(píng)估提供堅(jiān)實(shí)基礎(chǔ)。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/C5G-rpen9OM4MmBhrByTIQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
欧美日韩一本| 在线免费观看黄| 国产日产高清欧美一区二区三区| 精品成a人在线观看| 1024av视频| 最新真实国产在线视频| 波多野结衣亚洲一区| 国产精品久久久久久久av大片| 情侣偷拍对白清晰饥渴难耐| 国产精品17p| 欧美日韩久久一区| 青青青在线视频播放| av资源网在线观看| 99久久精品国产麻豆演员表| 91精品国产综合久久香蕉的用户体验 | 极品销魂美女一区二区三区| 孩xxxx性bbbb欧美| 国产在视频线精品视频| 日韩精品导航| 日韩午夜在线观看视频| wwwwww.色| free性欧美| 亚洲欧美日韩中文播放| 区一区二区三区中文字幕| 午夜精品一二三区| 麻豆视频观看网址久久| 欧美又大又硬又粗bbbbb| 中文字幕av久久爽av| 成人羞羞动漫| 亚洲欧洲国产一区| 波多野结衣加勒比| 亚洲午夜精品| 正在播放亚洲一区| 国产精品免费一区二区三区在线观看| 视频国产一区二区| 清纯唯美日韩| 午夜欧美在线一二页| 国产一区福利视频| 91麻豆精品在线| 99亚洲一区二区| 欧美精品在线视频观看| 狂野欧美性猛交| 欧美精品乱码| 国产一区二区三区毛片| 日韩亚洲国产中文字幕欧美| 蜜桃麻豆91| 亚洲第一免费视频| 国产99久久久国产精品| 91亚色免费| 国产成人无码专区| 视频一区二区中文字幕| 国产精品爱啪在线线免费观看 | 欧美成人tv| 久久综合伊人77777| 91视频最新网址| 91精品秘密在线观看| 久久久国产一区二区| 午夜国产福利一区二区| 亚洲精品在线观看91| 久久久精品影院| 日韩成人精品一区二区三区| 91天堂素人约啪| 九色91视频| 亚洲AV成人无码一二三区在线| 99国产精品久久久久久久久久 | 黄色片久久久久| 国产精品电影| 日韩欧美中文第一页| 欧美少妇性生活视频| 亚洲精品一区三区三区在线观看| 欧美系列亚洲系列| 性生活免费在线观看| 色综合久久久| 欧美mv和日韩mv的网站| 国产精品麻豆入口| 少妇精品久久久一区二区| 在线国产精品视频| 中文字幕在线2021| 亚洲高清激情| 日韩美女主播视频| 国产免费无遮挡| av网站一区二区三区| 国产亚洲免费的视频看| 在线免费观看麻豆| 久久久久美女| 91tv亚洲精品香蕉国产一区7ujn| 国产99免费视频| 国产美女视频91| 精品久久久久久一区| 91美女视频在线| 亚洲综合激情网| 久久99精品久久久水蜜桃| 成年人在线视频免费观看| 亚洲日本在线天堂| 日韩在线综合网| 开心久久婷婷综合中文字幕| 欧美成人国产一区二区| 国产精品国产三级国产专业不| av中文一区| 久久久久久这里只有精品| 亚洲第一网站在线观看| 风间由美性色一区二区三区| 日韩中文字幕一区| 大黄网站在线观看| 欧美日韩三级在线| av在线播放网址| 亚洲无中文字幕| 国产91色在线|| 六月丁香综合网| 18欧美乱大交hd1984| 精品人妻一区二区三区四区在线| 99精品美女视频在线观看热舞| 国产视频精品va久久久久久| 黑人巨大精品一区二区在线| 青青草原综合久久大伊人精品优势| 国产一区二区高清视频| av网址在线| 欧美日韩国产另类不卡| 能免费看av的网站| 亚洲精品美女| 国产综合久久久久| 成人三级黄色免费网站| 色综合久久久久综合| 亚洲 自拍 另类 欧美 丝袜| 亚洲电影在线一区二区三区| 国产精品夜色7777狼人| 国产在线色视频| 欧美性20hd另类| 日韩免费高清一区二区| 国产综合精品| y111111国产精品久久婷婷| 激情成人四房播| 在线观看免费视频综合| 精品人妻少妇嫩草av无码| 精品999成人| 97免费高清电视剧观看| huan性巨大欧美| 7777精品伊人久久久大香线蕉的| 超碰97av在线| 久久国产日韩欧美精品| 欧美在线视频免费观看| 亚洲s码欧洲m码国产av| 91视频.com| 国产日韩精品一区观看| 97超级碰碰| 伊人成人在线观看| 久久久久9999亚洲精品| 青青草原成人网| 网红女主播少妇精品视频| 欧美老少做受xxxx高潮| 亚洲黄色激情视频| 久久久www免费人成精品| 国产a级片免费观看| 国产一区二区三区不卡视频网站| 国产成人精品免高潮在线观看| 日韩av地址| 日本韩国一区二区| 大胸美女被爆操| 久久er精品视频| 91麻豆天美传媒在线| 五月亚洲婷婷| 97成人在线视频| 激情在线视频| 欧美日韩精品免费观看视频| 希岛爱理中文字幕| 国产宾馆实践打屁股91| 精品这里只有精品| 狠狠色丁香婷婷综合影院| 国产精品夜色7777狼人| 手机在线免费看av| 亚洲激情免费观看| 日本丰满少妇做爰爽爽| 亚洲欧美一区二区三区国产精品 | 懂色av一区二区夜夜嗨| 黄色片网址在线观看| 欧美日韩老妇| 99久久精品无码一区二区毛片 | 欧美日韩精品专区| 四虎免费在线视频| 99热这里都是精品| 黄色三级视频在线| 国产在线日韩| 亚欧洲精品在线视频免费观看| 伊人久久精品| 91精品国产一区| 色哟哟免费在线观看| 日韩午夜精品视频| 日韩美一区二区| 亚洲少妇中出一区| 久久人人爽人人爽人人片| 蜜臀久久久久久久| 无码专区aaaaaa免费视频| 精品国产美女| 国产精品久久久久久久久婷婷| 北岛玲heyzo一区二区| 色综合久久88色综合天天看泰| 日韩av成人| 精品精品国产高清a毛片牛牛 | 亚洲黄色在线看| 国产一区二区麻豆| 欧美性jizz18性欧美| 久久影院一区二区| 中文字幕一区二区不卡| 久久精品老司机| 岛国一区二区在线观看| 国产探花在线看| 久久国产欧美| 麻豆tv在线播放| 久久久久国产| 日韩精品电影网站| 青青一区二区| 国产精品日韩一区二区| 亚洲国产伊人| 国产精品美女av| 亚洲黄色网址| 午夜精品在线视频| 羞羞污视频在线观看| 日韩中文第一页| 国产一区二区影视| 日韩精品免费视频| 亚洲欧美另类日韩| 日韩一卡二卡三卡四卡| 一区二区www| 欧美亚洲一区二区在线| 一级黄色大片视频| 精品人伦一区二区三区蜜桃免费| 国产这里有精品| 国产精品激情偷乱一区二区∴| 中文字幕国产综合| 久久综合九色综合97_久久久| 国产麻豆剧传媒精品国产| 国产精品中文有码| www.51色.com| 黑人精品欧美一区二区蜜桃| 色噜噜狠狠一区二区| 美女脱光内衣内裤视频久久影院| 男人透女人免费视频| 久久精品主播| 成年人在线观看视频免费| 久久高清国产| youjizzxxxx18| 蜜桃一区二区三区在线| 国产精品一区二区羞羞答答| 天堂影院一区二区| 欧美精品性生活| 久久精品国产亚洲一区二区三区| 五月天激情视频在线观看| 日韩影院免费视频| 手机看片一级片| 久久se这里有精品| japan高清日本乱xxxxx| 国产成人综合网站| 欧产日产国产精品98| 91婷婷韩国欧美一区二区| 91中文字幕永久在线| 国产午夜久久久久| 一级免费黄色录像| 亚洲精品免费一二三区| 国产黄色片视频| 欧美日韩免费看| 伊人成年综合网| 91精品国产91久久久久久最新毛片| 亚洲风情第一页| 亚洲国产另类 国产精品国产免费| 亚洲欧美丝袜中文综合| 国产午夜精品全部视频播放| 日韩美女网站| 欧美精品久久久久a| 亚洲淫成人影院| 国产欧美va欧美va香蕉在| 精品国模一区二区三区欧美| 国产在线一区二区三区欧美| 成人午夜国产| 男女激情免费视频| 丝袜a∨在线一区二区三区不卡| 在线免费视频一区| 国产91色综合久久免费分享| 久久久无码人妻精品一区| 国产精品久久网站| 久久午夜无码鲁丝片午夜精品| 色婷婷久久一区二区三区麻豆| 中文字幕一区2区3区| 精品国产露脸精彩对白| 国产中文字幕在线看| 九色精品美女在线| 久久r热视频| 亚洲最大av网| 国产欧美日韩| 久久久久久久香蕉| 日韩va亚洲va欧美va久久| 久久精品一二三四| 国产婷婷一区二区| 久久久久久国产精品免费播放| 色88888久久久久久影院按摩| 国产情侣自拍小视频| 亚洲欧美中文字幕在线一区| 久久香蕉av| 国产日韩欧美综合| 亚洲毛片免费看| 中文字幕在线乱| 天使萌一区二区三区免费观看| 色男人天堂av| 欧美国产综合一区二区| 国产成年人免费视频| 91精品国产综合久久久蜜臀粉嫩| 五月天婷婷在线播放| 欧美成人国产va精品日本一级| 亚洲高清黄色| 久久久久久高清| 欧美三级午夜理伦三级中文幕| 亚洲国产高清av| 久久久99免费| 日韩污视频在线观看| 日韩欧美在线一区二区三区| 中国日本在线视频中文字幕| 欧美一区二区三区图| 国产伦理久久久久久妇女| 国产在线拍揄自揄拍无码| 男人的j进女人的j一区| 李宗瑞91在线正在播放| 激情av一区二区| 亚洲精品国产精品国| 欧美成人精品在线播放| 欧美videos粗暴| 午夜精品一区二区三区在线观看| 欧美在线综合| 毛茸茸多毛bbb毛多视频| 亚洲一区二区精品久久av| 国产精品无码一区二区桃花视频| 亚洲色图五月天| 欧美一级大片| 日本高清一区| 久久久天天操| 一道本在线观看| 日本韩国欧美国产| 国产小视频免费在线网址| 日本乱人伦a精品| 色天下一区二区三区| 看av免费毛片手机播放| 99精品欧美一区二区三区小说 | 亚洲国产成人精品综合99| 欧美久久婷婷综合色| 黄色大片在线播放| 亚洲tv在线观看| 欧美日韩福利| jjzz黄色片| 精品久久久久久久久久国产| 日韩亚洲视频在线观看| 国产精品99免视看9| 欧美中文一区二区| 999精彩视频| 亚洲男人天堂一区| 精品人妻一区二区三区麻豆91 | 欧美性理论片在线观看片免费 | 欧美精品国产一区| 欧美xxxxx少妇| 高跟丝袜一区二区三区| 精品乱码一区二区三四区视频| 国产精品大片wwwwww| 亚洲91视频| 亚洲av无码一区东京热久久| 午夜不卡av免费| 国产尤物视频在线| 亚洲一区二区免费在线| 在线精品福利| 能免费看av的网站| 91精品国产91久久久久久最新毛片| 黄页网站大全在线免费观看| 精品在线视频一区二区| 秋霞国产午夜精品免费视频| 最新一区二区三区| 亚洲国产小视频| yiren22亚洲综合| 黄色成人在线免费观看| 99精品视频在线观看免费| 高潮无码精品色欲av午夜福利| 久久香蕉国产线看观看av| 国产精品视频3p| 国产九九热视频| 亚洲影院免费观看| 北岛玲一区二区三区| 成人av蜜桃| 日本视频一区二区三区| 免费在线观看日韩| 国产亚洲一区二区精品| 中文字幕亚洲在线观看| 亚洲国产精品毛片av不卡在线| 亚洲人吸女人奶水| 男同在线观看| 97se亚洲综合在线| 青青草国产精品亚洲专区无| 久久久久香蕉视频| 丝袜亚洲另类欧美重口| 美女网站色精品尤物极品姐弟| 91国产精品视频在线观看| 亚洲午夜在线电影| 免费a级毛片在线播放| 欧美极品色图| 成人在线视频首页| 一卡二卡三卡在线|