精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath

發布于 2024-4-3 08:11
瀏覽
0收藏

引言:大語言模型數學能力評估的重要性

數學能力的評估對于理解和發展大語言模型(LLMs)至關重要。數學問題不僅涉及對數字的理解和操作,還包括了抽象概念化、邏輯推理等核心能力的考察。因此,一個高質量的數學評估基準對于全面評估LLMs的能力具有重大意義。

傳統的數學問題數據集,如AddSub和MultiArith(下圖),提供了基礎的數學詞匯問題庫,但這些通常只能評估模型在特定數學問題上的準確性。隨著中文LLMs的迅速發展,相應的中文數學評估數據集也應運而生。然而,簡單的準確率評估并不能充分揭示模型掌握了哪些數學概念或技能。因此,迫切需要一個更全面的測試集,能夠細致地評估LLMs在不同難度級別的數學問題上的推理能力。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

▲FineMath能夠從三個方面評估LLMs的數學能力:理解抽象數學概念的準確性、推理的準確性以及整體的準確性。

為了解決這一問題,我們提出了FineMath,這是一個針對中文LLMs的細粒度數學評估基準數據集(參見上圖)。該數據集包含小學數學的核心概念,分為17類數學詞匯問題,用以深入分析LLMs的數學推理能力。所有數學詞匯問題均經手工標注,按解決難度(推理步驟數)分級。通過在FineMath上對多個LLMs進行實驗,我們發現中文LLMs在數學推理上還有進步空間。我們還深入分析了評估過程和方法,發現它們對模型結果和理解其數學推理能力有重大影響。FineMath數據集即將公開。

論文標題:
FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models

論文鏈接:
???https://arxiv.org/pdf/2403.07747.pdf??

FineMath基準的構建與目標:細粒度評估中文LLMs的數學推理能力

1. 數據集概述與關鍵數學概念的覆蓋

FineMath基準旨在全面評估中文LLMs的數學推理能力。該基準涵蓋了小學數學中的主要關鍵數學概念,并進一步細分為17類數學應用題(Math Word Problems, MWPs),使得能夠深入分析LLMs的數學推理能力。這些關鍵概念和技能包括數字與運算、代數、幾何、測量、數據分析與概率、問題解決和推理等。

2. 17個數學問題類別的詳細介紹

FineMath包含17種類型的MWPs(見下表),這些類型基于中國教育部制定的數學課程標準以及美國國家數學教師委員會(NCTM)設定的原則和標準。這些類別包括百分比、小數、分數、因數與倍數、計數、比例和混合運算等。每種類型的MWPs都包含三個難度級別,以促進詳細的推理能力分析。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

3. 難度分級與推理步驟的標注

FineMath中的每個數學問題都根據解決問題所需的推理步驟數量手動注釋難度級別。問題被分為三個難度級別:一步推理的問題為一級難度,兩步推理的問題為二級難度,三步或更多步推理的問題為三級難度。這種分類不僅反映了問題的難度,還代表了推理過程。

數據收集與注釋過程

1. MWP分類與問題標準化

在數據收集過程中,我們將收集到的問題分類為17種類型,每種類型對應一個關鍵或基本概念。我們將多個查詢的問題標準化,確保每個問題只包含一個查詢,并重新表述模糊查詢,以便模型能夠生成唯一的答案。

2. 數學推理與答案標準化

我們手動進行MWPs的回答過程,并由人工雙重檢查真實答案。我們要求注釋者提供回答每個MWP的步驟,每個步驟應該是原子的、不可分割的。對于使用固定解決公式的計算,例如計算圓的面積,我們將其視為單步MWPs。

3. 多項選擇題的轉換

為了便于自動評估,我們還將原始的MWPs轉換為多項選擇題形式,手動提供額外的對比答案選項,類似于AQUA數據集。

FineMath數據統計與分析

1. 數據集的整體統計信息

FineMath數據集旨在評估中文LLMs的數學推理能力,涵蓋了小學數學中的主要概念,并進一步細分為17類數學應用題。這些類別的題目都經過手動注釋,根據解決問題所需的推理步驟數量來標注難度等級。數據集包含1584個問題,每個數學概念至少包含60個問題,每個難度等級至少包含20個問題。FineMath的數據統計顯示,所有問題被分為五個主要數學概念和兩種經典類型的數學應用題,確保了數據集的多樣性和全面性。

2. 數據集污染分析及其對模型性能的影響

FineMath數據集的一個關鍵考量是測試數據污染問題,即測試數據可能無意中被包含在模型的訓練數據中。這種污染可能導致模型性能的高估,從而誤導我們對模型泛化能力的理解。為了評估污染情況,研究人員采用了與GPT-3相同的方法來計算FineMath與Ape210K(一個公開的大規模中文數學應用題數據集)之間的n-gram重疊情況(下圖)。通過這種方法,研究人員發現某些問題類型的重疊率明顯高于其他類型,例如基礎幾何和比例問題。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

為了深入了解這些重疊示例對模型性能的影響,研究人員將測試示例分為兩個數據集:一個包含重疊示例的污染數據集和一個與Ape210k訓練集沒有重疊的干凈數據集。在對比GPT-4和MathGLM-10B在這兩個數據集上的表現時(下表),發現MathGLM-10B在污染數據集上的表現顯著優于干凈數據集。相比之下,GPT-4在兩個數據集上的表現相當。這表明MathGLM-10B可能對重疊示例過擬合,而污染確實可以提高模型的性能。因此,為了確保模型之間的公平比較,并從FineMath基準測試中得出準確的結論,建議過濾掉訓練集和FineMath基準測試之間的重疊示例。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

實驗設計與評估的LLMs

1. 評估的LLMs類別與特點

在FineMath上進行的實驗評估了多種LLMs,包括OpenAI開發的GPT-4和GPT-3.5-Turbo,以及專門為中文開發的LLMs和使用中文數學數據微調的LLMs。這些模型的參數范圍從數十億到數千億不等,訓練數據量從數十億到數萬億不等(下表),這些因素都對模型的問題解決和推理能力至關重要。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

2. 實驗中使用的提示(Prompts)

實驗在零樣本設置下進行,研究人員嘗試了多種提示來進行評估和分析。這些提示包括不提供任何額外信息,只輸入問題到模型中;不解釋原因,只提供問題答案;以及提供問題答案并解釋原因等(下表)。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

3. 主要結果與不同類別的表現分析

在17個數學應用題類別中,GPT-4在所有模型中表現最佳(下圖),其準確率在不同類別中的表現差異顯著(下表)。例如,在“混合運算”類別中,GPT-4的準確率最高,達到89%,而在“計數”類別中,準確率最低,為38%。GPT-4在概率和解析幾何類別中的表現超過其他所有模型,提高了超過25%。GPT-3.5-Turbo在不同的數學應用題類別中的表現與GPT-4相似,但在概率、基礎幾何和解析幾何上有超過20%的顯著差異。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

在數學推理步驟數量方面,LLMs的表現隨著推理步驟的增加而降低(下圖)。GPT-4在所有難度級別上保持了超過60%的準確率,對于只需要一個推理步驟的數學應用題,其準確率高達82%。而GPT-3.5-Turbo的準確率平均比GPT-4低10%。其他模型在不同的數學應用題類別和推理步驟數量上的表現也有所不同,顯示出模型在數學推理能力上的差異。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

分析:評估過程中的關鍵因素

1. 提示(Prompts)對模型準確性的影響

在評估過程中,提示(Prompts)的使用對模型產生的答案準確性有顯著影響。例如,GPT-4在不同提示下的整體準確率分別為73%,59%,和58%(下表),這表明即使是簡單的提示變化也可能導致模型性能的顯著差異。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

提示如“Answer:”可能會促使模型跳過推理過程,直接輸出答案,從而增加了生成錯誤答案的可能性。下表是示例。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

2. 生成式評估與選擇題評估方法的比較

在初步實驗中發現,一些新開發的LLMs不總是遵循指令,經常生成與答案無關的大量文本。因此,將數據轉換為選擇題形式,模型可以從中選擇正確的答案。通過比較(下表),我們發現生成式評估與選擇題評估方法在準確性上存在顯著差異,差距可能超過10%。值得注意的是,將任務結構化為選擇題形式似乎降低了高性能模型的準確性,同時提高了性能較差模型的準確性。選擇題選項本身可能作為一種提示,影響模型的性能。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

3. 模型響應長度與“信心”的關聯

對模型生成的響應長度進行統計分析時,發現兩個現象(下表)。首先,如GPT-4和GPT-3.5-Turbo這樣的模型傾向于生成緊密圍繞問題的響應,文本較短,這可能表明了高準確性模型的特點。其次,數學問題需要的推理步驟越多,模型生成的響應往往越長。我們推測,模型在回答問題時的“信心”影響了其響應的長度。在某些情況下,即使在指示模型只提供答案而不解釋的情況下,模型仍會為難度較大的問題生成邏輯推理。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

結論與展望

FineMath作為一個細粒度的基準測試集,為全面評估中文LLMs的數學能力提供了重要工具。通過對多個LLMs的評估,我們不僅關注模型的準確性,還深入分析了評估過程和方法,揭示了這些經常被忽視的因素對評估結果和我們對模型數學推理能力理解的顯著影響。

FineMath的貢獻在于它提供了一個綜合性的基準,覆蓋了中國小學數學的主要概念,并將數學問題分為17個類別,使得對LLMs的數學推理能力進行深入分析成為可能。此外,FineMath的污染分析使研究人員能夠檢查訓練數據是否影響評估結果,從而確保了評估的公平性和有效性。

未來的研究方向可以包括進一步提高評估方法的公平性和有效性,例如通過更復雜的提示和任務形式來測試模型的推理和理解能力。此外,可以探索如何減少訓練數據中的污染,以及如何提高模型在處理更復雜數學問題時的性能。隨著LLMs的不斷進步,FineMath及其后續版本有望成為評估和提升中文LLMs數學推理能力的重要工具。


本文轉載自夕小瑤科技說,作者:Tscom

原文鏈接:??https://mp.weixin.qq.com/s/f4ptXPMEBdmvjQKiYyWF8Q??

收藏
回復
舉報
回復
相關推薦
中文字幕免费高清在线观看| 亚洲视频在线不卡| 国产高清在线| 国产精品中文字幕欧美| 欧美综合一区第一页| 国产黄a三级三级| 久久国产精品色av免费看| 在线区一区二视频| 无码熟妇人妻av在线电影| 岛国大片在线观看| 99在线精品一区二区三区| 国产精品视频在线观看| 欧美日韩精品区| 亚洲国产一区二区在线观看| 亚洲日本中文字幕| 天堂www中文在线资源| 日韩深夜福利网站| 91国产精品成人| 欧美一级视频在线播放| 免费网站成人| 欧美激情自拍偷拍| 欧美极品日韩| 色婷婷av一区二区三区之e本道| 精品伊人久久久久7777人| 欧美一级片在线播放| 久草国产在线视频| 中文字幕日韩一区二区不卡| 国产亚洲综合久久| 免费在线观看你懂的| 国产精品视屏| 日韩精品影音先锋| 欧美一级免费在线| 日韩成人综合网| 91豆麻精品91久久久久久| 亚洲熟妇av日韩熟妇在线 | 成人黄色理论片| 欧美视频在线观看免费| av在线免费观看国产| 男人天堂久久久| 国产精品久久久久久久裸模| 欧美日韩一区在线观看视频| 五月婷婷伊人网| 成人免费视频caoporn| 91夜夜揉人人捏人人添红杏| 6—12呦国产精品| 免费观看成人av| 国产精品视频自拍| 97国产精品久久久| 久久99精品国产91久久来源| 国产欧美一区二区白浆黑人| 中文字幕人妻精品一区| 久久精品国产亚洲一区二区三区| 国产精品高潮视频| а中文在线天堂| 蜜臀久久99精品久久久画质超高清| 国产精品久久久久久av福利软件| 中文字幕+乱码+中文| 国产日产一区| 高清免费电影在线观看| 欧美激情午夜| 成人国产电影网| 国产亚洲欧美一区二区| 四虎精品成人影院观看地址| 久久这里只有精品视频网| 欧美一区免费视频| 午夜老司机在线观看| 专区另类欧美日韩| 国产精品igao激情视频| 黄色在线观看www| 欧美性猛交xxxx免费看| av网站在线不卡| 国产精品成人**免费视频| 日韩美一区二区三区| 日韩www视频| 国产精品毛片高清在线完整版| 成人黄色av免费在线观看| 国产九色91回来了| 国产一区福利在线| 国产精品二区二区三区| 你懂的视频在线播放| 欧美—级在线免费片| 国产女人18毛片| 国产美女精品写真福利视频| 91成人免费在线| 中文字幕第66页| 久久99精品久久久久久欧洲站| 亚洲天堂av网| 青青青在线免费观看| 亚洲影音一区| 成人午夜小视频| 手机在线观看毛片| 国产精品盗摄一区二区三区| 国产欧美日韩小视频| 乱子伦视频在线看| 日韩成人一区| 日韩风俗一区 二区| 成人一级片免费看| 激情丁香综合| 成人激情视频免费在线| 污视频软件在线观看| 一区在线观看视频| 妺妺窝人体色www在线小说| 日日夜夜一区| 日韩电影大片中文字幕| 日韩国产第一页| 久久精品免费| 国产精品日韩高清| 巨大荫蒂视频欧美另类大| 欧美日韩免费在线观看| 中文字幕avav| 欧美gvvideo网站| 69av在线视频| 亚洲精品久久久久久无码色欲四季| 国产欧美日本一区视频| 国产精品裸体瑜伽视频| 精品一区二区三区中文字幕 | 日本高清+成人网在线观看| www.爱爱.com| 一区精品在线播放| 色悠悠久久综合网| 精品72久久久久中文字幕| 久久免费视频网站| 精品国自产在线观看| 国产精品色婷婷| 成人在线观看黄| 精品嫩草影院| 国自产精品手机在线观看视频| 国产毛片毛片毛片毛片毛片| 中文字幕国产一区| 三级a在线观看| 免费av一区| 欧美夜福利tv在线| 无码精品视频一区二区三区 | 久久精品久久久久| 在线免费看毛片| 国产精品嫩草99a| 中文字幕永久视频| 欧美在线电影| 国产成人黄色av| 国产九色在线| 精品婷婷伊人一区三区三| 国产精品国产三级国产专业不 | 午夜电影网一区| 成人做爰69片免费| 极品av少妇一区二区| 国产精品一区二区免费| 爱啪啪综合导航| 日韩av一卡二卡| 久久免费激情视频| 久久久精品tv| 日本免费观看网站| 97精品国产福利一区二区三区| 国产精品网站入口| 麻豆传媒在线完整视频| 欧美一区欧美二区| 激情五月婷婷在线| aa级大片欧美| 无码无遮挡又大又爽又黄的视频| 国产精品美女久久久久久不卡| 国产精品成人国产乱一区| 97超碰国产一区二区三区| 欧美精品一卡二卡| 日韩欧美中文字幕视频| 成人高清视频在线观看| 国产日韩一区二区在线观看| 国内精品久久久久久久影视简单 | 精品国产亚洲一区二区麻豆| 亚洲国产cao| 亚洲人人夜夜澡人人爽| 免费观看成人鲁鲁鲁鲁鲁视频| 精品日韩在线播放| 国产日韩三级| 国产精品伦子伦免费视频| 九义人在线观看完整免费版电视剧| 欧美一级黄色录像| 欧美不卡视频在线观看| 国产日韩欧美a| 超碰91在线播放| 亚洲欧美卡通另类91av| 在线视频欧美一区| 欧美久久精品| 国产在线一区二区三区| 激情在线视频播放| 国产亚洲精品成人av久久ww| 国产成年妇视频| 色老汉一区二区三区| 欧美成人精品欧美一级私黄| 久久天天做天天爱综合色| 红桃视频 国产| 99成人免费视频| 中文字幕一区综合| 色婷婷综合久久久久久| 成人午夜在线视频一区| 欧美亚洲韩国| 欧美二区乱c黑人| av在线中文| 亚洲国产成人久久综合| 国产视频第一页| 91福利国产精品| 国产午夜精品无码| 最近中文字幕一区二区三区| 成人午夜剧场视频网站| 福利电影一区二区| 天堂在线一区二区三区| 久久久亚洲一区| 国产一区二区三区小说| 欧美h版在线| 日韩成人av网站| 日韩av中文字幕一区| 97伦理在线四区| 欧美91在线|欧美| 国产成人精品亚洲精品| 91丝袜在线| 毛片精品免费在线观看| 拍真实国产伦偷精品| 一区二区三区国产在线观看| 日韩精品视频在线观看一区二区三区| 日韩一级片网站| 在线免费一级片| 欧美无砖专区一中文字| 国产精品久久久久久久久久久久久久久久久 | 欧美电影免费观看完整版| 中文字幕在线播放不卡| 欧美中文字幕一区| 日本a级c片免费看三区| 精品magnet| 国产真实乱偷精品视频| 一区二区三区四区精品在线视频| 多男操一女视频| 国产精品毛片a∨一区二区三区| 无码h肉动漫在线观看| 91在线免费视频观看| 午夜视频在线观看国产| heyzo一本久久综合| xxxxwww一片| 国产高清在线精品| 色综合久久久无码中文字幕波多| 国产一区二区免费看| 91亚洲精品久久久蜜桃借种| 美女在线一区二区| 亚洲一区日韩精品| 国产一区二区毛片| 极品人妻一区二区| 福利电影一区二区| 中文字幕a在线观看| 26uuu国产日韩综合| 成年人的黄色片| 91丨porny丨户外露出| av在线网站观看| 国产日产欧美精品一区二区三区| 人妻av无码一区二区三区| 国产亚洲人成网站| 天美传媒免费在线观看| 自拍偷拍欧美激情| 国产一级一级片| 精品国产乱码久久久久久天美 | 欧美一级专区免费大片| 国产极品久久久| 亚洲第一二三四五区| 欧美少妇另类| 综合欧美国产视频二区| 91三级在线| 91精品国产色综合久久不卡98口 | 亚洲妇熟xxxx妇色黄| 国产69精品久久久久99| 成人爱爱网址| 国产精品永久免费| 亚洲精品一区二区三区在线| 精品国产_亚洲人成在线| 欧美日韩激情| 波多野结衣 作品| 亚洲一区成人| 日韩欧美国产片| 成人国产精品免费观看| 性欧美一区二区| 亚洲欧美日韩精品久久久久| 日本一区二区不卡在线| 在线观看亚洲成人| 国产福利第一视频| 亚洲精品视频久久| 成人影欧美片| 日本欧美爱爱爱| 蜜桃精品一区二区三区| 免费日韩电影在线观看| 99久久婷婷国产综合精品电影√| 国产www免费| 蜜臀精品一区二区三区在线观看| 久久久久国产免费| 国产亚洲美州欧州综合国| 久久久久久福利| 欧美视频一二三区| 欧美自拍偷拍一区二区| 中文字幕在线观看亚洲| 激情黄产视频在线免费观看| 国产一区欧美二区三区| 最新精品国偷自产在线| 日本aa在线观看| 美女精品一区二区| 国产精品久久久免费观看| 中文字幕在线不卡一区二区三区| 你懂的国产视频| 欧美一级高清大全免费观看| 国产69久久| 26uuu久久噜噜噜噜| 激情综合五月| 日韩欧美手机在线| 日韩视频在线一区二区三区| 激情图片中文字幕| 中文字幕高清一区| 精品成人无码久久久久久| 精品久久久网站| 国产黄网站在线观看| 国产精品久久久久999| 视频福利一区| www.av毛片| 高清shemale亚洲人妖| 日韩激情小视频| 欧美精品少妇一区二区三区| 国产网站在线播放| 国产成人短视频| 在线日本制服中文欧美| 青青草视频在线免费播放| 懂色av一区二区三区免费看| www.av成人| 欧美一区二区三区四区久久| 欧洲日本在线| 国产三级精品网站| 91亚洲一区| 6080国产精品| 亚洲欧美日韩电影| 国产毛片毛片毛片毛片毛片| y97精品国产97久久久久久| 欧美a一级片| 正在播放久久| 精品无人码麻豆乱码1区2区 | 色欲无码人妻久久精品| 日韩理论片网站| 99国产揄拍国产精品| 另类美女黄大片| 欧美一区在线观看视频| 精品一区二区三区毛片| 国产成人aaaa| 久久艹精品视频| 亚洲精品99久久久久中文字幕| wwww亚洲| 蜜桃av色综合| 狂野欧美一区| 手机看片国产日韩| 在线观看91精品国产麻豆| 黄色免费在线观看网站| 97超级碰碰| 亚洲精品乱码| 国产精品无码久久久久一区二区| 色老汉一区二区三区| 天堂аⅴ在线地址8| 亚洲伊人第一页| 亚洲成人直播| 91精品人妻一区二区三区蜜桃欧美| 一本一道久久a久久精品| 第九色区av在线| 91精品视频观看| 国产精品99一区二区| avtt香蕉久久| 欧美性大战久久久| 黄色网址在线免费| 国产精品99久久久久久久| 国产亚洲精品v| 超碰人人人人人人人| 欧美一区二区三区在线观看| 黄色在线网站噜噜噜| 亚洲精品中文字幕乱码三区不卡| 激情综合亚洲精品| 日本少妇裸体做爰| 最新国产精品亚洲| 日韩免费精品| 欧美私人情侣网站| 亚洲色图欧洲色图| 天天干天天做天天操| 国产精品香蕉国产| 精品成人国产| 在线观看亚洲大片短视频| 日韩欧美黄色影院| 欧美一级大黄| 精品国偷自产一区二区三区| 国产欧美日韩亚州综合| 亚洲国产精品18久久久久久| 日韩av成人在线观看| 亚洲精品国产成人影院| 国产精品1000部啪视频| 777久久久精品| 无码小电影在线观看网站免费| 手机成人av在线| 久久综合99re88久久爱| 亚洲成人一二三区| 国产精品一区二区三| 免费视频一区| 久草视频在线免费看| 少妇高潮久久77777| 亚洲精品亚洲人成在线| 久久久久99人妻一区二区三区|