精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Scaling Law不總是適用!尤其在文本分類任務中,vivo AI Lab提出數據質量提升解決方法

人工智能
最近,vivo AI Lab研究團隊提出了一種數據質量提升(DQE)的方法,成功提升了LLM在文本分類任務中的準確性和效率。

Scaling Law不僅在放緩,而且不一定總是適用!

尤其在文本分類任務中,擴大訓練集的數據量可能會帶來更嚴重的數據沖突和數據冗余。

要是類別界限不夠清晰,數據沖突現象就更明顯了。

而文本分類又在情感分析、識別用戶意圖等任務中極為重要,繼而對AI Agent的性能也有很大影響。

最近,vivo AI Lab研究團隊提出了一種數據質量提升(DQE)的方法,成功提升了LLM在文本分類任務中的準確性和效率。

圖片

實驗中,DQE方法以更少的數據獲得更高的準確率,并且只用了近一半的數據量,就能有效提升訓練集的訓練效率。

作者還對全量數據微調的模型和DQE選擇的數據微調的模型在測試集上的結果進行了顯著性分析。

結果發現DQE選擇的數據在大多數測試集上都比全量數據表現出顯著的性能提升。

目前,此項成果已被自然語言處理頂會COLING 2025主會接收。

數據質量提升方法長啥樣?

在自然語言處理中,文本分類是一項十分重要的任務,比如情感分析、意圖識別等,尤其現在企業都在推出各自的AI Agent,其中最重要的環節之一,就是識別用戶的意圖。

不同于傳統的BERT模型,基于自回歸的大語言模型的輸出往往是不可控的,而分類任務對輸出的格式要求較高。

通過在提示詞中加入few-shot可以有效地改善這一現象,但是基于提示詞的方法帶來的提升往往有限。指令微調可以有效地改善模型的性能。

在文本分類任務中,缺乏一種有效的手段來獲取高質量的數據集。OpenAI提出了縮放定律(Scaling Law),認為大語言模型的最終性能主要取決于三個因素的縮放:計算能力、模型參數和訓練數據量。

然而這一定律并不總是適用,尤其在文本分類任務中,擴大訓練集的數據量會可能會帶來更加嚴重的數據沖突現象和數據冗余問題。尤其類別的界限不夠清晰的時候,數據沖突的現象更加明顯。

下面是vivo AI Lab團隊提出的數據質量提升(DQE)方法的具體方法設計。

圖片

首先,作者對訓練集進行了初步的數據清洗工作,包含處理具有缺失值的數據、query和標簽重復的數據以及標簽不一致數據(同一條query對應多個不同的標簽)

然后,使用文本嵌入模型,將文本轉換為語義向量。再通過貪婪采樣的方法,隨機初始化一條數據作為初始向量,然后每次選擇距離向量中心最遠的數據加入到新的集合中,以提升數據的多樣性。

接著,更新這個集合的向量中心,不斷的重復這個過程,直到收集了50%的數據作為sampled,剩下未被選中的50%的數據集作為unsampled,然后使用sampled數據集微調大語言模型預測unsampled。

通過結合向量檢索的方式,將unsampled中預測結果錯誤的數據分為Uncovered、Difficult和Noisy三種類型。

圖片

下面是三種類型的數據的識別原理:

Uncovered:主要指sampled中未覆蓋的數據,如果預測錯誤的數據與最相似的數據具有相同的標簽,并且最相似的數據位于unsampled中,則認為該數據相關的特征可能沒有參與sampled模型的微調,從而導致unsampled中的該條預測結果錯誤。

Difficult:主要指sampled中難以學會的困難樣本,如果預測錯誤的數據與最相似的數據具有相同的標簽,并且最相似的數據位于sampled,則認為該數據相關的特征已經在sampled中參與過模型的微調,預測錯誤可能是因為這條數據很難學會。

Noisy:主要是標簽不一致導致的噪聲數據,如果預測錯誤的數據與最相似的數據具有不同的標簽。則懷疑這兩條數據是噪聲數據。大多數文本分類任務的數據集都是共同手工標注或者模型標注獲得,都可能存在一定的主觀性,尤其在類別界限不清晰的時候,標注錯誤的現象無法避免。這種情況下,作者通過提示詞,使用GPT-4o進一步輔助判斷。

效果如何?

作者基于多機多卡的L40s服務器上通過swift框架進行了全參數微調,選擇開源的Qwen2.5-7B-Instruct模型作為本次實驗的基礎模型。

圖片

作者與PaperWithCode中收錄的最好的結果以及全量數據微調的方法進行了對比,作者分別在MR、CR、IMDb、SST-2、SST-5、AG News數據集中進行了對比實驗。

圖片
圖片

從實驗結果可以看出,DQE方法以更少的數據獲得更高的準確率,并且只用了近乎一半的數據量,可以有效地提升訓練集的訓練效率。

圖片

同時,作者頁進一步對全量數據微調的模型和DQE選擇的數據微調的模型在測試集上的結果進行了顯著性分析。將預測結果正確的數據賦值為1,將預測結果錯誤的數據賦值為0,通過t檢驗來評估模型之間性能差異的統計顯著性。

從表中可以發現DQE選擇的數據在大多數測試集上都比全量數據表現出顯著的性能提升。

圖片

與傳統的BERT模型不同的是,生成式的模型往往是不可控的,作者進一步分析了指令跟隨結果。

結果表明,不管是全量數據微調還是DQE方法微調,都可以有效地提升大語言模型的指令跟隨能力,按照預期的結果和格式輸出。

對于分類任務來講,當數據量足夠大時,很難避免標簽噪聲現象。即便是被各大頂級學術期刊和會議廣泛使用的數據集,也無法避免標簽噪聲現象。

作者分析了一部分通過實驗找出的噪聲數據,并且給出了開源數據集中的標簽噪聲的示例。

圖片

值得注意的是,在數據采樣過程中,本研究使用貪心算法將數據集劃分為sampled和unsampled。此外,作者根據文本相似度將unsampled分類為uncovered、difficult和noisy數據。

接下來,分析sampled中的這三種類型:

由于該數據將用于最終的訓練集,因此它不包含uncovered。

關于difficult,將來自unsampled中識別為difficult的樣本會加入到最終的訓練集,這uncovered中的difficult和sampled是成對存在的,從而部分減輕了采樣數據中的difficult問題。

對于noisy數據,使用DQE可以在sampled和unsampled之間識別出大多數成對的噪聲實例。

由于使用sampled貪婪采樣策略,在sampled內遇到成對的相似噪聲數據的概率會相對較低。從理論上解釋了本方案的有效性。

論文地址:https://arxiv.org/abs/2412.06575

責任編輯:姜華 來源: 量子位
相關推薦

2025-09-22 10:44:20

2022-10-09 08:00:00

機器學習文本分類算法

2020-03-02 21:44:24

物聯網大數據邊緣計算

2024-10-11 14:00:00

模型數據

2023-11-28 09:00:00

機器學習少樣本學習SetFit

2025-04-10 09:38:37

2011-07-22 13:46:41

SQL Server MDAC

2020-03-23 08:00:00

開源數據集文本分類

2025-10-15 09:05:05

2024-09-02 14:30:00

數據訓練

2024-11-11 17:35:11

2025-03-17 09:25:00

AI模型谷歌

2010-03-02 16:43:46

2018-07-04 15:17:07

CNNNLP模型

2025-07-25 09:31:49

2025-04-17 09:53:49

谷歌模型架構

2025-01-03 11:35:42

2025-05-09 08:19:00

2022-12-08 13:00:10

AI性別偏見

2022-10-11 08:00:00

人工智能機器學習數據
點贊
收藏

51CTO技術棧公眾號

日韩精品――中文字幕| 日韩中文字幕组| 性生活视频软件| 中文亚洲欧美| 亚洲小视频在线观看| 亚洲黄色av网址| 青春草在线免费视频| 成人激情视频网站| 国产精品嫩草影院一区二区| 摸摸摸bbb毛毛毛片| 最新亚洲国产| 欧美日韩免费观看中文| 性欧美精品一区二区三区在线播放 | 日韩精品第二页| 午夜欧美视频在线观看| 视频一区国产精品| 亚洲av片一区二区三区| 老司机午夜精品| 欧洲一区二区视频| 激情综合五月网| 人人狠狠综合久久亚洲婷| 日韩欧美色电影| 鲁一鲁一鲁一鲁一av| av影片在线| 亚洲精选免费视频| 夜夜春亚洲嫩草影视日日摸夜夜添夜| 人妻一区二区三区免费| 捆绑调教一区二区三区| 欧美精品999| 性生交大片免费全黄| 巨人精品**| 欧美一区二区三区婷婷月色| 欧美亚洲日本一区二区三区| 在线看免费av| 国产日韩欧美一区二区三区综合 | 亚洲中文字幕一区二区| 国产精品久久久亚洲一区| 久久国产精品99国产精| 国产伦理片在线观看| 国产精品2023| 精品国产一区a| 五月天开心婷婷| www.久久.com| 色婷婷久久一区二区三区麻豆| 成人在线免费高清视频| 香蕉视频在线免费看| 久久久久国产精品麻豆ai换脸| 国产精品视频福利| 嫩草影院一区二区| 成人国产精品免费网站| 2014国产精品| 精品国产乱码一区二区三| 老司机一区二区| 成人久久久久久| 国产精品毛片一区二区在线看舒淇| 久久成人国产| 日韩av黄色在线观看| 99精品在线播放| 久久只有精品| 国产999精品| 中文字幕乱码人妻二区三区| 亚洲作爱视频| 日韩美女在线观看| 最近中文字幕av| 久久精品国产在热久久| 国产欧洲精品视频| 精品久久久久久亚洲综合网站| 国产一区二区在线看| 成人高清视频观看www| 国产精品久久无码一三区| 经典三级在线一区| 高清视频一区二区三区| 成人毛片视频免费看| 成人精品免费看| 久久久久久草| 超碰免费在线| 椎名由奈av一区二区三区| 中文字幕免费高| 国产探花在线观看| 日韩欧美在线观看| 男女视频在线看| 91亚洲无吗| 国产午夜一区二区| 成人免费毛片xxx| 亚洲激情自拍| 国产精品久久久久久久天堂| 男人天堂视频网| 国产乱色国产精品免费视频| 亚洲一区二区三区sesese| 欧美特级特黄aaaaaa在线看| 成人免费高清在线观看| 欧美精品欧美精品| 国产区在线看| 欧美性xxxx18| 久久6免费视频| 日韩影视高清在线观看| 影音先锋日韩有码| 中文字幕第28页| 男女视频一区二区| 国产精品免费在线播放| 国产午夜在线观看| 亚洲在线观看免费| 日韩不卡一二三| 久久久久观看| 久久伊人91精品综合网站| 激情综合网五月婷婷| 日一区二区三区| 国产精品日韩欧美一区二区| 国产黄色片免费观看| 99天天综合性| 国内外成人激情免费视频| 亚洲第一av| 日韩精品一区二区三区蜜臀 | 亚洲AV无码一区二区三区少妇| 99国产欧美久久久精品| 中文字幕99| 天天免费亚洲黑人免费| 日韩欧美的一区二区| 免费网站在线高清观看| 亚洲国产日本| 7777精品久久久大香线蕉小说| 精品av中文字幕在线毛片| 樱桃视频在线观看一区| 日本中文字幕高清| 美女毛片一区二区三区四区| 久久中文精品视频| 伊人影院中文字幕| 国产欧美日本一区二区三区| 亚洲精品偷拍视频| 欧美爱爱视频| 中文字幕欧美日韩| 无码人妻av一区二区三区波多野| 国产成人亚洲综合a∨猫咪| 欧洲成人一区二区| 中文字幕在线中文字幕在线中三区| 欧美一级xxx| 欧美第一页在线观看| 秋霞影院一区二区| 日韩中文不卡| 四虎成人在线| 在线电影av不卡网址| 亚洲久久在线观看| 99re这里只有精品首页| 日韩在线视频在线| 香蕉大人久久国产成人av| 日韩在线观看免费全集电视剧网站 | 日色在线视频| 欧美视频精品一区| 一级特黄a大片免费| 欧美日韩日本国产亚洲在线| 国产成人在线精品| 国产一区二区三区不卡在线| 亚洲午夜影视影院在线观看| 天天操,天天操| 日本久久一二三四| 国产欧美一区二区三区视频| 国产在线一二| 欧美色图12p| 国产成人精品视频免费| 日本欧洲一区二区| 一区二区三区四区国产| 女生影院久久| 永久免费毛片在线播放不卡| 六月丁香激情综合| 国产欧美一区二区在线观看| 内射国产内射夫妻免费频道| xvideos.蜜桃一区二区| 午夜精品久久久久久久99热 | 亚洲精品网址在线观看| 成人免费a视频| 国产精品视频在线看| 中文字幕av专区| 亚洲九九在线| 国产精品对白刺激久久久| 黄网av在线| 亚洲老头同性xxxxx| 亚洲欧美精品一区二区三区| 97成人超碰视| 亚洲精品性视频| 国产综合欧美| 欧美一级爽aaaaa大片| 成人日韩在线观看| 欧美理论片在线观看| 亚洲乱码精品久久久久..| 午夜国产精品一区| 亚洲天堂av中文字幕| 激情六月婷婷综合| 少妇人妻无码专区视频| 亚洲最好看的视频| 91免费视频网站| 嗯~啊~轻一点视频日本在线观看| 日韩麻豆第一页| 国产男女猛烈无遮挡| 亚洲国产视频直播| 女人黄色一级片| 国产成人精品www牛牛影视| 免费欧美一级视频| 国产精品成久久久久| 国产精品自拍首页| 日韩福利影视 | www.久久| 国色天香2019中文字幕在线观看| 青青青草原在线| 欧美精品一卡二卡| 无码人妻av免费一区二区三区| 日韩美女视频一区二区| 亚洲一区二区三区综合| 精品综合久久久久久8888| av无码久久久久久不卡网站| 杨幂一区二区三区免费看视频| 成人黄色在线观看| 日韩欧美一区二区三区免费观看 | 成人免费看视频| 91看片破解版| 日韩二区三区四区| 久久久久久久中文| 欧美午夜视频| 亚洲 国产 日韩 综合一区| jazzjazz国产精品麻豆| 国产精品美女网站| 亚洲天堂资源| 久久久视频在线| 亚洲第一图区| 日韩在线www| 成人影视在线播放| 精品无人区太爽高潮在线播放| 国产情侣激情自拍| 欧美午夜精品久久久久久超碰 | 欧美视频网站| 欧美精品久久96人妻无码| 欧美色图一区| 无遮挡亚洲一区| 欧美三级美国一级| 欧美日韩亚洲在线| 任你躁在线精品免费| 9a蜜桃久久久久久免费| 人人玩人人添人人澡欧美| 日本欧美在线视频| 中文字幕资源网在线观看免费| 欧美福利小视频| 牛牛精品视频在线| 欧美日韩成人在线播放| av免费在线免费观看| 色偷偷888欧美精品久久久| 国产三级视频在线看| 亚洲男人天堂2019| 欧美性孕妇孕交| 亚洲人成在线观看| 高清福利在线观看| 自拍亚洲一区欧美另类| 国产露出视频在线观看| 亚洲欧美日韩中文视频| 欧洲综合视频| 一区二区三区黄色| 伊人在线视频| 久久精品国产亚洲7777| 国产精品久久麻豆| 欧美日产国产成人免费图片| 免费大片黄在线| 欧美成人午夜影院| 2020国产在线| 欧美一区二区三区免费视| 是的av在线| 国产成人极品视频| 国产亚洲精彩久久| 亚洲一区二区三区xxx视频| 亚洲成人五区| 国产乱码精品一区二区三区日韩精品 | 亚洲欧美国产不卡| 亚洲网色网站| 国产 日韩 欧美在线| 亚洲日本欧美| 国产xxxxx视频| 国产一区不卡视频| 国产精品成人99一区无码| 91性感美女视频| 国产精品成人在线视频| 一色屋精品亚洲香蕉网站| 五月天av网站| 色综合婷婷久久| 国产乱人乱偷精品视频a人人澡| 欧美一区二区三区在线电影| 国产乱色精品成人免费视频| 日韩一区二区在线观看视频播放| 午夜免费福利视频| 亚洲天堂2020| 超碰porn在线| 欧洲亚洲免费在线| 久久69av| 欧美日韩一区在线播放| 天天射—综合中文网| 一卡二卡三卡视频| 日本欧美在线观看| 国产婷婷在线观看| 日本一区二区动态图| 曰本女人与公拘交酡| 欧美日韩精品在线| av老司机久久| 国产香蕉一区二区三区在线视频| 精品国产99久久久久久| 亚洲18私人小影院| 啪啪av大全导航福利综合导航| 国产激情美女久久久久久吹潮| 一区二区小说| 超碰超碰超碰超碰超碰| 老鸭窝91久久精品色噜噜导演| 在线不卡一区二区三区| 久久综合成人精品亚洲另类欧美 | 久久精品一区二区不卡| 久在线观看视频| 国产麻豆精品在线观看| xxx在线播放| 五月综合激情日本mⅴ| 国产一区二区麻豆| 亚洲欧美中文字幕| 男女视频在线| 成人在线视频网| 日本一区二区三区视频| 免费高清在线观看免费| 国产毛片一区二区| 一级免费黄色录像| 欧洲av在线精品| 免费在线一级视频| 欧美一级在线播放| 粉嫩av一区二区| 蜜臀av性久久久久蜜臀av| 日韩精品免费视频人成| 久久久久久久人妻无码中文字幕爆| 亚洲色图视频免费播放| 狠狠人妻久久久久久综合| 精品久久久久久综合日本欧美| 日韩av中文| 国产精品免费一区二区三区都可以| 欧美日韩一区二区三区在线电影 | 日本不卡在线视频| 性欧美13一14内谢| 一本大道久久a久久精二百| 丰满人妻一区二区三区免费视频| 久久久久www| 99久久999| 欧美一级黄色录像片| 麻豆成人久久精品二区三区小说| 免费观看av网站| 色悠悠亚洲一区二区| 亚洲AV成人无码一二三区在线| 久久久久久久999| 国产精品国产| 波多野结衣家庭教师在线| 成人国产视频在线观看| 国产一级视频在线观看| 欧美v日韩v国产v| 美女精品视频| 国模精品一区二区三区| 亚洲无吗在线| 亚洲精品理论片| 色噜噜久久综合| 大胆av不用播放器在线播放| 欧美在线观看一区二区三区| 欧美成人精品一级| 无码日本精品xxxxxxxxx| 国产成人亚洲综合色影视| 久久久久久福利| 日韩av一卡二卡| 日韩欧美一区二区三区在线观看| 亚欧精品在线| 国产精品亚洲专一区二区三区| 精品欧美一区二区久久久久| 制服丝袜亚洲精品中文字幕| 午夜伦理在线| 97中文在线观看| 免费精品视频| 手机看片福利视频| 日韩欧美你懂的| 瑟瑟视频在线看| 亚洲不卡1区| 免费看日韩精品| 久久一级黄色片| 亚洲视频一区二区| 91成人精品观看| 久久视频这里有精品| 久久综合久久99| 国产三级午夜理伦三级| 久久免费国产视频| 精品久久一区| 亚洲最大视频网| 欧美视频自拍偷拍| 黑人精品视频| 深夜福利成人| av成人动漫在线观看| 中文字幕乱码人妻无码久久| 日韩视频在线一区| 露出调教综合另类| 久久人人爽av| 偷拍日韩校园综合在线| av男人的天堂在线| 激情视频一区二区| 国产一区二区0| 波多野结衣毛片| 午夜精品视频在线| 亚洲h色精品|