精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ChatGPT到底學了多少「污言穢語」?清華團隊首提大語言模型中文語料污染治理技術

人工智能 新聞
為了系統性研究 LLM 的中文詞表和數據污染問題,來自清華大學、南洋理工大學和螞蟻集團的研究團隊首先定義和分類了中文污染詞(Polluted Chinese tokens, PoC tokens),分析了它們對 LLM 性能的影響。

本文第一作者是清華大學博士生張清杰,研究方向是大語言模型異常行為和可解釋性;本文通訊作者是清華大學邱寒副教授;其他作者來自清華大學、南洋理工大學和螞蟻集團。

如果我們的教科書里包含大量的污言穢語,那么我們能學好語言嗎?這種荒唐的問題卻出現在最先進 ChatGPT 系列模型的學習過程中。

來自清華大學、南洋理工大學和螞蟻集團的研究人員發現,GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文詞表污染高達 46.6%,甚至同時包含「波*野結衣」、「*野結衣」、「*野結」、「*野」、「大發時時彩」、「大發快三」、「大發」等色情、賭博相關詞元(如下圖所示)。

研究團隊對 OpenAI 近期發布的 GPT-5 和 GPT-oss 的詞表也進行了分析,它們詞表的中文 token 沒有變化。

圖 1:GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文詞表污染高達 46.6%,主要涉及色情、賭博。

研究團隊認為,這種現象是由于來自互聯網數據的大模型預訓練語料庫不可避免地包含污染內容,導致在此之上構建的大語言模型(LLM)詞表包含污染詞。那么,這些污染詞會如何影響 LLM 的性能?與污染數據的關系如何呢?

為了系統性研究 LLM 的中文詞表和數據污染問題,研究團隊首先定義和分類了中文污染詞(Polluted Chinese tokens, PoC tokens),分析了它們對 LLM 性能的影響;其次,為了高效識別不同 LLM 詞表里的 PoC tokens,研究團隊設計了一個中文污染詞檢測模型;最后,通過中文詞表污染有效估計數據污染,為污染數據治理提供輕量化解決方案。

  • 論文標題:Speculating LLMs’ Chinese Training Data Pollution from Their Tokens
  • 錄用會議:EMNLP 2025 Main
  • 項目網站:https://pollutedtokens.site/

值得注意的是,本項研究工作于 2025 年 5 月 29 日在清華大學基礎模型學術年會上由邱寒老師首次分享,并提出針對 10T 級的大語言模型訓練語料庫的污染數據治理技術。

央視于 2025 年 8 月 17 日的新聞中也指出,AI 數據被污染存在風險。

中文污染詞的定義、分類和危害

該研究首先組建了包含 6 名跨學科領域專家的標注團隊(擁有哲學、社會學、中文語言學、計算機科學博士學位),對先進 ChatGPT 模型的中文詞表進行污染詞標注,總結出中文污染詞的定義和分類,為后續研究打下基礎。

定義:中文污染詞(Polluted Chinese tokens, PoC tokens)是存在于 LLM 詞表中,從主流中文語言學的角度編譯了不合法、不常見、不常用內容的中文詞(多于 2 個字)。

分類:中文污染詞主要包括如下 5 個類別:

  • 成人內容,例如「波*野結衣」。
  • 在線賭博,例如「大發彩票網」。
  • 在線游戲,例如「傳奇私服」。
  • 在線視頻,例如「在線觀看」。
  • 奇怪內容,例如「給主人留下些什么吧」。

參照這種定義和分類,專家標注團隊對先進 ChatGPT 模型的中文長詞(共計 1659 個)進行標注,發現污染詞有 773 個(46.6%),其中成人內容的污染詞最多,足足有 219 個(13.2%)。

進一步,研究團隊分析了中文污染詞的危害,發現即使是最先進的 ChatGPT 模型(GPT-4o/o1/o3/4.5/4.1/o4-mini)在輸入中文污染詞后也會胡言亂語。如下圖所示,ChatGPT 不能理解甚至不能重復中文污染詞,輸入一個中文污染詞甚至會輸出另一個中文污染詞。

圖 2:ChatGPT 不能理解甚至不能重復中文污染詞,輸入一個中文污染詞甚至會輸出另一個中文污染詞。

如下表所示,與輸入正常中文詞相比,輸入中文污染詞會顯著降低 ChatGPT 的回答質量,在解釋和重復任務上有約 50% 的性能損失。

表 1:輸入中文污染詞會造成 ChatGPT 在解釋和重復任務上約 50% 的性能損失。

為了初步解釋這一現象,研究團隊分析了開源預訓練語料庫(例如 mC4)中的中文網頁,發現多種中文污染詞聚集于一些網頁的頭部和尾部(如下圖所示)。這些低質量語料使得 LLM 錯誤理解了不同中文污染詞之間的相關性,且沒有在后訓練階段被矯正回來,導致模型在推理時無法理解也無法重復中文污染詞。

圖 3:開源預訓練語料庫 mC4 的中文網頁:中文污染詞聚集于一些網頁的頭部和尾部。

污染檢測:自動化識別中文污染詞

為了將中文污染詞的識別和分類擴展到更多的 LLM,研究團隊微調中文能力強且污染較少的 GLM-4-32B,構建自動化中文污染詞識別模型。

由于中文污染詞通常是晦澀難懂的(例如「青青草」看似正常,但 Google 搜索結果與互聯網色情平臺有關),即使是中文語言學專家也無法判斷中文詞是否污染、屬于哪一種污染類別。

因此,研究團隊為識別模型設計網絡檢索機制,對每一個待檢測中文詞返回 10 條 Google 檢索信息,作為判斷是否為污染詞的背景信息。并且,微調以專家標注結果作為真值標簽,最終使模型達到 97.3% 的識別正確率。

如下圖所示,研究團隊用識別模型對 23 個主流 LLM 的 9 個詞表進行了中文污染詞檢測。不只有先進的 ChatGPT 系列模型,中文污染詞在其他 LLM 詞表中也存在。其中成人內容、在線賭博、奇怪內容占了大多數。

然而,上一代 ChatGPT 模型(GPT-4/4-turbo/3.5)包含很少量的表征多個中文字的 token,其中卻不包括中文污染詞。

圖 4:Qwen2/2.5/3 和 GLM4 的部分中文污染詞。

污染追蹤:由詞表污染估計數據污染

由于詞表污染是訓練數據污染的反映,研究團隊進一步設計污染追蹤方案,通過 LLM 的詞表反向估計訓練數據的污染情況,為海量數據治理提供輕量化方案。

LLM 的詞表構建大多基于 BPE 算法。簡單來說,BPE 算法對語料庫里的詞頻進行統計,并將出現頻率越大的詞放在詞表越靠前的位置,即詞 ID 越小。由詞表污染估計數據污染即為對 BPE 算法做逆向,然而,逆向 BPE 的結果不唯一,因為一個詞 ID 并不對應于一個確定的詞頻,只能給出詞頻范圍的估計。

因此,研究團隊結合經典語言學的 Zipf 分布和上下確界理論,在開源語料庫上用分位數回歸擬合出詞 ID-詞頻的經驗估計。

如下圖所示,該經驗估計有效擬合了詞 ID-詞頻分布的上下界,并且落于理論上下確界之間,因此是一種有效的污染追蹤方案。

圖 5:詞 ID-詞頻的經驗估計有效擬合了分布的上下界,并且落于理論上下確界之間。

基于這種經驗估計,研究團隊估計了開源語料庫 mC4 的數據污染,并與真值做比較。如下圖所示,該估計方案對整體數據污染的估計是比較接近的,而對于具體污染類別的估計存在優化空間,這是因為具體污染類別的組分更少,其分布特征在海量語料庫的統計中被削弱了。

圖 6:開源語料庫 mC4 的數據污染估計及與真值的比較。

進一步,研究團隊估計了 GPT-4o 詞表里出現的中文污染詞「波*野結衣」在訓練語料里的污染情況。結果顯示,「波*野結衣」相關頁面在 GPT-4o 中文訓練語料的占比高達 0.5%,甚至是中文常用詞「您好」的 2.6 倍。

由于 GPT-4o 的中文訓練語料沒有開源,為了驗證這種估計,研究團隊在無污染的開源數據集上按照 0.5% 的比例混合「波*野結衣」相關頁面,并用 BPE 算法構建詞表以模擬 GPT-4o 構建詞表的過程。如下圖所示,該比例幾乎準確復現了 4 個相關詞「*野」、「*野結」、「*野結衣」、「波*野結衣」在 GPT-4o 詞表里的詞 ID。

圖 7:按照 0.5% 的比例混合「波*野結衣」相關頁面可以在開源語料庫上復現出 4 個相關詞「*野」、「*野結」、「*野結衣」、「波*野結衣」在 GPT-4o 詞表里的詞 ID。

未來展望:污染數據是否百弊而無一利?

盡管污染語料會導致大語言模型的詞表里混入「污言穢語」,那么污染數據是否百弊而無一利呢?哈佛大學于 ICML 2025 發表的文章《When Bad Data Leads to Good Models》指出,預訓練中適量的污染數據可作為對齊模型的催化劑。

該研究基于如下圖所示的理論假設:當預訓練中有害數據過少時,有害表征會與其他表征混雜在一起,不易區分;反之,當有害數據適量時,有害表征更容易被區分。

圖 8:預訓練包含適量有害數據 vs 極少有害數據:前者更易區分有害表征向量。

進一步,研究團隊按照 0-25% 不同有害數據比例預訓練 Olmo-1B 模型,并在 inference 階段識別并偏轉有害表征,從而抑制有害內容輸出。實驗結果顯示適量(10%)有害數據預訓練的模型在應用抑制方法后的有害性最低,甚至低于不包含有害數據的預訓練模型。

水至清則無魚,適量的污染數據有助于模型的安全對齊。在促進安全對齊和預防過度污染間保持平衡,是未來的污染數據研究值得探索的方向。

總結

最新 ChatGPT 系列模型的《新華詞典》里有 46.6% 都是「污言穢語」,并且輸入這些「污言穢語」會讓模型胡言亂語。基于這一現象,研究團隊系統性給出了此類中文污染詞的定義和分類,構建了中文污染詞自動識別模型,并基于詞表污染估計訓練語料污染。綜上所述,該研究期待為 LLM 海量訓練語料的治理提供輕量化的方案。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-08-09 07:04:17

清華微軟LLM

2023-10-16 12:43:00

模型評測

2023-07-28 08:08:09

大淘寶數據模型數據治理

2023-02-27 09:48:30

谷歌模型

2023-04-27 13:46:08

語言模型ChatGPT人工智能

2024-10-28 16:02:16

2023-05-26 13:22:49

2023-08-10 08:46:52

2023-09-28 08:19:57

語言模型數倉數據

2023-10-31 17:28:00

數據訓練

2023-09-06 12:11:21

ChatGPT語言模型

2024-04-17 12:51:49

2024-09-29 13:10:08

2024-02-27 09:14:01

AI模型

2025-05-27 15:21:06

LLM模型AI

2024-05-29 10:31:52

2023-10-17 12:34:04

2025-02-24 09:58:09

2018-04-24 08:54:32

編程語言簡歷敏捷性

2025-04-30 16:48:07

點贊
收藏

51CTO技術棧公眾號

黄色a级片免费| 国产精品乱码| 成人免费黄色小视频| 99re8这里有精品热视频免费 | 国产wwwwxxxx| 成人看片爽爽爽| 欧美亚洲尤物久久| 男女激情免费视频| 成年人在线观看网站| 国产99一区视频免费| 日韩美女在线观看| 欧美日韩精品一区二区三区视频播放| 神马香蕉久久| 日韩西西人体444www| 免费观看成人在线视频| 久久国产精品黑丝| 国产亚洲综合av| 国产精品一区二区免费| 中文字幕免费观看视频| 亚洲毛片一区| 久久综合伊人77777尤物| 女尊高h男高潮呻吟| 天堂久久av| 正在播放一区二区| 狠狠热免费视频| 日韩理论视频| 一区二区久久久久| 综合视频免费看| 国产视频网站在线| 99久久伊人网影院| 成人自拍爱视频| 国产精品国产精品国产专区| 亚洲欧美久久| 97色在线观看| 日韩精品人妻中文字幕| 欧美另类综合| 久久这里有精品视频| 1024手机在线观看你懂的| 中日韩免视频上线全都免费| 欧美精品一区二区久久久| 中文字幕精品一区二区三区在线| 欧美18—19sex性hd| 欧美日韩在线视频一区二区| 女同性恋一区二区| 久操视频在线播放| 亚洲私人影院在线观看| 一区视频二区视频| 欧洲美女少妇精品| 综合久久给合久久狠狠狠97色 | 日韩精品视频一区二区| 亚洲日本va中文字幕| 日韩午夜激情免费电影| 国产男女无遮挡猛进猛出| 日日夜夜亚洲| 91精品国产一区二区三区| 色免费在线视频| 日韩免费在线电影| 91精选在线观看| 奇米777在线| 欧美一区一区| 亚洲成人久久久| 三级黄色片网站| 精品一区毛片| 伊人久久久久久久久久| 中文天堂资源在线| 亚洲色图插插| 韩国美女主播一区| 久久久久99精品成人片我成大片 | 一区二区在线观看视频在线观看| 国产免费内射又粗又爽密桃视频| 欧美家庭影院| 同产精品九九九| 亚洲乱码国产一区三区| 国产第一亚洲| 日韩视频中午一区| 97人妻精品一区二区三区免费| 久久九九热re6这里有精品| 亚洲精品日韩丝袜精品| 国产三级在线观看完整版| 国产精品成人av| 久久久视频在线| 日韩黄色片网站| 国产美女精品人人做人人爽| 国产一区二区黄色| 国产一级二级三级在线观看| 亚洲日本一区二区| 日韩精品xxxx| 欧美电影在线观看网站| 日韩欧美综合在线| 国精产品一区一区三区免费视频| 视频在线不卡免费观看| 国内精品久久久久久影视8| 精品无码一区二区三区的天堂| 精品亚洲成av人在线观看| 国产精品一区二区三区不卡| 成年网站在线| 精品欧美激情精品一区| 亚洲综合婷婷久久| 天堂av一区二区三区在线播放| 中文字幕亚洲欧美日韩在线不卡| 久久香蕉精品视频| 久久99热这里只有精品| 国产伦精品一区二区三区高清| 成年人视频在线免费观看| 亚洲精品乱码久久久久久日本蜜臀| 日本wwww视频| 日韩欧美中文字幕一区二区三区| 亚洲一品av免费观看| 精品午夜福利在线观看| 麻豆专区一区二区三区四区五区| 国产一区二区久久久| 在线观看麻豆蜜桃| 日韩人在线观看| 国产精品成人免费一区久久羞羞| 国模精品一区| 26uuu亚洲伊人春色| 国产av无码专区亚洲av| 欧美国产精品一区二区三区| 国产97在线 | 亚洲| 日韩精品成人在线观看| 三级精品视频久久久久| 色老头在线视频| av在线不卡电影| 久操手机在线视频| 91麻豆精品国产综合久久久 | 日韩精品一区二区在线观看| 免费在线观看a视频| 香蕉久久a毛片| 国产欧美日韩一区| 欧美24videosex性欧美| 777色狠狠一区二区三区| 国产性猛交xx乱| 日韩精品乱码免费| 欧美精品久久| 都市激情综合| 亚洲毛片在线免费观看| 日本三级小视频| 国产suv精品一区二区三区| 日韩精品一区二区三区电影| 99久久99九九99九九九| www.日韩欧美| 99精品国产99久久久久久97| 日韩理论片网站| 婷婷中文字幕在线观看| 国产精品久久观看| 成人性生交大片免费观看嘿嘿视频| 成年人视频在线观看免费| 欧美日韩免费在线视频| 欧美一区二区三区观看| 精品一二三四区| 超碰97在线看| 国产精品chinese在线观看| 欧美精品aaa| 五月婷婷综合久久| 欧美性猛交xxxx| 久操视频免费看| 日本vs亚洲vs韩国一区三区二区| 日本在线播放一区| 国产亚洲精彩久久| 蜜臀久久99精品久久久无需会员| 午夜久久久久久久久久| 亚洲福利视频一区二区| 99热最新在线| 久久精品一二三四| 久久久久久美女精品| 成人情趣片在线观看免费| www视频在线看| 精品国产精品一区二区夜夜嗨| 国产网站在线看| 2021中文字幕一区亚洲| 在线视频日韩一区| 亚洲国产精品91| 国产精品亚洲一区| 日韩不卡免费高清视频| 日韩中文有码在线视频| www.色视频| 欧美日韩亚洲91| 99自拍偷拍视频| 国产99精品视频| 国产av无码专区亚洲精品| 99久久久久| 国产欧美日韩综合精品二区| 中文av在线全新| 日韩中文字幕免费视频| 性欧美8khd高清极品| 欧美日韩一区二区三区| 色婷婷粉嫩av| 99久久伊人久久99| 国产精品一区二区小说| 伊人久久亚洲美女图片| 日韩av图片| 视频免费一区二区| 国产精品扒开腿爽爽爽视频| 菠萝菠萝蜜在线视频免费观看| 亚洲精品一区二区三区影院 | 欧美精品中文字幕一区二区| 日本午夜精品久久久久| 97人人模人人爽人人喊中文字| 97电影在线观看| 亚洲成人亚洲激情| 在线观看黄色网| 天天影视涩香欲综合网| 麻豆精品国产免费| 欧美一区自拍| 一区二区三区在线观看视频| 精品一区二区视频在线观看| 久久99国产精品成人| 俄罗斯av网站| 国内综合精品午夜久久资源| 日韩av电影免费在线观看| 精品伊人久久久| 亚洲一区免费网站| 精品美女一区| 日本亚洲精品在线观看| heyzo高清在线| 久久精品夜夜夜夜夜久久| 韩国福利在线| 日韩成人免费视频| 精品国产亚洲AV| 欧美久久久久久久久久| 国产精品久久久久久久久久精爆| 亚洲综合男人的天堂| 日韩av网站在线播放| 久久精品夜色噜噜亚洲aⅴ| 亚洲成人av免费在线观看| 国产裸体歌舞团一区二区| 日日躁夜夜躁aaaabbbb| 日韩精品一区第一页| 337p粉嫩大胆噜噜噜鲁| 在线看片欧美| www.一区二区.com| 91精品高清| 26uuu成人| 天天久久综合| 天天干天天操天天干天天操| 欧美午夜精品一区二区三区电影| 国产一区二区中文字幕免费看 | 精品无码久久久久久久动漫| 永久免费精品视频| 99在线首页视频| 97久久综合区小说区图片区| 亚洲综合色激情五月| 精品视频一区二区三区| 成人午夜两性视频| 国产精品美女久久久久| 成人国产在线视频| 成人在线分类| 91九色露脸| 亚洲91网站| 国产精品免费区二区三区观看 | 亚洲国产欧美一区二区三区久久| 成人无码一区二区三区| 亚洲精品一区二区三区香蕉| 欧美在线 | 亚洲| 亚洲精品久久视频| 先锋av资源站| 亚洲日本aⅴ片在线观看香蕉| 黄色电影免费在线看| 菠萝蜜视频在线观看一区| 国产精品福利网| 三级中文字幕在线观看| 欧洲成人在线视频| 影音成人av| 91在线观看免费高清| 亚洲小说春色综合另类电影| 国产精品视频在线免费观看| 日韩a级大片| 日韩精品一区二区三区四区五区 | 亚洲一区在线观| 欧美一区二区三区视频免费播放| 黑人乱码一区二区三区av| 亚洲国产美女精品久久久久∴| 美丽的姑娘在线观看免费动漫| 国产亚洲综合久久| 黄色免费在线观看| 欧美激情亚洲综合一区| 亚洲精品福利电影| 国产精品视频26uuu| 日韩精品视频一区二区三区| 久久99精品久久久久久久青青日本| 国产a久久精品一区二区三区| 亚洲综合视频一区| 伊人成年综合电影网| 成熟老妇女视频| 国产中文字幕精品| 国产精品无码永久免费不卡| 欧美激情一区二区三区全黄| 老妇女50岁三级| 色婷婷精品久久二区二区蜜臂av | 国产成人在线色| 蜜桃av免费看| 亚洲最色的网站| 正在播放亚洲精品| 欧美精品一区二区三区在线| 国产精品免费播放| 久久琪琪电影院| 亚洲日日夜夜| 久久精品丝袜高跟鞋| 中国成人一区| 老司机午夜av| 国产一区二区三区在线看麻豆| 少妇按摩一区二区三区| 一区二区三区高清在线| 欧美日韩 一区二区三区| 精品免费国产一区二区三区四区| 国产午夜精品一区理论片| 久久免费精品日本久久中文字幕| 国产美女久久| 日韩国产精品一区二区| 亚洲国产精品第一区二区| 五月天婷婷影视| 国产网红主播福利一区二区| 日韩激情在线播放| 日韩一二三区不卡| 嫩草香蕉在线91一二三区| 日本久久久久久久| 精品国产一区二区三区不卡蜜臂 | 91成人在线免费视频| 亚洲国产裸拍裸体视频在线观看乱了| 91女人18毛片水多国产| 亚洲香蕉在线观看| 日本蜜桃在线观看视频| 国产综合 伊人色| 欧美日本一区二区视频在线观看| 久久国产激情视频| 欧美国产一区在线| 伊人久久久久久久久久久久| 亚洲精品mp4| 2021天堂中文幕一二区在线观| 亚洲a∨日韩av高清在线观看| 久久精品高清| 在线观看亚洲色图| 欧美国产禁国产网站cc| 日日夜夜狠狠操| 亚洲天堂网站在线观看视频| 性欧美又大又长又硬| 精品一区久久久| 夜久久久久久| 一级做a爰片毛片| 欧美性猛交xxxx免费看久久久| 午夜福利理论片在线观看| 午夜精品久久久久久久99热| 东京久久高清| 久激情内射婷内射蜜桃| 99久久精品免费看国产免费软件| 国产在线一二区| 亚洲国产精品成人av| freexxx性亚洲精品| 久久福利电影| 另类亚洲自拍| 国产精品理论在线| 欧美精品三级在线观看| 久久精品视频观看| 91青青草免费观看| 欧美精品大片| 欧美 变态 另类 人妖| 一本久道久久综合中文字幕| 黄色软件在线| 成人一区二区电影| 欧美日韩一区二区三区四区在线观看| 日本美女视频网站| 精品福利在线视频| 黄网在线免费| 国产一区玩具在线观看| 午夜久久福利| 人体私拍套图hdxxxx| 色综合久久久久| 麻豆传媒在线完整视频| 99re在线国产| 亚洲影音一区| 网爆门在线观看| 精品日韩一区二区| 超碰超碰人人人人精品| 亚洲一区二三| 成人av在线资源网| 无码一区二区三区| 欧美精品免费看| 久久av综合| 成人在线短视频| 欧美日韩免费在线观看| 91短视频版在线观看www免费| 亚洲自拍偷拍第一页| 国产日韩专区| 久久嫩草捆绑紧缚| 亚洲精品国产福利| 国产精品xxx| 欧洲精品一区二区三区久久| 欧美国产欧美亚州国产日韩mv天天看完整 | 91精品一区二区三区综合| 国产草草浮力影院| 精品视频1区2区3区| 91jq激情在线观看| 亚洲日本无吗高清不卡| 成人18视频在线播放| 亚洲图片在线播放| 26uuu亚洲国产精品| 欧美国产高清| 国产精品成人在线视频| 亚洲白拍色综合图区| 国精品产品一区|