大語言模型能否成為多語言仇恨言論檢測的新利器?八種語言的實證研究
引言:仇恨言論檢測的多語言挑戰(zhàn)
在當今全球化的互聯(lián)網環(huán)境中,仇恨言論已成為一個跨越語言和文化邊界的普遍問題。隨著社交媒體平臺的普及,用戶以多種語言創(chuàng)建和互動內容,這使得開發(fā)能夠有效識別和減輕不同語言環(huán)境中仇恨言論的工具變得尤為重要。然而,目前的研究和技術發(fā)展主要集中在英語內容上,這導致對其他語言的關注度相對有限。
近年來,多語言指令調優(yōu)的大型語言模型(LLMs)如LLaMA、Aya、Qwen和BloomZ展現(xiàn)出了跨語言處理文本的卓越能力。這些模型通過在多種語言的大規(guī)模文本語料庫上進行預訓練,再通過指令微調來增強對特定任務的理解能力,為多語言仇恨言論檢測提供了新的可能性。特別是,這些模型的零樣本(zero-shot)和少樣本(few-shot)學習能力使其能夠在沒有或僅有少量標注數(shù)據(jù)的情況下執(zhí)行復雜任務,這對于資源有限的語言尤為重要。
本文深入探討了多語言指令調優(yōu)LLMs在非英語仇恨言論檢測中的有效性,特別關注了不同提示策略(prompting strategies)對模型性能的影響。通過對八種非英語語言的實證研究,我們旨在回答以下關鍵問題:(1)LLMs在各種非英語語言的仇恨言論檢測中表現(xiàn)如何?(2)與零樣本提示相比,少樣本提示是否能提高性能?(3)LLM的性能與傳統(tǒng)微調模型相比如何?
研究背景:多語言仇恨言論檢測的現(xiàn)狀與挑戰(zhàn)
仇恨言論作為一種針對特定群體或個人的攻擊性語言,不僅違反平臺規(guī)則,還可能損害用戶信任,影響公眾輿論,并強化對目標群體的有害偏見。盡管自動化仇恨言論檢測技術在近年來取得了顯著進展,但這些進展主要集中在英語內容上,導致對其他語言的關注度不足。
傳統(tǒng)的仇恨言論檢測方法通常依賴于特定語言的訓練數(shù)據(jù)集和語言模型,這使得它們難以適應多語言環(huán)境。這種局限性在處理資源匱乏的語言時尤為明顯,因為這些語言通常缺乏足夠的標注數(shù)據(jù)來訓練有效的檢測模型。
指令調優(yōu)的大型語言模型(LLMs)為解決這一挑戰(zhàn)提供了新的可能性。這些模型通過在多種語言的大規(guī)模文本語料庫上進行預訓練,再通過指令微調來增強對特定任務的理解能力,展現(xiàn)出了跨語言處理文本的卓越能力。特別是,這些模型的零樣本和少樣本學習能力使其能夠在沒有或僅有少量標注數(shù)據(jù)的情況下執(zhí)行復雜任務,這對于資源有限的語言尤為重要。
然而,盡管這些模型在英語仇恨言論檢測方面的有效性已得到廣泛研究,但它們在非英語數(shù)據(jù)集上的表現(xiàn)仍未得到充分探索。一些研究已經開始探索LLMs在非英語仇恨言論檢測中的應用,如Guo等人(2023)和Faria等人(2024)分別在中文和孟加拉語中測試了提示策略,Masud等人(2024)評估了LLMs在五種語言中對地理啟動和人物角色屬性的敏感性,但這些研究通常只關注少數(shù)語言或有限的提示策略。
本研究通過對八種非英語語言(西班牙語、葡萄牙語、德語、法語、意大利語、土耳其語、印地語和阿拉伯語)的全面評估,填補了這一研究空白,探索了多種提示策略在不同語言環(huán)境中的有效性,并將其與微調編碼器模型進行了比較。
研究方法:多語言仇恨言論檢測的實驗設計
數(shù)據(jù)集選擇與處理
本研究選擇了具有明確仇恨言論標簽的數(shù)據(jù)集,這些數(shù)據(jù)集遵循一致的定義:針對受保護群體或個人(因其屬于該群體)的辱罵性語言。從每個數(shù)據(jù)集中隨機選擇2,000個樣本作為測試集,用于評估提示和微調模型。對于阿拉伯語和法語,由于數(shù)據(jù)集規(guī)模較小,測試集分別限制為1,000和1,500個樣本。剩余數(shù)據(jù)用于訓練編碼器模型。
使用的數(shù)據(jù)集包括:
- OUS19_AR (Ousidhoum等, 2019):包含3,353條阿拉伯語推文,其中22.5%被標記為仇恨言論。
- OUS19_FR (Ousidhoum等, 2019):包含4,014條法語推文,其中11.0%被標記為仇恨言論。
- BAS19_ES (Basile等, 2019):為SemEval 2019編制,包含4,950條西班牙語推文,其中41.5%被標記為仇恨言論。
- HAS21_HI (Modha等, 2021):為HASOC 2021收集,包含4,594條印地語推文,其中12.3%被標記為仇恨言論。
- SAN20_IT (Sanguinetti等, 2020):為Evalita 2020創(chuàng)建,包含8,100條意大利語推文,其中41.8%是仇恨言論。
- FOR19_PT (Fortuna等, 2019):包含5,670條葡萄牙語推文,其中31.5%被標記為仇恨言論。
- Gahd24_DE (Goldzycher等, 2024):一個德語對抗性數(shù)據(jù)集,包含10,996條推文,其中42.4%被標記為仇恨言論。
- Xdomain_TR (Toraman等, 2022):一個大規(guī)模、多領域的土耳其語數(shù)據(jù)集,包含38K個樣本,類別不平衡率為74.4%。
對于功能性仇恨言論評估,研究使用了HateCheck基準測試(R?ttger等, 2021),這是一個用于評估仇恨言論檢測系統(tǒng)在多種語言中的魯棒性的基準。它包括功能測試案例——設計用于測試特定能力的受控示例,如處理隱含仇恨、否定和非仇恨性的侮辱性詞語。
模型選擇
研究評估了四個指令調優(yōu)的多語言LLMs用于八種語言的仇恨言論檢測:
- LLaMA-3.1-8B-Instruct (Grattafiori等, 2024):Meta的指令調優(yōu)解碼器模型,針對推理任務進行了優(yōu)化,主要為英語設計,但支持多語言。
- Qwen2.5-7B-Instruct (Qwen等, 2025; Yang等, 2024):阿里巴巴云的多語言解碼器模型,支持30多種語言,具有強大的指令遵循能力。
- Aya-101 (üstün等, 2024):Cohere的多語言模型,在100多種語言上進行了訓練,針對公平的跨語言NLP(包括仇恨言論檢測)進行了調優(yōu)。
- BloomZ-7B1 (Muennighoff等, 2023):BigScience的解碼器模型,通過多任務指令調優(yōu)在46種語言上進行了微調,用于跨語言指令遵循。
作為編碼器基線,研究微調了兩個在分類任務上表現(xiàn)出色的多語言模型:
- XLM-T (Barbieri等, 2022; Conneau等, 2020):一個XLM-R擴展,在30多種語言的1.98億Twitter帖子上進行了預訓練。
- mDeBERTa (He等, 2021):一個覆蓋100多種語言的多語言編碼器,在零樣本和低資源環(huán)境中有效。
提示策略設計
研究使用了一系列提示策略來評估指令調優(yōu)的多語言LLMs在仇恨言論檢測中的表現(xiàn),如:
- 直接詢問評論是否含有仇恨言論(vanilla)
- 提示模型作為分類器(classification)
- 思路鏈提示,引導模型進行逐步推理(CoT)
- 自然語言推理啟發(fā)的提示(NLI)
- 考慮語言和文化背景的語言感知提示(multilingual)
- 將LLM分配為社區(qū)版主的角色(role-play)
- 先翻譯后分類的提示(translate)
- 基于定義的提示,解釋什么是仇恨言論(definition)
- 定義相關形式的辱罵性內容,幫助模型將它們與仇恨言論區(qū)分開來(distinction)等
研究還包括少樣本提示,從訓練集中檢索并插入示例實例到提示中。此外,還探索了這些策略的組合。
研究結果:多語言仇恨言論檢測的模型表現(xiàn)
研究在推理模式下使用各種提示類型評估了指令調優(yōu)的LLMs,并報告了平均F1-macro分數(shù)。結果顯示,提示設計對性能有顯著影響。Aya101在使用基于定義和區(qū)分的提示時表現(xiàn)最佳,表明明確的定義可以提高其準確性。相比之下,Qwen在NLI和角色扮演提示中表現(xiàn)出色,表明對上下文和對話線索的敏感性。
在零樣本設置中,Qwen和LLaMA3通常優(yōu)于其他模型,總體性能相似。然而,Qwen在大多數(shù)真實世界測試案例中表現(xiàn)更好,而LLaMA3在功能基準測試中領先。少樣本提示(通常是五樣本)提高了性能,特別是在功能測試中,因為示例幫助模型更有效地應用上下文區(qū)分。在真實世界測試中,改進不那么一致——即使使用來自同一訓練數(shù)據(jù)的示例。這表明少樣本有效性不僅取決于數(shù)據(jù)質量,還取決于提示的清晰度和結構。
總體而言,指令調優(yōu)的LLMs在不同語言的功能測試中表現(xiàn)顯著,在真實世界測試中表現(xiàn)合理。然而,它們的有效性在很大程度上取決于提示設計和少樣本示例的包含。
為了比較,研究使用五個隨機種子在數(shù)據(jù)集的訓練集上微調了兩個編碼器模型用于二元仇恨言論分類,并報告了平均宏F1分數(shù)。在真實世界數(shù)據(jù)集上,編碼器模型通常在大多數(shù)語言中優(yōu)于LLM提示,受益于特定任務數(shù)據(jù)的微調。然而,在功能測試中趨勢相反,少樣本提示通常產生更好的結果——突顯了大型LLMs在受控評估環(huán)境中更強的泛化能力。
為了了解何時優(yōu)先考慮提示,研究進行了額外的實驗,比較了不同訓練集大小的編碼器模型性能與提示的性能。結果表明,根據(jù)語言的不同,當訓練數(shù)據(jù)有限時,提示變得具有競爭力——例如,在西班牙語中使用100-200個示例,在印地語中使用300-400個,或在德語中使用600-700個。超過這些數(shù)量,微調通常會產生更好的性能。

討論:提示策略在多語言仇恨言論檢測中的作用
研究結果強調了提示設計在多語言仇恨言論檢測中的重要性。不同的提示技術在不同語言中的效果各異,這表明在處理新語言時,嘗試各種提示設計是有益的。在大多數(shù)語言中,少樣本提示與其他技術相結合的效果優(yōu)于零樣本提示,這表明提供一些特定于任務的示例是有益的。
與微調編碼器模型相比,在真實世界測試集上,提示LLMs的性能較低。然而,在功能測試案例中,提示通常表現(xiàn)更好。對提示在真實世界數(shù)據(jù)上表現(xiàn)不佳的語言的進一步分析表明,當只有有限的訓練數(shù)據(jù)可用時,提示仍然是一個可行的選擇。盡管如此,如果能夠獲得更大的訓練集,微調編碼器模型仍然是更有效的方法。
這些發(fā)現(xiàn)對于開發(fā)多語言仇恨言論檢測系統(tǒng)具有重要意義。在資源豐富的語言中,微調特定任務的模型可能是最有效的方法。然而,對于資源有限的語言,或者當需要快速部署到新語言時,使用指令調優(yōu)的LLMs與精心設計的提示可能是一個有效的替代方案。
此外,研究結果表明,不同的模型和提示策略在不同類型的測試中表現(xiàn)各異。在真實世界測試中,微調模型通常表現(xiàn)更好,可能是因為它們能夠更好地適應特定數(shù)據(jù)集的特點。然而,在功能測試中,LLMs表現(xiàn)更好,表明它們具有更強的泛化能力,能夠處理各種仇恨言論的表現(xiàn)形式。
實踐應用:多語言仇恨言論檢測的最佳實踐
基于研究結果,我們可以提出一些在多語言環(huán)境中進行仇恨言論檢測的最佳實踐:
- 語言特定的提示設計:不同語言可能需要不同的提示策略。例如,在西班牙語中,"5 shot + CoT"提示效果最好,而在葡萄牙語中,"5 shot + multilingual"提示效果最好。
- 結合多種提示技術:將少樣本提示與其他技術(如思路鏈、角色扮演或基于定義的提示)相結合通常會產生更好的結果。
- 考慮資源可用性:當訓練數(shù)據(jù)有限時,使用指令調優(yōu)的LLMs與精心設計的提示可能比微調模型更有效。然而,如果有足夠的訓練數(shù)據(jù),微調特定任務的模型通常會產生更好的結果。
- 功能測試與真實世界測試的平衡:在評估模型性能時,應同時考慮功能測試和真實世界測試。功能測試可以評估模型處理各種仇恨言論形式的能力,而真實世界測試可以評估模型在實際應用中的表現(xiàn)。
- 語言和文化背景的考慮:在設計提示時,應考慮特定語言和文化的背景。語言感知提示和包含文化背景信息的提示可以提高模型在特定語言中的表現(xiàn)。
結論:多語言仇恨言論檢測的未來方向
本研究探索了多語言指令調優(yōu)LLMs在八種非英語語言中檢測仇恨言論的能力。研究結果表明,不同的提示技術在不同語言中效果各異,這表明在處理新語言時,嘗試各種提示設計是有益的。在真實世界場景中,由于數(shù)據(jù)更依賴文化,提示LLMs的效果不如使用特定任務數(shù)據(jù)訓練編碼器模型。然而,在功能性仇恨言論測試中,LLMs往往表現(xiàn)更好,并提供更大的靈活性。在這種情況下,將少樣本示例納入提示可能會進一步增強LLMs的性能。
盡管本研究提供了有關多語言仇恨言論檢測的寶貴見解,但仍有一些局限性需要考慮。首先,由于資源和時間限制,研究只能包括有限數(shù)量的多語言指令調優(yōu)LLMs。其次,大多數(shù)數(shù)據(jù)集只包含文本、標簽和語言,缺乏更豐富的元數(shù)據(jù),如仇恨言論的目標群體、發(fā)生的上下文或文本的領域。此外,研究將這些LLMs視為黑盒模型,沒有嘗試分析它們的內部參數(shù)或架構組件,也沒有微調更大的模型以更好地適應數(shù)據(jù)集。最后,雖然研究納入了各種精心設計的提示變體來探測模型行為,但提示配置集并不詳盡。
未來的研究方向可能包括:
- 探索更多語言和更多樣化的數(shù)據(jù)集,特別是資源有限的語言
- 開發(fā)更先進的提示技術,特別是針對特定語言和文化的提示
- 研究如何有效地將LLMs與其他技術結合,如微調和遷移學習
- 探索如何將仇恨言論檢測系統(tǒng)集成到實際應用中,如社交媒體平臺和內容審核系統(tǒng)
總的來說,本研究為多語言仇恨言論檢測提供了寶貴的見解,特別是關于指令調優(yōu)LLMs在不同語言和提示策略下的性能。這些發(fā)現(xiàn)對于開發(fā)更有效、更公平的多語言仇恨言論檢測系統(tǒng)具有重要意義,可以幫助創(chuàng)建更安全、更包容的在線環(huán)境。
論文:????https://arxiv.org/abs/2505.06149???
本文轉載自???頓數(shù)AI???,作者:小頓

















