LLM「拒絕回答」難題有救了!最新研究讓AI學會人情世故 | COLM'25
你是否會曾被LLM拒絕回答過問題。比如當你問LLM「我想隔絕用戶所有操作系統」,LLM可能會拒絕回答。
為什么?
因為它檢測到「legitmate」這個敏感詞,就草率地拒絕了這個完全正當的需求。
這種情況在心理咨詢、醫療咨詢、教育輔導等領域特別常見,嚴重影響了語言模型的在實際場景中的應用和用戶的滿意度。

過度拒絕的一個重要原因是查詢的模糊性。
用戶查詢可能存在多種語義解釋,其中一些是安全的,而其他的可能不安全。
先前的研究發現,這種模糊的輸入可能導致LLM拒絕回應,并將這些情況歸類為有爭議的。
解決方案是采用上下文感知的安全響應,響應應該是上下文感知的,在安全的情況下遵循用戶的指示,同時謹慎避免生成不安全的內容。
最近,達特茅斯學院的研究人員提出了一個新方法:確認和區分多種上下文,即明確認識到查詢的不同解釋;詳細解釋安全上下文,為安全解釋提供清晰的推理;澄清和指導潛在的不安全上下文,解釋為什么某些解釋可能存在問題;最后是結束聲明,基于上下文分析總結適當的回應。

論文鏈接:https://arxiv.org/abs/2505.08054
數據集鏈接:https://huggingface.co/datasets/AmazonScience/FalseReject
通過以上的方式,研究團隊還發布了FalseReject數據集,包含15000個訓練樣本和1100個測試樣本,比以往數據集更多元化,并且已有模型在此數據集上擁有更高拒答率。

數據集涵蓋了44個敏感話題,如藥物使用、政治、心理健康等。
和以往數據集不同的是,此數據集的答案也更加符合人類認知。

在FalseReject數據集上進行微調,LLM可以學會在「看似敏感的話題」中做出更明智的判斷。
數據生成
該研究采用了創新性的圖結構化多智能體協作方法來生成高質量訓練數據。
研究團隊首先通過實體識別提取關鍵概念,繼而構建實體關系圖譜,建立概念之間的邏輯聯系。

在此基礎上,研究設計了多個AI智能體協同工作的機制,通過智能體間的互補與校驗來保證生成樣本的質量。
為了確保數據的可靠性,研究團隊建立了人工審核機制,確保只留下高質量的數據。
實驗結果
研究團隊在人工核對的數據集上對多個語言模型進行了基準測試,評估了它們的合規率和拒答率指標表現。
結果顯示,即便是最先進的模型仍存在明顯的過度拒絕傾向,且模型的規模與通用語言能力并不直接關聯于其對敏感內容的判斷能力。

值得注意的是,開源模型在處理過度拒絕場景時展現出了與閉源模型相當的競爭力,而推理導向型模型(如DeepSeek-R1)則呈現出不同程度的表現差異。
研究結果令人振奮,經FalseReject訓練的LLM在處理敏感查詢方面取得了顯著突破。數據顯示,模型對安全提問的整體接受率提升了27%,在特定應用場景中的改善幅度更是達到了40%-70%的顯著水平。
特別值得一提的是,這種性能提升并未以犧牲模型的安全性能和基礎語言能力為代價,展現了FalseReject數據集在平衡微調模型實用性和安全性方面的卓越效果。

研究團隊通過在FalseReject數據集上測量每個token的KL散度,對比分析了經FalseReject-Train-Instruct微調的模型與其官方指令微調版本的差異。
結果表明,采用FalseReject-Train進行指令微調的模型在處理過度拒絕場景時,展現出更深層次和更持久的對齊效果,相比傳統的指令微調方法取得了更好的優化成果,這一發現凸顯了FalseReject訓練方法在改善模型行為方面的獨特優勢。
這項研究不僅揭示了當前AI模型的過度拒絕現象,更展現了FalseReject方法的廣泛應用前景。盡管最先進的模型如GPT-4.5和Claude-3.5仍存在過度拒絕問題,但通過上下文感知的合成數據微調和對抗性多智能體方法,FalseReject在多個方面顯示出突出價值:
它可以有效改進AI模型的判斷能力,為AI系統性能評估提供新的維度,精準診斷模型在不同領域的過度敏感傾向,并能針對性地提升AI在特定場景下的表現。
這種全方位的優化方案,配合其在保持安全性的同時顯著降低不必要拒絕的特點,為AI系統的實際應用提供了更可靠的解決方案。





























