你對ChatGPT越粗魯,它賺得越多!一條不禮貌提示語會多輸出14個token,企業用戶每天或多花數十萬美元 原創
編輯 | 聽雨
出品 | 51CTO技術棧(微信號:blog51cto)
一般人和 ChatGPT 聊天時,往往不會在意要不要講究禮貌。但來自愛荷華大學的一項最新研究顯示:即便回答內容幾乎相同,對 ChatGPT 粗魯無禮也會讓你花費更高的輸出成本。
這項研究指出,GPT-4 的輸出 token 價格大約是每百萬輸出 token 12 美元。研究者發現:
- 一條非禮貌提示語比禮貌提示語平均多生成 14 個 token
- 每條提示語多花費約 0.000168 美元
- 假設每天 API 調用量超過 22 億次,這意味著如果所有提示語都變為非禮貌,僅因輸出 token 增加,每天就可能為 OpenAI 帶來額外 36.9 萬美元收入
換句話說,你對 ChatGPT 粗魯,它會“加班”生成更多無關詞語,為自己賺取額外收入。
圖片
實際上,在今年早些時候,大家還普遍認為與LLM交流時不需要禮貌。山姆·奧特曼也曾公開抱怨,禮貌用語(如“please”)可能讓OpenAI 在計算成本上損失“數千萬美元”。
圖片
圖片
同期還有研究指出,禮貌并不會帶來更好的回答,但并未提及是否會帶來更便宜的回答。
如果這篇新論文的結論成立,那么那些認為“能少說就少說禮貌用語”的企業用戶,在2025 年實際上反而為ChatGPT 支付了更多推理成本。
此外,作者還強調這種反常行為可能揭示出人類與 AI 交互方式中一些尚未理解的機制,而這些機制可能帶來潛在的經濟影響。至于為什么“不禮貌”會讓輸出token 增加,論文并未給出推測。
1.一條禮貌prompt能讓你少花 14 個 token
研究者采用了一個很巧妙的實驗方法:
他們從WildChat 數據集中抽取 2 萬條 GPT-4 提示語,這個數據集包含 100 萬條用戶與 ChatGPT 的對話,超過 250 萬個交互輪次。
接著,他們將這些提示語分成了“禮貌”或“不禮貌”兩大類。被標記為“禮貌”的提示語可能包含明顯的禮貌詞,如 “please”,也可能以更委婉的方式表達禮貌。任何未被模型識別為禮貌的提示語均歸類為“不禮貌”,即便它們只是語氣中性而非攻擊性。
研究者將每條提示語重新改寫為語氣相反的版本,但盡量保持其他內容不變,然后用 GPT-4-Turbo 測試兩者的輸出長度。
圖片
結果顯示:禮貌提示語平均輸出少 14.426 個 token,且輸出質量與非禮貌提示幾乎一致。
圖片
為了進一步了解 token 減少的原因,研究者做了以下兩項分析:
1、停用詞分析:最常被刪掉的詞是英語中常見的停用詞(like、have、where 等),這些詞主要起語法連接或修飾作用,并不影響句子主要意思。
2、短語分析:去掉停用詞后,他們還分析了 1 到 4 個詞的短語,看是否有某些短語被系統性刪掉或保留。結果發現沒有特定的、有實際語義的短語被規律性地刪掉。
結論:禮貌提示語生成更短輸出,并不是因為模型隨意刪除了有意義的內容或關鍵短語,而是輸出被自然壓縮了,語義信息基本保持完整。也就是說,禮貌提示確實讓輸出更精簡,而非禮貌提示會讓模型“多說廢話”。
2.結果穩健性:各種測試都成立
為了確保這個結論不是偶然,研究者做了多輪穩健性測試。首先,他們把禮貌提示語分成三類來單獨測試:
- 明確禮貌詞提示語,比如包含 “please” 或 “thank you”;
- 只包含 “please” 的提示語;
- 隱性禮貌提示語,比如 “can you” 或 “could you”。
結果顯示,不管哪一類禮貌提示,輸出 token 都比不禮貌提示少。
圖片
接著,他們引入了 LIWC 框架 做第二輪分類驗證。LIWC 可以對每條提示語給出穩定的禮貌評分,不像 GPT 的分類有隨機性。規則很簡單:
- LIWC 禮貌分 > 0 → 禮貌
- LIWC 禮貌分 = 0 → 不禮貌
比較發現,LIWC 與 GPT 的分類一致率高達 81%,說明兩套系統的判斷大體一致。只分析標簽一致的提示語,禮貌提示依然平均減少 14 個輸出 token;如果把禮貌程度當作連續量表,禮貌度每提升一個等級,平均還能減少約 5 個 token。
圖片
此外,為了測試結論是否會因為任務類型不同而改變,研究者把提示語分到六類任務:信息檢索、文本生成、編輯改寫、分類、摘要以及技術任務,然后用語義向量(embedding)計算每條提示與各任務的相似度,選擇最匹配的任務標簽。
控制了任務類型之后,結果顯示:在所有情況下,禮貌提示始終生成更短的回答,不同任務類型之間沒有顯著差異。
圖片
有人可能會問:禮貌提示雖然生成的回答更短,但會不會內容縮水、質量下降?研究者專門驗證了這個問題。
他們把每條原始提示語和改寫后的禮貌/不禮貌版本生成的回答拿來做語義相似性對比。用的是 all-MiniLM-L6-v2 模型,把回答嵌入語義向量空間,然后計算余弦相似度。
結果顯示,平均相似度高達 0.78,這說明即便語氣發生變化,內容仍保持一致。
研究者還進行了人工評估,由401 名參與者評估 20 對禮貌 / 不禮貌提示語輸出,同樣發現,兩者的輸出內容并無顯著質量差異。
3.保持禮貌才能實打實的節約成本
對于企業而言,研究者指出,直接限制 token 數量并不可靠:
- GPT-4 很難嚴格遵守長度指令,即使你指定 200 個 token,實際可能生成 211 或 237 個
- 使用 max_count 參數能限制輸出上限,但可能導致回答被截斷
目前更可靠的做法是:寫 prompt 時保持禮貌,既能保持回答質量,也能節約企業成本。
盡管該研究主要關注企業用戶的 ChatGPT 使用情況,但普通用戶也會受到這種現象影響,因為即便是入門級賬戶也有使用限制。如果粗魯對待ChatGPT ,會更快消耗掉每日token 配額。
此外,研究者還呼吁:企業用戶、LLM 服務提供商以及政策制定者,都應關注 輸出 token 成本透明化,因為語言的微小變化可能會帶來大額開銷。
在最后,研究者也強調,禮貌現象可能只是更深層次語言奇異性的一種指示,而這些尚未被發現的語言特性,很可能正影響著推理成本。
所以,下次寫 ChatGPT 提示語時,多加一個“請”,不僅禮貌,還能省錢!
參考鏈接:??https://arxiv.org/pdf/2511.11761??
本文轉載自??????51CTO技術棧??,作者:聽雨

















