ChatGPT愛用破折號是病,奧特曼剛宣布已經治好了
奧特曼又又又親自官宣了ChatGPT的一項“重要更新”——
從現在起,你的ChatGPT可以聽從指示,在輸出內容中不再濫用破折號。

為啥一個普通的標點符號,能讓奧特曼親自宣傳,而且還極具熱度呢?
因為在這之前,ChatGPT實在是太喜歡用破折號了,以至于這個標點成了人們判斷AI生成內容的一個標志。
再加上之前的ChatGPT在這個問題上不是很聽話,即便要求它不要加破折號,結果依然我行我素。
現在呢,按照奧特曼的說法,這個問題已經被修復了。
不過頗具黑色幽默的是,有網友告訴ChatGPT別用破折號,結果ChatGPT就明晃晃地在“知道了”后面加上了一個。

破折號困擾OpenAI
ChatGPT對破折號的“癡迷”早已讓用戶不勝其煩。
在OpenAI的官方論壇上,充斥著大量用戶的吐槽帖子。許多人抱怨,無論他們如何在自定義指令中懇求甚至威脅,AI依然會頑固地在回復中插入破折號和不必要的縮進。
這種標志性的寫作習慣,幾乎成了AI生成的標志,使其文本AI味十足,極易被識別。
用戶們為了治好這個毛病,可謂想盡了辦法,甚至使用了戲劇性的情感提示詞(Emotional Prompt),但收效甚微。

事實上,破折號只是AI寫作標記中廣為人知的一個。
在相關的Threads討論中,有用戶進一步總結了AI寫作的其它“怪癖”。
這包括過度依賴列表和子標題,仿佛不分點論述就無法思考、濫用像“不僅是X,也是Y”這樣的特定重復句式等等。
這些AI標記簡直像是可被輕易識別的、難以擦除的“數字水印”。

不過也有人對這些“AI標記”持不同看法。有人指出,人們對“AI味”的抵制有些過度,甚至非理性地憎恨任何與AI相關的事物已成為一種趨勢。

但歸根結底,一手造成破折號被污名化的,依然還是ChatGPT自身。

不過,到底是為什么,破折號如此受到AI的喜歡呢?
為啥AI喜歡破折號
GitHub軟件工程師Sean Goedecke的一篇博客,對這個問題進行了研究。
博客從一些簡單猜想開始分析,一開始給出的猜測包括破折號本身就常見,并且破折號功能豐富,而且AI更傾向于簡潔性表達。
但這些猜想很快被一一否定——
- 關于常見性,如果破折號很常見,那么就不會成為引人注意的“AI象征”;
- 對于功能,雖然破折號作用確實很多,但其他標點符號也具有相似的靈活性;
- 至于簡潔性,逗號比破折號更加簡潔,而且減少冗余內容比換標點更好用。
接著,Sean把目光投向了大模型后訓練中的一個重要環節——RLHF。
他推測,AI對破折號的偏愛極有可能來自于RLHF信息提供者的語言習慣。
博客指出,RLHF通常在肯尼亞、尼日利亞等低人力成本、高英語水平的非洲國家進行,因此AI的習慣會和這些地區的人相似。
比如像“delve”這樣的詞匯,在非洲英語中就非常受青睞,結果AI也同樣高頻使用。
但這個猜想并不能解釋破折號被AI喜歡的原因,因為非洲英語當中破折號的使用頻率,反而低于平均水平,甚至連十分之一都不到。
接下來,Sean介紹了一個重要發現——GPT并非從一開始就喜歡破折號,而是從GPT-4開始,使用頻率比之前增長了十倍。
所以,問題大概率就出在3.5和4之間的這一段時期了。那么這段時間里發生了什么呢?
彼時,AI的訓練正在面臨“數據荒”,人們開始千方百計地給AI尋找新的訓練數據。
其中一個手段,就是掃描19世紀末到20世紀初的紙質書籍,然后喂給AI。
同時,Sean找到了一個關于英語標點符號使用頻率的研究,發現這段時間剛好是破折號的使用高峰。
比如1851年美國小說家赫爾曼的《白鯨記》(Moby-Dick)當中,一共有1728個破折號。
Sean認為,盡管還有一些問題未被解釋,但19世紀出版物的引入,有很大概率就是AI好用破折號的“幕后黑手”。
參考鏈接:
[1]https://x.com/sama/status/1989193813043069219
[2]https://techcrunch.com/2025/11/14/openai-says-its-fixed-chatgpts-em-dash-problem/
[3]https://www.seangoedecke.com/em-dashes/
































