被吉卜力刷屏的背后:OpenAI模型行為負責人揭秘GPT-4o新生成策略
最近幾天,OpenAI 革新的 GPT-4o 圖像功能給大家帶來了不少樂趣,各路社交媒體都被「吉卜力」風格的圖像、視頻刷了屏。機器之心還嘗試了制作了《甄嬛傳》的名場面(視頻如下,制作方法參見《GPT-4o 整活!3 個小時、6 個鏡頭重現吉卜力版《甄嬛傳》名場面》)。
其實,除了效果的大幅提升,這次 GPT-4o 更新還有一個值得關注的變化 —— 內容限制似乎比以前少了很多,很多公眾人物 —— 如馬斯克、特朗普 —— 現在都可以生成。而之前,模型會直接拒絕這類請求。

圖源:https://x.com/morganlinton/status/1905081523768095049/photo/1

GPT-4o 生成的雷軍相關圖像。
為什么會發生這種變化?昨晚,OpenAI 的模型行為負責人 Joanne Jang 發文做出了解釋。

她表示:
OpenAI 正從敏感領域的全面拒絕轉向更精確的方法,專注于防止現實世界的傷害。目標是保持謙遜:認識到我們不知道的有多少,并讓自己能夠隨著學習而適應。
圖像有一種獨特而強大的震撼力;它們能帶來無與倫比的愉悅和沖擊。與文本不同,圖像超越語言障礙,喚起各種情感反應。它們能立即闡明復雜的想法。
正因為圖像具有如此大的影響力,我們在制定政策和行為方面感到比其他發布更重的責任。
當涉及到發布新功能時,我們的觀點已經在多次發布中演變:
1. 相信用戶的創造力勝過我們自己的假設。 AI 實驗室員工不應該成為決定人們應該或不應該創造什么的仲裁者。發布后我們總是感到謙卑,發現了我們從未想象過的使用案例 —— 甚至有些事后看來如此明顯,但由于我們視角有限而沒有想到。
2. 清晰地看到風險,但不要忽視對用戶的日常價值。 專注于潛在危害很容易,廣泛的限制總是感覺最安全(也最容易!)。我們經常發現自己在質疑,「當同樣的梗圖可能被用來冒犯或傷害人們時,我們真的需要更好的梗圖功能嗎?」。但我認為這種框架本身就有缺陷。它暗示著細微的、日常的好處必須在假設的最壞情況下證明自己,而這種情況低估了這些快樂、幽默和聯系的小時刻如何真正改善人們的生活。
3. 重視未知、無法想象的可能性。 也許是由于我們對損失厭惡的認知偏見,我們很少考慮不作為的負面影響;有些人稱之為「無形的墓地」,盡管這有點太陰暗和極端。新功能解鎖的二階或間接影響:所有那些因為我們害怕最壞情況而從未實現的積極互動、創新和想法現在可以實現了。
應對這些挑戰很困難,但我們的目標是最大限度地發揮創造自由,同時防止真正的傷害。
公眾人物:我們知道處理公眾人物可能很棘手 —— 尤其是當新聞、諷刺和被描繪人物的利益之間的界限變得模糊時。我們希望我們的政策公平平等地適用于每個人,無論他們的「地位」如何。但我們決定不做「誰足夠重要」的裁判,而是創建一個選擇退出列表,讓任何可能被我們的模型描繪的人自己決定。
「冒犯性」內容:當涉及到「冒犯性」內容時,我們推動自己反思任何不適是源于我們的個人意見或偏好,還是源于對現實世界造成傷害的可能性。在沒有明確指導方針的情況下,模型以前會拒絕諸如「讓這個人的眼睛看起來更亞洲化」或「讓這個人更胖」的請求,無意中暗示這些特征本身就是冒犯性的。
……
總之,以上種種考慮,加上 OpenAI 在精確評估技術方面的進步,促使他們采取了更寬松的政策。
Joanne Jang 還引用了同事 Jason Kwon 的一句話:「船在港口最安全;最安全的模型是拒絕一切的模型。但這不是船或模型的用途。 」
這也解釋了為什么我們現在可以看到那么多吉卜力風格的圖像,因為 GPT-4o 現在被允許模仿皮克斯、吉卜力等創意工作室的風格。
不過,OpenAI 現在仍限制模型模仿在世藝術家的個人風格,因為一旦放開,關于 AI 訓練數據集中版權作品合理使用的爭論又會變得棘手。
目前已經可以看到的是,GPT-4o 所帶來的效果提升正在給廣告、影視、游戲等行業帶來新變化。


把 GPT-4o 和其他工具一起使用,往往會給人帶來新的驚喜。

不過,OpenAI 并沒有公布 GPT-4o 的圖像處理技術細節,只提到采用了類似語言模型的自回歸方法。所以,關于其背后技術,目前有很多猜測。



如果你有更合理的猜想,歡迎在評論區留言。



































