Stable Diffusion 3開源秒翻車,畫人好掉san
沒想到……Stable Diffusion 3開源即出現翻車案例。
生成一個躺在草地上的女孩,結果長這樣?

而且不是個例,只要是和人(整體)相關的內容,生成結果都有點掉san。
(前方高能)
但如果是局部,比如只生成人臉,確實很nice。

清晰度、寫字、寫實性等方面都有明顯提升。

對于復雜長提示詞的理解也很到位,有網友發(fā)現提示越長它畫的越好。


那么問題來了,為啥偏偏畫不好人類?
問題可能在于數據集
先來看看SD3開源的具體情況。
本次開源的版本是Stable Diffusion 3 Medium(中杯)。
它的規(guī)模為20億參數,在筆記本上就能跑了。
官方強調的屬性有5方面,逐一來看:
- 整體質量和寫實性
可生成出色的細節(jié),包括色彩、光線、強寫實等,帶來靈活風格的高質量輸出。
通過16通道VAE,成功解決了其他模型的常見缺陷,比如手部和面部的寫實問題。
- 提示詞理解
可以理解復雜長提示,包含空間推理、元素組合、動作、風格等。3個文本編碼器可以全部或者組合使用,方便用戶平衡性能和顯存。
- 有效利用資源
對VRAM占用很低,非常適合在消費級GPU上運行,且性能不降低。
- 微調
能夠利用小數據集微調,方便定制化。
目前在Hugging Face上已經可以下載模型權重。非商業(yè)用途可免費下載使用,商業(yè)用途需要先拿授權。

那么為啥升級后還是會翻車?
有人發(fā)現,如果細看“躺在草坪上的女孩”這張圖像,會發(fā)現它在局部細節(jié)上確實還可以,甚至很棒。

草地上的影子、衣物上反射的光線、頭發(fā)的質地……都遵循了物理規(guī)律。

但人物整體就不敢恭維了。
不少網友都認為,這就是問題的關鍵。
我認為他們的NSFW過濾器,把所有人類圖像都判定為了NSFW。

這個過濾器全稱是filtering out adult content,作用在于過濾掉不合規(guī)的成人內容。
SD2發(fā)布時就出現過類似的問題,研究人員發(fā)現審查這部分內容可能影響了模型對人體結構的理解。
后面的SD2.1和SDXL版本有所緩解。
這次SD3的翻車,暴露了一個問題:過于嚴格的數據審核,可能誤刪了一些無害的成人圖像,所以現在模型沒法理解人體結構。
有網友就陰陽說,沒多久之前SD還能和Midjourney競爭,現在一比,就像個笑話。
至少我們的數據集是安全和合乎道德的。

Reddit上“SD3-2B發(fā)布是個笑話嗎”的帖子,熱度已經沖到了800+。

當然,除了技術以外的原因,還不少人覺得SD3的性能不佳更進一步暴露了Stability AI的內部混亂。
我猜他們現在可以安全合規(guī)地破產了。

欠債1億、疑似求賣身
Stability AI的動蕩,從SD3開源的一再延期就能窺見端倪。
2月發(fā)布模型后,一開始,官方說的是搞完RLHF就開源,結果大家伙等了3個多月,官方放出的還是只有API。直到現在,才開源了一個中杯版本。

與此同時,公司CEO Emad辭職+退出董事會。核心團隊也被曝集體離職。
今年5月,據The Information消息,這家初創(chuàng)公司已經面臨嚴重現金短缺:第一季度收入不到500萬美元,而虧損超過了3000萬美元。同時欠了云廠商和其他企業(yè)近1億美元,“求賣身”的消息不斷傳出。
值得一提的是,消息稱SD3還將開源更多版本,包括4B和8B。
不知道更大版本效果會如何呢?
官網傳送門:https://stability.ai/news/stable-diffusion-3-medium



































