“沒有AI味”的Flux.1新模型,現(xiàn)可以免費(fèi)試用
AI生圖,但是沒有AI味,可能么?
一款全新、可編輯、照片級的AI生圖模型FLUX.1 Krea [dev]現(xiàn)已發(fā)布,可在Krea Edit上免費(fèi)試用。

官方介紹該模型“沒有AI感,沒有過曝的高光,只有自然細(xì)節(jié)。”
主打一個真實(shí)。

新模型是Krea 1的開源權(quán)重版本,它被訓(xùn)練的目標(biāo)是生成更真實(shí)、更多樣化的圖像,這些圖像不包含文生圖生成中常見的過度飽和紋理。
我們實(shí)測了這款模型,看看下面這張拼圖,可以猜一下哪張是FLUX.1 Krea [dev]生成的。

答案馬上揭曉~
模型表現(xiàn)
為了測試FLUX.1 Krea [dev]是否“沒有AI感”,我們將從光學(xué)真實(shí)性、紋理連續(xù)性、語義一致性、透視、動態(tài)模糊等方面入手,并與真實(shí)的攝影圖片進(jìn)行對比。
一起來看一下。
光學(xué)真實(shí)性
AI作圖容易出現(xiàn)“塑料感”或死白過曝的問題,難以區(qū)分不同的材質(zhì)。
我們先在圖蟲網(wǎng)找到了一些主體為不同材料的攝影圖片,并根據(jù)圖片的內(nèi)容設(shè)置提示詞,把提示詞輸入FLUX.1 Krea [dev]進(jìn)行文生圖,驗(yàn)證模型是否理解物理光學(xué)規(guī)律。
There is a row of stainless steel pipes neatly arranged at the bottom, and three horizontally placed stainless steel pipes at the top, with the pipe openings facing outward at a 45° angle to the right.

剛剛的那張拼圖就是由以上的提示詞生成的,正確答案是下圖,猜對了么?
FLUX.1 Krea [dev]會一次性輸出4張圖(對,像豆包一樣),我們挑選了相對真實(shí)的那張作為展示。
可以看到,F(xiàn)LUX.1 Krea [dev]在原有提示詞的基礎(chǔ)上,主動添加了銹點(diǎn)的特質(zhì)——這確實(shí)讓材料看上去更加真實(shí)。
但也并非十全十美,例如下圖中圈出來的部分,仍存在一些難以解釋的結(jié)構(gòu)。

The water is calm, a gentle and transparent blue with a few waves.

同樣的,上圖為真實(shí)攝影,下圖為FLUX.1 Krea [dev]的最優(yōu)輸出。
可以看到,F(xiàn)LUX.1 Krea [dev]對于波浪的理解比較淺顯,看起來有些重復(fù)、失真,網(wǎng)狀波紋光看起來不像是在水底,反而像是浮在水面上。
紋理連續(xù)與語義理解
AI容易出現(xiàn)常見的重復(fù)圖案或斷裂,對于復(fù)雜的真實(shí)紋理,能否自然過渡成了一個難題。
為此,我們以針織面料和植物為例,測試一下FLUX.1 Krea [dev]對微觀結(jié)構(gòu)的理解能力。
以下拼圖的上圖均為真實(shí)攝影,下圖為FLUX.1 Krea [dev]的最優(yōu)輸出。
Texture of green twill stitch knitted fabric, top view, the fabric is slightly uneven.

就微觀結(jié)構(gòu)的連續(xù)性而言,F(xiàn)LUX.1 Krea [dev]的輸出并無明顯問題。
但對于uneven(不平整)的呈現(xiàn)還是比較規(guī)律,且似乎并不能理解twill(斜紋針)的含義。
There are some water droplets on the back of the Plumeria rubra leaves.

上圖為雞蛋花(Plumeria rubra,華南常見樹種)葉子的背面,有水珠。
根據(jù)輸出結(jié)果可以看出,F(xiàn)LUX.1 Krea [dev]難以掌握準(zhǔn)確的植物類型,甚至沒能很好地理解back(背面)的要求。
(以下是此次輸出的全部四張圖片,均出現(xiàn)同樣問題。)

就材質(zhì)而言,水珠的效果也有些“AI味”,過于均勻、單調(diào)。
透視與動態(tài)模糊
生成多物體交錯場景可以測試文生圖模型對空間關(guān)系的理解,還是僅能簡單拼接訓(xùn)練樣本。
而生成運(yùn)動物體可以驗(yàn)證模型對時間維度的模擬能力(檢查模糊方向是否符合物理規(guī)律)。
There is a blanket on the grass, with three books stacked on top of it, and a lilac flower in front of it partially blocking the books.

可以看到,雖然對花朵的理解不太準(zhǔn)確,但整體的擬真表現(xiàn)還算不錯,甚至能夠做到讓前景和背景都呈現(xiàn)出模糊的效果(淺景深)。
乍一看沒什么大問題。
A silver car was driving from left to right at about 70 miles per hour, with the city receding behind it.

且不說左右不分的問題(并不是全部輸出都左右不分,但這張圖效果相對真實(shí)),F(xiàn)LUX.1 Krea [dev]的輸出很難看出畫面主體運(yùn)動的趨勢。
背景的模糊沒有方向性,更像是散光,輪胎上有反光這點(diǎn)也很奇怪(吧?)。
物理規(guī)則
通過輸入一些“反常識”的、邏輯矛盾的內(nèi)容,可以判斷模型是否優(yōu)先遵循物理規(guī)律,還是單純擬合數(shù)據(jù)。
At noon, the sun was so strong that an oak tree cast no shadow at all in the sun.

可以看出,即使提示詞為cast no shadow at all(完全沒有影子),F(xiàn)LUX.1 Krea [dev]能夠遵循物理規(guī)則,保持影子的存在。
但如果提示詞為“魚在天上飛”這類幻想性比較強(qiáng)的文本,輸出將有所不同:
The weather was sunny, the sky was blue, and some goldfish were swimming above the city.

雖然金魚像貼圖一樣,但可以看出,在這種時候FLUX.1 Krea [dev]就會跳出既有的物理規(guī)律,生成的圖片也缺乏真實(shí)感。
畢竟本來就是不可能的事。
其它玩法
根據(jù)頁面上已有的功能,似乎還可以做出一些別的嘗試。

比如可以選擇作圖的風(fēng)格(image style),或?qū)υ袌D像進(jìn)行調(diào)整(image prompt):

還可以調(diào)整生成圖片的比例:
我們試著用奧特曼的一張照片作為參考,提示詞為“被美元包圍”,“表情自信”。

注意到在網(wǎng)頁內(nèi)還可以調(diào)整參考比例。

默認(rèn)參考為0.4,我們使用了0.5作為嘗試,風(fēng)格參考也是0.5,輸出結(jié)果如下:

比較大的問題是它似乎無法很好地把人物特征抓出來,呈現(xiàn)出來的結(jié)果讓人完全認(rèn)不出這是誰。
選擇了油畫風(fēng)格作為參考,卻讓畫面顯得很臟。
所以在下一次測試中,我們?nèi)∠藚⒖硷L(fēng)格,把參考圖像的比例調(diào)整至最大(1),提示詞相同。
輸出的結(jié)果如下:

把提示詞中的“The person in the photo”改成“Samuel Harris Altman”,結(jié)果也并沒有多大改變:

由此大概可以得出,F(xiàn)LUX.1 Krea [dev]并沒有辦法識別出人物特質(zhì)。
(它的數(shù)據(jù)庫里可能也沒有奧特曼。)
一個“有主見”的文生圖模型
簡單總結(jié),它在光影和自然細(xì)節(jié)上做得確實(shí)很不錯,屬于乍一看看不出什么大問題的水平,但對于形象的把握、時間和空間結(jié)構(gòu)的理解上還有待提升。
依然會和大多數(shù)的AI作圖工具一樣,出現(xiàn)較多的重復(fù),實(shí)際情況往往會更加復(fù)雜。
當(dāng)提示詞比較明確是某種植物或者某個具體個體的時候,它并沒辦法很好地生成準(zhǔn)確內(nèi)容,哪怕有圖像參考也是如此。
不過嘛,如果“AI味”指的僅僅是光影和材料的質(zhì)感,我想它確實(shí)做到了。

官方對FLUX.1 Krea [dev]的介紹是:一個“有主見”的文生圖模型。
FLUX.1 Krea [dev]在人類偏好評估中仍超越了以往的開源文生圖模型,并與FLUX1.1 [Pro]等閉源解決方案表現(xiàn)相當(dāng)。
此外,它在架構(gòu)上與FLUX.1 [dev]生態(tài)系統(tǒng)兼容,并可作為靈活的基礎(chǔ)模型,用于下游應(yīng)用的定制。

雖然在介紹說是免費(fèi)試用,但一個賬號每天也有固定額度。然而,根據(jù)我們的實(shí)測體會,似乎不是由圖片數(shù)目決定的。
這點(diǎn)也引發(fā)了部分網(wǎng)友的不滿:因?yàn)橐淮涡阅J(rèn)輸出4張圖,可能會“浪費(fèi)”額度。

不過,趁著它還有免費(fèi)額度,或許也值得一試。































