剛剛，OpenAI Sora正式炸裂登場(chǎng)，網(wǎng)頁(yè)擠爆了！

作者：機(jī)器之心 2024-12-10 09:56:00

山姆?奧特曼：「視頻版的 GPT-1 時(shí)刻來(lái)了。」

OpenAI 12 天連更的第三個(gè)工作日，重磅發(fā)布終于來(lái)了！

正如直播之前大家在評(píng)論區(qū)預(yù)想的一樣，視頻生成大模型 Sora 正式版終于露面！

算起來(lái)，距離今年 2 月 16 日 Sora 的發(fā)布已經(jīng)過去了近 10 個(gè)月的時(shí)間。

如今，廣大網(wǎng)友終于可以體驗(yàn) Sora 強(qiáng)大的視頻生成能力！

同時(shí)，OpenAI 開發(fā)了 Sora 的新版本 ——Sora Turbo，它比二月份的預(yù)覽版模型快得多。今天該版本將作為獨(dú)立產(chǎn)品提供給 ChatGPT Plus 和 Pro 用戶。

據(jù)今天的直播介紹，Sora 用戶可以生成 1080p 分辨率、最長(zhǎng) 20 秒、寬屏、豎屏或方形的視頻。并且用戶可以利用資源進(jìn)行擴(kuò)展、remix 和融合，或者基于文本生成全新的內(nèi)容。OpenAI 開發(fā)了全新的界面，讓使用文本、圖像和視頻來(lái)提示 Sora 變得更加容易，同時(shí)故事板工具讓用戶可以精準(zhǔn)地指定每個(gè)幀的輸入。

我們可以先看幾個(gè)生成視頻示例：

提示：鏡頭霧氣彌漫，色彩對(duì)比鮮明，捕捉到的感覺是低能見度的鏡頭質(zhì)量，提供一種即時(shí)感和混亂感。該場(chǎng)景從 17 世紀(jì)海盜船上水手的視角展示了搖晃的鏡頭。海浪沖擊木制船體時(shí)，地平線劇烈搖晃，難以辨別細(xì)節(jié)。突然，一只巨大的海怪從洶涌的大海中突然出現(xiàn)。它巨大而滑溜的觸手危險(xiǎn)地伸出，黏糊糊的附肢以可怕的力量纏繞著船。當(dāng)水手們慌亂地爭(zhēng)先恐后地面對(duì)這個(gè)可怕的海洋生物時(shí)，視野發(fā)生了劇烈變化。氣氛非常緊張，混亂中可以聽到船的呻吟聲和大海的咆哮聲。

提示：洛克菲勒中心到處都是金毛獵犬！無(wú)論你放眼望去，都是金毛獵犬。這是紐約夜間的冬季仙境，還有一棵巨大的圣誕樹。背景中可以看到出租車和其他紐約元素

山姆?奧特曼表示，最令他興奮的一點(diǎn)是與其他人共同創(chuàng)作的便捷性，感覺就像是一個(gè)有趣的新事物。大家可以將 Sora 看作視頻版的 GPT-1。

OpenAI 研究科學(xué)家 Noam Brown 表示，Sora 是 scale 力量最直觀的展示。

對(duì)于 Sora 的發(fā)布，有網(wǎng)友表示，這是最好的圣誕節(jié)禮物，也有稱 Sora 將是游戲改變者。

通過文字、圖片或視頻

讓你的想象力栩栩如生

懷著激動(dòng)的心情，機(jī)器之心也想上手嘗鮮 Sora！奈何想要體驗(yàn)的網(wǎng)友太多，一直登錄不上：

體驗(yàn)地址：https://sora.com/onboarding

那就先為讀者們展示下官方放出的 Sora 的能力吧。

使用 Remix 替換、刪除或重新構(gòu)想視頻中的元素

打開通往圖書館的大門

將門替換為法式門

門外的場(chǎng)景替換為月球景觀

Re-cut：找到并隔離最佳幀，然后向任一方向延伸它們以完成場(chǎng)景

Storyboard：在時(shí)間線上組織和編輯視頻的獨(dú)特序列

視頻前 114 幀的場(chǎng)景是「一片廣闊的紅色景觀，遠(yuǎn)處停靠著一艘宇宙飛船。」

接著，可以將視頻的 114-324 幀的場(chǎng)景變換為：「從宇宙飛船內(nèi)部向外看，一位太空牛仔站在畫面的中央。」

最后，可以將視頻內(nèi)容描述為「宇航員眼睛的特寫鏡頭，眼睛被針織面料制成的面罩所框住。」

Loop：使用 Loop 剪輯并創(chuàng)建無(wú)縫重復(fù)的視頻

Blend：將兩個(gè)視頻合并為一個(gè)無(wú)縫剪輯

Style presets：使用「Presets」創(chuàng)建和分享激發(fā)自己想象力的風(fēng)格

更多 Sora 生成的驚艷視頻，也需要廣大網(wǎng)友們的想象力去創(chuàng)造了。

Sora 正式版系統(tǒng)卡

在今年 2 月份，Sora 剛發(fā)布時(shí)，OpenAI 曾公布了 Sora 的技術(shù)報(bào)告（參閱：我在模擬世界！OpenAI 剛剛公布 Sora 技術(shù)細(xì)節(jié)：是數(shù)據(jù)驅(qū)動(dòng)物理引擎）。

OpenAI 認(rèn)為，擴(kuò)展視頻生成模型是構(gòu)建物理世界通用模擬器的一條有前途的途徑。

今天隨著 Sora 的正式發(fā)布，OpenAI 也放出了 Sora 的系統(tǒng)卡（System Card），感興趣的開發(fā)者們可以深挖一下技術(shù)細(xì)節(jié)。

地址：https://openai.com/index/sora-system-card/

Sora 是 OpenAI 的視頻生成模型，旨在獲取文本、圖像和視頻輸入并生成新視頻作為輸出。用戶可以創(chuàng)建各種格式的高達(dá) 1080p 分辨率（最長(zhǎng) 20 秒）的視頻。

Sora 建立在 DALL?E 和 GPT 模型的基礎(chǔ)上，旨在為人們提供創(chuàng)意表達(dá)的工具。

Sora 是一種擴(kuò)散模型，它從看起來(lái)像靜態(tài)噪聲的基本視頻開始生成新視頻，通過多個(gè)步驟消除噪聲來(lái)逐漸對(duì)其進(jìn)行轉(zhuǎn)換。通過一次為模型提供多幀預(yù)測(cè)，Sora 解決了一個(gè)具有挑戰(zhàn)性的問題，即確保畫面主體即使暫時(shí)離開視野也能保持不變。與 GPT 模型類似，Sora 使用 transformer 架構(gòu)，釋放出卓越的擴(kuò)展性能。

Sora 使用 DALL?E 3 中的重描述（recaptioning）技術(shù)，該技術(shù)涉及為視覺訓(xùn)練數(shù)據(jù)生成高度描述性的字幕（captions）。因此，Sora 能夠更忠實(shí)地遵循生成視頻中用戶的文本指令。

除了能夠僅根據(jù)文本指令生成視頻之外，該模型還能夠獲取現(xiàn)有的靜態(tài)圖像并從中生成視頻，準(zhǔn)確地將圖像內(nèi)容動(dòng)畫化并關(guān)注細(xì)節(jié)。該模型還可以獲取現(xiàn)有視頻并對(duì)其進(jìn)行擴(kuò)展或填充缺失幀。Sora 是能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ)，OpenAI 認(rèn)為 Sora 將成為通往 AGI 的重要里程碑。

在數(shù)據(jù)方面，正如 OpenAI 在 2 月的技術(shù)報(bào)告中所述，Sora 從大型語(yǔ)言模型中汲取靈感，這些模型通過互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)的訓(xùn)練來(lái)獲得通才能力。LLM 得以確立新范式，部分得益于創(chuàng)新了 token 使用的方法。研究人員們巧妙地將文本的多種模態(tài) —— 代碼、數(shù)學(xué)和各種自然語(yǔ)言統(tǒng)一了起來(lái)。

在 Sora 中，OpenAI 考慮了生成視覺數(shù)據(jù)的模型如何繼承這種方法的好處。大型語(yǔ)言模型有文本 token，而 Sora 有視覺 patch。此前的研究已經(jīng)證明 patch 是視覺數(shù)據(jù)模型的有效表征。OpenAI 發(fā)現(xiàn) patch 是訓(xùn)練生成各種類型視頻和圖像的模型的可擴(kuò)展且有效的表征。

在更高層面上，OpenAI 首先將視頻壓縮到較低維的潛在空間，然后將表征分解為時(shí)空 patch，從而將視頻轉(zhuǎn)換為 patch。

Sora 接受過各種數(shù)據(jù)集的訓(xùn)練，包括公開數(shù)據(jù)、通過合作伙伴獲取的專有數(shù)據(jù)以及內(nèi)部開發(fā)自定義數(shù)據(jù)集：

公開可用的數(shù)據(jù)。這些數(shù)據(jù)主要從行業(yè)標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)數(shù)據(jù)集和網(wǎng)絡(luò)爬蟲中收集。
來(lái)自數(shù)據(jù)合作伙伴的專有數(shù)據(jù)。OpenAI 建立合作伙伴關(guān)系來(lái)獲取非公開數(shù)據(jù)。例如，與 Shutterstock? Pond5 合作構(gòu)建、提供人工智能生成的圖像。OpenAI 還委托創(chuàng)建適合自己需求的數(shù)據(jù)集。
人工數(shù)據(jù)。來(lái)自人工智能訓(xùn)練師、紅隊(duì)隊(duì)員和員工的反饋。

更多細(xì)節(jié)，讀者們可以查看系統(tǒng)卡介紹。