微軟37頁論文逆向工程Sora，得到了哪些結論？

作者：機器之心 2024-03-01 12:17:00

人工智能新聞

一篇論文回顧 Sora 文生視頻技術的背景、技術和應用。

追趕 Sora，成為了很多科技公司當下階段的新目標。研究者們好奇的是：Sora 是如何被 OpenAI 發掘出來的？未來又有哪些演進和應用方向？

Sora 的技術報告披露了一些技術細節，但遠遠不足以窺其全貌。

在最近的一篇文章中，微軟研究院和理海大學的研究者根據已發表的技術報告和逆向工程，首次全面回顧了 Sora 的背景、相關技術、新興應用、當前局限和未來機遇。

論文標題：Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
論文鏈接：https://arxiv.org/pdf/2402.17177.pdf

背景

在分析 Sora 之前，研究者首先盤點了視覺內容生成技術的沿襲。

在深度學習革命之前，傳統的圖像生成技術依賴于基于手工創建特征的紋理合成和紋理映射等方法。這些方法在生成復雜而生動的圖像方面能力有限。

如圖 3 所示，在過去十年中，視覺類的生成模型經歷了多樣化的發展路線。

生成對抗網絡（GAN）和變分自動編碼器（VAE）的引入標志著一個重要的轉折點，因為它在各種應用中都具有非凡的能力。隨后的發展，如流模型和擴散模型，進一步增強了圖像生成的細節和質量。人工智能生成內容（AIGC）技術的最新進展實現了內容創建的民主化，使用戶能夠通過簡單的文本指令生成所需的內容。

在 BERT 和 GPT 成功將 Transformer 架構應用于 NLP 之后，研究人員嘗試將其遷移到 CV 領域，比如 Transformer 架構與視覺組件相結合，使其能夠應用于下游 CV 任務，包括 Vision Transformer (ViT) 和 Swin Transformer ，從而進一步發展了這一概念。在 Transformer 取得成功的同時，擴散模型也在圖像和視頻生成領域取得了長足進步。擴散模型為利用 U-Nets 將噪聲轉換成圖像提供了一個數學上合理的框架，U-Nets 通過學習在每一步預測和減輕噪聲來促進這一過程。

自 2021 年以來，能夠解釋人類指令的生成語言和視覺模型，即所謂的多模態模型，成為了人工智能領域的熱門議題。

CLIP 是一種開創性的視覺語言模型，它將 Transformer 架構與視覺元素相結合，便于在大量文本和圖像數據集上進行訓練。通過從一開始就整合視覺和語言知識，CLIP 可以在多模態生成框架內充當圖像編碼器。

另一個值得注意的例子是 Stable Diffusion，它是一種多用途文本到圖像人工智能模型，以其適應性和易用性而著稱。它采用 Transformer 架構和潛在擴散技術來解碼文本輸入并生成各種風格的圖像，進一步說明了多模態人工智能的進步。

ChatGPT 2022 年 11 月發布之后，2023 年出現了大量文本到圖像的商業化產品，如 Stable Diffusion、Midjourney、DALL-E 3。這些工具能讓用戶通過簡單的文字提示生成高分辨率和高質量的新圖像，展示了人工智能在創意圖像生成方面的潛力。

然而，由于視頻的時間復雜性，從文本到圖像到文本到視頻的過渡具有挑戰性。盡管工業界和學術界做出了許多努力，但大多數現有的視頻生成工具，如 Pika 和 Gen-2 ，都僅限于生成幾秒鐘的短視頻片段。

在這種情況下，Sora 是一項重大突破，類似于 ChatGPT 在 NLP 領域的影響。Sora 是第一個能夠根據人類指令生成長達一分鐘視頻的模型，同時保持較高的視覺質量和引人注目的視覺連貫性，從第一幀到最后一幀都具有漸進感和視覺連貫性。

這是一個里程碑，對生成式 AI 的研究和發展產生了深遠影響。

如圖 2 所示，Sora 在準確解讀和執行復雜的人類指令方面表現出非凡的能力。該模型可以生成包含多個角色的詳細場景，這些角色在錯綜復雜的背景下執行特定的動作。研究人員認為，Sora 不僅能熟練處理用戶生成的文本提示，還能辨別場景中各種元素之間復雜的相互作用。

此外，Sora 的進步還體現在它能夠生成具有細微運動和交互描繪的擴展視頻序列，克服了早期視頻生成模型所特有的短片段和簡單視覺渲染的限制。這種能力代表了人工智能驅動的創意工具的飛躍，使用戶能夠將文字敘述轉換成豐富的視覺故事。

總之，這些進步顯示了 Sora 作為世界模擬器的潛力，它可以提供對所描繪場景的物理和背景動態的細微洞察。

為了方便讀者查閱視覺生成模型的最新進展，研究者在論文附錄匯編了近期的代表性工作成果。

技術推演

Sora 的核心是一個預訓練的擴散 Transformer。事實證明，Transformer 模型在許多自然語言任務中都具有可擴展性和有效性。與 GPT-4 等強大的大型語言模型（LLM）類似，Sora 可以解析文本并理解復雜的用戶指令。為了提高視頻生成的計算效率，Sora 采用了時空潛在 patch 作為其構建模塊。

具體來說，Sora 會將原始輸入視頻壓縮為潛在時空表示。然后，從壓縮視頻中提取一系列潛在時空 patch，以囊括短暫時間間隔內的視覺外觀和運動動態。這些片段類似于語言模型中的詞 token，為 Sora 提供了詳細的視覺短語，可用于構建視頻。Sora 的文本到視頻生成由擴散 Transformer 模型完成。從充滿視覺噪音的幀開始，該模型會對圖像進行迭代去噪，并根據提供的文本提示引入特定細節。本質上講，生成的視頻是通過多步完善過程產生的，每一步都會對視頻進行完善，使其更加符合所需的內容和質量。

如圖 4 所示，Sora 的核心本質是一個具有靈活采樣維度的擴散 Transformer。它由三部分組成：（1）時空壓縮器首先將原始視頻映射到潛在空間。(2) 然后，ViT 處理 token 化的潛在表示，并輸出去噪潛在表示。(3) 類似 CLIP 的調節機制接收 LLM 增強的用戶指令和潛在的視覺提示，引導擴散模型生成風格化或主題化的視頻。經過許多去噪步驟后，生成視頻的潛在表示被獲取，然后通過相應的解碼器映射回像素空間。

在本節中，研究者對 Sora 所使用的技術進行了逆向工程，并討論了一系列相關工作。

數據預處理

Sora 的一個顯著特征是它能夠訓練、理解和生成原始尺寸的視頻和圖像，如圖 5 所示。而傳統方法通常會調整視頻大小、裁剪或調整視頻的長寬比以適應統一的視頻和圖像。利用擴散 Transformer 架構，Sora 是第一個擁抱視覺數據多樣性的模型，可以以多種視頻和圖像格式進行采樣，范圍從寬屏 1920x1080p 視頻到垂直 1080x1920p 視頻以及介于兩者之間的視頻，而不影響其原始尺寸。

如圖 6 所示，Sora 生成的視頻能夠更好的展現主題，從而確保在場景中完全捕捉到拍攝對象，而其他視頻有時會導致視圖被截斷或裁剪，導致拍攝對象脫離畫面。

統一視覺表示。為了有效處理不同持續時間、分辨率和高寬比的圖像和視頻，關鍵在于將所有形式的視覺數據轉換為統一表示。

Sora 處理的過程是這樣的：首先將視頻壓縮到低維潛在空間，然后將表示分解為時空 patch 來對視頻進行 patch 化（patchifies）。但是回看 Sora 技術報告，他們僅僅提出了一個高層次的想法，這給研究界的復現帶來了挑戰。在接下來的章節中，本文嘗試對 Sora 的技術路徑進行逆向工程，并且借鑒現有文獻，討論可以復現 Sora 的可行替代方案。

首先是視頻壓縮網絡。Sora 的視頻壓縮網絡（或視覺編碼器）旨在降低輸入數據（尤其是原始視頻）的維度，并輸出在時間和空間上壓縮過的潛在表示，如圖 7 所示。根據技術報告中的參考文獻， Sora 壓縮網絡是基于 VAE 或 VQ-VAE 技術的。

然而，如果不像技術報告中對視頻和圖像調整大小和裁剪，那么 VAE 將任何大小的視覺數據映射到統一且固定大小的潛在空間挑戰巨大。本文總結了兩種不同的實現來解決這個問題：

空間 patch 壓縮：涉及將視頻幀轉換為固定大小的 patch，類似于 ViT 和 MAE 中使用的方法（見圖 8），然后將其編碼到潛在空間中，這種方法對于適應不同分辨率和寬高比的視頻特別有效。隨后，將這些空間 token 按時間序列組織在一起，以創建時間 - 空間潛在表征。

時間 - 空間 patch 壓縮：該技術旨在封裝視頻數據的空間和時間維度，從而提供全面的表示。該技術不僅僅分析靜態幀，還考慮幀間的運動和變化，從而捕獲視頻的動態信息。3D 卷積的利用成為實現這種集成的一種簡單而有效的方法。

圖 9 描繪了不同視頻壓縮方式的比較。與空間 patch 壓縮類似，使用具有預定卷積核參數（例如固定內核大小、步幅和輸出通道）的時間 - 空間 patch 壓縮會導致潛在空間維度也不同。為了緩解這一挑戰，空間修補（spatial patchification）所采用的方法在這種情況下同樣適用和有效。

總的來說，本文基于 VAE 或其變體如 VQ-VQE 逆向工程了兩種 patch 級壓縮方法，因為 patch 對處理不同類型的視頻更加靈活。由于 Sora 旨在生成高保真視頻，因此使用了較大尺寸的 patch 或內核尺寸以實現高效壓縮。這里，本文期望使用固定大小的 patch，以簡化操作、擴展性和訓練穩定性。但也可以使用不同大小的 patch，以使整個幀或視頻在潛在空間中的尺寸保持一致。然而，這可能導致位置編碼無效，并且給解碼器生成具有不同大小潛在 patch 的視頻帶來挑戰。

壓縮網絡部分還有一個關鍵問題：在將 patch 送入擴散 Transformer 的輸入層之前，如何處理潛在空間維度的變化（即不同視頻類型的潛在特征塊或 patch 的數量）。這里討論了幾種解決方案：

根據 Sora 的技術報告和相應的參考文獻，patch n' pack（PNP）很可能是一種解決方案。如圖 10 所示，PNP 將來自不同圖像的多個 patch 打包在一個序列中。這種方法的靈感來源于自然語言處理中使用的樣本打包，它通過丟棄 token 來實現對不同長度輸入的高效訓練。在這里，patch 化和 token 嵌入步驟需要在壓縮網絡中完成，但 Sora 可能會像 Diffusion Transformer（擴散 Transformer）那樣，為 Transformer token 進一步 patch 化。

無論是否有第二輪修補，都需要解決兩個問題：如何以緊湊的方式打包這些 token，以及如何控制哪些 token 應該被丟棄。

對于第一個問題，研究者采用了簡單的「貪心」算法，即在第一個序列中添加足夠剩余空間的樣本。一旦沒有樣本可以容納，序列就會被填充 token 填滿，從而產生批處理操作所需的固定序列長度。這種簡單的打包算法可能會導致大量填充，這取決于輸入長度的分布情況。另一方面，可以控制采樣的分辨率和幀數，通過調整序列長度和限制填充來確保高效打包。

對于第二個問題，直觀的方法是丟棄相似的 token，或者像 PNP 一樣，使用丟棄率調度器。不過，值得注意的是，三維一致性是 Sora 的優良特性之一。在訓練過程中，丟棄 token 可能會忽略細粒度的細節。因此，研究者認為 OpenAI 很可能會使用超長的上下文窗口并打包視頻中的所有 token，盡管這樣做的計算成本很高，例如，多頭注意力算子在序列長度上表現出二次成本。具體來說，一個長時間視頻中的時空潛在 patch 可以打包到一個序列中，而多個短時間視頻中的時空潛在 patch 則會串聯到另一個序列中。

建模

圖像 DiT

傳統的擴散模型主要利用包含下采樣和上采樣塊的卷積 U-Net 作為去噪網絡骨干。然而，最近的研究表明，U-Net 架構對擴散模型的良好性能并非至關重要。

通過采用更靈活的 Transformer 架構，基于 Transformer 的擴散模型可以使用更多的訓練數據和更大的模型參數。沿著這一思路，DiT 和 U-ViT 是第一批將視覺 Transformer 用于潛在擴散模型的作品。

與 ViT 一樣，DiT 也采用了多頭自注意力層和層范數和縮放層交錯的逐點前饋網絡。如圖 11 所示，DiT 還通過 AdaLN 進行調節，并增加了一個用于零初始化的 MLP 層，將每個殘差塊初始化為一個恒等函數，從而大大穩定了訓練過程。DiT 的可擴展性和靈活性得到了經驗驗證。

在 U-ViT 中，如圖 11 所示，將包括時間、條件和噪聲圖像片段在內的所有輸入都視為 token，并在淺層和深層 Transformer 層之間提出了長跳躍連接。結果表明，基于 CNN 的 U-Net 中的下采樣和升采樣算子并非總是必要的，U-ViT 在圖像和文本到圖像生成方面取得了破紀錄的 FID 分數。

與掩蔽自編碼器（MAE）一樣，掩蔽擴散 Transformer（MDT）也在擴散過程中加入了掩碼潛在模型，以明確增強圖像合成中對象語義部分之間的上下文關系學習。

具體來說，如圖 12 所示，MDT 在訓練過程中使用邊緣插值（side-interpolated）進行額外的掩蔽 token 重建任務，以提高訓練效率，并學習強大的上下文感知位置嵌入進行推理。與 DiT 相比，MDT 實現了更好的性能和更快的學習速度。Hatamizadeh et al. 沒有使用 AdaLN（即移位和縮放）進行時間條件建模，而是引入了 Diffusion Vision Transformers (DiffiT)，它使用與時間相關的自注意力（TMSA）模塊對采樣時間步長內的動態去噪行為進行建模。此外，DiffiT 采用兩種混合分層架構，分別在像素空間和潛在空間進行高效去噪，并在各種生成任務中取得了新的先進成果。總之，這些研究表明，利用視覺 Transformer 進行圖像潛在擴散取得了可喜的成果，為面向其他模態的研究鋪平了道路。

視頻 DiT

在文本到圖像（T2I）擴散模型的基礎上，一些近期研究專注于發揮擴散 Transformer 在文本到視頻（T2V）生成任務中的潛力。由于視頻的時空特性，在視頻領域應用 DiT 所面臨的主要挑戰是：i) 如何將視頻從空間和時間上壓縮到潛在空間，以實現高效去噪；ii) 如何將壓縮潛在空間轉換為 patch，并將其輸入 Transformer ；iii) 如何處理長序列時空依賴性，并確保內容一致性。

這里將討論基于 Transformer 的去噪網絡架構（該架構旨在時空壓縮的潛在空間中運行）下文詳細回顧了 OpenAI Sora 技術報告參考文獻列表中介紹的兩項重要工作（Imagen Video 和 Video LDM）。

Imagen Video 是谷歌研究院開發的文本到視頻生成系統，它利用級聯擴散模型（由 7 個子模型組成，分別執行文本條件視頻生成、空間超分辨率和時間超分辨率）將文本提示轉化為高清視頻。

如圖 13 所示，首先，凍結的 T5 文本編碼器會根據輸入的文本提示生成上下文嵌入。這些嵌入對于將生成的視頻與文本提示對齊至關重要，除了基礎模型外，它們還被注入級聯中的所有模型。隨后，嵌入信息被注入基礎模型，用于生成低分辨率視頻，然后由級聯擴散模型對其進行細化以提高分辨率。基礎視頻和超分辨率模型采用時空可分離的 3D U-Net 架構。該架構將時間注意力層和卷積層與空間對應層結合在一起，以有效捕捉幀間依賴關系。它采用 v 預測參數化來實現數值穩定性和條件增強，以促進跨模型的并行訓練。

這一過程包括對圖像和視頻進行聯合訓練，將每幅圖像視為一幀，以利用更大的數據集，并使用無分類器引導來提高提示保真度。漸進式蒸餾法用于簡化采樣過程，在保持感知質量的同時大大減少了計算負荷。將這些方法和技術相結合，Imagen Video 不僅能生成高保真視頻，而且還具有出色的可控性，這體現在它能生成多樣化的視頻、文本動畫和各種藝術風格的內容。

Blattmann et al. 建議將二維潛在擴散模型轉化為視頻潛在擴散模型（Video LDM）。為此，他們在 U-Net 主干網和 VAE 解碼器的現有空間層中添加了一些臨時時間層，以學習如何對齊單個幀。這些時間層在編碼視頻數據上進行訓練，而空間層則保持固定，從而使模型能夠利用大型圖像數據集進行預訓練。LDM 的解碼器可進行微調，以實現像素空間的時間一致性和時間對齊擴散模型上采樣器，從而提高空間分辨率。

為了生成超長視頻，作者對模型進行了訓練，以預測未來幀的上下文幀數，從而在采樣過程中實現無分類器引導。為實現高時間分辨率，作者將視頻合成過程分為關鍵幀生成和這些關鍵幀之間的插值。在級聯 LDM 之后，使用 DM 將視頻 LDM 輸出進一步放大 4 倍，確保高空間分辨率的同時保持時間一致性。這種方法能以高效的計算方式生成全局一致的長視頻。此外，作者還展示了將預先訓練好的圖像 LDM（如穩定擴散）轉化為文本到視頻模型的能力，只需訓練時間對齊層，即可實現分辨率高達 1280 × 2048 的視頻合成。

語言指令跟隨

為了提高文本到視頻模型遵循文本指令的能力，Sora 采用了與 DALL?E 3 類似的方法。

DALL?E 3 中的指令跟隨是通過一種描述改進方法來解決的，其假設是模型所訓練的文本 - 圖像對的質量決定了最終文本 - 圖像模型的性能。數據質量差，尤其是普遍存在的噪聲數據和省略了大量視覺信息的簡短標題，會導致許多問題，如忽略關鍵詞和詞序，以及誤解用戶意圖等。描述改進方法通過為現有圖像重新添加詳細的描述性描述來解決這些問題。該方法首先訓練圖像描述器（視覺語言模型），以生成精確的描述性圖像描述。然后，描述器生成的描述性圖像描述將用于微調文本到圖像模型。

具體來說，DALL?E 3 采用對比式描述器（CoCa），聯合訓練具有 CLIP 架構和語言模型目標的圖像描述器。該圖像描述器包含一個圖像編碼器、一個用于提取語言信息的單模態文本編碼器和一個多模態文本解碼器。它首先在單模態圖像和文本嵌入之間采用對比損失，然后對多模態解碼器的輸出采用描述損失。由此產生的圖像描述器將根據對圖像的高度詳細描述進行進一步微調，其中包括主要對象、周圍環境、背景、文本、風格和色彩。通過這一步驟，圖像描述器就能為圖像生成詳細的描述性描述。文本到圖像模型的訓練數據集由圖像描述生成器生成的重新描述數據集和真實人工編寫數據混合而成，以確保模型捕捉到用戶輸入。

這種圖像描述改進方法帶來了一個潛在問題：實際用戶提示與訓練數據中的描述性圖像描述不匹配。DALL?E 3 通過上采樣解決了這一問題，即使用 LLM 將簡短的用戶提示改寫成詳細而冗長的說明。這確保了模型在推理時接收到的文本輸入與模型訓練時的文本輸入保持一致。

為了提高指令跟蹤能力，Sora 采用了類似的描述改進方法。這種方法是通過首先訓練一個能夠為視頻制作詳細說明的視頻描述器來實現的。然后，將該視頻描述器應用于訓練數據中的所有視頻，生成高質量的（視頻、描述性描述）對，用于微調 Sora，以提高其指令跟隨能力。

Sora 的技術報告沒有透露視頻描述器是如何訓練的細節。鑒于視頻描述器是一個視頻到文本的模型，因此有很多方法來構建它：

一種直接的方法是利用 CoCa 架構來制作視頻描述，方法是獲取視頻的多個幀，并將每個幀輸入圖像編碼器，即 VideoCoCa。VideoCoCa 以 CoCa 為基礎，重新使用圖像編碼器預訓練的權重，并將其獨立應用于采樣視頻幀。由此產生的幀 token 嵌入會被扁平化，并連接成一長串視頻表示。然后，生成式池化層和對比池化層會對這些扁平化的幀 token 進行處理，二者是用對比損失和描述損失聯合訓練的。

其他可用于構建視頻描述的方法包括 mPLUG-2、GIT、FrozenBiLM 等。

最后，為確保用戶提示與訓練數據中的描述性描述格式一致，Sora 還執行了額外的提示擴展步驟，即使用 GPT-4V 將用戶輸入擴展為詳細的描述性提示。

然而，Sora 訓練描述器的數據收集過程尚不清楚，而且很可能需要大量人力，因為這可能需要對視頻進行詳細描述。此外，描述性視頻描述可能會對視頻的重要細節產生幻覺。本文作者認為，如何改進視頻描述器值得進一步研究，這對提高文本到圖像模型的指令跟蹤能力至關重要。

提示工程

文本提示

文本提示工程對于指導文本視頻模型制作出既具有視覺沖擊力又能精確滿足用戶規格的視頻至關重要。這就需要制作詳細的描述來指導模型，以有效彌合人類創造力與人工智能執行能力之間的差距。

Sora 的提示涵蓋了廣泛的場景。近期的作品（如 VoP、Make-A-Video 和 Tune-A-Video）展示了提示工程如何利用模型的自然語言理解能力來解碼復雜指令，并將其呈現為連貫、生動和高質量的視頻敘事。

如圖 15 所示，「一個時髦的女人走在霓虹燈閃爍的東京街頭...... 」就是這樣一個精心制作的文本提示，它確保 Sora 生成的視頻與預期的視覺效果非常吻合。提示工程的質量取決于對詞語的精心選擇、所提供細節的具體性以及對其對模型輸出影響的理解。例如，圖 15 中的提示詳細說明了動作、設置、角色出場，甚至是所期望的場景情緒和氛圍。

圖像提示

圖像提示為即將生成的視頻內容和其他元素（如人物、場景和情緒）提供了視覺錨點。此外，文字提示還可以指示模型將這些元素動畫化，例如，添加動作、互動和敘事進展等層次，使靜態圖像栩栩如生。通過使用圖像提示，Sora 可以利用視覺和文本信息將靜態圖像轉換成動態的、由敘事驅動的視頻。

圖 16 展示了人工智能生成的視頻：「一只頭戴貝雷帽、身穿高領毛衣的柴犬」、「一個獨特的怪物家族」、「一朵云組成了 SORA 一詞」以及「沖浪者在一座歷史悠久的大廳內駕馭潮汐」。這些例子展示了通過 DALL?E 生成的圖像提示 Sora 可以實現哪些功能。

視頻提示

視頻提示也可用于視頻生成。最近的研究（如 Moonshot 和 Fast-Vid2Vid）表明，好的視頻提示需要「具體」而「靈活」。這樣既能確保模型在特定目標（如特定物體和視覺主題的描繪）上獲得明確的指導，又能在最終輸出中允許富有想象力的變化。

例如，在視頻擴展任務中，提示可以指定擴展的方向（時間向前或向后）和背景或主題。在圖 17 (a) 中，視頻提示指示 Sora 向后延伸一段視頻，以探索導致原始起點的事件。如圖 17（b）所示，在通過視頻提示執行視頻到視頻的編輯時，模型需要清楚地了解所需的轉換，例如改變視頻的風格、場景或氛圍，或改變燈光或情緒等微妙的方面。在圖 17 (c) 中，提示指示 Sora 連接視頻，同時確保視頻中不同場景中的物體之間平滑過渡。

雖然以前關于提示工程的研究主要集中在 LLM 和 LVM 的文本和圖像提示上，但預計研究者們對視頻生成模型的視頻提示的興趣會越來越大。

應用

隨著以 Sora 為代表的視頻擴散模型技術取得突破，其在不同研究領域和行業的應用正在迅速加速。

本文作者指出，這項技術的影響遠遠超出了單純的視頻創作，為從自動內容生成到復雜決策過程的各種任務提供了變革潛力。

在論文的第四章中，全面探討了視頻擴散模型的當前應用，希望為實際部署方案提供一個廣闊的視角（圖 18）：

提高模擬能力：對 Sora 進行大規模訓練，是因為它能夠出色地模擬物理世界的各個方面。盡管沒有明確的三維建模，但 Sora 通過動態攝像機運動和遠距離連貫性表現出三維一致性，包括物體持久性和模擬與世界的簡單交互。此外，Sora 還能模擬類似 Minecraft 的數字環境，在保持視覺保真度的同時由基本策略控制，這一點非常有趣。這些新出現的能力表明，可擴展視頻模型可以有效地創建人工智能模型，以模擬物理和數字世界的復雜性。
提高創造力：想象一下，通過文字勾勒出一個概念，無論是一個簡單的物體還是一個完整的場景，都能在幾秒鐘內呈現出逼真或高度風格化的視頻。Sora 可以加速設計過程，更快地探索和完善創意，從而大大提高藝術家、電影制作人和設計師的創造力。
推動教育創新：長期以來，視覺輔助工具一直是教育領域理解重要概念不可或缺的工具。有了 Sora，教育工作者可以輕松地將課堂計劃從文字變成視頻，吸引學生的注意力，提高學習效率。從科學模擬到歷史劇，可能性是無限的。
增強可訪問性：提高視覺領域的可訪問性至關重要。Sora 通過將文字描述轉換為可視內容，提供了一種創新的解決方案。這種功能使包括視覺障礙者在內的所有人都能積極參與內容創建，并以更有效的方式與他人互動。因此，它可以創造一個更具包容性的環境，讓每個人都有機會通過視頻表達自己的想法。
促進新興應用：Sora 的應用領域非常廣泛。例如，營銷人員可以用它來制作針對特定受眾描述的動態廣告。游戲開發商可以利用它根據玩家的敘述生成定制的視覺效果甚至角色動作。

具體而言，以下幾個行業將面臨變革：

影視

傳統上，創作電影是一個艱巨而昂貴的過程，往往需要數十年的努力、尖端的設備和大量的資金投入。先進視頻生成技術的出現預示著電影制作進入了一個新時代，從簡單的文本輸入中自主生成電影的夢想正在成為現實。事實上，研究人員已經涉足電影生成領域，將視頻生成模型擴展到電影創作中。

MovieFactory 應用擴散模型從 ChatGPT 制作的精心腳本中生成電影風格的視頻，這是一個重大飛躍。在后續研究中，MobileVidFactory 只需用戶提供簡單的文本，就能自動生成垂直移動視頻。Vlogger 則讓用戶可以制作長達一分鐘的 Vlog。

Sora 能夠毫不費力地生成引人入勝的電影內容，這是這些發展的縮影，標志著電影制作民主化的關鍵時刻。它們讓人們看到了一個人人都能成為電影制作人的未來，大大降低了電影行業的準入門檻，并為電影制作引入了一個新的維度，將傳統的故事講述方式與人工智能驅動的創造力融為一體。這些技術的影響不僅僅是簡單化。它們有望重塑電影制作的格局，使其在面對不斷變化的觀眾喜好和發行渠道時，變得更加容易獲得，用途更加廣泛。

游戲

游戲產業一直在尋求突破逼真度和沉浸感界限的方法，但傳統游戲開發往往受到預先渲染的環境和腳本事件的限制。通過擴散模型效果實時生成動態、高保真視頻內容和逼真音效，有望克服現有的限制，為開發人員提供工具來創建不斷變化的游戲環境，對玩家的行為和游戲事件做出有機的反應。這可能包括生成不斷變化的天氣條件、改變地貌，甚至即時創建全新的設置，從而使游戲世界更加身臨其境、反應更加靈敏。一些方法還能從視頻輸入中合成逼真的沖擊聲，增強游戲音頻體驗。

將 Sora 集成到游戲領域后，就能創造出無與倫比的身臨其境的體驗，吸引并吸引玩家。游戲的開發、玩耍和體驗方式都將得到創新，并為講故事、互動和沉浸式體驗帶來新的可能性。

醫療

盡管具有生成能力，但視頻擴散模型在理解和生成復雜視頻序列方面表現出色，因此特別適用于識別人體內的動態異常，如早期細胞凋亡、皮膚病變進展和不規則人體運動，這對早期疾病檢測和干預策略至關重要。此外，MedSegDiffV2 等模型利用 Transformer 的強大功能，以前所未有的精度分割醫學影像，使臨床醫生能夠在各種成像模式中精確定位感興趣的區域，提高準確性。

將 Sora 集成到臨床實踐中，不僅有望完善診斷流程，還能根據精確的醫學影像分析提供量身定制的治療方案，實現患者護理的個性化。然而，這種技術整合也帶來了一系列挑戰，包括需要采取強有力的數據隱私措施和解決醫療保健中的倫理問題。

機器人

視頻擴散模型目前在機器人技術中發揮著重要作用，它展示了一個新時代：機器人可以生成和解釋復雜的視頻序列，以增強感知和決策。這些模型釋放了機器人的新能力，使它們能夠與環境互動，以前所未有的復雜度和精確度執行任務。將網絡規模擴散模型引入機器人學，展示了利用大規模模型增強機器人視覺和理解能力的潛力。潛在擴散模型被用于語言指導的視頻預測，使機器人能夠通過預測視頻格式的行動結果來理解和執行任務。此外，視頻擴散模型能夠創建高度逼真的視頻序列，創新性地解決了機器人研究依賴模擬環境的問題。這樣就能為機器人生成多樣化的訓練場景，緩解真實世界數據匱乏所帶來的限制。

將 Sora 等技術整合到機器人領域有望取得突破性發展。通過利用 Sora 的強大功能，未來的機器人技術將取得前所未有的進步，機器人可以無縫導航并與周圍環境互動。

局限性

最后，研究者指出了 Sora 這項新技術存在的風險問題和局限性。

隨著 ChatGPT 、GPT4-V 和 Sora 等復雜模型的快速發展，這些模型的能力得到了顯著提高。這些發展為提高工作效率和推動技術進步做出了重大貢獻。然而，這些進步也引發了人們對這些技術可能被濫用的擔憂，包括假新聞的產生、隱私泄露和道德困境。因此，大模型的可信度問題引起了學術界和工業界的廣泛關注，成為當下研究討論的焦點。

雖然 Sora 的成就凸顯了人工智能的重大進步，但挑戰依然存在。在描繪復雜動作或捕捉微妙面部表情方面，該模型還有待改進。此外，減少生成內容中的偏見和防止有害的視覺輸出等道德方面的考慮也強調了開發人員、研究人員和更廣泛的社區負責任使用的重要性。確保 Sora 的輸出始終安全、無偏見是一項主要挑戰。

但伴隨著視頻生成領域的發展，學術界和工業界的研究團隊都取得了長足的進步。文本到視頻競爭模式的出現表明，Sora 可能很快就會成為動態生態系統的一部分。這種合作與競爭的環境促進了創新，從而提高了視頻質量并開發了新的應用，有助于提高工人的工作效率，使人們的生活更具娛樂性。

責任編輯：張燕妮來源：機器之心

AI 數據微軟