圖像編輯的ChatGPT時刻來了？蘋果40萬真實圖像訓練，AI現在能聽懂你的“精修指令”了

zhangyannni

發布于 2025-10-24 08:59

瀏覽

0收藏

圖像編輯的ChatGPT時刻來了？蘋果40萬真實圖像訓練，AI現在能聽懂你的“精修指令”了-AI.x社區

文章鏈接:??https://arxiv.org/pdf/2510.19808??

代碼鏈接：?https://github.com/apple/pico-banana-400k??

亮點直擊

大規模且真實：包含約 40 萬個基于真實世界照片生成的圖像編輯樣本，克服了以往數據集依賴合成圖像或規模有限的問題。
多目標訓練支持：數據集不僅包含 25.8 萬個用于監督式微調的單輪編輯樣本，還提供了 5.6 萬個偏好對（成功 vs. 失敗的編輯），可用于直接偏好優化（DPO）和獎勵模型訓練，以提升模型的魯棒性和對齊能力。
復雜的編輯場景：包含了 7.2 萬個多輪編輯序列，支持對迭代式編輯、上下文感知和編輯規劃等高級功能的研究。
系統化的質量控制：采用了一個系統化的流程，利用強大的多模態模型（如 Nano-Banana）進行數據生成和自動評估，確保了指令的忠實度和編輯的視覺質量。

解決的問題

目前，文本引導的圖像編輯領域雖然取得了顯著進展，但研究社區的發展受到了一個關鍵瓶頸的限制：缺乏一個大規模、高質量且完全開放獲取的、基于真實圖像構建的編輯數據集。現有數據集通常存在以下問題：

依賴于專有模型生成的合成數據。
規模有限，或由人工策劃，成本高昂。
存在領域偏移、編輯類型分布不均和質量控制不一致等問題。

這些問題阻礙了更強大、更魯棒的圖像編輯模型的開發和有效基準測試。Pico-Banana-400K 的提出正是為了解決這一核心挑戰。

提出的方案

為了解決上述問題，本文設計并構建了 Pico-Banana-400K 數據集。其核心方案是一個系統化的、自動化的數據生成與篩選流程：

數據源：從 OpenImages 數據集中采樣真實照片，確保圖像的多樣性和真實性。
指令生成：使用 Gemini-2.5-Flash 模型為圖像生成詳細的、與內容相關的編輯指令。同時，利用 Qwen2.5-7B-Instruct 模型將詳細指令改寫為更簡潔、更符合人類習慣的風格，提供兩種類型的指令。
圖像編輯：利用先進的 Nano-Banana 模型執行生成的文本指令，完成圖像編輯。
質量評估：采用 Gemini-2.5-Pro 模型作為自動化“裁判”，從指令遵從度、編輯無縫性、內容保留度和技術質量四個維度對編輯結果進行打分。只有得分高于閾值的成功樣本才被保留。
數據組織：將數據整理成三個子集：單輪監督微調集（Single-Turn SFT）、偏好對集（Preference Pairs）和多輪對話編輯集（Multi-Turn SFT），以支持不同的研究方向。

用到的技術點

圖像編輯模型: Nano-Banana，用于根據文本指令生成編輯后的圖像。
指令生成與評估模型:

a.Gemini-2.5-Flash: 用于生成詳細的、訓練導向的編輯指令。

b.Gemini-2.5-Pro: 作為自動評估裁判，對編輯結果進行多維度質量打分，確保數據質量。

c.Qwen2.5-7B-Instruct: 用于將長指令改寫成簡潔的用戶風格指令。

源數據集: OpenImages，提供了多樣化的真實世界圖像作為編輯基礎。
編輯分類法 (Taxonomy): 定義了一個包含 8 大類、35 種具體編輯類型的分類體系，用于系統化地組織和生成數據，確保編輯的多樣性和覆蓋面。
訓練方法支持: 數據集的構建考慮了對多種訓練范式的支持，包括監督微調（SFT）、直接偏好優化（DPO）和獎勵建模（Reward Modeling）。

達到的效果

本文成功創建并發布了 Pico-Banana-400K 數據集，為社區提供了寶貴的資源。其達到的效果是：

建立了一個堅實的基礎：為訓練和基準測試下一代文本引導圖像編輯模型提供了一個大規模、高質量、任務豐富的資源。
推動了前沿研究：通過提供多輪編輯和偏好數據，促進了在復雜推理、迭代優化和模型對齊等方向的研究。
揭示了當前模型的局限性：通過對不同編輯類型的成功率進行分析，發現當前模型在全局風格化編輯方面表現出色，但在需要精確幾何控制、布局推斷和排版處理的編輯任務上仍面臨挑戰。這為未來的模型改進指明了方向。

數據集構建

通過一個系統化的流程來構建 Pico-Banana-400K，旨在確保其規模和質量。本文方法利用了最先進的模型進行生成和評估，同時在每個階段都保持嚴格的質量控制。我們首先描述我們的源圖像和包含 35 種編輯類型的綜合分類法。然后，詳細介紹我們的雙指令生成流程，該流程創建了詳細的訓練導向提示和簡潔的用戶風格指令。最后，介紹了我們帶有自動質量評估的單輪數據集的構建以及支持迭代編輯場景研究的多輪編輯序列的構建。

圖像編輯的ChatGPT時刻來了？蘋果40萬真實圖像訓練，AI現在能聽懂你的“精修指令”了-AI.x社區

圖 1 Pico-Banana-400K 數據集概覽。pipeline（底部）顯示了不同的 OpenImages 輸入是如何使用 Nano-Banana 進行編輯并由 Gemini-2.5-Pro 進行質量過濾的，失敗的嘗試會自動重試。該數據集包含 386K 個示例，涉及單匝 SFT（66.8%）、偏好對（14.5%）和多匝序列（18.7%），由我們的綜合編輯分類法（左上角）組織。

概述和編輯分類法

本數據集建立在從 OpenImages中采樣的圖像之上，選擇這些圖像是為了確保對人類、物體和文本場景的覆蓋。將文本引導的編輯組織成一個全面的分類法，涵蓋了常見的真實世界編輯意圖，同時將局部語義變化與全局風格或構圖轉換分開。

表 1 展示了我們完整的分類法，包含 8 個主要類別下的 35 種編輯類型：像素與光度、對象級語義、場景構圖、風格化、文本與符號、以人為中心、縮放以及空間/布局。每個圖像-指令對都被分配一個主要編輯類型。對于以人為中心和與文本相關的操作，我們應用特定類別的過濾，以確保編輯只在適當的圖像上進行。

圖像編輯的ChatGPT時刻來了？蘋果40萬真實圖像訓練，AI現在能聽懂你的“精修指令”了-AI.x社區

表 1 圖像編輯分類法。每項操作均按其類別分組。計數表示在最多三次重試中通過 Gemini-2.5-Pro 評判（指令合規性和視覺質量）的單轉子集中成功樣本的數量。如果對一個（圖像、指令）配對的三次嘗試都失敗，則該案例被視為失敗，并從發布集中丟棄。如果在成功編輯之前進行了一次或兩次嘗試，那么負面編輯也會被保存下來，形成偏好數據

質量驅動的范圍決策。在初始構建期間，系統地評估了 Nano-Banana 在所有候選編輯類型上的性能。排除了那些無法持續以高質量呈現的操作：

調整亮度/對比度/飽和度以及銳化或模糊圖像：這些編輯經常導致與源圖像相比視覺變化微不足道或不穩定，從而降低了監督信號的質量。改變特定對象視角（強烈的透視/姿態重寫）的編輯：這類編輯容易產生結構性偽影。雙圖像合成（從兩個不同輸入中合并對象）：實證結果不夠可靠，無法作為訓練對納入。

指令生成

本文數據集的一個關鍵創新是提供雙重指令格式以支持多樣化的研究需求。我們為每次編輯生成了詳細的、面向訓練的提示和簡潔的、人類風格的指令。

類型 I：長而詳細的指令。對于每張圖片，我們首先使用 Gemini-2.5-Flash 和以下系統提示生成一個長而詳細的編輯指令：你是一位專業的照片編輯器提示詞作家。給定一張圖片，請寫一條用戶可能會給圖像編輯模型的簡潔、自然的語言指令。該指令必須基于可見內容（物體、顏色、位置）并與圖像內容緊密相關。返回一個帶有 "prompts" 數組的 JSON 對象，其中包含照片般真實的提示。這個版本強調了明確的監督，非常適合需要豐富指定指導的訓練設置。

類型 II：簡潔的用戶風格指令。為了研究模型生成和人類風格編輯指令之間的差距，啟動了一個專門的標注項目，為一部分圖像收集人類指令。然后，我們將這些人工編寫的示例作為上下文演示提供給 Qwen2.5-7B-Instruct 的系統提示，后者將指令重寫為簡潔的用戶風格形式。這樣就為相同的圖像/編輯意圖生成了另一種指令，更好地反映了最終用戶通常如何表達請求。示例見表 2。

圖像編輯的ChatGPT時刻來了？蘋果40萬真實圖像訓練，AI現在能聽懂你的“精修指令”了-AI.x社區

兩種互補指令視圖。 因此，數據集中的每個示例都可能包含兩個并行的指令變體：** (1)來自 Gemini-2.5-Flash 的詳細長指令（針對數據生成和訓練進行了優化）；(2) 由 Qwen 使用人類注釋作為示例生成的簡短指令。數據集用戶可以自由選擇最適合自己需要的變體（例如，豐富的監督與自然的用戶提示）。源自提示的內容分發。 為了了解我們的編輯指令最常針對哪些視覺領域，將每個編輯指令歸類為廣泛的圖像內容桶（例如，人物、動物、建筑物/建筑）。這些類別是通過關鍵詞/短語匹配推斷出來的，并允許多標簽分配；為了實現可視化，我們匯總了每個類別的計數，并繪制了圖 3，其中概括了我們的提示內容覆蓋范圍。

圖像編輯的ChatGPT時刻來了？蘋果40萬真實圖像訓練，AI現在能聽懂你的“精修指令”了-AI.x社區

分發圖像編輯指導內容

單輪圖像編輯

每個編輯指令都由 Nano-Banana 執行。生成編輯后，Gemini-2.5-Pro 作為一個自動裁判，評估編輯質量并決定是否應將其保留在數據集中。這個評判過程遵循一個結構化的系統提示，旨在模仿專業的人類評估。裁判使用四個標準來評估編輯：指令遵從度 (40%)，衡量編輯對提示的滿足程度；無縫性 (25%)，檢查集成是否自然無偽影；保留平衡 (20%)，確保未改變的區域保持一致；以及技術質量 (15%)，評估清晰度、色彩準確性和曝光保真度。在附錄 B 中提供了該提示。最終得分被匯總成一個單一的質量指標。得分高于一個嚴格閾值（經驗上設定為約 0.7）的圖像被標記為成功編輯，而低于該閾值的則被歸類為失敗。

成功編輯 (~258K) 構成了主要數據集，示例見圖 2；

圖像編輯的ChatGPT時刻來了？蘋果40萬真實圖像訓練，AI現在能聽懂你的“精修指令”了-AI.x社區

圖 2 Pico-Banana-400K 數據集中的單輪文本引導圖像編輯示例。每對圖像都顯示了編輯后的結果（右圖）和相應的原始圖像（左圖）。該數據集涵蓋多種編輯類型，包括光度調整、對象級操作、風格轉換以及場景或照明修改。這些示例說明了 Nano-Banana 編輯模型所實現的視覺多樣性、真實性和高指令保真度。

失敗案例 (~56K) 作為負面樣本被保留，與成功編輯配對用于偏好學習。一個示例三元組見圖 4。

圖像編輯的ChatGPT時刻來了？蘋果40萬真實圖像訓練，AI現在能聽懂你的“精修指令”了-AI.x社區

圖 4 偏好三元組示例。從左到右依次為：原始圖像、要求將粉白色吸管重新放入最左邊眼鏡中的自然語言指令（中間部分），以及兩個模型輸出：滿足指令并保留場景背景的成功編輯，以及違反指令的失敗編輯（位置/幾何形狀不正確）。這些（成功、失敗）對將作為排列研究的偏好數據保留下來。

這個自評估過程使得 Pico-Banana-400K 能夠在無需人工標注的情況下自動擴展，同時保持較高的語義保真度和視覺真實感。

多輪圖像編輯

通過擴展一部分單輪編輯數據來構建一個多輪編輯子集。具體來說，我們從之前介紹的數據集中均勻采樣 10 萬個單輪樣本。對于每個采樣樣本（它已經包含了其編輯類型），我們通過隨機選擇 1-4 個額外的編輯類型來創建一個簡短的編輯會話。這產生了總共 2-5 輪的序列。

為了生成跨輪次的自然、連貫的指令，提示 Gemini-2.5-Pro 編寫以圖像和迄今為止選擇的編輯類型歷史為條件的單上下文編輯指令。模型被鼓勵使用鏈接到先前編輯的指代性語言。例如，如果第 1 輪是“給貓加一頂帽子”，第 2 輪可能會說“改變它的顏色”，其中“它”指代的是先前添加的帽子。這種設計強調了話語的連續性和輪次之間的依賴性，而不是獨立、不相關的操作。

執行和評估遵循與單輪設置相同的流程：每一輪的指令應用于當前的工作圖像以產生下一個圖像，我們使用與之前相同的標準和工具來評估生成的圖像和指令。因此，最終的數據集為每個圖像提供了一個時間上有序的編輯和指令鏈，這些鏈同時運用了組合性（多種編輯類型）和語用指代（跨輪回指）。多輪圖像編輯的一個例子在圖 5 中提供。

結論

Pico-Banana-400K ，一個旨在推動圖像編輯研究的大規模文本引導圖像編輯數據集。通過結合使用 Gemini-2.5-Flash 進行編輯指令生成、Nano-Banana 進行圖像編輯以及 Gemini-2.5-Pro 進行驗證，本工作提供了一個可擴展的框架，用于生產高質量的圖像編輯數據集。所有的圖像和元數據都公開發布，以支持文本引導圖像編輯領域的開放研究。未來的工作將包括使用 Pico-Banana-400K 進行模型基準測試和模型訓練研究，檢驗該數據集如何影響可控性和視覺保真度。

本文轉自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/mleI871BteuLi413nzjzLQ??

標簽

ChatGPT

模型

已于2025-10-24 15:12:53修改

贊

回復