不止于“think with image”!快手Kwai Keye發布Thyme,賦予模型超越圖像思考的超能力!
?
導讀:快手Kwai Keye團隊提出 Thyme (Think Beyond Images) 的新范式,并圍繞它構建了一整套技術方案。旨在突破現有方法的限制,賦予開源模型一種更強大、更自主、功能更全面的“超越圖像思考”的能力。
?
?
OpenAI 推出的 o3 推理模型,首次將圖像直接融入推理過程,開創了視覺-文本聯合推理的新范式。該能力(Think with Image)自發布以來,受到業界與學術界的廣泛關注,多項研究開始探索如何在推理中引入視覺信息以增強模型感知與推理性能。然而,當前模型缺少像OpenAI O3 (OpenAI, 2025)那樣豐富的功能集,后者能夠執行多樣的圖像操作,并通過代碼同時增強邏輯推理能力。
?
近日,快手Kwai Keye團隊提出 Thyme (Think Beyond Images)——一種全新的多模態推理范式。Thyme 通過賦予模型“代碼生成與執行”的能力,極大地擴展了多模態模型的工具使用范圍和自主決策水平,并在近 20 個基準測試中取得了顯著且穩定的性能提升,尤其在處理高分辨率圖像和復雜推理任務上表現出色。

Thyme在社交媒體也引起了熱議。

?
【主要貢獻】
1.提出了一個全新的多模態交互范式Thyme
核心思想:讓多模態大模型不再局限于被動地“看圖”,而是能夠主動地通過生成并執行代碼,來調用各種工具完成復雜的圖像處理和數學計算。
豐富的功能性:模型可以即時進行裁剪、旋轉、縮放、對比度增強等多種圖像操作,還能處理復雜的數學問題。
高度的自主性:模型能自主判斷何時需要使用工具、使用何種工具,并動態生成代碼來執行,無需人工為特定任務進行干預。
?
2. 設計了一套高效的兩階段訓練策略 SFT + RL
監督微調 (SFT) 階段:利用精心構建的約 50 萬條高質量樣本數據集,快速教會模型生成代碼來執行各種操作。這個階段僅需約 200 GPU 小時,性價比極高。
強化學習 (RL) 階段:在 SFT 的基礎上,通過 RL 進一步優化模型的決策能力。為了解決 RL 階段的挑戰,研究者還:
①構建了高質量 RL 數據集:手動收集和標注了 1 萬張高分辨率、高難度的圖像問答對,以增強模型在復雜場景下的感知能力。
②提出了創新的 RL 算法 GRPO-ATS:該算法能為文本生成和代碼生成設置不同的采樣溫度(temperature)。具體來說,為文本使用較高的溫度以鼓勵探索和創造性,為代碼使用極低的溫度(0.0)以確保生成代碼的精確性和可執行性,巧妙地平衡了推理的靈活性和代碼的穩定性。
?
3.構建并開源了完整的配套資源
- 高質量數據集:開源了用于 SFT 和 RL 階段的全部數據集,包括超過 400 萬的原始數據源和精心篩選標注的數據。
- 安全的沙箱環境:開發了一個可以安全執行模型生成的代碼并返回結果的沙箱。這個沙箱還簡化了代碼生成的難度,能自動處理格式、變量定義等問題,提高了代碼的可用性。
- 完整的代碼庫:將所有訓練代碼、模型和工具鏈全部開源,旨在推動整個社區在該方向上的發展和應用。

【??Homepage】: ???https://thyme-vl.github.io/???
?
【??Model】: ???https://huggingface.co/Kwai-Keye/Thyme-RL???
?
【??Github】: ??https://github.com/Kwai-Keye/Thyme??
?
一、Thyme推理樣本展示
?
先來看幾個案例,Thyme在現實場景中如何進行視覺推理?
?
案例一:裁剪+放大
??
問題:右側圖像中心底部附近電線桿上的標志指示的是哪條街道?

思考過程:該任務涉及識別圖像中心底部附近標志所指示的街道名稱。標志看起來較小且有些距離較遠,不放大很難清晰地閱讀。裁剪并放大該特定區域將增強標志上文字的可見性,從而準確識別街道名稱。標志位于圖像的下半部分,中心右側稍偏。通過裁剪該區域,我們可以專注于標志并提高其可讀性。裁剪的坐標可以根據標志在整個圖像中的位置進行估算。
?
綜述:Thyme首先評估了標志的大小和距離,判斷出裁剪并放大對應區域可以提高可見性。接著,它編寫代碼來裁剪并放大包含標志的區域。最后準確地定位了標志的位置,成功地裁剪并放大了該區域,并正確地回答了問題。

案例二:對比度增強
問題:圖像中寫了什么?請嘗試用簡短的詞語或短語回答。

?
思考過程:圖像對比度似乎較低,這可能導致 OCR 文本提取效果不佳。文本 c?ommunities?較為模糊,與背景混為一體,使得 OCR 系統難以準確識別字符。增強對比度能讓文本更清晰地從背景中凸顯,提高可讀性和 OCR 性能。
?
綜述:在OCR任務中,Thyme會適時的增強圖像對比度,讓需要識別的文字更加清晰。

?
案例三:圖像旋轉
問題:請使用 LaTeX 格式寫出圖像中公式的表達式。

思考過程:圖像中的文字似乎傾斜且當前方向難以閱讀。為了提高清晰度,通過特定角度旋轉圖像將有助于正確對齊文字并使其更易于理解。我將進行旋轉以增強可讀性。
?
綜述:Thyme意識到輸入圖像的方向不正確,因此它使用Python代碼執行旋轉操作來調整輸入圖像的角度,最后進行讀取。

案例四:復雜計算
問題:一艘豪華游輪上的廚師想要烤一只鵝。烤一只鵝的時間 t (小時)在 180°C 取決于鵝的質量 m (千克),根據公式 t = a m^b,其中 a 和 b 是常數。下表給出了在 180°C 烤一只鵝的觀測時間。

?
綜述:Thyme可以將復雜計算操作,轉化為代碼,避免模型直接預測計算結果。

二、Thyme工作流程
Thyme整體流程主要由兩個組件構成:模型和沙盒。
?
1. 模型接收用戶輸入問題,輸出推理思路。
2. 模型判斷問題復雜度,決定是否生成Python代碼執行圖像處理或計算任務。
3. 若無需代碼(簡單問題或先前代碼已解決),直接輸出答案。
4. 如果需要生成代碼,模型將自主生成代碼。我們的訓練數據涵蓋了幾種類型的圖像操作,如裁剪、縮放、旋轉、對比度增強和計算。生成代碼后,交付給外部沙箱安全執行,其主要功能是安全地處理輸入代碼并返回執行結果,沙箱負責格式校驗、參數調整、錯誤修正等處理。
5. 最后,沙箱返回執行結果(圖像或數值),模型基于結果繼續推理,多輪交互直至輸出最終答案。

在這里作者強調了MLLM的外部沙盒需要做的一些事情,主要包括一些 自動糾錯機制,來盡量保證代碼的可用性
- 使用autopep8模塊格式化代碼,統一縮進和風格。
- 利用ast解析代碼變量,自動調整圖像裁剪坐標邊界,避免越界錯誤。
- 預置必要變量及模塊導入(如cv2、image_path),保證環境一致.
- 記錄代碼分段變量依賴,解決多段代碼執行時上下文丟失問題。
?
三、Thyme-SFT
?
訓練數據
?
?

圖 :SFT 數據構建流程
?
SFT主要構造了三類任務:
- 無需代碼直接答復:簡單問題直接回答,訓練模型判定是否需要代碼生成。
- 基于代碼的圖像操作和計算:包含裁剪、旋轉、對比度增強、數學計算等。
- 多輪交互數據:針對圖像操作失敗的錯誤修正、連續增強等多輪迭代任務。
?
對代碼生成樣本進行嚴格執行與語義審核,剔除不執行或執行結果錯誤的代碼片段,提高訓練樣本有效性。手工構建多輪對話數據,教會模型基于上一輪代碼執行結果調整策略,具備錯誤糾正能力。
?

圖 :SFT 數據實例的可視化
訓練策略
?

其中 t 表示樣本的最大交互輪數。
?
在訓練過程中,我們遇到了幾個挑戰。首先,由于兩輪對話數據的特殊性,出現了一些意想不到的模式:模型在第一輪傾向于生成錯誤或不充分的分析和代碼,然后在第二輪進行修正,使得第一輪基本上無效。第二個挑戰是數學數據相對于圖像處理數據的數量相對較少;在聯合訓練時,模型幾乎無法學習生成與計算相關的代碼。
?
使用了一些SFT策略保證多種功能能被成功激活:
- 強制模型僅學習輸出最終一輪的有效推理和代碼,早期輸出輪次內容被遮蔽,避免模型過度依賴第二輪糾正。
- 訓練時排除沙箱執行輸出標簽,防止模型直接模仿沙箱結果,提高推理過程質量。
- 對數學計算數據采用退火訓練策略:初始階段訓練圖像操作數據,再用較低學習率微調數學推理數據,避免數據不均衡問題。
四、Thyme-RL
最后,我們介紹了在 RL 階段實現的算法和架構創新。
?
數據構造
?

圖 :RL 數據實例的可視化
訓練策略 GRPO-ATS
?
格式化獎勵:模型輸出需要嚴格遵循特定結構,由標簽和標簽包圍。這鼓勵模型在生成最終答案前明確進行推理,提高可解釋性。采用on policy的GRPO。
?
獎勵函數包括:
- 結果獎勵:比較模型輸出與地面真值答案的匹配程度,確保模型輸出的正確性。
- 一致性獎勵:檢查推理過程是否與最終答案一致,以確保推理步驟的合理性。
- 格式獎勵:確保輸出符合嚴格的結構規范,增強推理過程的可解釋性。
?
適應性溫度采樣
?
溫度調整:對于代碼生成任務,如圖像處理和計算任務,使用低溫度(τ = 0)進行采樣,以確保代碼生成過程的準確性和一致性。對于推理過程,使用較高的溫度(τ = 1)來鼓勵模型探索更多的解決方案。
?
這一策略有效避免了模型在生成代碼時的過度多樣化問題,提高了代碼生成的穩定性,并使得推理過程更加靈活多樣。
?
采樣優化:
為了減少計算資源浪費,運用Rabin-Karp滾動哈希算法檢測過多重復內容;當重復子串長度超過輸出長度50%,立即判定為重復并提前終止當前軌跡采樣,有效避免資源浪費。
在訓練中還強制限制了最大對話輪次,避免模型陷入無意義的循環,從而提高了訓練效率。

圖 :GRPO-ATS 采樣流程
五、實驗效果
訓練基于32塊NVIDIA H800 GPU,強化學習階段耗時超1200 GPU小時。
?

感知,推理,通用任務全面提升
?
在多個基準任務上,Thyme表現出相較于其他多模態模型的優勢,尤其是在感知任務上,Thyme即使在與更大規模的模型Qwen-2.5-VL-32B對比時,也依然顯示出了顯著的優勢。這表明,僅僅通過增加模型的規模并不能有效解決感知任務中的挑戰,相反,Thyme在測試時的擴展策略對感知任務十分有效。
?
在推理任務中,通過將復雜的計算轉化為可執行代碼,Thyme在推理能力上取得了顯著的提升。然而,在這一領域,模型規模的擴展帶來的優勢更為顯著,表明推理和邏輯推理能力主要依賴于模型本身的知識量。
?
由于感知與推理能力的提升,Thyme在許多通用任務中取得了顯著的進展,尤其是在減少幻覺現象(hallucination)方面。
?
深入探討感知任務?

以MME-RealWorld為例,它包括許多現實場景中的高分辨率感知任務。表4展示了Thyme與基線模型在不同任務上的表現。可以看到,對于基線模型已表現良好的任務,如OCR、圖表和表格(準確率超過60%,甚至接近90%),Thyme的提升相對較小。然而,對于更困難的任務,如監控與自動駕駛,在這些任務上Qwen-2.5-VL-7B的感知能力較弱時,Thyme的感知和推理任務的提升超過了25%,尤其是在推理任務中,提升更為顯著。
?
【END】
?
?

















