Gemini-3開發者指南,最智能模型家族的全面解析
谷歌剛剛發布了Gemini 3,這是迄今為止最智能的模型家族。
這個新系列建立在最先進的推理能力基礎之上,旨在通過掌握智能體工作流、自主編程和復雜的多模態任務,將任何想法變為現實。
本文將深入解析Gemini 3模型家族的核心特性,以及如何充分發揮其潛力。
認識Gemini 3
Gemini 3 Pro是這個新系列的首個模型。gemini-3-pro-preview最適合需要廣泛世界知識和跨模態高級推理的復雜任務。

在技術規格方面,Gemini 3 Pro支持100萬token的輸入上下文窗口和64k token的輸出,知識截止日期為2025年1月。
在定價方面,標準文本處理的價格為每100萬token輸入2美元,輸出12美元(小于20萬token時),超過20萬token時輸入為4美元,輸出為18美元。

需要注意的是,多模態輸入的費率可能會有所不同。
Gemini 3的新API特性
Gemini 3引入了新的參數,旨在讓開發者對延遲、成本和多模態保真度有更多控制。
這些新特性代表了AI模型API設計的重要進步。
思考級別(Thinking Level)
Gemini 3 Pro默認使用動態思考來推理提示。當不需要復雜推理時,你可以將模型的思考級別限制為低,以獲得更快、更低延遲的響應。
thinking_level參數控制模型在產生響應之前內部推理過程的最大深度。Gemini 3將這些級別視為思考的相對允許量,而不是嚴格的token保證。如果未指定thinking_level,Gemini 3 Pro將默認使用high級別。
? low:最小化延遲和成本。最適合簡單的指令遵循、聊天或高吞吐量應用
? medium:即將推出,在發布時暫不支持
? high(默認):最大化推理深度。模型可能需要更長時間才能產生第一個token,但輸出將經過更仔細的推理
重要提示:你不能在同一請求中同時使用thinking_level和舊的thinking_budget參數。這樣做會返回400錯誤。
媒體分辨率(Media Resolution)
Gemini 3通過media_resolution參數引入了對多模態視覺處理的細粒度控制。
更高的分辨率提高了模型讀取精細文本或識別小細節的能力,但會增加token使用量和延遲。media_resolution參數確定每個輸入圖像或視頻幀分配的最大token數。
你現在可以為每個單獨的媒體部分或全局(通過generation_config)設置分辨率為media_resolution_low、media_resolution_medium或media_resolution_high。(如果未指定,模型會根據媒體類型使用最佳默認值)
推薦設置如下:
? 圖像:推薦使用media_resolution_high(最大1120 tokens),適用于大多數圖像分析任務,確保最高質量
? PDF文檔:推薦使用media_resolution_medium(560 tokens),對于文檔理解來說是最優的,質量通常在medium級別就飽和了。提高到high很少能改善標準文檔的OCR結果
? 視頻(一般用途):推薦使用media_resolution_low或media_resolution_medium(每幀70 tokens)。注意:對于視頻,low和medium設置被視為相同(70 tokens)以優化上下文使用。這對于大多數動作識別和描述任務已經足夠
? 視頻(文本密集):需要使用media_resolution_high(每幀280 tokens),僅在用例涉及讀取密集文本(OCR)或視頻幀內的小細節時使用
溫度參數(Temperature)
對于Gemini 3,我們強烈建議將temperature參數保持在其默認值1.0。
雖然之前的模型通常通過調整temperature來控制創造力與確定性之間的平衡,但Gemini 3的推理能力針對默認設置進行了優化。
更改temperature(將其設置為低于1.0)可能導致意外行為,例如循環或性能下降,特別是在復雜的數學或推理任務中。
思考簽名(Thought Signatures)
Gemini 3使用思考簽名來維護跨API調用的推理上下文。這些簽名是模型內部思考過程的加密表示。為了確保模型保持其推理能力,你必須將收到的這些簽名完全按照原樣返回給模型。
在函數調用(嚴格驗證)場景中,API對"當前輪次"執行嚴格驗證。
缺少簽名將導致400錯誤。在文本/聊天場景中,驗證不是嚴格強制執行的,但省略簽名會降低模型的推理和答案質量。
好消息是,如果你使用官方SDK(Python、Node、Java)和標準聊天歷史記錄,思考簽名會自動處理。你不需要手動管理這些字段。
結構化輸出與工具結合
Gemini 3允許你將結構化輸出與內置工具結合使用,包括Google搜索的Grounding、URL上下文和代碼執行。這意味著你可以創建更強大、更靈活的AI應用,同時保持輸出的結構化格式。
從Gemini 2.5遷移
Gemini 3是我們迄今為止最強大的模型家族,相比Gemini 2.5 Pro提供了逐步改進。遷移時需要考慮以下幾點:
? 思考能力:如果你之前使用復雜的提示工程(如思維鏈)來強制Gemini 2.5進行推理,可以嘗試使用thinking_level: "high"和簡化的提示來使用Gemini 3
? 溫度設置:如果你現有的代碼明確設置了temperature(特別是為了確定性輸出而設置為低值),我們建議刪除此參數并使用Gemini 3的默認值1.0,以避免在復雜任務上出現潛在的循環問題或性能下降
? PDF和文檔理解:PDF的默認OCR分辨率已更改。如果你依賴特定行為進行密集文檔解析,請測試新的media_resolution_high設置以確保持續準確性
? Token消耗:遷移到Gemini 3 Pro默認值可能會增加PDF的token使用量,但會減少視頻的token使用量。如果由于更高的默認分辨率,請求現在超過上下文窗口,我們建議明確降低媒體分辨率
? 圖像分割:圖像分割功能(返回對象的像素級掩碼)在Gemini 3 Pro中不受支持。對于需要原生圖像分割的工作負載,我們建議繼續使用關閉思考功能的Gemini 2.5 Flash或Gemini Robotics-ER 1.5
提示工程最佳實踐
Gemini 3是一個推理模型,這改變了你應該如何提示它。
? 精確指令:在輸入提示中要簡潔。Gemini 3對直接、清晰的指令響應最好。它可能會過度分析用于舊模型的冗長或過于復雜的提示工程技術
? 輸出詳細程度:默認情況下,Gemini 3不那么冗長,更喜歡提供直接、高效的答案。如果你的用例需要更對話式或"健談"的角色,你必須在提示中明確引導模型(例如,"作為一個友好、健談的助手來解釋這一點")
? 上下文管理:在處理大型數據集(例如,整本書、代碼庫或長視頻)時,將你的具體指令或問題放在提示的末尾,在數據上下文之后。通過以"基于上述信息..."這樣的短語開始你的問題,將模型的推理錨定到提供的數據上
常見問題解答
Gemini 3 Pro的知識截止日期是什么?
Gemini 3的知識截止日期為2025年1月。對于更新的信息,請使用搜索Grounding工具。
上下文窗口限制是什么?
Gemini 3 Pro支持100萬token的輸入上下文窗口和最多64k token的輸出。
Gemini 3 Pro有免費層嗎?
你可以在Google AI Studio中免費試用該模型,但目前Gemini API中的gemini-3-pro-preview沒有免費層。
我舊的thinking_budget代碼還能用嗎?
是的,thinking_budget仍然支持向后兼容,但我們建議遷移到thinking_level以獲得更可預測的性能。不要在同一請求中使用兩者。
Gemini 3支持批量API嗎?
是的,Gemini 3支持批量API。
支持上下文緩存嗎?
是的,Gemini 3支持上下文緩存。啟動緩存所需的最小token數為2,048 tokens。
Gemini 3支持哪些工具?
Gemini 3支持Google搜索、文件搜索、代碼執行和URL上下文。它還支持標準函數調用用于你自己的自定義工具。請注意,Google Maps和Computer Use目前不受支持。
Gemini 3代表了AI模型開發的重要里程碑,其強大的推理能力、靈活的配置選項和豐富的工具支持,為開發者提供了前所未有的可能性。無論你是要構建智能體應用、進行復雜的代碼分析,還是處理多模態任務,Gemini 3都能為你提供強大的支持。

























