OpenAI 開源了推理安全模型-gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b
OpenAI 開源了兩款用于危害分類的開源權重推理安全模型:gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b;這些模型接收開發者的策略文本和內容作為輸入,返回分類標簽和解釋說明,讓你可以用可審計的推理過程來執行自己的規則。
核心創新:這些模型將內容審核從固定分類器轉變為基于策略的推理。修改規則就像編輯策略文本一樣簡單,無需重新訓練、無需新數據集、無需新檢查點。

因為策略是輸入參數,你可以為不同產品、地區或年齡段切換不同策略,同一個模型就能遵循每一套規則。你還能獲得解釋說明,展示策略文本如何引導決策,這讓審計和申訴變得更容易。
輸出包含簡短的推理依據,說明策略文本如何得出決策結論,大大簡化了審查和申訴流程。
適用場景:這種方法在以下情況下表現出色:
- 風險是新出現的
- 訓練數據稀缺
- 領域內容復雜微妙
- 需要高質量可解釋的標簽而非最低延遲
例如,論壇可以使用自己的定義來標記作弊言論,評論網站可以用自己的標準篩查虛假評價,只需編輯策略文本,無需收集數千個標注樣本。
內部應用:在 OpenAI 內部,他們使用類似的工具叫 Safety Reasoner,通過強化學習微調來獎勵符合策略的判斷,讓模型學會從策略文本進行推理。
這種策略讓他們能快速更新生產環境中的安全規則,先從嚴格開始,然后根據實際情況放松或收緊,這個過程稱為迭代部署。
他們還報告稱,安全推理有時確實需要大量算力,在某些發布中,謹慎應用策略消耗了總算力的 16%。
實用架構模式:OpenAI 描述了他們內部技術棧的一個實用模式:先運行一個輕量廉價的分類器過濾明顯安全的內容,只將少量棘手的項目發送給重量級推理模型。
Safety Reasoner 現已成為圖像生成和 Sora 2 核心安全技術棧的一部分,逐步評估輸出并實時攔截不安全的生成內容。
同樣的分層檢查機制在 GPT-5 和 ChatGPT Agent 等系統中根據詳細分類法對輸出進行分類,讓平臺能針對特定風險類別定制響應。
圖片
性能表現:多策略準確率測試(單個輸入必須同時符合多個策略):
- gpt-oss-safeguard-120b: 46.3%
- gpt-oss-safeguard-20b: 43.6%
- 內部 Safety Reasoner: 52.2%
- gpt-5-thinking: 43.2%
這個指標很嚴格,只有模型在所有策略上都匹配黃金標簽才算準確,是一個強調一致性的高標準。
圖片
OpenAI 2022 審核數據集:
- 兩款 gpt-oss-safeguard 模型: F1 分數 82.9
- 內部 Safety Reasoner: F1 分數 82.8 開源權重模型表現相當。
ToxicChat 基準測試:
- gpt-oss-safeguard-120b 和 20b: F1 分數 79.3 和 79.9
- 內部 Safety Reasoner 和 gpt-5-thinking: F1 分數 81.3 和 81.0 緊湊的開源模型有競爭力,但在這個特定測試中不是頂尖。
技術特點與局限:這些模型是 OpenAI 開源模型的微調版本,可以融入現有的開源權重技術棧,適用于有數據駐留或離線控制需求的場景。
明確的局限性:
- 在困難類別上,使用數萬高質量標簽訓練的專用分類器仍可能優于基于策略的推理
- 存在成本權衡:推理比小型分類器需要更多時間和算力,因此分層管道是高流量平臺的實用模式
使用建議:對于開發者來說,選擇很直接:
- 使用 gpt-oss-safeguard: 當策略經常變化、需要解釋說明、標注數據稀缺時
- 使用專用分類器: 當你能承擔大規模標注工作并需要最后幾個百分點的準確率時
核心價值:總的來說,這里最強大的理念是策略即提示詞(policy-as-prompt)配合可見推理,它將安全規則與模型權重解耦,縮短了從策略變更到生產環境行為改變的周期。
如何使用 gpt-oss-safeguard:與 gpt-oss 系列模型一樣,這是一個開源模型,具有開放權重,你可以在本地運行或集成到自己的基礎設施中。它設計為與 harmony 響應格式配合使用。Harmony 是一種結構化提示詞接口,為 gpt-oss-safeguard 提供完整推理棧的訪問權限,并確保輸出一致且格式規范。
運行環境:gpt-oss 系列模型(包括 gpt-oss-safeguard)可以在以下服務器環境中運行:
- vLLM(適用于專用 GPU,如 NVIDIA H100):gpt-oss vLLM Usage Guide;https://docs.vllm.ai/projects/recipes/en/latest/OpenAI/GPT-OSS.html
- HuggingFace Transformers(適用于消費級 GPU):How to run gpt-oss locally with LM Studio;https://cookbook.openai.com/articles/gpt-oss/run-locally-lmstudio
- Google Colab:How to run gpt-oss-20b on Google Colab;
??https://cookbook.openai.com/articles/gpt-oss/run-colab??
也可以在本地運行:
- LM Studio:How to run gpt-oss locally with LM Studio;https://cookbook.openai.com/articles/gpt-oss/run-locally-lmstudio
- Ollama:How to run gpt-oss locally with Ollama;
??https://cookbook.openai.com/articles/gpt-oss/run-locally-ollama??
目標用戶:gpt-oss-safeguard 專為需要大規模實時上下文和自動化的用戶設計,包括:
- 機器學習/AI 工程師 - 從事信任與安全系統工作,需要靈活的內容審核
- 信任與安全工程師- 構建或改進審核、信任與安全或平臺完整性管道
- 技術項目經理- 監督內容安全計劃
- 開發者- 構建需要基于上下文和策略的內容審核的項目/應用
- 策略制定者- 定義組織可接受內容標準,希望測試策略界限、生成示例并評估內容
模型地址:https://huggingface.co/collections/openai/gpt-oss-safeguard
本文轉載自??AI帝國??,作者:無影寺

















