OpenAI 開源模型被 Meta 研究員“逆改”!只動0.3%參數,gpt-oss-20B 解鎖無約束基座
僅僅兩周后,一位研究者就將這一模型“拆解重組”,推出了與官方版本迥異的變體。
康奈爾大學博士生、前Google Brain成員、現任Meta研究員的Jack Morris,公開了名為gpt-oss-20b-base的新版本。
圖片
他并沒有讓模型變得更聰明,而是剝離了OpenAI在訓練中添加的推理與對齊能力。
結果是,一個更快、更自由、更無約束的“原始基座模型”重新出現。
一、從“推理模型”到“基座模型”的逆轉
圖片
要理解這一變化,必須先區分“推理優化模型”和“基座模型”。
OpenAI發布的gpt-oss屬于前者,它經過額外的指令微調和對齊,使得模型在回答問題時更安全、更符合預期。
這種做法源自2024年推出的o1模型,強調鏈式思維,讓AI在生成答案前進行多步推理與自我檢查。它們在編程、數學和解釋類任務上表現優異,但往往會規避敏感話題。
相比之下,基座模型是未經對齊的原始形態,它只負責預測下一個詞,不具備禮貌、拒絕或安全過濾的機制。
圖片
Jack Morris的目標就是把gpt-oss-20B“逆轉”回這種原始形態。
他在X平臺寫道:“我們基本上逆轉了LLM訓練中的對齊部分,現在它重新生成自然文本,不再進行鏈式推理,只是像最初一樣預測下一個token。”
這種方式讓模型重新具備更廣闊的表達自由,但同時也帶來更大的安全風險。
二、技術路徑:60M參數的微小調整
Morris并沒有采用常見的“越獄提示詞”,而是直接從模型結構入手。
在與OpenAI前聯合創始人、現任Thinking Machines首席科學家John Schulman交流后,他確定了一個關鍵點:
如果大部分預訓練知識仍然存在,那么只需要一個低秩的小優化,就能讓模型回到基座分布。
圖片
他采用了LoRA(低秩適配器)技術,只在第7、15和23層的MLP模塊做了改動,秩設為16。
這一調整涉及大約6000萬參數,只占模型總量的0.3%。訓練數據來自FineWeb數據集的2萬篇文檔,訓練時盡量保持接近原始預訓練格式。
訓練過程耗時四天,硬件配置為8張NVIDIA H200 GPU,學習率2e-6,批大小16,最大序列長度8192。
完成后,他將LoRA權重合并回模型,形成一個可以獨立運行的成品。Morris強調,他并沒有恢復原始的權重參數,而是恢復了輸出分布。
換言之,他讓模型的輸出概率模式更接近基座形態,即使內部的權重并不完全相同。
圖片
三、自由與風險:研究者的兩難選擇
新模型gpt-oss-20b-base的行為與官方版本截然不同。它不再自動進行推理步驟,而是直接生成更自由的文本。
這意味著,它會輸出OpenAI原版模型拒絕生成的指令,例如涉及武器制作、非法行為或粗口內容。
在測試中,它甚至能夠逐字復現部分書籍片段,顯示出記憶性內容依然可被觸發。
不過,痕跡依然存在。如果在提示中使用“Human: … Assistant: …”的對話模板,它有時仍會表現出禮貌的助手風格。
為了獲得最“原始”的輸出,Morris建議使用模型的特殊起始符號<|startoftext|>,并避免任何聊天模板。
這也讓研究界看到另一面:開放權重不僅能被復用,還能被快速改造。
更值得注意的是,Morris還計劃將類似的逆轉方法應用到Qwen等其他開源指令模型上。
這意味著,“去對齊化”的趨勢可能繼續擴散,成為研究者和開發者探索的又一條分支道路。





































