什么是混合專家模型——MoE(Mixture of Experts) 原創
“ 混合專家模型的核心思想就是在推理過程中,不要讓模型全部動起來,而是讓模型部分動起來。”
DeepSeek模型被發布時,很多人應該都知道其最大的優勢是大大降低了模型的成本問題,而且傳說DeepSeek的訓練成本才五百多萬美元;相對于之前的動輒上千萬美元的成本,可以說DeepSeek真的做到了讓大模型走進各行各業。
但是,雖然很多人都知道DeepSeek大大降低了模型的成本問題,但卻很少有人知道它是怎么降低成本的;而這也是我們今天要討論的問題——混合專家模型(MoE Mixture of Experts);因為混合專家模型架構的存在,才使得模型能夠被更多的人和行業使用。
MoE——混合專家模型
什么是混合專家模型——MoE?
對于大名鼎鼎的Transformer架構,很多人應該都知道,其核心組件是編碼器,解碼器和注意力機制;而MoE混合專家架構的核心就是——專家和門控網絡(路由機制)。
MoEs的根源可以追溯到1991年的論文《 Adaptive Mixture of Local Experts》。這個想法與集成方法類似,目的是為由不同子網絡組成的系統提供一種監督過程。每個單獨的網絡或專家都專門處理輸入空間的不同區域。那么如何選擇專家呢?一個門控網絡確定每個專家的權重。在訓練過程中,專家和門控都會被訓練。
MoE與傳統的編碼器解碼器架構的區別主要就是一個分而治之的思想,也可以說是根據職能劃分不同的專業顧問團隊。
在標準的Transformer架構中,每個token均通過單一的前饋神經網絡(FFN)進行處理;而MoE架構對這一處理流程進行了關鍵性修改,在前饋模塊內部,系統部署了多個獨立的網絡單元而非單一網絡,每個網絡單元維護獨立的權重參數,被稱為"專家"。

說了這么多肯定很多人都沒看懂,其實簡單來說就是之前的神經網絡架構,所有數據都是經過統一的處理流程,但很多時候我們可能并不需要這些統一的流程。
舉例來說,一個新員工入職,他只需要負責他的崗位內容即可,不需要去了解公司的財務,營銷,生產等所有環節,這樣做既費時又費力。而MoE架構就是讓專業的人做專業的事,因為對模型來說一次生成過程并不需要所有的參數都參與進來;因此,使用MoE架構之后,就可以給模型劃分多個不同的專家,然后在遇到具體問題時,只需要讓部分專家參與即可,這樣既省時又省力。
這種設計類似于專業顧問團隊,每個顧問具備特定的專業技能。MoE架構的兩個核心組件包括專家網絡(Experts)和路由機制(Router)。專家網絡是指每個FFN層現在包含一組可選擇的專家單元,這些專家通常本身就是FFN(前饋網絡)結構。路由器或門控網絡(gate network)負責決策哪些token分配給哪些專家處理。

MoE Transformer的構建方法
MoE架構通過將Transformer模塊中的特定前饋層替換為MoE層來實現。MoE層中的專家架構與標準前饋網絡相似,但在單個MoE層中部署多個專家單元。并非所有層都需要采用MoE設計。大多數模型采用步長參數P,僅在每P層中使用專家結構。這種交錯(interleaving)方法在獲得專家優勢的同時,避免了模型過度復雜化,實現了性能與復雜度的平衡。
本文轉載自??AI探索時代?? 作者:DFires

















