扔掉浮點數！1和-1組成的神經網絡，如何實現58倍加速？

FairyGirlhub

發布于 2025-9-18 07:33

瀏覽

0收藏

2016年，深度學習領域還在熱衷于構建越來越大的模型時，一篇名為《Binarized Neural Networks》的論文橫空出世。

提出了一個看似瘋狂的想法：將神經網絡中的權重和激活值全部壓縮到只有+1和-1兩種狀態。

扔掉浮點數！1和-1組成的神經網絡，如何實現58倍加速？-AI.x社區圖片

??論文地址：https://arxiv.org/pdf/1602.02830

這種“極致量化”的方法不僅讓模型大小縮小了32倍，還將耗電的浮點數乘法變成了高效的位運算。

今天，就讓我們一起解讀這項改變深度學習部署格局的里程碑工作。

1.為什么需要“二值化”？

深度學習遭遇資源瓶頸，大模型遇到大麻煩

在深入論文之前，我們首先需要理解為什么研究者要探索如此極端的技術路徑。

傳統神經網絡的資源瓶頸

一個典型的現代神經網絡可能包含數百萬甚至數十億個參數。

每個參數通常使用32位浮點數表示，每一次前向傳播都需要執行數百萬次浮點乘加運算。

扔掉浮點數！1和-1組成的神經網絡，如何實現58倍加速？-AI.x社區圖片

這種計算模式帶來三個核心問題：

巨大的存儲需求：像ResNet-50這樣的經典模型，權重文件就需要超過100MB的存儲空間
高計算能耗：浮點數乘法在硬件上是極其耗電的操作
內存帶寬瓶頸：在許多情況下，從內存中讀取數據比實際計算更加耗時和耗能

邊緣計算的崛起與挑戰

隨著物聯網和移動設備的發展，我們越來越需要在資源受限的環境（如手機、攝像頭、傳感器）中直接運行AI模型，而不是依賴云端計算。

扔掉浮點數！1和-1組成的神經網絡，如何實現58倍加速？-AI.x社區圖片

這一趨勢使得模型壓縮和加速技術成為推動AI在邊緣設備廣泛應用的關鍵因素。

"二值神經網絡"（Binarized Neural Networks, BNN）正是在這種背景下應運而生，它代表了模型壓縮技術的極致追求。

2.如何實現這種“極致量化”？

二值化神經網絡橫空出世，用1比特存儲權重

二值神經網絡的核心思想非常簡單粗暴：將傳統神經網絡中32位浮點數的權重和激活值全部約束為只有兩個值：+1或-1。

扔掉浮點數！1和-1組成的神經網絡，如何實現58倍加速？-AI.x社區圖片

在硬件實現上，這兩個值可以用單個比特表示（0表示+1，1表示-1），這意味著原本需要32位表示的數據現在只需要1位。

理論上的內存節省正好是32倍。理解BNN的一個好方法是將其與數字電子技術類比。

傳統神經網絡像是使用模擬信號（連續值），而BNN則像是使用數字信號（離散值）。

雖然數字信號損失了一些信息，但它具有抗噪聲能力強、易于處理和傳輸的優勢。

BNN看似簡單的概念背后，隱藏著精妙的技術設計。如何用二值化的參數和激活值來訓練和運行神經網絡，并保持一定的精度。

其主要方法可以概括為以下幾點：

二值化函數（Binarization Function）

首先，什么是二值化？簡單來說，就是通過一個符號函數（Sign Function）來處理數值：如果輸入大于等于0，輸出+1；否則輸出-1。

扔掉浮點數！1和-1組成的神經網絡，如何實現58倍加速？-AI.x社區圖片

但問題來了：這樣的二值化函數在反向傳播中幾乎不可導，梯度無法傳播，網絡無法訓練。這似乎是一個死結。

論文最精彩的部分就在于提出了直通估計器（Straight-Through Estimator, STE）這一巧妙的解決方案。

扔掉浮點數！1和-1組成的神經網絡，如何實現58倍加速？-AI.x社區圖片

在前向傳播（Forward）中，使用一個非常簡單的符號函數（Sign Function）來進行二值化：

扔掉浮點數！1和-1組成的神經網絡，如何實現58倍加速？-AI.x社區

在反向傳播（Backward）中，Sign函數的導數幾乎處處為0，這會導致梯度無法傳播。STE巧妙地繞開了這個問題，它使用一個飽和的Hard Tanh函數的梯度來作為Sign函數的近似梯度：

扔掉浮點數！1和-1組成的神經網絡，如何實現58倍加速？-AI.x社區

這使得梯度可以有效地反向傳播回全精度的權重（見下一點）。

訓練高精度的“隱變量”（Latent Weights）

這是BNN訓練的關鍵。BNNs在訓練過程中并不直接更新二值化的權重（Binarized Weights）。相反，它維護一個全精度（float32）的權重副本，稱為“隱權重”或“真實權重”。

在每次前向傳播時，將這個全精度權重二值化，得到，然后用去計算。

扔掉浮點數！1和-1組成的神經網絡，如何實現58倍加速？-AI.x社區圖片

在反向傳播時，梯度會通過STE更新到那個全精度的權重副本上。

這個全精度的權重積累了訓練過程中所有的微小梯度更新，包含了網絡學習到的知識，是訓練過程的“主力軍”。

這樣，既享受了二值化帶來的計算效率，又保證了訓練過程的穩定性和最終模型的精度。

二值化矩陣乘法與卷積的優化

BNN的真正威力體現在推理過程中。當權重和激活值都二值化后，最耗時的矩陣乘法和卷積操作可以被極大地簡化。

扔掉浮點數！1和-1組成的神經網絡，如何實現58倍加速？-AI.x社區圖片

傳統的乘加運算（MAC）被替換為位運算（XNOR）和位計數（Popcount）。

+1? 可以映射為比特0
-1? 可以映射為比特1

那么，兩個二值向量的點積 A · B? 就等價于：A XNOR B?，然后計算結果中 1 的位計數，最后再做一個簡單的線性變換。

由于XNOR和popcount操作在硬件上的速度極快、能耗極低，理論上可以獲得32倍的內存節省和58倍的運算加速（與float32相比）。

第一層與最后一層的處理

當然，BNN在實踐中也需要一些特殊處理，特別是在網絡的輸入層和輸出層。

對于輸入層，由于圖像的像素值通常是8位整數（0-255），不是二值的。直接二值化會帶來較大的信息損失。

因此，論文建議第一層的輸入保持為8位精度，只有第一層的權重是二值的。由于第一層計算量通常只占整個網絡的很小一部分，這對整體加速影響不大。

扔掉浮點數！1和-1組成的神經網絡，如何實現58倍加速？-AI.x社區圖片

而在輸出層中，最后一層通常產生用于分類的概率分布，也需要更高的精度。因此，最后一層的權重和激活也通常保持為高精度。

這種靈活的處理策略體現了論文作者的實用主義思想：在關鍵地方極端優化，在必要地方保持精度。

3.實驗結果與結論

精度與效率的平衡，在ImageNet上的表現

那么，BNN在實際數據集上的表現如何呢？

在MNIST、CIFAR-10、SVHN等中小型數據集上，BNN達到了與全精度網絡非常接近的精度，證明了方法的有效性。

扔掉浮點數！1和-1組成的神經網絡，如何實現58倍加速？-AI.x社區圖片

但在大型數據集ImageNet（使用AlexNet架構）上，BNN與全精度模型相比存在明顯的精度差距——Top-1準確率下降約10%以上。

這表明極端二值化確實會帶來一定的信息損失，在處理復雜問題時尤為明顯。

但這換來的是模型大小縮小約32倍，推理速度顯著加快，能耗大幅降低。

扔掉浮點數！1和-1組成的神經網絡，如何實現58倍加速？-AI.x社區圖片

對于很多場景，這種 trade-off 是完全值得的。

畢竟，讓AI模型能夠在資源受限的設備上運行，遠比追求那幾個百分點的精度提升更為重要。

結語

二值神經網絡的研究給我們帶來的不僅是具體的技術方案，更是一種思維方式的啟示：通過極致簡化挑戰復雜問題。

在AI模型越來越龐大、越來越復雜的今天，BNN代表了一種反向的思考方向：如何用最少的資源實現最大的價值。這種思維不僅在技術上具有重要意義，也符合可持續發展的大趨勢。

本文轉載自???Fairy Girl???，作者：Fairy Girl

標簽

神經網絡

浮點數

trade-off

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

扔掉浮點數！1和-1組成的神經網絡，如何實現58倍加速？

1.為什么需要“二值化”？

傳統神經網絡的資源瓶頸

邊緣計算的崛起與挑戰

2.如何實現這種“極致量化”？

二值化函數（Binarization Function）

訓練高精度的“隱變量”（Latent Weights）

二值化矩陣乘法與卷積的優化

第一層與最后一層的處理

3.實驗結果與結論

結語

目錄