精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

一文詳盡大型語言模型的四種量化技術

人工智能
大型語言模型(比如ChatGPT背后的技術)確實非常"龐大"——這不僅指它們的能力,更直接體現在它們的體積上。一個中等規模的模型就可能占用幾十GB的內存,相當于幾百部高清電影的大小。對于普通開發者、個人研究者或初創公司來說,這樣的資源需求無疑是一道難以跨越的門檻。

大型語言模型(比如ChatGPT背后的技術)確實非常"龐大"——這不僅指它們的能力,更直接體現在它們的體積上。一個中等規模的模型就可能占用幾十GB的內存,相當于幾百部高清電影的大小。對于普通開發者、個人研究者或初創公司來說,這樣的資源需求無疑是一道難以跨越的門檻。

為什么我們需要量化技術?

想象一下,你要搬運一座小山般的貨物。直接搬運整座山顯然不現實,但如果我們能把這些貨物精打細算地分裝到更小的箱子里,運輸就會變得可行。量化技術做的就是類似的工作——它通過降低數值精度來縮減模型體積,同時盡可能保留模型的核心能力。

這種技術帶來的好處顯而易見:

  • 內存占用更小:讓你的普通電腦也能運行大模型
  • 計算速度更快:響應更迅速,用戶體驗更好
  • 能耗更低:更環保,也節省成本
  • 部署門檻降低:讓更多開發者能接觸到大模型技術

量化技術全景圖

圖片圖片

不同的使用場景需要不同的量化策略,就像不同的旅行需要不同的行李箱:

  1. 訓練后量化(PTQ) - "即用型壓縮"
  • 特點:簡單快捷,像把現成的衣服壓縮打包
  • 優勢:幾分鐘就能完成,不需要重新訓練
  • 適用場景:當你需要快速部署模型時
  1. 量化感知訓練(QAT) - "量身定制的精簡"
  • 特點:在訓練過程中就考慮量化需求
  • 優勢:保持更高準確度
  • 適用場景:當模型精度至關重要時
  1. 4位量化微調 - "極限壓縮"
  • 特點:將參數壓縮到極致(每個參數僅用4位表示)
  • 優勢:內存占用極小
  • 適用場景:在手機等內存有限的設備上運行
  1. 混合精度 - "智能分配"
  • 特點:不同部分使用不同精度
  • 優勢:平衡速度和精度
  • 適用場景:需要兼顧多方面需求時

量化是如何工作的?

本質上,量化就是將模型中的高精度數字(通常是32位浮點數)轉換為低精度表示(如8位或4位整數)。這就像把精細的手繪地圖簡化為簡明的示意圖——雖然丟失了一些細節,但關鍵信息都得以保留。

一個形象的比喻是:量化就像把高清照片轉換為更小的文件格式。我們通過各種巧妙的算法,確保在縮小文件大小的同時,照片中的關鍵內容仍然清晰可辨。

隨著技術的進步,量化已經能讓大模型在體積縮小4倍甚至更多的情況下,性能損失控制在可接受范圍內。這使得在普通筆記本電腦甚至手機上運行強大的語言模型成為可能,大大降低了AI技術的使用門檻。。

先談成本:量化如何幫你省錢

在部署大型語言模型(LLM)時,持續的使用費用(主要是推理成本)往往是用戶最關心的實際問題。讓我們以130億參數的LLaMA 2模型為例,看看量化能帶來多大的經濟效益:

存儲空間對比

  • 全精度版本(FP16):約26GB
  • 4位量化版本:僅約7GB

這個數字意味著什么?量化后的模型大小只有原來的1/4!就像把一輛大卡車換成了一輛小轎車,不僅停車位更好找,油耗也大幅降低。

運營成本節省

在實際運營中,這種體積的縮減會直接反映在成本上:

  • 硬件需求降低:不再需要頂級GPU,中端顯卡就能勝任
  • 能耗減少:電費賬單顯著下降
  • 吞吐量提升:同樣的硬件可以服務更多用戶

具體來說,如果FP16版本的LLaMA 2-13B每天運營成本是1,000美元,那么4位量化版本的成本可以降到250-400美元/天,相當于節省了60-75%的費用!這種級別的成本削減,對于創業公司或個人開發者來說,可能就是項目可行與否的關鍵因素。

技術基礎:從比特說起

在深入量化技術之前,我們需要了解一些基礎知識:

計算機的最小單位:比特(bit)

  • 1個比特就是1個二進制位,只能是0或1
  • 8個比特組成1個字節(Byte)
  • 1個字節可以表示256種不同的狀態(2?=256)

舉個生活中的例子:ASCII編碼中的大寫字母"A",在計算機中就是用01000001這8個比特(1個字節)存儲的。

存儲單位進階

我們常見的存儲單位都是基于字節的:

  • 1 KB(千字節)= 1,024 字節
  • 1 MB(兆字節)= 1,024 KB
  • 1 GB(千兆字節)= 1,024 MB
  • 1 TB(太字節)= 1,024 GB

浮點數的精度

大型語言模型處理的主要是浮點數,常見的精度有:

  • FP64:雙精度浮點(64位/8字節)
  • FP32:單精度浮點(32位/4字節)← 最常用
  • FP16:半精度浮點(16位/2字節)

想象一下,FP32就像一個能顯示6位小數的高級計算器,而FP16則像只能顯示3位小數的普通計算器。雖然精度降低了,但在很多情況下已經足夠使用,而且計算速度更快、占用空間更小。

理解這些基礎概念后,我們就能更好地把握量化技術的核心思想:如何在保證模型性能的前提下,用更少的比特數來表示這些數字。就像用簡筆畫代替精細素描,既要抓住主要特征,又要保持可識別性。

圖(2):FP32 和 FP16圖(2):FP32 和 FP16

我們深入研究一下“指數”和“尾數”是什么。你知道所有數字都是先用科學計數法表示,然后再轉換為二進制嗎?圖(3)是科學計數法,其中m稱為尾數,e是指數。

圖(3):科學計數法圖(3):科學計數法

采用科學計數法,圖(2)分為三部分。對于 FP32:

  • 第一位為數字的符號。0表示正數1,負數。
  • 接下來的 8 位代表指數
  • 接下來的23位代表尾數

我們展示一下π (pi ≈ 3.141592653589793)以 FP64FP32FP16形式存儲時的樣子。

import struct
import math
import numpy as np

# 獲取圓周率的值
pi = math.pi

# 將浮點數打包成二進制
packed64 = struct.pack('>d', pi) # 'd' = double-precision float (fp64)
packed32 = struct.pack('>f', pi) # single-precision float (fp32)

# 轉換為 0 和 1 的二進制字符串
binary64 = ''.join(f'{byte:08b}' for byte in packed64)
binary32 = ''.join(f'{byte:08b}' for byte in packed32)
binary16 = np.binary_repr(np.float16(pi).view(np.int16), width=16)

print(f"Value of π: {pi}")
pi_fp64 = np.float64(np.pi)
pi_fp32 = np.float32(np.pi)
pi_fp16 = np.float16(np.pi)
print(f"FP64: {pi_fp64:.20f}")
print(f"FP32: {pi_fp32:.20f}")
print(f"FP16: {pi_fp16:.20f}")
print(f"Binary (fp64) representation: {binary64}")
print(f"Binary (fp32) representation: {binary32}")
print(f"Binary (fp16) representation: {binary16}")

我們可以得到以下結果。這么多的bits,你是不是被驚艷到了呢?

Value of π: 3.141592653589793
FP64: 3.14159265358979311600
FP32: 3.14159274101257324219
FP16: 3.14062500000000000000
Binary (fp64) representation: 0100000000001001001000011111101101010100010001000010110100011000
Binary (fp32) representation: 01000000010010010000111111011011
Binary (fp16) representation: 0100001001001000

輸出告訴我們:

  • FP64的精度約為15 到 16 位十進制數字
  • FP32 的精度約為7 位小數。這是 ML 的默認值。
  • FP16 的精度為3 至 4 位小數

LLM 的大小會一點一點地增長。例如,具有 130 億個參數的 LLaMA 2 在完全 FP16 精度下占用約 26 GB。因此,關鍵思想是:如果您可以減少所需的位數,則可以減少 LLM 的大小。

然后我們考慮整數(INT)表示。圖(4)顯示FP32需要32位來表示值30.2。而INT8將30.2四舍五入為30,可以用8位表示。INT4將30.2的上限設為7,因為INT4只能表示-8到7。但INT4僅需4位。如果我們可以將參數從FP16轉換為INT8或INT4,我們可以大大減少LLM的大小。

圖(4):FP和INT表示圖(4):FP和INT表示

所有量化技術都是從 FP32 或 FP16 轉換為 INT8 或 INT4 的變體。

從廣泛使用的量化——PTQ開始。

技術 1:訓練后量化(PTQ):大模型的"瘦身術"

訓練后量化(Post-Training Quantization, PTQ)是目前應用最廣泛的量化技術,就像給已經訓練好的模型做"瘦身手術"。它的最大優勢是簡單高效——不需要重新訓練模型,幾分鐘內就能完成量化,即使是擁有數千億參數的巨型模型也能輕松應對。

PTQ工作原理詳解

我們用一個具體的例子,一步步拆解PTQ的量化過程:

假設一個LLM在FP表示中的權重矩陣W如圖(5)所示:

圖(5):FP 表示中的假設權重矩陣圖(5):FP 表示中的假設權重矩陣

第一步:按列量化

PTQ會對每一列獨立進行量化處理。我們以第一列[1.5, -1.2, 2.0]為例:

  1. 確定范圍:找出最小值(-1.2)和最大值(2.0)
  2. 計算縮放因子
  • INT4的范圍是-8到7(共16個可能值)
  • 縮放因子 = (最大值 - 最小值) / (量化范圍) = (2.0 - (-1.2)) / (7 - (-8)) ≈ 0.21
  1. 量化轉換
  • 1.5 / 0.21 ≈ 7.14 → 截斷為7
  • -1.2 / 0.21 ≈ -5.71 → 舍入為-6
  • 2.0 / 0.21 ≈ 9.52 → 但INT4最大值是7,所以截斷為7

最終得到量化后的第一列:[7, -6, 7]

圖(6):訓練后量化過程圖(6):訓練后量化過程

我們將第 2 列從 FP 量化為 INT4。

  • 步驟 1:第 2 列的值為 [-0.9, 0.4, -2.4]
  • 步驟 2:最小值為 ?2.4,最大值為 0.4
  • 步驟 3:獲取縮放因子:(0.4 ? (?2.4)) / (7 ? (?8)) = 2.8 / 15 ≈ 0.18
  • 步驟 4:將第 1 列中的值除以比例因子 0.21。
  • 步驟 5:結果為 [-5, 2, -13]。但是等一下!4 位范圍僅為 ?8 到 7,因此我們將 -13限制為 -8。結果為 [-5, 2, -8]。

我們將第 3 列從 FP 量化為 INT4。

  • 步驟 1:第 3 列的值為 [2.1, 0.0, 1.8]
  • 步驟 2:最小值為 0.0,最大值為 2.1
  • 步驟 3:獲取縮放因子:(2.1 ? 0.0) / (7 ? (?8)) = 2.1 / 15 = 0.14
  • 步驟 4:將第 1 列中的值除以比例因子 0.21。
  • 步驟 5:結果為 [15, 0, 13]。但是等一下!4 位范圍只有 -8 到 7,因此我們將 15截斷為 7,將 13 截斷為 7。結果為 [7, 0, 7]。

量化后的LLM僅存儲量化的整數和比例,如圖(7)所示。

圖(7):存儲在量化的LLM中圖(7):存儲在量化的LLM中

現在討論如何使用(推理)這個量化的 LLM。在推理過程中,模型需要全精度形式的權重才能進行正確的矩陣乘法和激活。因此,在將量化權重加載到內存后,需要將它們反量化回浮點表示以進行計算。

運行時去量化

圖(8):去量化過程圖(8):去量化過程

如果將恢復后的矩陣與原始矩陣進行比較(如圖 (9) 所示),您會發現恢復后的矩陣很接近,但并不完全一致。錯誤來自舍入截斷(超過 4 位限制時)。

圖(9):量化誤差圖(9):量化誤差

誤差分析與優化

PTQ的主要誤差來源:

  1. 舍入誤差:浮點到整數的轉換
  2. 截斷誤差:超出表示范圍的值被截斷

為了減小誤差,研究者開發了更先進的PTQ技術,其中最著名的是GPTQ

  • 不是單獨量化每一列,而是將連續的列組成塊一起量化
  • 量化完一列后,會更新剩余矩陣來補償當前列的量化誤差
  • 顯著降低了整體誤差,被廣泛應用于LLaMA等主流模型

PTQ的優勢與局限

? 優勢

  • 速度快,幾分鐘完成量化
  • 內存占用大幅降低(FP32→INT4可減少75%)
  • 無需重新訓練,保留原始模型知識

?? 局限

  • 精度損失相對較大
  • 對異常值敏感(極端大或小的權重值)
  • 可能需要校準數據來優化量化參數

PTQ就像給模型做"快速減肥",雖然可能會損失一點"體力"(精度),但換來了更靈活的身手(部署便利性)。對于大多數應用場景來說,這種權衡是非常值得的。

技術 2:量化感知訓練(QAT):讓模型學會"適應精簡"

當我們需要將模型壓縮到極低精度(如INT4)時,普通的訓練后量化(PTQ)可能會導致性能大幅下降。這時就需要**量化感知訓練(Quantization-Aware Training, QAT)**——這種方法就像在模特正式登臺前,先讓ta穿著精簡版服裝進行排練,從而更好地適應最終舞臺效果。

QAT核心原理

QAT的精妙之處在于它在訓練過程中就引入了"模擬量化"環節:

  1. 前向傳播時,權重和激活會被臨時量化為低精度(如INT4)
  2. 立即反量化回高精度(FP32/FP16)繼續計算
  3. 反向傳播時,使用高精度梯度更新權重

這種"假量化"操作讓模型在整個訓練過程中都能感知到量化帶來的影響,從而自主調整權重分布,最小化最終的量化誤差。

圖:QAT中的假量化操作(量化→反量化)圖:QAT中的假量化操作(量化→反量化)

PyTorch實現示例

以下是使用PyTorch實現QAT的典型代碼流程:

import torch
import torch.quantization

# 1. 定義原始模型
model = torch.nn.Sequential(
    torch.nn.Linear(10, 20),
    torch.nn.ReLU(),
    torch.nn.Linear(20, 10),
    torch.nn.ReLU(),
    torch.nn.Linear(10, 5)
)

# 2. 準備QAT配置
model.qconfig = torch.quantization.get_default_qat_qconfig('fbgemm')

# 3. 插入假量化節點
qat_model = torch.quantization.prepare_qat(model.train())

# 4. 正常訓練流程
optimizer = torch.optim.Adam(qat_model.parameters())
for epoch in range(10):
    for data, target in train_loader:
        optimizer.zero_grad()
        output = qat_model(data)
        loss = torch.nn.MSELoss()(output, target)
        loss.backward()
        optimizer.step()

# 5. 轉換為最終量化模型
quantized_model = torch.quantization.convert(qat_model.eval())

QAT技術優勢

? 更高精度:相比PTQ,QAT在低比特量化時能保持更好性能? 異常值魯棒:模型自動學習適應量化范圍的權重分布? 移動端友好:特別適合手機、IoT等資源受限設備

QAT的適用場景

  1. 對精度要求苛刻的應用(如醫療診斷)
  2. 需要極低比特量化(如INT4/INT2)的情況
  3. 模型架構復雜,PTQ導致顯著性能下降時

前沿進展

最新研究如LLM-QAT(Chen et al., 2024)將QAT成功應用于大語言模型,通過:

  • 分層敏感度分析,動態調整各層量化策略
  • 引入可學習縮放因子(Learnable Scaling Factors)
  • 混合精度QAT,關鍵層保持較高精度

研究顯示,在LLaMA-7B上應用QAT后,INT4量化模型的準確度可比PTQ提升15-20%

QAT就像給模型上的"量化預備課",雖然訓練時間稍長,但能讓模型在最終部署時表現更加出色。當PTQ無法滿足精度要求時,QAT是最佳的升級選擇。

技術 3:4位量化微調:極限壓縮與智能恢復的藝術

當模型需要部署在極度資源受限的環境時,4位量化(INT4)就像給模型做"極限瘦身手術"——將每個參數壓縮到僅用4位表示(僅有16種可能的取值)。這種激進壓縮雖然節省了75%的內存,但也面臨嚴峻的精度挑戰。這時候,量化后微調就成為了關鍵的"康復訓練"過程。

4位量化的雙重挑戰

  1. 表示范圍極端受限:-8到7的整數范圍難以精確表達神經網絡豐富的權重分布
  2. 累積誤差顯著:連續的矩陣運算會使量化誤差不斷放大

圖:4位量化與微調的協同工作流程圖:4位量化與微調的協同工作流程

QLoRA:4位量化的救星

當前最先進的解決方案是QLoRA(Quantized Low-Rank Adaptation),它巧妙結合了:

  1. 4位基礎量化:使用bitsandbytes庫實現高效壓縮
  2. 低秩適配器:僅微調少量關鍵參數來恢復性能
  3. 雙重量化:對量化參數本身再進行壓縮
from transformers import AutoModelForCausalLM
from peft import LoraConfig, get_peft_model
import torch
import bitsandbytes as bnb

# 加載預訓練模型并應用4位量化
model = AutoModelForCausalLM.from_pretrained(
    "big-model",
    load_in_4bit=True,
    quantization_cnotallow=bnb.Config(
        load_in_4bit=True,
        bnb_4bit_compute_dtype=torch.float16,  # 使用FP16加速計算
        bnb_4bit_use_double_quant=True         # 啟用雙重量化
    )
)

# 配置LoRA微調策略
lora_config = LoraConfig(
    r=8,                      # 低秩矩陣的秩
    lora_alpha=32,            # 縮放因子
    target_modules=["q_proj", "v_proj"],  # 僅微調注意力層的部分參數
    lora_dropout=0.1          # 防止過擬合
)

# 應用QLoRA微調
model = get_peft_model(model, lora_config)

關鍵技術解析

  1. **雙重量化(Double Quantization)**:
  • 對4位量化使用的縮放因子(scale factors)再進行8位量化
  • 額外節省約0.5bit/參數的內存
  1. **分塊量化(Block-wise Quantization)**:
  • 將矩陣分成64個參數的小塊獨立量化
  • 顯著減少異常值的影響
  1. Paged優化器
  • 類似虛擬內存的分頁機制
  • 防止GPU內存溢出錯誤

實際效益對比

指標

FP16原始模型

4位PTQ

4位QLoRA

內存占用

26GB

7GB

7.2GB

推理速度

1x

3.2x

3.1x

任務準確率

100%

72%

95%

研究顯示(Li et al., 2023),在LLaMA-13B上應用QLoRA后,4位量化的性能損失可從28%降至不足5%

適用場景建議

? 推薦場景

  • 需要在消費級GPU(如RTX 3090)上運行大模型
  • 邊緣設備部署(如嵌入式系統)
  • 多模型并行的服務場景

?? 注意事項

  • 微調數據需與目標領域相關
  • 建議batch size不宜過大
  • 需要監控梯度更新幅度

這種"先壓縮后修復"的策略,就像先將油畫拍成數碼照片,再通過專業修圖恢復細節。雖然無法100%還原原作,但在大多數應用場景下已經足夠出色,同時獲得了前所未有的部署便利性。

技術 4:混合精度量化:AI模型的"智能節能模式"**

混合精度量化就像給模型裝上"智能調節器",讓不同部件自動選擇合適的精度檔位——關鍵部分保持高清畫質,次要部分則切換為節能模式。這種動態調整策略在保持模型性能的同時,實現了最優的資源利用。

混合精度的核心思想

  1. 分層精度分配
  • 輸入/輸出層:FP16(保持接口精度)
  • 注意力機制:INT8(平衡計算效率)
  • 前饋網絡:INT4(最大化壓縮率)
  1. 動態調整機制
  • 通過敏感度分析自動識別關鍵層
  • 根據硬件特性優化精度組合
  • 支持訓練中和部署后兩種應用場景

圖:神經網絡各層采用不同量化精度(FP16/INT8/INT4)圖:神經網絡各層采用不同量化精度(FP16/INT8/INT4)


技術實現三部曲

1. 敏感度分析(確定各層重要性)

from torch.quantization import get_sensitivity_map

# 在驗證集上測試各層對量化的敏感度
sensitivity_map = get_sensitivity_map(
    model, 
    val_loader, 
    num_batches=10
)

2. 精度分配策略

# 自定義量化配置(示例)
qconfig_dict = {
    "object_type": [
        (nn.Linear, {"dtype": torch.int8}),  # 默認配置
        (AttentionLayer, {"dtype": torch.float16}),  # 注意力層保持高精度
        (nn.LayerNorm, {"dtype": torch.float32})  # 歸一化層最高精度
    ],
    "module_name": [
        ("output", {"dtype": torch.float16})  # 輸出層特殊處理
    ]
}

3. 混合精度轉換

from torch.ao.quantization import quantize_fx

# 應用混合精度量化
quantized_model = quantize_fx.prepare_fx(
    model, 
    qconfig_dict, 
    example_inputs
)

硬件協同優化

現代加速器對混合精度有專門優化:

  • NVIDIA Tensor Core:自動加速FP16/INT8混合計算
  • Google TPU:支持bfloat16與INT4混合執行
  • 移動端芯片:如高通Hexagon支持分層精度分配

實際應用效果對比

方案

內存占用

推理延遲

準確率

全FP16

100%

100%

100%

全INT8

50%

65%

98.2%

混合精度

60%

70%

99.7%

研究顯示(Jacob et al., 2018),在ResNet-50上應用混合精度,既能保持99%的原始準確率,又能獲得1.8倍加速

部署建議

? 推薦場景

  • 異構計算平臺(CPU+GPU/TPU)
  • 實時性要求高的應用(如自動駕駛)
  • 多模型聯合服務場景

?? 注意事項

  • 需要目標硬件的量化支持驗證
  • 建議使用自動化調優工具(如NNCF)
  • 注意各精度間的類型轉換開銷

混合精度量化就像交響樂團的音量調節——小提琴保持清晰高音,大鼓發出低沉共鳴,各司其職又和諧統一。這種智能的資源分配方式,正在成為工業界部署AI模型的新標準。

寫在最后:量化的藝術與科學

在大模型時代,量化技術已經成為AI工程師的必備技能,就像攝影師必須掌握光線調節一樣重要。通過這篇文章,我們共同探索了四種核心量化方法,每種方法都像不同的"鏡頭濾鏡",為模型部署提供獨特的優勢視角:

量化技術全景圖

技術

適用場景

優勢

代價

訓練后量化(PTQ)

快速原型開發 臨時部署

即時生效 零訓練成本

精度損失較大

量化感知訓練(QAT)

高精度需求 醫療/金融場景

保持95%+原模型精度

需要重新訓練

4位量化微調

邊緣設備 移動端應用

75%內存節省 QLoRA恢復性能

微調數據依賴

混合精度

異構計算平臺 實時系統

智能資源分配 硬件友好

配置復雜度高

實用選擇指南

  1. 緊急上線? → PTQ是你的"急救包"
  2. 追求完美? → QAT是精度控的"定制西裝"
  3. 內存告急? → 4位量化+LoRA像"壓縮餅干"
  4. 硬件多樣? → 混合精度扮演"智能管家"

正如NVIDIA首席科學家Bill Dally所言:"未來三年,模型壓縮技術將比硬件進步帶來更大的效率提升。"

量化技術仍在飛速演進,三個前沿方向值得關注:

  • 1-bit量化:微軟BitNet等研究已實現二值化LLM
  • 動態量化:運行時自動調整精度級別
  • 神經架構搜索(NAS)+量化:協同優化模型結構與量化策略

記住,沒有放之四海皆準的量化方案。就像選擇合適的交通工具——短途用自行車,跨洋用飛機,關鍵是根據你的目的地(應用場景)、行李規模(模型大小)和時間預算(開發周期)做出明智選擇。愿這些量化技術成為你AI工程工具箱中的得力助手!

參考

  • (QPTQ) Frantar, E.、Passos, A. 和 Alistarh, D. (2022)。GPTQ :生成式預訓練 Transformer 的精確訓練后量化。arXiv 預印本 arXiv:2210.17323。https ://arxiv.org/abs/2210.17323
  • (PTQ) 姚哲偉、Reza Yazdani Aminabadi、張敏嘉、吳曉霞、李從龍和何宇雄。(2022)。ZeroQuant:針對大型 Transformer 的高效且經濟實惠的訓練后量化。https://arxiv.org/abs/2206.01861
  • (PTQ) Jinjie Zhang、Yixuan Zhou 和 Rayan Saab。(2023 年)。具有可證明保證的神經網絡訓練后量化。https ://arxiv.org/abs/2201.11113
  • (PTQ) Guangxuan Xiao、Ji Lin、Mickael Seznec、Hao Wu、Julien Demouth 和 Song Han。(2024 年)。SmoothQuant:適用于大型語言模型的準確高效的訓練后量化。https ://arxiv.org/abs/2211.10438
  • (混合) Benoit Jacob、Skirmantas Kligys、Bo Chen、Menglong Zhu、Matthew Tang、Andrew Howard、Hartwig Adam 和 Dmitry Kalenichenko。(2017 年)。用于高效整數算術推理的神經網絡量化和訓練。https ://arxiv.org/abs/1712.05877
  • (混合) Song Han、Huizi Mao 和 William J. Dally。(2016 年)。深度壓縮:使用剪枝、訓練量化和霍夫曼編碼壓縮深度神經網絡。https ://arxiv.org/abs/1510.00149
  • (QAT) 陳孟照、邵文琪、徐鵬、王家豪、高鵬、張凱鵬和羅平。(2024)。EfficientQAT:大型語言模型的高效量化感知訓練。https://arxiv.org/abs/2407.11062
  • (QAT) Saleh Ashkboos、Bram Verhoef、Torsten Hoefler、Evangelos Eleftheriou 和 Martino Dazzi。(2024 年)。EfQAT:一種高效的量化感知訓練框架。https ://arxiv.org/abs/2411.11038
  • (QAT) Xie Huang、Zechun Liu、Shih-Yang Liu 和 Kwang-Ting Cheng。(2024)。通過自適應核心集選擇進行高效且強大的量化感知訓練。https://arxiv.org/abs/2306.07215
  • (4BitQ) Jeonghoon Kim、Jung Hyun Lee、Sungdong Kim、Joonsuk Park、Kang Min Yoo、Se Jung Kwon 和 Dongsoo Lee。(2023)。通過 4 位以下整數量化實現壓縮大型語言模型的內存高效微調。https ://arxiv.org/abs/2305.14152
  • (4BitQ) 李一曉、于一凡、陳亮、何鵬程、Nikos Karampatziakis、陳偉竹和趙拓。(2023)。LoftQ:大型語言模型的 LoRA 微調感知量化。https://arxiv.org/abs/2310.08659
責任編輯:武曉燕 來源: 數據STUDIO
相關推薦

2024-11-05 14:00:56

2024-03-20 10:31:27

2019-03-26 19:00:02

神經網絡AI人工智能

2023-11-13 18:18:28

2024-10-09 23:27:08

語言模型LLM機器學習

2022-07-19 15:24:45

Python編程技術

2024-08-05 14:36:17

大型語言模型量化

2024-12-31 10:36:40

AIAgent場景

2019-04-13 15:23:48

網絡模型虛擬機

2022-07-26 00:00:03

語言模型人工智能

2025-03-31 08:50:00

模型量化神經網絡AI

2022-07-04 12:07:57

智慧城市智能建筑物聯網

2024-09-04 16:19:06

語言模型統計語言模型

2022-01-05 08:30:31

BIONIO AIO

2025-05-09 09:00:00

模型融合人工智能神經網絡

2024-05-16 11:34:55

2015-05-08 12:24:10

惡意軟件逃避技術

2022-06-14 13:55:30

模型訓練網絡

2015-11-06 13:27:39

2019-05-17 08:29:54

負載均衡HTTP反向代理
點贊
收藏

51CTO技術棧公眾號

cao在线视频| 亚洲精品一区二区三区新线路| 欧美在线电影| 91精品久久久久久久久99蜜臂| 男人添女荫道口女人有什么感觉| 亚洲三级黄色片| 捆绑紧缚一区二区三区视频| 久久99国产综合精品女同| 精品无码在线视频| www.久久久.com| 精品福利一区二区| www.午夜色| 亚洲欧洲精品视频| 国产一区二区三区四区五区美女| 欧美亚洲视频在线看网址| 国产精品1区2区3区4区| 国产精品久久久久av蜜臀| 欧美日韩一区二区三区四区| 日本午夜激情视频| 黄色免费网站在线观看| 久久久久久久久久看片| 成人资源av| 91tv国产成人福利| 美女网站久久| 午夜精品一区二区三区在线播放| 日本伦理一区二区三区| 香蕉久久夜色精品国产更新时间| 欧美一二三在线| 另类小说色综合| 欧美日韩国产观看视频| 一区二区在线观看视频| 亚洲精品一区二| 男同在线观看| av不卡免费在线观看| 亚洲最大av在线| 亚洲综合一区中| 日韩福利电影在线| 茄子视频成人在线| 五月天婷婷丁香| 欧美福利网址| 久青草国产97香蕉在线视频| 林心如三级全黄裸体| 国产亚洲一卡2卡3卡4卡新区| 亚洲成人久久一区| 性猛交╳xxx乱大交| **日韩最新| 欧美精品久久99久久在免费线| 粉嫩虎白女毛片人体| 神马久久资源| 日韩欧美一区二区三区| 欧洲黄色一级视频| 亚洲性受xxx喷奶水| 欧美午夜影院在线视频| 免费毛片小视频| 韩国美女久久| 91成人在线免费观看| 一本久道中文无码字幕av| 性欧美1819sex性高清| 在线影院国内精品| jizzzz日本| av在线精品| 91精品福利在线一区二区三区| 激情在线观看视频| 9999精品视频| 欧美不卡在线视频| 美女扒开腿免费视频| 久久精品论坛| 亚洲精品永久免费精品| 国产美女免费网站| 欧美激情黄色片| 美女av一区二区| 欧美一级高潮片| 午夜亚洲影视| 国产精品一区二区电影| 国产乱色精品成人免费视频| 国产精品1024久久| 九色91国产| 国产大片在线免费观看| 日韩毛片一二三区| 91动漫在线看| 91精品xxx在线观看| 欧美日韩黄视频| 色婷婷狠狠18禁久久| 日韩a级大片| 中文字幕久热精品视频在线| www.av成人| 亚洲国产三级| 国产精品视频午夜| 好吊视频一区二区三区| 国产欧美日韩亚州综合| 国风产精品一区二区| 中文字幕在线直播| 欧美精品一二三区| 黄色免费视频网站| 日本不卡电影| 久久久免费电影| 国产成人av免费| 成人免费精品视频| 婷婷四房综合激情五月| 国产精品探花在线| 欧美在线视频你懂得| 在线观看成人动漫| 97色伦图片97综合影院| 91黑丝高跟在线| 一级全黄少妇性色生活片| 不卡免费追剧大全电视剧网站| 亚洲精品国产精品国自产观看 | 国产91高潮流白浆在线麻豆 | 日韩av成人| 亚洲欧洲精品一区二区三区| 鲁一鲁一鲁一鲁一澡| 欧美不卡在线观看| 一区二区日韩精品| 欧美bbbbbbbbbbbb精品| 国产精品一卡二卡| 日韩一区国产在线观看| 国产在线精彩视频| 日韩一区二区三区av| 国产伦理片在线观看| 激情一区二区| 2020国产精品久久精品不卡| 最新97超碰在线| 日韩欧美一区二区三区| 性色av蜜臀av浪潮av老女人| 亚洲男女av一区二区| 国产精品一区二区三区免费视频 | www国产精品视频| 亚洲成人第一网站| 成人美女在线观看| 黑人巨茎大战欧美白妇| 久久久加勒比| 国产一区二区三区精品久久久| 国产午夜视频在线播放| 国产激情一区二区三区| 中文字幕精品一区日韩| 欧美国产日韩电影| 亚洲人成电影在线| 久久人妻免费视频| 99精品视频中文字幕| 丰满的少妇愉情hd高清果冻传媒 | 欧美电影精品一区二区| 国产传媒免费在线观看| 精品一区二区国语对白| 亚洲综合激情五月| 亚洲ww精品| 久久精品电影网站| 国产喷水吹潮视频www| 亚洲欧洲日产国产综合网| 国产亚洲视频一区| 日韩在线高清| 91香蕉亚洲精品| 韩国中文字幕在线| 欧美一二三四在线| 国产精品a成v人在线播放| 成a人片国产精品| 国产九九九九九| 香蕉久久夜色精品国产使用方法| 欧美在线一区二区视频| 国产在线观看免费| 欧美日韩亚洲综合在线| 国产人与禽zoz0性伦| 国产经典欧美精品| aa在线观看视频| 国产精品免费大片| 国产伊人精品在线| 色呦呦久久久| 日韩av有码在线| 精品国产午夜福利| 国产精品伦理一区二区| 手机在线播放av| 一本色道久久综合亚洲精品不| 欧美日韩高清在线一区| 久久人体av| 欧美放荡办公室videos4k| 四虎在线视频免费观看| 在线精品视频一区二区| 国产午夜精品理论片在线| 国产99久久久久| 成人三级视频在线播放| 久久精品一区二区不卡| 国产精品加勒比| 日韩免费小视频| 久久国产精品久久久| 四虎永久在线精品免费网址| 欧美日韩在线三区| 久久久久99精品| 亚洲国产岛国毛片在线| 亚洲成年人在线观看| 日日夜夜精品免费视频| 成人一区二区av| 精品国产美女| 国产精品区一区二区三含羞草| 日本.亚洲电影| 久久久久久免费精品| 欧美老女人性开放| 欧美一级精品在线| 狠狠躁夜夜躁人人爽视频| 一区二区三区四区中文字幕| 中文字幕av观看| 国产一区二区精品在线观看| 黄色一级二级三级| 在线精品一区二区| 伊人久久婷婷色综合98网| 思热99re视热频这里只精品| 亚洲一区二区三区xxx视频| 欧美日韩123区| 欧美激情第1页| www.黄在线观看| 日韩av有码在线| 草草视频在线播放| 欧美日韩一级黄| 伊人久久综合视频| 一级特黄大欧美久久久| 九九九视频在线观看| 91女人视频在线观看| 佐佐木明希电影| 国产一二三精品| www.com操| 性伦欧美刺激片在线观看| 欧美人成在线观看| 亚洲精彩视频| 亚洲欧美日韩另类精品一区二区三区| 欧美男人操女人视频| 99精彩视频在线观看免费| 国产欧美自拍| 国产精品成人免费电影| 成人av三级| 欧美亚洲一区在线| 午夜影视一区二区三区| 午夜精品福利在线观看| 日本动漫理论片在线观看网站| 少妇高潮久久77777| 黄色片在线免费看| 亚洲人成电影网| 四虎影视2018在线播放alocalhost| 日韩精品一区二区三区在线播放| 97人人爽人人爽人人爽| 欧美日韩久久不卡| 中文字字幕在线观看| 在线中文字幕一区二区| 欧美激情黑白配| 欧美性极品xxxx做受| 91精品国产乱码久久久张津瑜| 午夜在线电影亚洲一区| 美女毛片在线观看| 一区二区三区成人| 久久久国产精华液| 亚洲第一精品在线| 国产精选第一页| 亚洲mv在线观看| 日韩 欧美 中文| 欧美日韩日本国产| 二区视频在线观看| 色欧美88888久久久久久影院| aaa在线视频| 欧美在线观看一二区| 国产一级片一区二区| 欧美性xxxxxxxx| 一级淫片免费看| 日韩视频一区在线观看| 亚洲精品国产av| 亚洲第一精品福利| 免费人成在线观看网站| 有码中文亚洲精品| 黄网站免费在线播放| 久久香蕉国产线看观看网| 欧美激情成人动漫| 97视频免费在线看| 成人精品三级| 国产日韩精品电影| 51亚洲精品| 久久综合毛片| 全球成人免费直播| 免费的一级黄色片| 西西人体一区二区| 成人免费在线观看视频网站| 国产精品综合av一区二区国产馆| 国产在线不卡av| 欧美韩国日本综合| caoporn91| 精品久久久久久久久久久久久久| 蜜臀尤物一区二区三区直播| 欧美人妖巨大在线| 懂色av成人一区二区三区| 亚洲一区999| 成人欧美在线| 91av在线精品| 色诱色偷偷久久综合| 国产一区二区三区色淫影院| 精品欧美久久| 亚洲高潮无码久久| 久久亚洲不卡| 精品国产午夜福利在线观看| 91麻豆精品秘密| 午夜爱爱毛片xxxx视频免费看| 狠狠色狠狠色综合日日五| 亚洲最大成人av| 日韩国产高清污视频在线观看| 国产淫片在线观看| 欧美一级黄色网| 免费一级欧美在线观看视频| 北条麻妃高清一区| 日韩av密桃| 波多野结衣乳巨码无在线| 久99久精品视频免费观看| 丰满大乳奶做爰ⅹxx视频| 中文字幕亚洲精品在线观看| 国产嫩bbwbbw高潮| 日韩精品中午字幕| 日韩在线免费电影| 日本精品一区二区三区在线播放视频| 日韩一二三区| 一本一道久久久a久久久精品91 | 亚洲第一成年人网站| 影音先锋欧美精品| 大桥未久在线视频| 亚洲一区二区三区四区在线播放| 狠狠做深爱婷婷综合一区| www.av毛片| 国产福利一区二区三区视频| 一级在线观看视频| 欧美天堂在线观看| 视频一区 中文字幕| 欧美人与物videos| 亚洲男人在线| 亚洲国产欧美日韩| 视频一区在线播放| 手机av免费看| 天天色天天操综合| 欧美一级特黄aaaaaa| 欧美巨乳美女视频| 91精品国产一区二区在线观看| 日本免费一区二区三区| 国产精品丝袜xxxxxxx| 在线播放av网址| 一区二区三区美女视频| 99久久精品无免国产免费| 精品国产网站地址| 欧美高清免费| 手机成人av在线| 国产在线精品国自产拍免费| 午夜剧场免费在线观看| 69av一区二区三区| 黄色av免费在线| 91成人免费看| 亚洲一本视频| 黄色性视频网站| 亚洲国产综合视频在线观看| 日韩在线观看视频一区二区三区| 久久久久久久久国产| 91精品久久久久久综合五月天 | 色呦呦在线播放| www.久久艹| 精品96久久久久久中文字幕无| 精品人妻在线视频| 欧美日韩美女在线观看| 亚洲三级中文字幕| 国产成人av在线| 日韩一区二区中文| 在线观看av免费观看| 一区二区视频在线| 日本黄色一区二区三区| 欧美一区亚洲一区| 波多野结衣一区| 日韩精品aaa| 亚洲成人动漫av| 青青免费在线视频| 国产精品久久久久福利| 国产精品久久久久久| 国产精品无码自拍| 欧美性猛交xxxx久久久| av免费在线一区二区三区| 成人亲热视频网站| 激情视频一区二区三区| 久久亚洲AV成人无码国产野外| 欧美色精品天天在线观看视频| 影音先锋男人资源在线| 极品尤物一区二区三区| 日韩电影在线观看网站| 中日韩一级黄色片| 欧美精品一区二区三区久久久| 小黄鸭精品aⅴ导航网站入口| 国产成人三级视频| bt欧美亚洲午夜电影天堂| 亚洲天堂一二三| 欧美黄色片在线观看| 国产调教一区二区三区| 精品人妻二区中文字幕| 日本乱码高清不卡字幕| av网址在线免费观看| 九九九九九九精品| 国产在线一区二区综合免费视频| 日本少妇性生活| 日韩中文理论片| 国产香蕉精品| 亚洲精品手机在线观看| 精品福利在线观看| 好了av在线| 日韩精品久久久免费观看 | 粉嫩av蜜桃av蜜臀av|