聯邦學習也不安全?英偉達研究用「沒有隱私」的數據直接重建原圖
聯邦學習因為數據不出本地的隱私保護策略,一直被人們認為是高效解決 AI 計算問題,并保護個人數據的重要方向,目前已經出現了大量相關的研究和應用。然而,隨著目前法律法規對于數據限制的加深,從梯度、模型參數中反推出用戶數據的方法正在顯現。
在不少情況下,利用被模糊的數據,以及機器學習處理過程中的參數,我們能夠重建出一個人的基本信息。而最近,英偉達的研究人員更進一步,甚至直接通過機器學習中的梯度數據重建了圖像。新的研究讓人們不禁懷疑:聯邦學習難道實際上并不安全?
具體地,研究者提出了一種 GradInversion 方法,通過反轉給定的批平均梯度(batch-averaged gradients)從隨機噪聲中恢復隱藏的原始圖像。該研究已被計算機視覺頂會 CVPR 2021 接收。
論文鏈接:
https://arxiv.org/pdf/2104.07586.pdf
研究者提出了一種標簽修復方法,利用最后的全連接層梯度來恢復真值標簽。他們還提出了一種群體一致性正則化項,它是基于多種子優化和圖像配準,用于提升圖像重建質量。實驗表明,對于 ResNet-50 這樣的深度網絡,利用批平均梯度完全恢復細節豐富的單個圖像是可行的。

研究者在論文中表示,與 BigGAN 等 SOTA 生成對抗網絡相比,他們提出的非學習(non-learning)圖像恢復方法可以恢復隱藏輸入數據的更豐富細節。
更重要的是,即使當圖像批大小增加至 48,通過反轉批梯度,該方法依然可以完全恢復 224×224 像素大小且具有高保真度和豐富細節的圖像。
對于這項研究的結果,有網友認為:「這就是差分隱私(differential privacy, DP)存在的理由,沒有差分隱私的聯邦學習無法保證隱私。」

研究概述
下圖 1(a)中,研究者提出 GradInversion,通過反轉批平均梯度來恢復高保真度和豐富細節的隱藏訓練圖像;圖 1(b)展示了將噪聲變換至輸入圖像的優化過程,首先從全連接層的梯度中恢復標簽,然后在保真度正則化和基于注冊的群體一致性正則化條件下優化輸入以匹配目標梯度,從而提升重建質量。
這種方法能夠從 ResNet-50 批梯度中恢復 224×224 像素的 ImageNet 圖像樣本,這在以前是無法實現的。

方法概覽。
由于卷積神經網絡(CNN)的平移不變性,基于梯度的反轉面臨另一項挑戰——目標對象的精確定位。在理想場景中,優化可以收斂至一個真值(ground truth)。
但如下圖 2 所示,研究者觀察到,當使用不同的 seed 重復優化過程時,每個優化過程均可以得到局部最小值。這些局部最小值在所有層級上分配語義正確的圖像特征,但彼此之間又有不同:圖像圍繞著真值變換,并專注不同的細節。

研究者提出了一種群體一致性正則化項,它通過聯合優化的方式同時利用多個 seed,具體流程如下圖 3 所示:

實驗結果
研究者以 224×224 像素為范例,在大規模 1000-class ImageNet ILSVRC 2012 數據集上對該方法在分類任務上的效果進行了評估。
首先,他們在批大小為 8 時,對 224×224 像素大小的圖像進行了效果對比。下圖 4 和表 4 分別為 GradInversion 方法與 Latent Projection、DeepInversion、Inverting Gradients 和 Deep Gradient Leakage 等 SOTA 方法的定性和定量對比,結果顯示該方法在視覺效果和數值上均勝出。

接著,研究者增加了批大小,使用 32GB 英偉達 V100 GPU 將批大小增至 48。如下圖 6 所示,隨著批大小的增加,可恢復圖像的數量逐漸減少。

不過,GradInversion 方法依然可以獲取一定數量的原始視覺信息,有時還能實現完整的重建,具體如下圖 7 所示:
一作簡介
該論文的一作是尹洪旭(Hongxu Yin),2015 年畢業于新加坡南洋理工大學電氣與電子工程專業,獲工學學士學位,在美國普林斯頓大學電氣工程系攻讀博士學位,現在是英偉達(硅谷)研究科學家。
他的研究集中在高效的深度神經網絡、無數據模型壓縮 / 神經結構搜索和邊緣醫療推理。
個人主頁:
https://scholar.princeton.edu/hongxu


























