ImageNet決定給人臉打碼,卻讓哈士奇圖片識別率猛增
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
315晚會讓大家意識到人臉識別有多可怕。在大洋彼岸,全球最具影響力的AI數(shù)據(jù)集也開始行動了。
近日,ImageNet數(shù)據(jù)集決定:給所有人臉打碼,保護被收錄者隱私。

ImageNet管理者之一Olga Russakovsky與李飛飛團隊合作,一起“糾察”數(shù)據(jù)集中所有包含人臉的圖像。
ImageNet總共有1000多個標簽,其中只有3個標簽與人相關(guān),而很多看似與人臉無關(guān)的標簽下,反而可能有大量人臉照片。
因此,研究團隊通過亞馬遜Rekognition的自動人臉識別以及眾包方式,在150萬張圖片中,找出了243198張包含人臉的圖片。
這些圖片中的562626張人臉都已被模糊處理。
給人臉打碼會影響AI模型效果嗎?這恐怕是“煉丹”人士最關(guān)心的問題了。
在修改數(shù)據(jù)集之后,普林斯頓大學(xué)的博士生楊凱峪對這個問題進行了一番研究。
偏差不大,但結(jié)果微妙
研究者使用模糊處理后的數(shù)據(jù)集進行目標檢測和場景檢測基準測試。
在AlexNet、VGG、ResNet等15種主流網(wǎng)絡(luò)模型上測試后發(fā)現(xiàn),Top-1準確率最多下降1%,平均僅下降0.66%,Top-5準確率平均下降0.42%。

根據(jù)圖片中模糊區(qū)域比例的不同,Top-1準確率下降程度隨著模糊比例的增大,最高超過4%。

某些類別中離模糊人臉更近的目標,例如口琴或面具,會導(dǎo)致更高的分類錯誤率。

令人費解的是,一些沒有人臉的照片反而會有很大的準確率波動,比如“哈士奇”、“愛斯基摩犬”分類。

其中,愛斯基摩犬的識別準確率出現(xiàn)大幅下降,而哈士奇的識別準確率反而大幅上升。

連作者也覺得很奇怪,因為這兩個類別中的大多數(shù)圖像都沒有人臉。具體原因如何只有等待后續(xù)研究了。
MIT科學(xué)家Aleksander Madry認為,模糊人臉的數(shù)據(jù)集訓(xùn)練的AI有時候很奇怪,數(shù)據(jù)中的偏差非常微妙,但可能會帶來嚴重的后果。
向隱私和偏見說不
2020年,在計算機科學(xué)道德倫理學(xué)術(shù)會議FAccT上,ImageNet數(shù)據(jù)集刪除了“人”子樹中2702個同義集,因為這些類別中含有令人反感、貶義或污穢的表述。例如一些種族和性別歧視的內(nèi)容。
雖然ImageNet此次對隱私問題做出了重大改變,但來自UnifyID的首席科學(xué)家Vinay Prabhu指出該數(shù)據(jù)集還有許多嚴重問題。
去年7月,Prabhu發(fā)表的一篇論文指出,ImageNet、Tiny Images等圖片數(shù)據(jù)集中不僅存在危害隱私的狀況,甚至還有一些不可描述的圖片。

在那篇論文中,Prabhu建議,對數(shù)據(jù)集中的人臉做模糊處理,并且要做到在參與者明確同意后才能收集圖片,不要為這類數(shù)據(jù)集創(chuàng)建數(shù)據(jù)共享許可證。
他曾給連續(xù)10個月給ImageNet團隊發(fā)送郵件反饋此問題,直到去年4月才收到李飛飛的回復(fù)。
而此次ImageNet團隊的論文并沒有引用他,在接受《連線》雜志采訪時,Prabhu表示對ImageNet團隊沒有承認他所做的工作感到失望。
Russakovsky回復(fù)稱,論文的更新版本將會把Prabhu的研究加入引文中。
2019年,微軟悄悄刪除了包含1000萬張圖片的人臉數(shù)據(jù)集MS Celeb,這些照片都未征得本人同意。

此前用公共攝像頭搜集的數(shù)據(jù)集,如杜克大學(xué)的MTMC、斯坦福大學(xué)的Brainwash,近年來都被悉數(shù)刪除。
在公眾隱私意識覺醒、法律逐漸完善的背景下,AI數(shù)據(jù)集到了必須要保護用戶隱私的時候了。





























