Instagram如何利用人工智能進(jìn)行內(nèi)容審核?
譯者 | 李睿
審校 | 重樓
Instagram廣泛使用人工智能(AI)進(jìn)行內(nèi)容過濾和審核,以維護(hù)安全和積極的用戶體驗(yàn)。其人工智能驅(qū)動(dòng)的系統(tǒng)能夠自動(dòng)檢測并移除違反Instagram社區(qū)準(zhǔn)則的內(nèi)容。這個(gè)過程結(jié)合了機(jī)器學(xué)習(xí)模型、自然語言處理以及計(jì)算機(jī)視覺技術(shù)(如卷積神經(jīng)網(wǎng)絡(luò))。本文將深入探討Instagram在維護(hù)平臺(tái)積極友好的用戶體驗(yàn)背后的技術(shù)機(jī)制。
Instagram上的人工智能內(nèi)容審核
Instagram的人工智能系統(tǒng)能夠自動(dòng)檢測并刪除違反社區(qū)準(zhǔn)則的內(nèi)容,包括仇恨言論、欺凌、色情、暴力圖片及垃圾信息,并且通常會(huì)在用戶舉報(bào)前完成處理。
1.圖像/視頻分析
Instagram采用??深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)??分類器來識(shí)別違規(guī)內(nèi)容。例如,它使用(通常采用ResNet架構(gòu))卷積網(wǎng)絡(luò)對(duì)大量標(biāo)注為“違規(guī)圖片與安全圖片”的數(shù)據(jù)集進(jìn)行訓(xùn)練,同時(shí)運(yùn)用對(duì)象檢測模型(如單階段檢測器YOLO或兩階段檢測器Faster R-CNN)對(duì)敏感內(nèi)容進(jìn)行精確定位。Instagram的母公司Meta公司指出,在對(duì)實(shí)時(shí)性要求高的視頻掃描場景中會(huì)采用YOLO,而在精度優(yōu)先的情況下則會(huì)使用基于ResNet或ShuffleNet等骨干網(wǎng)絡(luò)的Faster R-CNN。本質(zhì)上,當(dāng)圖像像素模式與色情、武器、血腥及暴力內(nèi)容特征匹配時(shí),CNN便會(huì)自動(dòng)標(biāo)記該內(nèi)容。
2.光學(xué)字符識(shí)別(Rosetta系統(tǒng))
許多帖子(如表情包、截圖、含有文字的圖片)??內(nèi)含嵌入文本??,Instagram因此采用專門的OCR流程(Meta的Rosetta系統(tǒng))來提取圖像中的疊加文字。Rosetta采用一個(gè)兩階段視覺模型:首先通過Faster R-CNN的變體檢測矩形文本區(qū)域,然后利用基于Resnet-18的CNN并結(jié)合CTC(序列)損失函數(shù)進(jìn)行單詞識(shí)別。
例如,“1個(gè)贊= 1次祈禱”(1 like=1 prayer)的表情包將被檢測并轉(zhuǎn)錄為文字,隨后輸入到審核引擎中進(jìn)行分析。Rosetta所采用的CNN+LSTM識(shí)別器在合成和真實(shí)的多語言數(shù)據(jù)上進(jìn)行訓(xùn)練,使Instagram能夠捕捉到隱藏在圖像中的仇恨言論或垃圾信息。
3.語言理解(NLP)
Instagram使用自然語言理解模型對(duì)標(biāo)題、評(píng)論及消息進(jìn)行自動(dòng)化分析。Instagram應(yīng)用基于Transformer的文本分類器和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等算法,根據(jù)社區(qū)準(zhǔn)則對(duì)內(nèi)容進(jìn)行評(píng)估。
例如,評(píng)論通過學(xué)習(xí)嵌入或類似BERT的模型進(jìn)行向量化,并提供給垃圾郵件/仇恨分類器。通過對(duì)文本模式的學(xué)習(xí),系統(tǒng)能夠準(zhǔn)確識(shí)別侮辱性言論、騷擾、謾罵及仇恨言論等違規(guī)內(nèi)容。盡管具體的內(nèi)部模型屬于專有技術(shù),但Meta公司已經(jīng)公開表示其使用最先進(jìn)的NLP架構(gòu)來大規(guī)模審核數(shù)十種語言的內(nèi)容。實(shí)際上,無論是視覺還是NLP子系統(tǒng)標(biāo)記的內(nèi)容,都會(huì)根據(jù)置信度被自動(dòng)屏蔽或提交給人工審核。
這種人機(jī)協(xié)同的混合模式,既發(fā)揮了人工智能的速度與規(guī)模優(yōu)勢(shì),又保留了人類在復(fù)雜決策中的精準(zhǔn)判斷力。與此同時(shí),人工審核提供的反饋會(huì)持續(xù)用于模型再訓(xùn)練,從而驅(qū)動(dòng)整個(gè)系統(tǒng)在不斷迭代中實(shí)現(xiàn)智能化演進(jìn)。

個(gè)性化與用戶體驗(yàn)提升
Instagram的訂閱推送(feed)、Explore選項(xiàng)卡和短視頻(Reels)功能都依賴于機(jī)器學(xué)習(xí)排序模型來為用戶提供個(gè)性化體驗(yàn)。該推薦系統(tǒng)采用多階段處理流程:
首先,它從用戶關(guān)注的賬戶、熱門標(biāo)簽、類似用戶的帖子等中檢索大量的候選帖子。然后通過深度學(xué)習(xí)對(duì)它們進(jìn)行排序。在檢索方面,Instagram使用雙塔神經(jīng)網(wǎng)絡(luò),一個(gè)“塔”處理用戶特征,例如人口統(tǒng)計(jì)、歷史記錄以及興趣偏好,另一個(gè)“塔”處理媒體特征,例如帖子元數(shù)據(jù)和內(nèi)容嵌入向量。
每個(gè)塔通常是一個(gè)前饋網(wǎng)絡(luò),其輸入層采用類似Word2Vec的ID嵌入技術(shù),用以學(xué)習(xí)緊湊的用戶向量和內(nèi)容向量。模型的訓(xùn)練目標(biāo)在于,當(dāng)用戶與內(nèi)容產(chǎn)生交互時(shí),最大化用戶嵌入與項(xiàng)目嵌入的相似度。在服務(wù)時(shí),用戶的塔和近似近鄰(ANN)索引(例如使用FAISS)產(chǎn)生數(shù)千個(gè)候選帖子進(jìn)行排序。這種雙塔架構(gòu)具有高度可緩存性,并允許從數(shù)十億規(guī)模的內(nèi)容庫中實(shí)時(shí)檢索。
一旦檢索到候選帖子,Instagram就會(huì)采用??兩階段的深度排序模型??。第一階段排序器是一個(gè)輕量級(jí)神經(jīng)網(wǎng)絡(luò),能夠快速對(duì)數(shù)千條內(nèi)容進(jìn)行初步評(píng)分(通常從更重的模型中提取知識(shí))。第二階段是一個(gè)更復(fù)雜的多任務(wù)多標(biāo)簽神經(jīng)網(wǎng)絡(luò)(MTML),它選取前100個(gè)候選帖子,并預(yù)測詳細(xì)的參與概率(如點(diǎn)擊、點(diǎn)贊、評(píng)論、觀看等)。這個(gè)MTML模型是一個(gè)通過反向傳播訓(xùn)練的前饋深度網(wǎng)絡(luò),它吸收豐富的特征(如用戶興趣、帖子內(nèi)容向量、歷史互動(dòng)指標(biāo)等),并同時(shí)預(yù)測多個(gè)概率。簡而言之,一個(gè)深度神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)帖子的檢索與最終排序,使Instagram能夠根據(jù)每個(gè)用戶的偏好對(duì)動(dòng)態(tài)進(jìn)行排序。這種個(gè)性化設(shè)置通過展示最相關(guān)的內(nèi)容來保持用戶的高參與度。

人工智能對(duì)抗網(wǎng)絡(luò)欺凌和垃圾郵件
除了內(nèi)容和排序之外,Instagram還應(yīng)用人工智能來打擊垃圾郵件機(jī)器人和騷擾行為,例如:
1.垃圾信息檢測:系統(tǒng)通過??模式學(xué)習(xí)模型??識(shí)別涉嫌發(fā)送大量私信或評(píng)論(如網(wǎng)絡(luò)釣魚詐騙)的賬號(hào)。Instagram基于發(fā)帖頻率、消息相似度、點(diǎn)擊率及賬戶元數(shù)據(jù)等特征,訓(xùn)練集成模型或神經(jīng)網(wǎng)絡(luò)等二元分類器,以檢測異常行為。任何自動(dòng)化私信、重復(fù)鏈接或“互贊”類誘導(dǎo)內(nèi)容等非自然互動(dòng)模式,均會(huì)觸發(fā)反垃圾信息過濾器。此外,Rosetta系統(tǒng)的OCR功能可有效識(shí)別圖像與表情包中的垃圾文本,進(jìn)一步擴(kuò)展檢測范圍。一旦被標(biāo)注的相關(guān)賬號(hào)將面臨功能限制或封禁處理。
2.網(wǎng)絡(luò)欺凌和騷擾識(shí)別:Instagram采用自然語言處理(NLP)模型實(shí)時(shí)監(jiān)測對(duì)話語氣。基于Transformer或循環(huán)神經(jīng)網(wǎng)絡(luò)的算法會(huì)對(duì)評(píng)論及私信進(jìn)行情感傾向與上下文關(guān)聯(lián)分析,通過上下文嵌入技術(shù)準(zhǔn)確區(qū)分惡意攻擊與無害調(diào)侃。當(dāng)識(shí)別到具有攻擊性的言論時(shí),系統(tǒng)將自動(dòng)過濾該內(nèi)容。Instagram還提供了限制互動(dòng)、關(guān)鍵詞隱藏等功能,依托人工智能技術(shù)從源頭預(yù)防欺凌行為。這些語言過濾機(jī)制持續(xù)運(yùn)行,有效阻止仇恨言論與騷擾行為。
3.社區(qū)誠信維護(hù):機(jī)器學(xué)習(xí)技術(shù)還對(duì)推薦內(nèi)容圖譜進(jìn)行“修剪”。收到大量用戶舉報(bào)或有違規(guī)記錄的帖子會(huì)由于內(nèi)容誠信問題被系統(tǒng)降權(quán)處理。例如,在檢索期間,Instagram應(yīng)用業(yè)務(wù)規(guī)則刪除候選的不良帖子。在主動(dòng)防護(hù)模式下,在計(jì)算出主要排序分?jǐn)?shù)之后,Instagram應(yīng)用最終的重新排序過濾器,對(duì)于經(jīng)過誠信檢查標(biāo)記的帖子執(zhí)行移除或降權(quán)處理。
通過將自動(dòng)過濾器與人工申訴相結(jié)合,Instagram的人工智能系統(tǒng)致力于維護(hù)平臺(tái)的安全性與真實(shí)性。例如,當(dāng)評(píng)論可能具有攻擊性時(shí),系統(tǒng)會(huì)提示用戶“確定要發(fā)送嗎?”的提示。總體而言,這些系統(tǒng)每日攔截?cái)?shù)百萬次垃圾或惡意互動(dòng),保護(hù)用戶安全體驗(yàn)并維護(hù)平臺(tái)健康。

Instagram使用的技術(shù)概述
模型/技術(shù)? | 描述/目的? | 示例/備注? |
CNN圖像分類器 | 用于二元或多類圖像分類(例如,“安全”vs“色情”vs“暴力”)。 | 采用ResNet、Inception和EfficientNet等架構(gòu),針對(duì)Instagram特定數(shù)據(jù)集進(jìn)行微調(diào)。 |
對(duì)象檢測 | 識(shí)別圖像/視頻中違規(guī)的對(duì)象或文本。 | 更快R-CNN, YOLO和DETR等模型用于快速或詳細(xì)的檢測。 |
光學(xué)字符識(shí)別(OCR) | 提取并讀取表情包或截圖中的文本以進(jìn)行審核。 | Rosetta:Faster R-CNN用于檢測+CNN+LSTM用于多語言識(shí)別。 |
基于Transformer的NLP模型 | 分析標(biāo)題和評(píng)論的仇恨言論和垃圾信息。 | 例如BERT、RoBERTa和XLM等模型,用于多語言審核。 |
雙塔神經(jīng)網(wǎng)絡(luò) | 支撐動(dòng)態(tài)推送和探索頁的大規(guī)模內(nèi)容召回。 | 使用FAISS進(jìn)行快速近似最近鄰搜索。 |
多任務(wù)深度網(wǎng)絡(luò) | 預(yù)測點(diǎn)贊、評(píng)論與觀看時(shí)間以進(jìn)行個(gè)性化排序。 | 大型多層感知器(MLP)作為Instagram管道中的第二階段排序器。 |
自我監(jiān)督學(xué)習(xí)(SEER) | 從數(shù)十億張未標(biāo)記的圖像中學(xué)習(xí)視覺表征。 | SEER:Meta開發(fā)的參數(shù)量超過10億的模型,用于大規(guī)模視覺學(xué)習(xí)。 |
人工智能審核的好處
對(duì)于每天生成內(nèi)容量達(dá)數(shù)百萬乃至數(shù)十億條的用戶平臺(tái)而言,人工審核已難以滿足運(yùn)營需求。而人工智能提供了可行的解決方案:
1.將審核規(guī)模擴(kuò)大到每天數(shù)十億條帖子。
2.快速刪除有害內(nèi)容,通常在用戶舉報(bào)前完成處理。
3.提升安全性,構(gòu)建更具支持性的社區(qū)環(huán)境。
4.實(shí)現(xiàn)體驗(yàn)個(gè)性化,保持內(nèi)容的相關(guān)性與吸引力。
這些人工智能系統(tǒng)使Instagram能夠處理單靠人類無法處理的內(nèi)容量,從而提高用戶和平臺(tái)的質(zhì)量。
人工智能審核的挑戰(zhàn)和局限性
即使是最先進(jìn)的人工智能系統(tǒng)也并不完美。Instagram在審核方面面臨一些挑戰(zhàn),例如:
1.誤報(bào):藝術(shù)或教育類場景的裸露內(nèi)容被錯(cuò)誤標(biāo)記為違規(guī)內(nèi)容。
2.漏報(bào):由于上下文或故意回避而漏掉有害內(nèi)容,例如使用變體拼寫或圖像扭曲。
3.偏見和公平性:模型訓(xùn)練數(shù)據(jù)中隱含的人類標(biāo)注偏見,可能導(dǎo)致對(duì)不同語言、文化或群體內(nèi)容的審核標(biāo)準(zhǔn)不一致。
4.透明度不足:用戶通常不能完全理解審核決策是如何做出的,導(dǎo)致對(duì)“影子禁令”或帖子刪除感到困惑與不滿。
結(jié)論
Instagram的人工智能技術(shù)深度融合了計(jì)算機(jī)視覺、自然語言處理及大規(guī)模推薦模型采用ResNet、EfficientNet、YOLO和Faster R-CNN等先進(jìn)CNN架構(gòu)處理圖像/視頻內(nèi)容。高級(jí)OCR(Rosetta)從表情包中提取文本以標(biāo)記隱藏的違規(guī)內(nèi)容。深度NLP模型解析用戶文本以捕捉仇恨言論或垃圾信息。另一方面,用于雙塔檢索與多任務(wù)排序網(wǎng)絡(luò)的神經(jīng)推薦系統(tǒng)不斷從用戶行為中學(xué)習(xí),為每個(gè)用戶定制推送內(nèi)容。這種強(qiáng)大的人工智能驅(qū)動(dòng)方法使Instagram能夠在全球范圍內(nèi)實(shí)現(xiàn)內(nèi)容審核與個(gè)性化體驗(yàn)。盡管在偏見和可解釋性方面仍存在挑戰(zhàn),但這些模型對(duì)維護(hù)Instagram的安全性、吸引力及對(duì)億萬用戶的相關(guān)性至關(guān)重要。
常見問題解答
Q1. Instagram如何使用人工智能進(jìn)行內(nèi)容審核?
A:Instagram使用CNN、OCR(Rosetta)和基于Transformer的NLP模型等人工智能模型,主動(dòng)檢測并刪除仇恨言論、色情內(nèi)容、暴力畫面與垃圾信息等違規(guī)內(nèi)容,通常在用戶舉報(bào)前即可完成處理。該系統(tǒng)能夠自動(dòng)對(duì)可疑內(nèi)容執(zhí)行標(biāo)記、攔截或轉(zhuǎn)交人工審核等操作。
Q2.哪些人工智能模型為Instagram的推薦系統(tǒng)提供支持?
A:Instagram的動(dòng)態(tài)與探索標(biāo)簽頁依賴于雙塔神經(jīng)網(wǎng)絡(luò)進(jìn)行檢索,并結(jié)合多任務(wù)深度網(wǎng)絡(luò)進(jìn)行精準(zhǔn)排序。這些模型根據(jù)用戶的歷史行為、興趣愛好與參與模式為每個(gè)用戶定制動(dòng)態(tài)。
Q3. Instagram在人工智能審核方面面臨哪些挑戰(zhàn)?
A:主要挑戰(zhàn)包括誤報(bào)、跨語言或跨文化偏見,以及內(nèi)容審核決策缺乏透明度,這些問題導(dǎo)致用戶不滿,并偶爾引發(fā)有關(guān)“影子封禁”的投訴。
原文標(biāo)題:??How Instagram leverages AI For Content Moderation???,作者:Soumil Jain

















