技術(shù)揭秘 | 互聯(lián)網(wǎng)廣告黑產(chǎn)盛行，如何反作弊？

作者：阿里技術(shù) 2020-12-17 10:58:43

世界廣告主聯(lián)盟WFA表示[1]“若不采取措施，2025 年虛假?gòu)V告花費(fèi)將高達(dá) 500 億美元，僅次于毒品交易金額，成為世界第二大非法營(yíng)收”。

有人的地方就有江湖。廣告作為互聯(lián)網(wǎng)公司商業(yè)變現(xiàn)最為直接快捷的途徑，廣告作弊已經(jīng)形成了一個(gè)有完整鏈條的黑產(chǎn)行業(yè)。如何通過(guò)技術(shù)手段識(shí)別并防范廣告作弊？本文通過(guò)介紹常見(jiàn)的廣告計(jì)費(fèi)模式和虛假流量的獲益形式和發(fā)生機(jī)制，分析廣告點(diǎn)擊反作弊的核心問(wèn)題，分享相關(guān)的反作弊實(shí)踐經(jīng)驗(yàn)，詳解反作弊技術(shù)體系及核心算法。

背景

互聯(lián)網(wǎng)行業(yè)發(fā)展的幾十年來(lái)，已經(jīng)滲透到生活的方方面面，各種互聯(lián)網(wǎng)公司層出不窮?；ヂ?lián)網(wǎng)公司的商業(yè)變現(xiàn)途徑已經(jīng)發(fā)展出引流、電商、游戲等多種流派，但是廣告變現(xiàn)作為一種最快捷和直接的變現(xiàn)途徑，依然占據(jù)著整個(gè)行業(yè)的大半壁江山。國(guó)際國(guó)內(nèi)的各大互聯(lián)網(wǎng)公司如：Google、Facebook、百度、阿里、騰訊、字節(jié)跳動(dòng)、各大門(mén)戶或視頻網(wǎng)站，廣告收入占其總收入的比例都非常高。有人的地方就有江湖，有江湖的地方就有紛爭(zhēng)?；ヂ?lián)網(wǎng)廣告也引申出了作弊與反作弊的紛爭(zhēng)?；ヂ?lián)網(wǎng)廣告作弊已經(jīng)成為了一個(gè)有完整鏈條的行業(yè)，而反作弊部門(mén)也成為了各大依靠廣告變現(xiàn)公司的標(biāo)配。

一常見(jiàn)廣告計(jì)費(fèi)模式

一個(gè)網(wǎng)絡(luò)媒體(網(wǎng)站)會(huì)包含數(shù)十個(gè)甚至成千上萬(wàn)個(gè)頁(yè)面，網(wǎng)絡(luò)廣告所投放的位置和價(jià)格就牽涉到特定的頁(yè)面以及瀏覽人數(shù)的多寡。這好比平面媒體(如報(bào)紙)的“版位”、“發(fā)行量”，或者電波媒體(如電視)的“時(shí)段”、“收視率”的概念。網(wǎng)絡(luò)媒體常見(jiàn)的廣告收費(fèi)模式[2]有CPM、CPC、CPA、CPT、CPS、CPI，下圖是各種廣告計(jì)費(fèi)模式的邏輯和作用：

1 CPM

英文全稱Cost Per Thousand Impression，也稱每千次展示的成本。CPM是一種展示付費(fèi)廣告，只要展示了廣告主的廣告內(nèi)容，廣告主就為此付費(fèi)。由于展示了廣告就可以收費(fèi)，不關(guān)心用戶是否有后續(xù)互動(dòng)轉(zhuǎn)化，因此這種廣告的費(fèi)用也是比較便宜的。按此計(jì)費(fèi)的廣告一般是以展示為目的，如開(kāi)屏廣告。

2 CPC

英文全稱Cost Per Click。CPC是一種點(diǎn)擊付費(fèi)廣告，根據(jù)廣告被點(diǎn)擊的次數(shù)收費(fèi)。每一次點(diǎn)擊計(jì)一次費(fèi)，因此即使向1000個(gè)訪問(wèn)者展示了你的lander頁(yè)面，但是只有1個(gè)人點(diǎn)擊了你的lander，也只按照1次點(diǎn)擊進(jìn)行計(jì)費(fèi)，因此可以說(shuō)CPC這種模式在廣告測(cè)試的初級(jí)階段使用較為合適，為確定對(duì)你的產(chǎn)品感興趣的目標(biāo)人群的流量而付費(fèi)，可以在測(cè)試的早期快速收集廣告數(shù)據(jù)，盡快定位出目標(biāo)人群畫(huà)像，為下一步擴(kuò)量的投放做準(zhǔn)備。最常見(jiàn)的如搜索引擎關(guān)鍵詞廣告采用這種定價(jià)模式，比較典型的有Google的AdSense、百度鳳巢競(jìng)價(jià)廣告以及淘寶的直通車廣告。

就是每一次點(diǎn)擊計(jì)一次費(fèi)，但有些聯(lián)盟是有明確規(guī)定的，每個(gè)ip在一段規(guī)定的時(shí)間內(nèi)只扣費(fèi)一次，這樣的方法可以增加作弊的難度。但是此類方法就有不少人覺(jué)得不公平，比如雖然瀏覽者沒(méi)有點(diǎn)擊，但是他已經(jīng)看到了廣告，對(duì)于這些看到廣告卻沒(méi)有點(diǎn)擊的流量來(lái)說(shuō)，廣告成了白忙活。

3 CPA

英文全稱Cost Per Action。CPA是一種按廣告投放實(shí)際效果計(jì)價(jià)方式的廣告，而不限廣告投放量。CPA的計(jì)價(jià)方式對(duì)于網(wǎng)站而言有一定的風(fēng)險(xiǎn)，但若廣告投放成功，其收益也比CPM的計(jì)價(jià)方式要大得多。因?yàn)镃PC有可能存在欺騙性(比如典型的機(jī)器人刷點(diǎn)擊)，所以就產(chǎn)生了CPA。比較常見(jiàn)的CPA計(jì)費(fèi)方式的廣告有注冊(cè)賬號(hào)、電商場(chǎng)景的加購(gòu)物車或者收藏、微信的關(guān)注公眾號(hào)等。

4 CPT

英文全稱Cost Per Time。CPT是一種以時(shí)間來(lái)計(jì)費(fèi)的廣告，國(guó)內(nèi)很多的網(wǎng)站都是按照“一個(gè)月多少錢(qián)”這種固定收費(fèi)模式來(lái)收費(fèi)的，這種廣告形式很粗糙，無(wú)法保障客戶的利益。但是對(duì)網(wǎng)站來(lái)說(shuō)CPT的確是一種很省心的廣告，能給網(wǎng)站帶來(lái)穩(wěn)定的收入。

CPT是品牌廣告的報(bào)價(jià)方式，這種收費(fèi)模式簡(jiǎn)單易用，廣告主自主選擇的空間大。但是CPT沿用幾年，廣告主漸漸發(fā)現(xiàn)這種收費(fèi)形式缺乏說(shuō)服力。對(duì)客戶和網(wǎng)站都不公平，無(wú)法保障廣告客戶的利益。由于各大媒體尚未能實(shí)時(shí)地公布其每天的不同頁(yè)面的日訪問(wèn)量和日不重復(fù)訪客數(shù)，因此，廣告主在衡量廣告投放效果時(shí)只能根據(jù)媒體公布的數(shù)據(jù)進(jìn)行估算，這種評(píng)估方法難以體現(xiàn)互聯(lián)網(wǎng)廣告所應(yīng)有的精確性和實(shí)時(shí)性，而只是根據(jù)經(jīng)驗(yàn)估算出廣告所能傳達(dá)到的用戶數(shù)量及相應(yīng)所需付出的費(fèi)用。同時(shí)一個(gè)越來(lái)越明顯的趨勢(shì)是隨著媒體頁(yè)面訪問(wèn)量的不斷變化提高，媒體缺乏有力的第三方數(shù)據(jù)向廣告主證明這種頁(yè)面訪問(wèn)量增長(zhǎng)的準(zhǔn)確可靠性，只能被動(dòng)地每半年或每一年調(diào)整一次價(jià)格，以提高自己的收人。

電商網(wǎng)站主頁(yè)中間位置的鉆展和門(mén)戶網(wǎng)站的包月廣告都屬于這種CPT廣告。適合垂直行業(yè)平臺(tái)展示廣告位，類似地鐵廣告、電梯廣告等戶外廣告也是這種類型，通常按周、月進(jìn)行銷售。

5 CPS

英文全稱Cost Per Sales。CPS是一種以實(shí)際銷售產(chǎn)品數(shù)量來(lái)計(jì)算廣告費(fèi)用的廣告，這種廣告更多的適合購(gòu)物類、導(dǎo)購(gòu)類、網(wǎng)址導(dǎo)航類的網(wǎng)站，需要精準(zhǔn)的流量才能帶來(lái)轉(zhuǎn)化。

這種模式的好處是相對(duì)容易得到廣告主的認(rèn)同，只需要在完成一單訂單后才會(huì)支付相應(yīng)的廣告費(fèi)用，不好的地方是在現(xiàn)有條件下，會(huì)導(dǎo)致廣告資源的浪費(fèi)，例如一個(gè)網(wǎng)站投放了CPS廣告，10000個(gè)訪客中可能會(huì)有100個(gè)人對(duì)產(chǎn)品感興趣，而100個(gè)人中間只有10個(gè)人最后完成了購(gòu)買(mǎi)的轉(zhuǎn)化，但另外9900個(gè)流浪其實(shí)就浪費(fèi)了。所以大型媒體一般不會(huì)采用這種結(jié)算方式，采用此類方式的媒體一般處于長(zhǎng)尾端利基產(chǎn)品進(jìn)行廣告投放。因?yàn)橥茝V效果能夠比較準(zhǔn)確的計(jì)量與評(píng)估，對(duì)于廣告主而言，CPC、CPA、CPS方式比CPM、CPT模式更加有利。

6 CPI

英文全稱Cost per install。按每次裝機(jī)付費(fèi)，是移動(dòng)端APP推廣常用的計(jì)費(fèi)模式。

二虛假流量的獲益形式和發(fā)生機(jī)制

1 廣告投放流程

下圖是廣告投放流程[1]：

2 獲益方式

廣告作為互聯(lián)網(wǎng)最主要的盈利模式，利益誘惑下部分流量提供方會(huì)有作弊動(dòng)機(jī)。下圖[1]是幾種常用廣告計(jì)費(fèi)模式對(duì)應(yīng)的獲益方式。

3 發(fā)生機(jī)制

機(jī)器作弊[1]成本低，特征集中，容易識(shí)別;人工作弊成本高，作弊者要想獲利也會(huì)表現(xiàn)會(huì)一定的集中性，需要深入分析數(shù)據(jù)挖掘異常特征，從而識(shí)別作弊。

三廣告點(diǎn)擊反作弊核心問(wèn)題

互聯(lián)網(wǎng)行業(yè)發(fā)展的幾十年來(lái)，已經(jīng)滲透到生活的方方面面，各種互聯(lián)網(wǎng)公司層出不窮。互聯(lián)網(wǎng)公司的商業(yè)變現(xiàn)途徑已經(jīng)發(fā)展出引流、電商、游戲等多種流派，但是廣告變現(xiàn)作為一種最快捷和直接的變現(xiàn)途徑，依然占據(jù)著整個(gè)行業(yè)的大半壁江山。國(guó)際國(guó)內(nèi)的各大互聯(lián)網(wǎng)公司如：Google、Facebook、百度、阿里、字節(jié)跳動(dòng)、各大門(mén)戶或視頻網(wǎng)站，廣告收入占其總收入的比例都非常高。有人的地方就有江湖，有江湖的地方就有紛爭(zhēng)?；ヂ?lián)網(wǎng)廣告也引申出了作弊與反作弊的紛爭(zhēng)?；ヂ?lián)網(wǎng)廣告作弊已經(jīng)成為了一個(gè)有完整鏈條的行業(yè)，而反作弊部門(mén)也成為了各大依靠廣告變現(xiàn)公司的標(biāo)配。

虛假流量的存在，讓數(shù)字廣告行業(yè)遭受前所未有的信任危機(jī)。具體危害主要表現(xiàn)在：

虛假流量的存在，讓廣告效果、品牌安全等方面都難以實(shí)現(xiàn)廣告主的投放初衷，會(huì)導(dǎo)致獲客成本的增加，直接造成了廣告主的經(jīng)濟(jì)損失。
無(wú)效流量掩蓋了真實(shí)用戶。從結(jié)果上看，虛假流量提升了流量數(shù)據(jù)，虛增的曝光次數(shù)實(shí)際對(duì)廣告主并無(wú)價(jià)值，無(wú)法提升客戶與商機(jī)的數(shù)量、無(wú)法提升真實(shí)的用戶留存和真實(shí)的用戶活躍。
數(shù)字廣告行業(yè)遭受前所未有的信任危機(jī)。因?yàn)椴涣嫉母?jìng)爭(zhēng)及短期的利益驅(qū)使，加上廣告主對(duì)數(shù)字廣告營(yíng)銷效果的困惑、混亂，造成廣告主對(duì)數(shù)據(jù)廣告的信譽(yù)危機(jī)。

下述探討按CPC計(jì)費(fèi)的廣告點(diǎn)擊反作弊。

1 無(wú)效點(diǎn)擊定義

點(diǎn)擊反作弊的工作目標(biāo)是把流量中存在的“無(wú)效點(diǎn)擊”過(guò)濾掉。對(duì)于“無(wú)效點(diǎn)擊”的定義，維基百科上的定義如下：

Click fraud occurs in pay per click online advertising when a person, automated script or computer program imitates a legitimate user of a web browser clicking on an ad, for the purpose of generating an improper charge per click.

簡(jiǎn)單來(lái)說(shuō)無(wú)效點(diǎn)擊是指在CPC計(jì)費(fèi)的廣告系統(tǒng)中，以人工或者機(jī)器手段蓄意造成的非以轉(zhuǎn)化為目的的廣告點(diǎn)擊行為。

2 廣告點(diǎn)擊業(yè)務(wù)的運(yùn)轉(zhuǎn)邏輯

下圖[3]是廣告投放過(guò)程涉及的4個(gè)角色，他們的基本功能和訴求如下：

廣告主：將自己產(chǎn)品的廣告觸達(dá)到用戶，通過(guò)廣告在受眾群體或目標(biāo)用戶中產(chǎn)生一定的品牌影響力，進(jìn)一步使得用戶成為其服務(wù)或產(chǎn)品的消費(fèi)者。
廣告代理/銷售：比較專業(yè)的廣告推廣操盤(pán)手，幫廣告主管理賬號(hào)，提供專業(yè)的營(yíng)銷服務(wù)。
廣告交易平臺(tái)：是一個(gè)連接互聯(lián)網(wǎng)媒體和廣告主的廣告系統(tǒng)平臺(tái)，不僅會(huì)給廣告主提供廣告營(yíng)銷工具和廣告投放服務(wù)，而且會(huì)借助互聯(lián)網(wǎng)媒體的流量實(shí)現(xiàn)廣告的商業(yè)價(jià)值。比如有大量用戶和流量的搜索引擎公司、電商公司、社交公司。
媒體：媒體一般為互聯(lián)網(wǎng)網(wǎng)站或互聯(lián)網(wǎng)信息與服務(wù)的提供商。互聯(lián)網(wǎng)廣告投放的媒體通過(guò)用戶在其網(wǎng)站瀏覽信息或者使用服務(wù)的過(guò)程中完成廣告信息的傳播，媒體一般也叫聯(lián)盟。比如一些小網(wǎng)站，如博客。
用戶：在互聯(lián)網(wǎng)上瀏覽信息或使用服務(wù)的人，也是廣告主的潛在的廣告客戶。

下表介紹了上面5個(gè)角色的在廣告產(chǎn)業(yè)鏈中“提供的服務(wù)、利益訴求、作弊動(dòng)機(jī)”。這些作弊者是黑產(chǎn)中的一部分，另外一些專業(yè)黑產(chǎn)為上述作弊者提供專業(yè)的作弊服務(wù)(比如養(yǎng)的批量賬號(hào)，比如提供可以修改點(diǎn)擊者環(huán)境信息的作弊器)，以收取服務(wù)費(fèi)。

3 反作弊的意義

定性方面：業(yè)務(wù)發(fā)展和風(fēng)險(xiǎn)如同汽車的引擎和剎車，是有機(jī)的組成。引擎負(fù)責(zé)向前，剎車負(fù)責(zé)避免風(fēng)險(xiǎn)。
定量方面：業(yè)務(wù)如同放貸，而技術(shù)風(fēng)險(xiǎn)就是放貸的利率。利率高了，業(yè)務(wù)就跑不動(dòng)了;利率低了，是要有泡沫破滅的大風(fēng)險(xiǎn)的。利率的高低是需要數(shù)據(jù)和藝術(shù)來(lái)平衡的?！?/li>

廣告點(diǎn)擊反作弊表面上是過(guò)濾了點(diǎn)擊，減少了營(yíng)收。實(shí)際上是過(guò)濾廣告主認(rèn)為不該扣費(fèi)的點(diǎn)擊，保障廣告主的正常投放廣告，提升廣告主對(duì)平臺(tái)的信任度，為廣告業(yè)務(wù)的發(fā)展保駕護(hù)航。

正如CRO的使命中所說(shuō)“反作弊的使命是讓消費(fèi)者安心，讓業(yè)務(wù)方/商家與合作伙伴省心，讓監(jiān)管單位放心，讓作惡者灰心”。

4 反作弊的難點(diǎn)

業(yè)務(wù)視角的難點(diǎn)

很贊同大家提的反作弊要盡量做到“上醫(yī)治未病”、“遏制劣幣驅(qū)逐良幣”以及反作弊要做到“水不驚魚(yú)不跳”、“沒(méi)有人知道我的存在就是我做得好的一個(gè)表現(xiàn)”。這是對(duì)平臺(tái)發(fā)展、買(mǎi)家和賣家體驗(yàn)的義無(wú)反顧的責(zé)任，做得不好的時(shí)候別人很快就知道我的存在了，但是做到“風(fēng)平浪靜”的時(shí)候怎么證明是反作弊的貢獻(xiàn)呢?準(zhǔn)確過(guò)濾的作弊量一定程度上反映問(wèn)題?？蛻舻捏w驗(yàn)和信任度也反應(yīng)反作弊的價(jià)值。

技術(shù)視角的難點(diǎn)

道高一尺魔高一丈，作弊和反作弊都在不斷迭代升級(jí)，如果沒(méi)能過(guò)濾新型大規(guī)模攻擊將非常影響客戶體驗(yàn)和對(duì)平臺(tái)的信任，怎么持續(xù)做到“上醫(yī)治未病”、“防范于未然”，保障客戶體驗(yàn)和避免平臺(tái)資損。后續(xù)我們會(huì)介紹事前我們的“主動(dòng)發(fā)現(xiàn)作弊機(jī)制”，以及事后升級(jí)規(guī)則和模型。
缺少置信樣本，怎么在保證召回作弊的情況下控制平臺(tái)的資損。后續(xù)“樣本工程”部分介紹我們的有監(jiān)督模型是怎么選樣本的。
用什么指標(biāo)衡量業(yè)務(wù)做得好?我們用準(zhǔn)召率和召回率兩個(gè)指標(biāo)，準(zhǔn)確率分兩種，一種是新策略的準(zhǔn)確率，計(jì)算邏輯為“大盤(pán)點(diǎn)擊的轉(zhuǎn)化率/新策略單獨(dú)識(shí)別點(diǎn)擊的轉(zhuǎn)化率”;另一種是線上所有策略的準(zhǔn)確率，計(jì)算邏輯為“大盤(pán)點(diǎn)擊的轉(zhuǎn)化率/所有策略識(shí)別點(diǎn)擊的轉(zhuǎn)化率”。召回率指客戶賠付總次數(shù)和金額。

5 作弊動(dòng)機(jī)

在整個(gè)行業(yè)中每個(gè)角色在整個(gè)鏈條中利益訴求不盡相同，其作弊動(dòng)機(jī)也不一樣，接下來(lái)我們單獨(dú)分析每個(gè)角色的作弊動(dòng)機(jī)及利益所在：

廣告主：雖然廣告主是最初的金主，但也存在作弊的強(qiáng)烈動(dòng)機(jī)。比如在競(jìng)價(jià)環(huán)境下希望盡快消耗競(jìng)爭(zhēng)對(duì)手的廣告從而使自己容易拿到量，或者對(duì)自己作弊從而提升自己的點(diǎn)擊率。
廣告交易平臺(tái)：廣告交易平臺(tái)還有被動(dòng)的作弊，因?yàn)檫€有很多流量來(lái)自于其它媒體的引流，這些媒體參差不齊，廣告交易平臺(tái)和媒體之間的結(jié)算以點(diǎn)擊來(lái)結(jié)算，所以媒體也有足夠的動(dòng)力作弊。而這些點(diǎn)擊完全不會(huì)有任何轉(zhuǎn)化。

6 作弊類型

機(jī)器作弊：使用機(jī)器或程序來(lái)模擬廣告行為，或者通過(guò)木馬和肉雞模擬用戶的廣告行為。為了使點(diǎn)擊行為不被規(guī)則類發(fā)現(xiàn)還會(huì)控制ip分布和時(shí)間。機(jī)器作弊有如下的方法：模擬器、Proxy(網(wǎng)關(guān)，修改ISP，IP，UA，設(shè)備類型等)、爬蟲(chóng)(各家搜索引擎大量爬取著整個(gè)網(wǎng)絡(luò)，依然會(huì)消耗巨大的廣告預(yù)算)。
人工作弊：雇人用真實(shí)的設(shè)備進(jìn)行廣告的各種行為操作，主要方式為眾包。

7 評(píng)價(jià)反作弊效果的方法

以下對(duì)比我們與阿里媽媽、百度鳳巢的主要評(píng)價(jià)指標(biāo)，主要評(píng)價(jià)指標(biāo)均是準(zhǔn)確和召回兩個(gè)視角。召回視角比較相似：都是客戶感知，客戶賠付次數(shù)和賠付金額。以下對(duì)比準(zhǔn)確視角的指標(biāo)。

我們?cè)u(píng)價(jià)過(guò)濾準(zhǔn)確的方法

準(zhǔn)確視角：新策略上線前，計(jì)算其近似準(zhǔn)確率的邏輯為“大盤(pán)點(diǎn)擊的轉(zhuǎn)化率/新策略單獨(dú)識(shí)別點(diǎn)擊的轉(zhuǎn)化率”大于 X，值越大越準(zhǔn)確，具體閾值根據(jù)業(yè)務(wù)統(tǒng)計(jì)數(shù)據(jù)和人工評(píng)測(cè)確定

阿里媽媽評(píng)價(jià)過(guò)濾準(zhǔn)確的方法

準(zhǔn)確視角：借助淘系閉環(huán)轉(zhuǎn)化效果，估算準(zhǔn)確率置信區(qū)間。

百度鳳巢評(píng)價(jià)過(guò)濾準(zhǔn)確的方法

準(zhǔn)確視角：人工抽樣，可視化的評(píng)測(cè)各個(gè)維度的統(tǒng)計(jì)分布特征，然后計(jì)算準(zhǔn)確率。

我們與阿里媽媽均是電商業(yè)務(wù)，有轉(zhuǎn)化數(shù)據(jù)，比較適合用轉(zhuǎn)化率指標(biāo)。百度鳳巢代表的其他無(wú)轉(zhuǎn)化指標(biāo)的廣告系統(tǒng)，適合人工評(píng)測(cè)。

另外關(guān)于轉(zhuǎn)化率可以根據(jù)業(yè)務(wù)定義，比如騰訊APP推廣反作弊系統(tǒng)會(huì)讓各個(gè)APP設(shè)定轉(zhuǎn)化指標(biāo)，如留存、激以及電商場(chǎng)景的收藏、加購(gòu)物車等。

四反作弊技術(shù)體系

反作弊非常重要的一點(diǎn)是數(shù)據(jù)分析，本文暫不展開(kāi)。下述技術(shù)已經(jīng)應(yīng)用到多個(gè)業(yè)務(wù)的廣告點(diǎn)擊反作弊中，下述技術(shù)不僅適用于按CPC計(jì)費(fèi)的廣告點(diǎn)擊反作弊，多數(shù)技術(shù)也適用于其他計(jì)費(fèi)模式(CPM/CPA/CPS/CPI)的反作弊。

1 技術(shù)體系大圖

數(shù)據(jù)層

線上系統(tǒng)使用了用戶歷史多天的站內(nèi)全鏈路行為數(shù)據(jù)，和最近的曝光、點(diǎn)擊數(shù)據(jù)。行為反映用戶的意圖，在行為序列模型TextCNN、BiLSTM、Bert和GraphSage里都用到了用戶的歷史行為序列。

算法層&應(yīng)用層

如前面所述，作弊和反作弊都在不斷迭代升級(jí)。目前的算法主要集中在人工經(jīng)驗(yàn)規(guī)則、統(tǒng)計(jì)策略、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型、圖模型。

下述簡(jiǎn)單介紹算法迭代的過(guò)程，詳細(xì)介紹請(qǐng)參考后面核心算法部分。

業(yè)務(wù)剛開(kāi)始的作弊主要是機(jī)器作弊，一些人機(jī)識(shí)別、爬蟲(chóng)識(shí)別、黑名單即可識(shí)別大部分作弊。我們稱之為單點(diǎn)反作弊。
隨后作弊者升級(jí)到人工作弊，比如大規(guī)模人工點(diǎn)擊(期間還不斷清除介質(zhì))，或者只點(diǎn)沒(méi)有轉(zhuǎn)化的行為序列異常，我們會(huì)升級(jí)到計(jì)數(shù)、比例、分布等統(tǒng)計(jì)策略和行為序列模型TextCNN、BiLSTM，已經(jīng)能攔截大部分的個(gè)人作弊。我們稱之為線上反作弊。
接著作弊者又會(huì)升級(jí)高級(jí)的人工作弊，模擬人的點(diǎn)擊，盡可能的各種特征上不集中，但是畢竟作弊者要達(dá)到收益的話，需要有一定的作弊量，而他們不知道正常點(diǎn)擊的真實(shí)分布，自然的會(huì)在一些維度上出現(xiàn)異常。我們反作弊算法升級(jí)到無(wú)監(jiān)督相對(duì)熵模型，再后面有樣本了升級(jí)到有監(jiān)督的GBDT和Wide&Deep，均是從多個(gè)維度和特征上識(shí)別作弊。我們稱之為面上反作弊。
再后面作弊難度更大了，他們會(huì)有眾包團(tuán)伙作弊，我們也升級(jí)聯(lián)通圖、圖神經(jīng)網(wǎng)絡(luò)GraphSage等模型，識(shí)別作弊團(tuán)伙。我們稱之為體反作弊。

架構(gòu)層

廣告點(diǎn)擊涉及到錢(qián)，時(shí)效性要求高，所以必須有實(shí)時(shí)反作弊;但是實(shí)時(shí)策略只能看到當(dāng)前點(diǎn)擊之前的數(shù)據(jù)，不能看到點(diǎn)擊之后的數(shù)據(jù)，可能存在少量判斷不準(zhǔn)的情況。故我們?cè)黾恿诵r(shí)級(jí)別的離線模型，使用更多數(shù)據(jù)提升準(zhǔn)確率和召回率。

運(yùn)營(yíng)平臺(tái)

投訴反饋是與廣告主反饋無(wú)效點(diǎn)擊的通道。
主動(dòng)發(fā)現(xiàn)作弊是我們離線運(yùn)行一些達(dá)不到上線準(zhǔn)確率的策略，以在廣告主感知到之前主動(dòng)發(fā)現(xiàn)作弊，提升客戶體驗(yàn)。由于準(zhǔn)確率達(dá)不到上線標(biāo)準(zhǔn)，故需要較多的人力分析挖掘的疑似作弊。在后面的主動(dòng)發(fā)現(xiàn)作弊環(huán)境會(huì)詳細(xì)介紹思路。
數(shù)據(jù)沉淀包括兩方面，一是識(shí)別的無(wú)效點(diǎn)擊用于后續(xù)訓(xùn)練有監(jiān)督模型識(shí)別作弊，二是識(shí)別無(wú)效點(diǎn)擊，以便下游廣告算法等清洗數(shù)據(jù)。

2 規(guī)則與模型對(duì)比

新型作弊大規(guī)模出現(xiàn)時(shí)，非常影響客戶體驗(yàn)，進(jìn)而影響業(yè)務(wù)發(fā)展，規(guī)則適合解決這種緊急出現(xiàn)的大規(guī)模作弊;且規(guī)則容易實(shí)時(shí)部署;且規(guī)則可解釋性強(qiáng)，早期的反作弊中使用較多，正因?yàn)檫@個(gè)原因，微軟的廣告反作弊系統(tǒng)2016年主要還是規(guī)則;再者反作弊場(chǎng)景天然缺少作弊樣本，也是規(guī)則受歡迎的一個(gè)原因。但由于規(guī)則過(guò)于依賴人的經(jīng)驗(yàn)，且維度單一，容易被作弊者繞過(guò)，在作弊退去時(shí)可能因?yàn)闇?zhǔn)確率變低而誤過(guò);另外一個(gè)規(guī)則解決一類作弊的話，后期會(huì)出現(xiàn)規(guī)則過(guò)多，維護(hù)成本高。另外統(tǒng)計(jì)規(guī)則為了保證準(zhǔn)確率段首較大。

當(dāng)規(guī)則和人工經(jīng)驗(yàn)多了會(huì)積累作弊樣本，這時(shí)候?qū)⒁?guī)則作為模型的特征訓(xùn)練模型，讓模型自己學(xué)作弊的特點(diǎn)以召回作弊。由于模型使用特征較多，準(zhǔn)確率更高，且一定程度上解決規(guī)則的段首問(wèn)題。

3 樣本工程

前面提到我們是電商場(chǎng)景，所以有轉(zhuǎn)化數(shù)據(jù)，而且前期有統(tǒng)計(jì)規(guī)則的過(guò)濾點(diǎn)擊，故可以用規(guī)則圈一些較準(zhǔn)確的樣本(即轉(zhuǎn)化率較低的樣本)。
基于經(jīng)驗(yàn)構(gòu)造樣本，也就是在其他場(chǎng)景的反作弊經(jīng)驗(yàn)的遷移應(yīng)用。
使用SMOTE[4]生成樣本，我嘗試過(guò)SMOTE生成樣本的實(shí)驗(yàn)，召回上略有提升。當(dāng)作弊樣本較少，SMOTE相當(dāng)于差值法，生成作弊樣本使得取值分布更全面。
使用GAN[5]生成樣本，[6]用GAN生成欺詐樣本用于訓(xùn)練有監(jiān)督模型。下圖是GAN生成作弊樣本的思路。

4 特征工程

一般來(lái)說(shuō)，真實(shí)流量一般自然 (真實(shí)的流量在各個(gè)維度中表現(xiàn)一定是自然的)與多樣(網(wǎng)民的喜好各不相同，行為一定也是多樣的)。而對(duì)于虛假流量，常表現(xiàn)出一定的目的性(虛假流量的產(chǎn)生一定和某個(gè)特定的目的有關(guān))和規(guī)律性(特定的目的導(dǎo)致虛假流量一定有特殊的規(guī)律)。

由于虛假流量與真實(shí)流量在具體訪問(wèn)行為有較大差異，圍繞用戶行為可從以下幾方面識(shí)別出虛假流量。

模型的特征值或者規(guī)則是由下述的“維度*特征*類型”組合而成的，其中類型是通用的，支持配置。

維度

常用維度：時(shí)間&地域維度、終端類型、操作系統(tǒng)、聯(lián)網(wǎng)方式、瀏覽器、設(shè)備介質(zhì)、IP、廣告主賬號(hào)、refer、query集中等。

下面以時(shí)間維度&地域維度舉例：正常的流量訪問(wèn)分布在一天中的各個(gè)時(shí)段、地理分布較為均勻(區(qū)域性投放或者活動(dòng)除外)、訪問(wèn)趨勢(shì)較為平緩。而虛假流量出現(xiàn)時(shí)間段特殊、來(lái)源區(qū)域集中、趨勢(shì)突增的情況。因此，通過(guò)流量產(chǎn)生的時(shí)間、地理位置、訪問(wèn)趨勢(shì)變化都可以成為判斷虛假流量的參考方式。

同理用戶的終端類型、操作系統(tǒng)、聯(lián)網(wǎng)方式、瀏覽器、設(shè)備介質(zhì)、IP、廣告主賬號(hào)、refer、query集中等屬性，同樣可以成為判斷虛假流量的參考標(biāo)準(zhǔn)。

特征

1)產(chǎn)品參與度

具體包括平均訪問(wèn)深度、平均訪問(wèn)時(shí)長(zhǎng)、用戶行為路徑、鼠標(biāo)點(diǎn)擊位置等。

平均訪問(wèn)深度：訪問(wèn)深度是用戶一次瀏覽網(wǎng)站、APP的深度，它是衡量網(wǎng)站服務(wù)效率的重要指標(biāo)之一。以刷量為目的的虛假流量，用戶訪問(wèn)深度通常非常低，因?yàn)樗哪康氖亲鞅祝c(diǎn)完即走。當(dāng)然造成用戶訪問(wèn)深度不夠的原因有多種，如新投放的落地頁(yè)的失敗引導(dǎo)。因此我們?cè)谟^察此指標(biāo)時(shí)，應(yīng)率先排除產(chǎn)品較大改動(dòng)造成的訪問(wèn)深度不足等特殊情況，或者與其他渠道的流量數(shù)據(jù)綜合比較，進(jìn)行科學(xué)評(píng)估。
平均訪問(wèn)時(shí)長(zhǎng)：平均訪問(wèn)時(shí)長(zhǎng)指標(biāo)，主要用來(lái)衡量用戶與網(wǎng)站、APP 交互的深度。交互越深，相應(yīng)停留的時(shí)長(zhǎng)也越長(zhǎng)。顯然虛假流量追求的是“量”，而非“時(shí)長(zhǎng)”，因此平均訪問(wèn)時(shí)長(zhǎng)也可以配合幾個(gè)網(wǎng)站參與度指標(biāo)一起分析。比如機(jī)器點(diǎn)擊的訪問(wèn)時(shí)間會(huì)比較集中。
用戶行為路徑：用戶在網(wǎng)站中的訪問(wèn)行為路徑，用戶路徑的分析模型可以將用戶行為進(jìn)行可視化展示。因此通常用戶通過(guò)渠道來(lái)到。網(wǎng)站后會(huì)有不同的行為，他們一般會(huì)從落地頁(yè)開(kāi)始進(jìn)行分流，會(huì)訪問(wèn)不同的頁(yè)面，并在不同的頁(yè)面結(jié)束對(duì)網(wǎng)站的訪問(wèn)。顯然，用戶行為序列分布是沒(méi)規(guī)律的，而對(duì)于虛假流量，雖然通過(guò)某些方式完成點(diǎn)擊，但也是預(yù)先設(shè)定，有跡可循的。后面的TextCNN和BiLSTM模型解決的就是行為序列異常的作弊，有相應(yīng)的作弊case，用戶基本只訪問(wèn)homepage和detail，沒(méi)有訪問(wèn)其他頁(yè)面。
鼠標(biāo)點(diǎn)擊位置：虛假流量用戶的鼠標(biāo)點(diǎn)擊位置通常是集中的，借助熱力圖工具可以較為容易地發(fā)現(xiàn)問(wèn)題。

2)轉(zhuǎn)化情況

很多作弊流量可以模仿人類行為，成功繞過(guò)平均訪問(wèn)深度和停留時(shí)長(zhǎng)這些宏觀指標(biāo)，但是要模仿一個(gè)業(yè)務(wù)轉(zhuǎn)化就比較難了，如果宏觀指標(biāo)表現(xiàn)很好，業(yè)務(wù)轉(zhuǎn)化很少的話，就需要提高警覺(jué)。當(dāng)廣告主被惡意攻擊時(shí)，其點(diǎn)擊擊率會(huì)突然變高或者推廣時(shí)長(zhǎng)突然變低。

類型

以下的策略類型均可配置“特征”和“維度”。

計(jì)數(shù)：如策略“IP近1天點(diǎn)擊次數(shù)”，超過(guò)一定閾值是則是作弊。適用于過(guò)濾大規(guī)模攻擊。
比例：如策略“IP下平均訪問(wèn)時(shí)長(zhǎng)小于等于0秒的點(diǎn)擊數(shù)占比為Y”，Y過(guò)大也是作弊。適用于“可列特征取值的某一個(gè)值占比異常的情況”。
分布：如下圖所示是作弊點(diǎn)擊和正常點(diǎn)擊在訪問(wèn)時(shí)長(zhǎng)的分布。我們可以用相對(duì)熵或者卡方分布計(jì)算其異常度。適用于“可列特征取值是多個(gè)值”。

Distinct：如策略“ip維度設(shè)備介質(zhì)的數(shù)目”，該例子解決換設(shè)備作弊。適用于維度對(duì)象去重后值較多，如cookie的個(gè)數(shù)，行業(yè)的個(gè)數(shù)，國(guó)家的個(gè)數(shù)等值較分散的場(chǎng)景。
集中度：比如策略“廣告主維度top K的ip的點(diǎn)擊占比”，該例子解決特定ip攻擊廣告主的情況，適用于不可列特征值的top K值較集中的場(chǎng)景。
子維度Distinct數(shù)目分布：比如策略“廣告主主維度下的IP子維度下不同cookie數(shù)目的分布”——該例子解決換cookie攻擊Memberid的。這里廣告主是主維度，IP是子維度。適用于子維度換ip，換useragent，換設(shè)備介質(zhì)等，子維度下某個(gè)特征取值分布于基準(zhǔn)有差異。
計(jì)數(shù)分布：比如策略“IP維度設(shè)備介質(zhì)子維度點(diǎn)擊次數(shù)的分布”，該例子解決機(jī)器均勻點(diǎn)擊作弊。適用于子維度點(diǎn)擊次數(shù)與基準(zhǔn)差異，主要是多次點(diǎn)擊。

5 主動(dòng)發(fā)現(xiàn)作弊

主動(dòng)發(fā)現(xiàn)作弊是為了在客戶申訴前發(fā)現(xiàn)并召回作弊，以提升客戶體驗(yàn)，但其實(shí)也已經(jīng)出現(xiàn)作弊了。

異常檢測(cè)。[7]和[8]分別是之前我整理的中文和英文版“從時(shí)間序列、統(tǒng)計(jì)、距離、線性方法、分布、樹(shù)、圖、行為序列、有監(jiān)督機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型等多個(gè)角度的異常檢測(cè)方法”。我們用這些方法結(jié)合上述特征工程環(huán)節(jié)的維度、特征、類型，提前發(fā)現(xiàn)異常。比如“memberid的點(diǎn)擊率和推廣時(shí)長(zhǎng)的變化，或者某些維度下的其他的廣告指標(biāo)”。如果策略準(zhǔn)確率達(dá)到上線要求則部署到線上，否則需要對(duì)挖掘的數(shù)據(jù)做進(jìn)一步分析，針對(duì)發(fā)現(xiàn)的作弊調(diào)研策略。
運(yùn)營(yíng)人員去市場(chǎng)上調(diào)研作弊器。
自己構(gòu)建各種作弊數(shù)據(jù)模擬攻擊反作弊系統(tǒng)，觀察其魯棒性。
蜜罐。收集作弊者的更多信息。

6 核心算法

識(shí)別機(jī)器作弊(點(diǎn))

早期的作弊是機(jī)器點(diǎn)擊、業(yè)務(wù)上的無(wú)效點(diǎn)擊上線規(guī)則，規(guī)則只關(guān)注較少維度的信息。比如識(shí)別爬蟲(chóng)、內(nèi)網(wǎng)點(diǎn)擊。我們稱之為單點(diǎn)反作弊。

識(shí)別個(gè)人簡(jiǎn)單作弊(線)

在作弊者升級(jí)到人工作弊后，我們會(huì)升級(jí)到計(jì)數(shù)、比例、分布等統(tǒng)計(jì)策略和行為序列模型。我們稱之為線上反作弊。

下圖是我們發(fā)現(xiàn)的網(wǎng)站某行業(yè)出現(xiàn)的一類攻擊，作弊者只訪問(wèn)A、B、C、G共4類頁(yè)面，因?yàn)樗哪康木褪屈c(diǎn)廣告。正常用戶訪問(wèn)頁(yè)面很豐富。還會(huì)訪問(wèn)D、E、F、H等頁(yè)面，想咨詢買(mǎi)東西。

我們將用戶近7天在網(wǎng)站的訪問(wèn)頁(yè)面序列作為特征，識(shí)別本次點(diǎn)擊是否是作弊點(diǎn)擊。先通過(guò)Word2Vec對(duì)每個(gè)頁(yè)面進(jìn)行文本向量化編碼。然后模型預(yù)測(cè)向量序列是否是作弊點(diǎn)擊。

1)TextCNN

TextCNN[9]是利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本進(jìn)行分類的算法，輸入是詞向量，最后一層full connected網(wǎng)絡(luò)輸出預(yù)測(cè)結(jié)果。

卷積神經(jīng)網(wǎng)絡(luò)的核心思想是捕捉局部特征，對(duì)于文本來(lái)說(shuō)，局部特征就是由若干單詞組成的滑動(dòng)窗口。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)在于能夠自動(dòng)地對(duì)特征進(jìn)行組合和篩選，獲得不同抽象層次的語(yǔ)義信息。如圖所示：

下圖的輸入是一個(gè)用預(yù)訓(xùn)練好的詞向量(Word2Vec)方法得到的一個(gè)Embedding layer。詞向量的維度是固定的，相對(duì)于原來(lái)的One-Hot編碼要小，同時(shí)在新的詞向量空間語(yǔ)義上相近或者語(yǔ)法相近的單詞會(huì)更加接近。兩個(gè)維度，橫軸是單詞、縱軸是詞向量的維度(固定的)。我們的場(chǎng)景的模型結(jié)構(gòu)圖如下：

2)BiLSTM+Attention

我們也嘗試了BiLSTM+Attention[10]，即雙向LSTM挖掘行為序列上下文關(guān)聯(lián)信息。LSTM依據(jù)之前時(shí)刻的時(shí)序信息來(lái)預(yù)測(cè)下一時(shí)刻的輸出，但在有些問(wèn)題中，當(dāng)前時(shí)刻的輸出不僅和之前的狀態(tài)有關(guān)，還可能和未來(lái)的狀態(tài)有關(guān)系。Bi-LSTM可以看成是兩層神經(jīng)網(wǎng)絡(luò)，第一層從左邊作為系列的起始輸入，在文本處理上可以理解成從句子的開(kāi)頭開(kāi)始輸入，而第二層則是從右邊作為系列的起始輸入，在文本處理上可以理解成從句子的最后一個(gè)詞語(yǔ)作為輸入，反向做與第一層一樣的處理處理。最后對(duì)得到的兩個(gè)結(jié)果進(jìn)行處理。在我們的場(chǎng)景中即理解為正常點(diǎn)擊的用戶行為序列和作弊點(diǎn)擊的用戶行為序列從左往右和從右往左都有較大的區(qū)分性。LSTM雖然能獲取歷史信息，但是不能突然重要信息，為了更好的篩選歷史信息中的重要信息，增加了Attention。

3)Bert

BERT (Bidirectional Encoder Representations from Transformers)模型是谷歌提出的基于雙向Transformer[11]構(gòu)建的語(yǔ)言模型。通過(guò)海量語(yǔ)料預(yù)訓(xùn)練，得到序列當(dāng)前最全面的局部和全局特征表示。

BERT[12]網(wǎng)絡(luò)結(jié)構(gòu)如上圖所示，Bert的內(nèi)部結(jié)構(gòu)是多個(gè)transformer 的encoder，從上圖可以看出Bert是雙向結(jié)構(gòu)的，transformer 的encoder如下圖所示。encoder包含一個(gè)Multi-Head Attention層和一個(gè)前饋神經(jīng)網(wǎng)絡(luò)，self-attention能幫助當(dāng)前節(jié)點(diǎn)既關(guān)注當(dāng)前的詞又能獲取到上下文的語(yǔ)義，Multi-Head Attention擴(kuò)展了模型集中于不同位置的能力。

我們選擇BERT-Base，Uncased模型。在做文本分類項(xiàng)目時(shí)，只需要修改run_classifier.py文件的數(shù)據(jù)預(yù)處理類。

4)三者效果對(duì)比

TextCNN通過(guò)不同的滑動(dòng)窗口可以獲取不同位置的上下文的特征，在測(cè)試集上效果比BiLSTM+Attention好。
Bert的雙向結(jié)構(gòu)和多頭機(jī)制可以從多個(gè)角度獲取上下文特征，在測(cè)試集上效果比TextCNN好。

識(shí)別個(gè)人高級(jí)作弊(面)

在我們識(shí)別上述作弊后，接著作弊者又升級(jí)高級(jí)的人工作弊，模擬人的點(diǎn)擊，盡可能的各種特征上不集中，但是畢竟作弊者要達(dá)到收益的話，需要有一定的作弊量，而他們不知道正常點(diǎn)擊的真實(shí)分布，自然的會(huì)在一些維度上出現(xiàn)異常，故我們反作弊算法升級(jí)到無(wú)監(jiān)督相對(duì)熵模型，再后面有樣本了升級(jí)到有監(jiān)督的GBDT和Wide&Deep，均是從多個(gè)維度和特征上識(shí)別作弊。我們稱之為面上反作弊。

1)相對(duì)熵

下圖是正常點(diǎn)擊和疑似作弊點(diǎn)擊的訪問(wèn)時(shí)長(zhǎng)的分布。在我們沒(méi)有其中的作弊點(diǎn)擊標(biāo)簽時(shí)，我們使用相對(duì)熵識(shí)別作弊點(diǎn)擊。

我們先計(jì)算N個(gè)特征的異常分，再計(jì)算M個(gè)維度的異常分，最后求和。

實(shí)際使用中，我們發(fā)現(xiàn)相對(duì)熵的一個(gè)缺點(diǎn)是新出現(xiàn)的作弊會(huì)帶偏基準(zhǔn)，從而導(dǎo)致誤識(shí)別。由于相對(duì)熵模型是把線上策略識(shí)別為正常點(diǎn)擊的做基準(zhǔn)，當(dāng)新型作弊出現(xiàn)時(shí)，我們不能及時(shí)識(shí)別，會(huì)將其當(dāng)做基準(zhǔn)，從而基準(zhǔn)不準(zhǔn)確。另外就是相對(duì)熵在識(shí)別時(shí)的候選樣本不能包含大規(guī)模機(jī)器攻擊，它們也會(huì)帶偏分布。即使用時(shí)待識(shí)別樣本中需要剔除規(guī)則識(shí)別的特征非常集中的點(diǎn)擊。

2)Wide&Deep

Wide&Deep[13]通過(guò)分別提取wide特征和deep特征，再將其融合在一起訓(xùn)練，我們場(chǎng)景下模型結(jié)構(gòu)如下圖所示。

wide是指高維特征和特征組合的LR。LR高效、容易規(guī)?；?scalable)、可解釋性強(qiáng)。出現(xiàn)的特征組合如果被不斷加強(qiáng)，對(duì)模型的判斷起到記憶作用。但是相反的泛化性弱。deep則是利用神經(jīng)網(wǎng)絡(luò)自由組合映射特征，泛化性強(qiáng)。deep部分本質(zhì)上挖掘一些樣本特征的更通用的特點(diǎn)然后用于判斷，但是有過(guò)度泛化的風(fēng)險(xiǎn)。算法通過(guò)兩種特征的組合去平衡記憶(memorization)和泛化( generalization)。為了進(jìn)一步提升高級(jí)人工作弊的召回率，減少統(tǒng)計(jì)規(guī)則的段首漏過(guò)，使用前面的一些規(guī)則和有監(jiān)督模型挖掘的轉(zhuǎn)化率較低的比較準(zhǔn)確的作弊樣本作為訓(xùn)練樣本，線上統(tǒng)計(jì)規(guī)則作為模型的特征，訓(xùn)練Wide&Deep模型識(shí)別作弊。

我們的場(chǎng)景中的特征有：ip、memberid、refer等維度的計(jì)數(shù)、比例、分布、distinct等類型特征。

識(shí)別團(tuán)伙作弊(體)

我們也發(fā)現(xiàn)一些團(tuán)伙攻擊廣告主，特征表現(xiàn)為先是一個(gè)cookie換不同ip，再是ip下?lián)Q多個(gè)cookie和utdid。每個(gè)設(shè)備介質(zhì)點(diǎn)擊次數(shù)較少，繞開(kāi)了前面的統(tǒng)計(jì)策略，也有些點(diǎn)的多的段首漏識(shí)別了。而由于我們的CPC較高，客戶感知無(wú)效點(diǎn)擊較明顯。我們先是升級(jí)聯(lián)通圖解決同行攻擊和點(diǎn)自己的作弊，再升級(jí)圖神經(jīng)網(wǎng)絡(luò)GraphSage等模型識(shí)別作弊團(tuán)伙。我們稱之為體反作弊。

圖神經(jīng)網(wǎng)絡(luò)[14][15][16]GraphSage[17]的異構(gòu)網(wǎng)絡(luò)適合我們的場(chǎng)景。下圖是GraphSage兩層從鄰居聚合特征信息的示意圖：

在我們的場(chǎng)景中，ip、utdid、cookie等介質(zhì)組成的異構(gòu)圖神經(jīng)網(wǎng)絡(luò)，下圖中紅色框的seller是為了示意被一個(gè)團(tuán)伙換介質(zhì)攻擊，實(shí)際構(gòu)圖中沒(méi)有seller。即將強(qiáng)/弱介質(zhì)連接的團(tuán)伙的特征進(jìn)行聚合。