AI數據挖掘“世界杯”KDD CUP 2022落幕,螞蟻安全實驗室摘兩冠一季
近日,有AI數據挖掘“世界杯”之稱的KDD CUP 2022落下帷幕,螞蟻安全實驗室算法工程師林金鎮以單人成團形式在此頂級國際賽事中取得“兩冠一季”的佳績,總成績名列全球第一。

KDD CUP(國際知識發現和數據挖掘競賽)是由美國計算機協會知識發現與數據挖掘專委會(ACM SIGKDD)發起的國際數據挖掘領域最高水平競賽,每年吸引著眾多世界頂級企業、高校與研究機構參與,在賽題上多年來保持著對解決實際問題的高敏感度。
此次螞蟻安全實驗室參與的“商品搜索”賽道,是一個機器學習“深水區”應用場景。據賽題發起方亞馬遜介紹,選手要挑戰的是電商中的核心技術之一,“從非常有難度的搜索查詢數據里匹配相關商品”。眾所周知,提高搜索結果的相關性可以顯著改善客戶體驗及其對搜索的參與度,重要性不言而喻;但因商品量級巨大且多樣、商品信息缺失、搜索輸入噪聲大等疑難雜癥,使得正確分類特定搜索查詢商品在當下仍具有極大技術挑戰性。
換句話說,這一賽道的要求是需要AI能夠不斷排除干擾,理解用戶可能拼錯的搜索詞背后的真實需求,給出帶來更優體驗的結果。
此賽道分為三個賽題:指定搜索查詢下的商品排序、查詢與商品相關性分類、商品替代品識別。螞蟻安全實驗室憑借多年來在圖像識別和自然語言處理領域的積累,對參賽模型的“搜索查詢理解增強能力”做了重點升級,在查詢準確率上表現優異,從全球1699名選手中成功突圍,攬下雙賽題冠軍。
針對搜索內容文本過于簡短、包含信息較少的普遍痛點,螞蟻安全實驗室提出從關聯商品描述中提取關鍵詞作為搜索文本特征,同時通過算法大幅擴充搜索文本信息量的方案,實現模型效果的顯著提升;面對噪音干擾,則采用自蒸餾手段有效降低噪音影響,從而提升了模型的魯棒性。
據介紹,本次大賽中螞蟻安全實驗室所使用的關鍵詞挖掘及自蒸餾技術,已大規模應用于交互式風控模型,對支付寶萬億規模交易中的欺詐、賭博風險關鍵詞挖掘發揮了重要作用。技術上來看,交互式風控場景是一個類“商品搜索”問題:AI需要與潛在被騙用戶進行對話,在用戶模糊且充滿噪音的語義表達中敏銳捕捉關鍵詞,判斷其真實情況和所處欺詐類型,進而從語料庫中自動實時匹配并輸出更精準的勸阻話術,以達到用戶愿意對話且聽從勸阻的目的。當前,螞蟻交互式風控產品每天與7.1萬用戶進行深度交流,用戶交流意愿平均時長超過90s,涉詐交易用戶勸阻止付率提高了80%。
根據公開信息顯示,今年5月,國際電信聯盟通信標準化組織(ITU)已正式立項由螞蟻集團牽頭的交互式智能風控技術國際標準。這是全球首個交互式風控國際標準。




























