作者 | 汪昊
審校 | 孫淑娟
推薦系統是目前互聯網行業最火爆的技術之一。在過去的十年中,互聯網行業誕生了數以百萬計的推薦系統模型迭代版本。盡管針對不同場景進行優化的推薦系統模型非常之多,但是經典的模型非常少。矩陣分解是推薦系統領域勃興早期,在 Netflix 大賽中展露頭角的推薦系統算法,也是過去十年中最為成功的推薦系統算法。盡管到 2023 年的今天,推薦系統領域早已是深度學習的天下,矩陣分解仍然廣泛應用于各大公司研發過程中,并且仍然有許多科研人員在從事相關算法的研究工作。

矩陣分解算法最為經典的論文是 2007 年的 Probabilistic Matrix Factorization 。在此基礎上,后人進行了大量的擴展工作,比如 2021 年的 RankMat(論文下載地址:https://arxiv.org/abs/2204.13016)、ZeroMat (論文下載地址:https://arxiv.org/abs/2112.03084) 和 2022 年的 DotMat (論文下載地址:https://arxiv.org/abs/2206.00151)、KL-Mat (論文下載地址 :https://arxiv.org/abs/2204.13583/ 代碼下載地址:https://github.com/haow85/KL-Mat)等。推薦系統因為其簡單易用性,以及速度快等原因,深受互聯網行業廣大工程師的喜愛。
推薦系統冷啟動問題是今年來備受關注的另一個研究熱點。許多從業者解決推薦系統的思路都是遷移學習和元學習。然而這個思路有個致命的缺點,就是需要其他知識領域的數據。而許多公司是不具備這一條件的。真正不需要任何數據的冷啟動算法,是在 2021 年 ZeroMat 提出以后出現的。代表算法包括上一節提到的 ZeroMat 和 DotMat。本文將要介紹的泊松矩陣分解算法(PoissonMat)是 2022 年國際學術會議MLISE 2022發表的論文。論文的名稱是PoissonMat:Remodeling Matrix Factorization using Poisson Distribution and Solving the Cold Start Problem without Input Data(論文下載地址:https://arxiv.org/abs/2212.10460)。
我們首先回顧一下Probabilistic Matrix Factorization的MAP定義:

我們隨后定義用戶給物品打分這一行為為泊松分布。根據泊松分布的定義,我們得到以下公式:

根據泊松公式中參數的定義,我們有:

根據齊夫分布,我們可以得到如下公式:

綜合以上公式,我們得到泊松矩陣分解(PoissonMat)的解析形式:

采用隨機梯度下降算法求解以上公式,我們得到如下算法流程:

作者隨后在 MovieLens 1 Million Dataset 和 LDOS-CoMoDa Dataset 上進行了算法準確率和公平性的實驗對比:


圖 1 泊松矩陣分解在 MovieLens 1 Million Dataset 上的對比實驗


圖 2 泊松矩陣分解在 LDOS-CoMoDa Dataset 上的對比實驗
根據實驗對比效果,我們可以得出如下結論:泊松矩陣分解(PoissonMat)在準確率和公平性指標方面都優于其他算法。并且難能可貴的是,泊松矩陣分解算法沒有用到任何輸入數據,是一個徹頭徹尾的零樣本學習算法,很好的解決了冷啟動問題。
最后,作者是在 16G RAM 和 Intel Core i5 的聯想家用筆記本上做的實驗,算法運行速度飛快,并且實現也非常簡單。
以解決推薦系統冷啟動問題為目標的零樣本學習算法,目前是研究熱點。而不需要任何數據解決零樣本學習問題的真正的零樣本學習算法,始自 2021 年的 ZeroMat 算法。本文介紹的泊松矩陣分解算法(PoissonMat)性能優于 ZeroMat 及其后續算法 DotMat,是目前這一領域最優秀的算法之一。由于相關研究還處于起步階段,希望能夠引起廣大科技從業者的關注和重視。
作者介紹
汪昊,前 Funplus 人工智能實驗室負責人,前恒昌利通大數據部負責人。本科 (2008 年)和碩士(2010年)畢業于美國猶他大學(University of Utah)。對外經貿大學在職 MBA (2016年)。在推薦系統(公平性/基于場景的推薦/冷啟動/可解釋性/排序學習)、計算機圖形學(幾何建模/可視化)、自然語言處理(工業界的落地應用)、風控反欺詐(金融/醫療)等方向有多年的經驗和獨到的見解。在互聯網(豆瓣、百度、新浪、網易等)、金融科技(恒昌利通)和游戲公司(Funplus等)有 12 年的技術研發和管理經驗。在國際學術會議和期刊發表論文 30 篇,獲得國際會議最佳論文獎 / 最佳論文報告獎 3 次 (IEEE SMI 2008 Best Paper Award / ICBDT 2020 Best Oral Presentation Award / ICISCAE 2021 Best Oral Presentation Award)。2006 年 ACM/ICPC 北美落基山區域賽金牌。2004 年全國大學生英語能力競賽口語決賽銅牌。2003 年濟南市高考理工科英語狀元。


























