《狂飆》爆火背后:愛奇藝的大數據大規模落地實踐
一、愛奇藝的企業文化

愛奇藝于2010年4月成立,到現在已走過13年,多年來在內容制作和技術創新方面碩果累累。13年間,愛奇藝在技術上的投入龐大,大數據方向的實踐同樣得到了極大的重視。

上圖展示愛奇藝平臺的三大構成要素,三者之間相輔相成、互相影響。

愛奇藝一直在追求科技與創意之間的平衡,以雙螺旋的方式向前走。
二、數據中臺架構
如下圖所示,愛奇藝的數據中臺架構看似并無特殊,和業界基本相似,但其實不然。愛奇藝的數據中臺架構結合了自己的業務場景,在很多細節上,做了相關的研發。

1. 數據鏈路
愛奇藝的海量用戶產生的數據,我們如何從C端進行收集?大量合作伙伴產生的數據,我們如何在合理合法的前提下從B端進行收集?

從數據鏈路的角度看,數據流向是非常清晰的。數據輸入后被接收、采集和加工,最終投入使用,并運用到業務層上,呈從左向右的流向。整個過程中,我們也積極參與并推動行業內的各種新技術和標準。
2. 數據資產對上層統一、透明

如上圖所示,數據在底層經過數據采集、加工和封裝,到呈現在業務層的全過程中,所有模型都是透明的。在技術、業務邏輯層面上,我們對上下層業務都做了較好的隔離,減少之間的細節關聯,實現了更好的擴展性和實用性。
3. 數據發展過程
經過多年的發展,愛奇藝大數據體系和模塊有了豐富的積累,但在數據基礎設施建設方面也仍然比較粗獷,處在零散化狀態,面臨著比較嚴峻的問題。

三、數據中臺理念
在2017年以前,愛奇藝積極探索各種商業模式,衍生了很多視頻周邊的相關業務,不同的業務對數據產生了不同的訴求。因此在2017年之前,數據體系是和業務狀態一致,處于野蠻生長、零散割裂的狀態。從2017年到現在,經過多年的發展,愛奇藝大數據體系和模塊有了豐富的積累,先后經歷了平臺化、標準化、智能化、體系化、立體化五個階段。

平臺化:面對不同層級的用戶,提供相應的數據產品,支持用戶進行自助分析,最大限度發揮數據價值。
標準化:通過對數據體系各個環節進行標準化,保證數據質量,有助提高數據流轉和使用效率。
智能化:數據與人工智能深度結合,在為用戶提供智能化的同時,數據中臺自身也需要智能化。
體系化:實施是從落實角度,對數據治理的標準(包括目標和方式等)進行具體的落地,確保治理工作的正常運轉。
立體化:通過打造離線、近實時和實時數據鏈路,構建立體化的數據體系,滿足業務對時效性和準確性的不同需求。
1. 立體化
以下三個關鍵點,是立體化工作的核心:

1)大:大模型的出現,讓大規模數據的處理工作變得更為重要。在愛奇藝,我們通過Hive、Spark等離線引擎的升級,對巨量離線數據提供準確高效的數據計算能力,以支撐核心數據絕對準確性的業務要求。
2)湖:數據湖不是什么新穎技術,但其整體應用、業務提效有重要作用。愛奇藝引入了Iceberg數據湖,通過Flink進行數據入湖,降低數據可見的延遲時間,提高大規模數據的分析時效性,同時降低實時鏈路的成本。
3)快:時效性在數據工作中尤為重要。愛奇藝通過Flink和Kafka等實時組件的最佳搭配,提供秒級延遲的數據流,結合實時數倉,支撐推薦、用增等模型的快速反饋。
2. 標準化
我深切體會過無標準化的痛苦,在業界大數據理念還未完善時,行業內不同的技術人員,都在以自己高效舒服的方式去做數據處理。
但事實上,任何一個公司不論體量大小,勢必不可能通過一套數據邏輯解決所有事情,所以當數據累積到一定階段后,由數據不標準和不規范帶來的痛苦非常明顯,愛奇藝在過去也有類似的經歷。
如今,數據治理仍是討論火爆的主題,但不同于大數據工作,數據治理如同垃圾分類,是一個吃力不討好的工作。

如上圖所示,在整個數據全生命周期中,從生產、采集加工、存儲到流轉,各個環節我們都在不斷規范標準。
在我們內部,也設置了一個數據管理委員會,制定相關的數據治理制度,使整個數據治理環節更加符合公司業務訴求,同時進一步提升大數據效率。
3. 體系化
所有的基礎設施到位后,必定會形成一個體系,再在這一體系基礎上進一步迭代。

如上圖左側所示,內部的數據體系在決策上分為管理組、業務組,不同的小組承載不同的目標和數據工作,同時讓不限于大數據團隊的業務部門參與到數據工作中。
在大數據管理委員會中,所以負責人都來自各自的業務線,同時我們生成了數據BP的概念,由他們垂直深耕,延續之前達成的共識,最終形成所有業務的體系化高速運轉。
4. 智能化
近年來,大家對智能化的關注愈發加大,每一位大數據工作者都會思考:智能化給行業帶來的怎樣的革命?未來有怎樣的想象空間?

5. 產品化
任何技術如果無法落地形成一套規范的數據產品,那么其最終在公司內部的認可程度就很難達標;有了整個大數據基礎設施、服務、接口,但缺乏產品呈現,也很難讓其他業務方發揮和利用業務價值。數據本身也是一個業務,如果無法恰當應用且形成體系化,數據治理的價值也無法真正體現。

愛奇藝數據產品整體體系主要分為四個部分:
1)數據研發:數據開發和產品人員負責數據需求的驅動,能否靈活處理數據的拓展性和復雜性,讓數據有更好的呈現形式。
2)數據分析:數據分析人員需要全面理解業務,能否在數據產品上提供自主和靈活的功能,以便業務方進行個性化的處理。
3)產品運營:產品運營需要關注一定范圍的數據,數據需求也比較常規,但本身運營是非技術人員,不能要求其對大數據底層技術和工具有很好的理解。
4)數據產品:我們的目標是做易用、簡單、無理解門檻的數據產品。很多公司都有自己的BI分析工具、畫像系統、內容分析系統和標簽系統,如何把這些工具的底層相關的技術與業務人員的思維搭建橋梁,“翻譯”成大家都能懂的數據,使得大家在無法理解大數據融合技術的情況下,解決自己的業務問題,這是數據產品研發的關鍵。
6. 總結:發揮用戶大數據、內容大數據的價值
愛奇藝有三個關鍵元素,即海量用戶、海量內容和大量的合作伙伴,其中用戶和內容是與大數據最相關的兩方面,也是愛奇藝永恒的二元體。
四、大數據大規模實踐——內容側
1. 內容制作
愛奇藝站內有大量PGC(也稱PPC)和UGC,海量的內容的背后則產生了海量的數據,同時愛奇藝的用戶量也非常龐大。
當內容大數據和用戶大數據相連接,就會產生很多應用場景和想象空間,我們可以從內容最早的制作階段出發,大數據能做些什么呢?
1)知文劇本評估
內容創作的第一步是選劇本,從海量劇本中挑選出有藝術性、市場性并符合監管要求的劇本,同時快速剔除掉劣質劇本,是一個關鍵問題。多年來,我們一直在探索通過大數據技術對劇本進行評估的事情。
愛奇藝做了很多劇本評估系統,基于AI算法、NLP技術對劇集劇本、電影劇本、小說等多種形態的內容進行理解,分析其質量和衍生價值輔助專家決策、作者創作、文本審核,經過多年的驗證實踐,助力了愛奇藝內容質量提升。
如今大模型的出現,也促使我們在一方面的探索結合。

2)藝匯選角系統
以今年爆火的《狂飆》為例,在選角上,需求方會自定義一些選角需求,平臺則會根據供方提供的藝人信息,進行藝匯AI智能匹配,在成本效率最優化的基礎上,快速進行選角。

2. 內容運營
1)流量票房預測系統

預測投入產出能否成正比是內容制作前的關鍵,所以任何內容在最開始都需要預估流量及收入。因此,我們提供多內容類型、多時間窗口的流量預測,幫助選角、劇本創作、版權采購、宣發推廣、廣告售賣等業務把握投資意向,把控投資風險,提升業務效率,這方面的探索實踐也已經廣泛應用。
2)內容熱度
早期,愛奇藝提出了內容熱度的概念。評價內容的好壞,不能只是基于內容的播放次數,還要綜合分析觀看行為、互動行為、分享行為等指標,以此得出用戶反饋、內容質量和當前市場表現。
舉個例子,《小豬佩奇》是愛奇藝站內播放次數最多的視頻,但這顯然不是愛奇藝站內最受歡迎的作品。所以,從大數據角度分析,需要融合各種各樣與內容相關的指標,去計算熱度,并評價出最受歡迎的內容。

3)精準篩選+精細觸達+實時分析
在用戶增長上,我們通過精準篩選+精細觸達+實時分析的方式,打造了覆蓋全生命周期的用戶自動化運營場景。

3. 內容分發
1)個性化推薦
在這方面我們充分結合了運營專家意見和機器動態規劃,實現了機器運營,對比傳統的手工內容分發方式,個性化推薦是更為精細化的。

個性化推薦可以更高效分發長尾內容,使用戶與內容之間產生更多連接,提升用戶對平臺的粘性,降低對個別內容的粘性。在內容不變的情況下,提升全站用戶總有效播放時長。
2)推薦中的用戶和內容理解
首先我們基于用戶畫像產品,生成多維度的用戶標簽,再根據用戶反饋內容和用戶看到的內容,運用算法+人工的方式,生成內容理解。

3)個性化創意:海報圖、推薦語、精彩看點
以《狂飆》為例,不同用戶看到的宣傳海報可能是不一樣的,有人看到高啟強、有人看到大嫂、有人看到安欣……
愛奇藝在個性化創意上,也進行了用戶側+內容側的分析,將多種風格的創意素材(海報圖、推薦語、精彩看點),個性化推薦給不同觀眾。

4. 內容營銷
在愛奇藝站外做投放的時候(如抖音、微博、小紅書等),需要分析站外投放內容的效果和站內產品的回響,我們是通過內容營銷的智能決策分析平臺進行處理的。

同時,平臺能針對不同的營銷階段可以提供不同的能力:
營銷前:營銷策略分析
營銷中:站內效果監測、投放效果追蹤、追蹤渠道輿情
營銷后:營銷效果評估

5. 內容理解
1)標簽體系
通過深度學習技術實現對多模態數據(文本、圖像、音頻、視頻)的理解,提供算法能力滿足下游用戶方需求,助力公司的內容生產、分發以及生態建設。

2)多團隊合作助力內容生產與分發

五、大數據大規模實踐——用戶側
1.用戶理解
1)TA識別:基于用戶行為數據和機器學習算法精準識別愛奇藝用戶的性別、年齡等基礎屬性助力精準運營,廣告變現和分析決策,性別識別準確率達到90%以上;
2)自然人識別:通過對用戶行為習慣的挖掘,識別出的同一自然人使用的多個設備,可以幫助推薦和廣告召回更大范圍的目標用戶;
3)會員流失預警:基于用戶在會員期間的行為特征,預測即將到期的會員的流失概率,準確度達到80%以上。

2.用戶增長
站內海量數據+站外海量數據,實現用戶全生命周期聯動。

六、大模型時代

愛奇藝擁有海量視頻內容和海量用戶,因此我認為,愛奇藝在擁有豐富的大模型應用場景,在大模型應用層有巨大想象空間,未來愛奇藝也將會把研發重點聚焦于大模型應用層。
作者介紹
孫斌,愛奇藝副總裁,負責愛奇藝的商業智能、大數據、個性化推薦和用戶增長等部門和方向。在互聯網產品設計和研發方面有近二十年經驗,曾就職于微軟、hulu、雅虎等公司,也曾在國內知名互聯網公司負責過創業項目。





























