足球比賽中的實時數據是如何統計出來的?人工 or 人工智能?
說起足球,就算不是球迷,也能說出一兩個球星的名字,比如這兩位非常注意保護嗓子的巨星。
言歸正傳,對足球有稍微有一點了解的人,應該對賽事轉播過程中出現的統計數據并不陌生。那么,你有沒有想過,足球比賽中的實時數據是怎么統計出來的?

2017年12月23日,西班牙國家德比實時轉播過程中出現了諸如比分、傳球成功率等實時數據,圖為直播中左上角彈出皮克和拉莫斯的傳球成功率對比(圖片來源:PPTV賽事回放截圖)
老實人甲
一定是有人拿著小本本在場邊畫“正”字統計!皇馬射門+1+1+1,巴薩進球+1+1+1!
程序猿乙
肯定是用熱成像攝像頭捕捉球員運動軌跡,用人工智能分析球員動作自動生成實時數據。
以上的兩種回答代表了絕大多數人內心的想法,但這兩種說法都不全面。首先來看看現在的賽事轉播過程中常出現哪些統計數據。

圖為西班牙國家德比轉播過程中PPTV半場數據統計圖(圖片來源:PPTV賽事回放截圖)

這些數據到底是如何統計出來的,人工 or 人工智能?在回答這個問題之前,我們先來看看早期的足球比賽的數據統計。
足球數據統計歷史
現代足球起源于19世紀末的英國,緊接著便瘋狂發展并席卷全球,當時主要的傳播媒介是報紙。足球比賽結束后,報社將比分、照片以及比賽中的各項數據,配以簡單的評述傳播至世界各地。可以想象當時的足球數據僅限于“場面數據”的統計,簡單的比分、撲救、定位球個數、紅黃牌數等由各大報社工作人員拿小本本記錄下來,賽后大家一比對,記的都差不多,那就給寫稿子的人發稿吧,如此就是最初的數據統計。這種在現在看來缺乏時效性與參與度的方法,在當時卻在世界各地播種下了足球文明的種子。

圖:早期的英國體育報紙的足球報道
球迷們顯然對于紙媒的時效性非常不滿,于是1927年1月27日,英國BBC電臺首次通過電臺廣播對阿森納VS謝菲爾德的比賽進行了轉播。這場比賽BBC安排了兩名評論員,一位負責對場上狀況進行評述,一位指出足球在下圖所示的網格中的位置,兩人配合,給聽眾傳播最正確的比賽信息。這種轉播方式在現在看來是一種非常考驗想象力以及反應力的轉播方式,由此可以想到早期的球迷足球素養非常高。

圖:英國電臺解說分區圖,球場被分為8個區
同樣是在英國,同樣是阿森納,同樣是BBC,1939年,一場阿森納一線隊與預備隊的比賽錄像被呈現在電視屏幕上。錄播雖然是令人遺憾的,但這卻開了球迷們在電視機前觀看比賽的先河。觀眾可以獨立進行數據統計及核對,這就對轉播公司的實時數據統計提出了更高的要求,要更準確、更及時。這個時期的足球數據統計依然是依靠人工。
就在此時,計算機技術逐漸發展起來,計算機成了專業的統計輔助工具。專業的統計人員將球場上的每一個動作變成一個一個事件,將每一分鐘30次以上的各種高密度動作轉化為事件存儲下來,再由人工進行驗證,并通過程序進行實時發布。這種方法對人工要求極高,因而準確度也高,多常見于第三方數據服務商,為轉播方、解說員、博彩公司等提供服務。
然而,那些如雨后春筍般涌起的黑科技,究竟有沒有改變這個行業呢?
誰在負責統計數據
要回答這個問題,首先要清楚足球比賽中的實時數據是誰來統計的。作為一名電視機前的觀眾,比賽過程中得到信息的渠道有兩個,一是眼睛獲取的畫面,二是耳朵聽到的解說。轉播畫面帶給球迷的是最原始的視覺沖擊,而解說則是幫助球迷更加深入的理解比賽。球迷們經常能聽到“***隊本場的射門次數已經達到15次之多,其中射正的僅僅3次”諸如此類的話,難道解說員在比賽過程中還要一邊拿小本本記數據,一邊解說,再把數據加加減減,算出控球率?
如果真是這樣的話,德藝雙馨的老解說員們早就累死了。
一般來說,一些大型的足球聯賽,比如歐洲五大聯賽,轉播是由專業的信號制作公司提供。他們在比賽場館架設6臺、8臺甚至更多的攝像機,盡力追捕球員從賽前采訪到進球后的每一個眼神,然后在一個布滿電線的大型制作場所內,將比賽信號通過衛星傳輸到世界各地。而賽中的實時數據則是由專門的數據公司提供的,轉播公司向數據公司購買服務,數據公司使用專業的數據采集方法對實時數據進行采集。一部分數據在直播中展示,一部分更深入詳細的數據在賽后進行整理分析和展示。簡單的說,我們在CCTV5臺看到的中超轉播信號制作其實是一家叫體奧動力的公司提供的,而看到的實時數據,又是其名下的盈動力大數據公司提供的。
國外從事數據服務的公司非常多,而且很多公司的技術已經非常成熟,競爭相當激烈。這些公司中不乏一些巨頭,比如英國的OPTA公司,法國的Sport Universal公司等等,不同的公司有著不同的數據采集系統,下面以OPTA為例展開分析。
來自英國的OPTA實況體育數據公司是全球領先的數據提供商,該公司目前為包括英超、德甲、荷甲在內的多個大型比賽的官方數據合作伙伴,同時也為下圖所示的大型聯賽提供數據服務,包括中超。除了為俱樂部提供服務以外,OPTA同時也與Canal+,天空體育,ESPN等電視臺合作,在賽前、賽中以及賽后提供數據分析服務。

圖:OPTA的賽事合作伙伴(圖片來源:OPTA官網)
比賽過程中,OPTA會對場上超過200項的技術統計進行統計分析,實時更新,并為客戶提供XML數據接口,方便來自全世界的客戶調取。OPTA兼有世界上最完備的體育歷史數據庫,從1996年起搜集各種比賽數據,漸漸形成了世界上數量較大、權威性較高的比賽數據庫。另外,OPTA會按照不同需求提供不同的數據服務,其中就包括解說支持。球迷對比賽過程中的歷史數據一定不陌生,解說員總是清楚的知道下一個進球是球員職業生涯的第幾個進球,甚至是歐冠歷史上第幾個進球等等,其實這很大程度上要依靠OPTA這樣的數據服務商。總而言之,這個公司真的是在做與足球數據相關的幾乎所有生意。

圖:OPTA提供的服務種類(數據來源:OPTA官網)
數據是如何統計出來的?
而賽中的數據又是如何去統計呢?大家普遍認為較高級職業聯賽都用了很多了不起的高科技,只需要把機器一架,數據就像水一樣嘩啦啦自己流出來了,這種想法顯然是不現實的。其實無論是哪家公司,采用什么樣的高科技,其實核心還是解決兩個問題,一是球在哪兒,人在哪兒;二是人對球做了什么,人對人做了什么。
對于人和球在哪兒,解決方案有很多,其中一種就是安裝多臺高速攝像機,保證每個區域都有兩個以上的攝像頭能覆蓋。圖像識別能做到判斷出是誰拿了球,球速是多少,但是具體這個人想做什么,這個動作是射門還是傳球,就需要經驗豐富的記錄員來進行判斷。優秀的記錄員能夠在極短的時間內判斷出球員的意圖,再通過輔助記錄的軟件,選擇球員,并選擇此刻與該球員對應的事件,這些事件包括傳球、傳中、攔截、射門、撲救、犯規等等,如此便將比賽中共計2000次以上的各種事件記錄了下來。
圖:OPTA的數據專家在進行實時數據采集(圖片來源:OPTA官網)
OPTA的實時統計系統就是這種人工+智能的方式,每個記錄小組有三個人,兩個人進行實時數據采集,一個人進行實時的視頻素材回放校驗。可能有人會質疑這種摻雜人工的方式的準確度。實際上,不同公司給出的比賽數據的確是存在差異的,每一家公司的數據收集背后都有一套獨特的哲學。
2018年1月13日的一場西甲常規賽中,皇家馬德里主場迎戰黃色潛水艇比利亞雷亞爾,賽后的數據統計中,Whoscored的統計數據顯示:控球率為58% VS 42%,傳球成功率為89% VS 85%。而國內足球數據公司創冰科技給出的控球率則是54.9% VS 45.1%,傳球成功率為84% VS 84%。甚至連射門數這樣看似簡單的統計指標,兩個網站都分別給出了28 VS 10和27 VS 9這樣不同的結果,說明兩個公司的統計人員對于射門這個事件的判斷有差異,而這便是足球比賽數據統計中的“人為誤差”。

圖:whoscored對皇家馬德里VS比利亞雷亞爾的數據統計(圖片來源:whoscored)

圖:創冰DATA對皇家馬德里VS比利亞雷亞爾的數據統計(圖片來源:創冰DATA)
人工+智能的數據采集方式可以說是八仙過海各顯神通,而統計指標的計算方法也會影響最終的統計結果。結合上面對采集方法的介紹,大致可以知道對于射門、角球、任意球、點球、犯規的統計方法,就是一個字:數。這一類事件,記錄員有很長的時間去反應球場上究竟發生了什么,出錯的可能性也比較小。控球率也是一個很容易記錄的指標,控球率=控球時間/兩隊總控球時間,而控球時間則是指傳出的球未被對方接觸之前的時間。機器能夠記錄此時是哪一隊拿球,拿球時間是多久,只需要人工進行一些簡單的修正,例如剔除死球時間(慶祝時間、邊角球、任意球時間),即可得出控球率。同理,傳球成功率=傳球成功次數/本隊傳球總次數,其實就是沒有被搶斷的次數,同樣是機器和人工共同采集,人工校驗的方式進行統計。
實際上,每個公司對指標的統計方法都是不一樣的,這也就是為什么我們看到的結果不一樣的原因。同時也說明,足球統計學,是一個值得統計學家們深入研究的領域,而懂足球的人,也是這個行業目前最核心的生產力。
人工+智能的方式當然不等同與人工智能,但這一定只是足球統計史上的一個時期。實際上,現在有很多可穿戴設備可以用于球員數據采集,能夠對球員各項身體數據,甚至腦電波進行監測。但是由于競技體育對于球員的衣著和穿戴有著嚴格的要求,所以可穿戴設備在賽場上并沒有得到很廣泛的應用,反而一些俱樂部在訓練的時候用的較多。希望在不久的將來,我們能夠看到梅西踢球時的腦電波,而解說員在他拿球突破的時候便吼道“梅西拿球了,他準備傳給前場的阿爾巴,不,這一刻他改變主意了,他準備在前場打一腳遠射,應該是在球門的左下角,此刻門將的腦電波顯示他準備撲球門的右邊,梅西這一腳打門的成功率在80%左右,果然,球進了!!!”
數據分析之于足球產業
大數據悄然改變著每一個行業,足球也不例外。對于足球數據的應用,大家首先想到的,一定是博彩。對于博彩公司而言,一份真實完整的歷史數據報告,能為精算師們計算初始賠率提供數據支持。而源源不斷及時輸入比賽實時數據,則會幫助博彩公司及時調整實時賠率,以獲取更大的收益。值得注意的是,博彩公司初始賠率雖然是基于球隊數據,但起著決定性因素的,其實是市場期望,這也是足球數據行業值得關注的一個領域。
前不久剛剛進行的2017世俱杯半決賽中,皇家馬德里客場迎戰阿布扎比半島,這場比賽最引人注目的并非兩隊之間的對決,而是阿里云團隊用人工智能技術對比賽進行了解說。AI不僅正確識別了球隊、球員,還識別出了球員的傳球、射門等動作。
解說員在緊張的比賽之中難免會出現差錯,但人工智能背后強大的數據則有效地避免了這個問題。一場看似簡單的解說,實際運用了多路神經網絡卷積模型對球及球員定位,加上高效的跟蹤算法,就實現了對球員和球的實時跟蹤。同時,人工智能提前學習球衣號碼,提取球員人臉特征,再對比錄入的球員信息,即可完成球員的身份識別。此外,對球門、邊界線等球場基礎信息的識別,也可以讓該機器對球場形成更加全面的感知。由此可見,未來人工智能在足球領域的一大應用可能是呈現更多形式、更精準的賽事轉播。
回歸到足球本身,如何幫助球隊取得勝利,如何用較低的溢價簽到最合適的球員,或許是足球數據最具意義的應用。眾所周知,每支球隊都有各自賴以成名的球隊風格,比如巴薩的Tiki-Taka戰術以傳控為主,而死敵皇馬強調速度致勝。每種球風各有特色,相生相克。又比如西甲中下游球隊塞爾塔和英超中下游球隊水晶宮,雖然在聯賽中戰績不佳,但卻是名副其實的強隊收割機,這些隱藏在表面數據之下的特殊規律則可以交由足球大數據去探索。
可能有人會說強大的數據讓足球失去了原有的魅力,甚至擔心有一天人工智能機器人會打敗人類足球,但其實數據只是讓大家更理性的參與足球活動,甚至從中受益。足球永遠是那個充滿不確定性的運動,因為,足球是圓的。



































