Oracle Cloud 資料分析能提供相關資訊,以決定兩個英超聯賽獎項的得主

球季「逆轉之王」和「最快進球」的得主,是根據所有 380 場賽事中擷取的資料來決定。

Rob Preston | 2024 年 5 月 21 日


英超聯賽的伯恩茅斯隊 (Bournemouth) 在下半場開始時,就被盧頓鎮隊 (Luton Town) 以三次進球強力輾壓,看起來不太可能平手,更不可能逆轉。但伯恩茅斯隊隨後於 33 分鐘內踢進四球,這讓球迷無法相信自己的眼睛。

但這真的是英超聯賽 2023 至 2024 年球季的「逆轉之王」得主嗎?我們擷取多達 12 億列的資料,涵蓋所有 380 場賽事總共 100 多億個資料點後,確定了這絕對是「逆轉之王」。

「逆轉之王」是英超聯賽於 5 月 21 日頒發的兩個季末獎項之一,這兩個獎項的決定,是運用 Oracle Cloud Infrastructure (OCI) 服務來進行嚴謹的資料分析。

伯恩茅斯隊 3 月 13 日在主場賽以 4 比 3 逆轉勝,因此將「逆轉之王」獎項抱回家。本球季的「最快進球」獎得主同樣令人驚嘆:阿斯頓維拉隊 (Aston Villa) 翼鋒 Moussa Diaby 在 3 月 30 日以一記快速進球擊敗狼隊 (Wolverhampton),因此獲得這個獎項。

為了決定獎項得主,英超聯賽與 Oracle 合作,請該公司部署資料科學家,使用數種尖端 OCI 服務分析大量賽事資料。以下是這項分析作業的幕後直擊。

逆轉之王:計算方式

Oracle 資料科學家 Brian Macdonald 使用 Win Probability 統計數據 (一種第三方統計數據) 找出這個英超聯賽獎項的候選者,這項統計數據會模擬賽事剩餘時間可能發生的 100,000 種情形,以計算球隊在每場賽事中獲勝或平手的機率。

這個統計數據模型是根據 Stats Perform 所產生的多年賽事資料、每場賽事中不同時間點影響當下比分的因素、特定賽事的剩餘時間,每個球隊在球場上的球員人數 (計入收到紅牌而離場的任何球員),以及球隊是在主場還是客場進行比賽。

Oracle 使用 OCI Data Science Service,針對球季中 380 場賽事,每隔 30 秒分析一次每支球隊的獲勝率,以計算哪支球隊以最低的獲勝機率,逆轉勝擊敗對手。

針對「逆轉之王」得主伯恩茅斯隊,OCI Data Science 判定盧頓鎮隊在下半場 49:44 時的獲勝機率為 97.6%;在球季中所有後來落敗的球隊中,這一隊的獲勝機率最高。在這個時間點,伯恩茅斯隊的獲勝機率只有 0.4%。

使用表格追蹤伯恩茅斯隊和盧頓鎮隊的進球次數


伯恩茅斯隊和盧頓鎮隊「逆轉之王」百分比圖表

最快進球:資料顯示出明確的得主

如果球員踢出從踢球到跨過球門線這段距離內平均速度最高的得分進球,而且該次進球的起點在罰球區 18 碼線外,同時沒有因為打中阻礙而偏轉,英超聯盟就會頒發這個獎項給該球員。

OCI Data Science 分析結果顯示,Moussa Diaby 在 3 月 30 日對戰狼隊時的進球,平均時速為 68.25 英里 (109.84 公里)。在英超聯賽 2023-24 賽季中,只有另一次進球的時速超過 65 英里 (水晶宮隊 (Crystal Palace) 的 Eberechi Eze 在 5 月 19 日對戰阿斯頓維拉隊時,踢出時速 65.01 英里的進球)。

第 10 名和第 2 名的時速只差了 3.2 英里。Macdonald 說:「這個獎項前 10 名的其餘名次時速都很接近,只有極微小的差距,但獎項得主與其他人的差距極大。」

對在家觀賞賽事的球迷來說,可能很難分辨快速射門的微小時速差距,尤其是某些射門會擦過球場表面,有些則是飛進門框上角。英超聯賽商務長 Will Brass 表示:「這些獎項背後的資料分析非常重要。「計算過程相當複雜,必須追蹤球員與球的動態,並詳細分析進球時刻。Oracle Cloud Infrastructure 讓我們有充分的信心進行這些精確的運算,使我們能夠確認獎項得主是誰。」

正如預期,所有「最快進球」獎項入圍者,都是在接近罰球區外圍的球門中央位置附近射門。Macdonald 說:「這很合理,因為當我檢視這些進球時,其中有許多向球員的方向反彈回去而沒有射門,這種反彈球的速度更快。這是基本物理學。」

使用表格顯示平均時速最高的得分射門

使用 OCI 環境來設定

Macdonald 表示,他只要花 30 分鐘就能設定要用來評估這兩個獎項的 OCI 實例。

第一步是在 OCI Compute 虛擬機器上撰寫 Bash 指令檔,以從英超聯賽兩個主要資料提供者的 API 提取資料,並將資料放入 OCI Object Storage。這些指令檔會在每個比賽日之後提取更新的資料。

其中一個供應者是 Second Spectrum,該公司使用機器學習和電腦視覺演算法,針對每場英超聯賽賽事,提供球場上所有 22 名球員及足球位置的定位資料 (3D 座標)。另一個提供者是 Stats Perform,該公司的 Opta 服務會增強定位資料,以識別賽事中的「事件」,例如射門 (包括球員在球場上的位置、與球門的距離,以及是左腳或右腳踢球)、角球、犯規、罰球等等。

Macdonald 從此處將資料上傳到 Oracle Autonomous Data Warehouse,使用雲端倉儲的內建 JSON 功能來處理呈現足球賽事所需的複雜巢狀 JSON 結構。接著,他使用 OCI Data Science 機器學習平台進行一系列深入分析。

總而言之,這項分析納入來自所有 380 場賽事的數十億個資料點,以便計算每場賽事和射門的大量指標,最終為每個獎項產生一份入圍者決選名單,協助英超聯賽為各個獎項選出一位得主。

Macdonald 表示:「連線到兩個資料提供者的 API 可能是最複雜的部分,因為我們必須通過正常的首次驗證步驟。通過這些步驟後,只要重複執行相同的指令即可,其餘的工作則相當簡單。」

用來計算獎項統計資料的架構圖
Oracle 資料科學家利用上述架構計算獎項統計資料。

OCI 環境已在過去三個賽季用於產生英超聯賽兩個季末獎項的結果,並在每場賽事後更新每個獎項的排行榜和儀表板。初步結果用於社群媒體,以協助在整個賽季宣傳這些特別事件和射門,但不公開領先的獎項入圍者。

Macdonald 說明:「我們針對結果進行了很多深入分析和討論,驗證和比較資料,以確保沒有遺漏任何資訊。」

使用的主要 OCI 產品

OCI Data Science Service 是分析的槓桿點,也是資料科學團隊建構、訓練和管理高品質機器學習模型的完全託管無伺服器平台。自動化機器學習功能可快速檢查資料並建議最佳演算法,同時調整模型並說明其結果。

OCI Data Science 的拖放式資料整合與準備工具,可讓使用者輕鬆將資料移動到資料湖或資料倉儲中。雲端平台的安全性工具和使用者介面,能讓具備多個角色的使用者參與專案和共享模型。不可知模式的解釋有助於資料科學家、業務分析人員和高階主管對結果充滿信心。

Oracle Autonomous Data Warehouse 是雲端資料倉儲服務,透過自動化佈建、組態、修正、調整、調整規模及備份,降低作業複雜性。

OCI Compute 提供快速、彈性且經濟實惠的運算能力,從裸機伺服器和虛擬機器到輕量型容器,適合任何工作負載。OCI Compute 獨特靈活的 VM 和裸機實例,可帶來最佳性價比。

OCI Object Storage 讓使用者能以資料的本機格式,安全儲存任何類型的資料。對於建構需要規模和彈性的現代應用程式而言,內建備援功能的 OCI Object Storage 是理想的選擇,因為它可合併多個資料源進行分析、備份或歸檔。

Macdonald 也使用 Oracle Analytics Cloud 為各個獎項提供完整的排行榜,讓他能夠根據不同的條件重新排序資料,例如將罰球區 18 碼線內發生的射門納入「最快進球」入圍者,或將分析範圍縮小到特定球隊的球員。

Oracle Analytics Cloud 提供一組完整的工具,可衍生及共用資料洞察分析。此平台可讓分析師在任何裝置上將任何資料發現項目視覺化。此平台也可讓使用者使用各種演算法來攝取、分析、清理和彙總資料,然後大規模執行機器學習模型。