L'analisi dei dati di Oracle Cloud è alla base di due premi della Premier League

I vincitori della stagione di Most Improbable Comeback e Most Powerful Goal vengono stabiliti sulla base dei dati estratti da tutte le 380 partite.

Rob Preston | 21 maggio 2024


Quando il Bournemouth della Premier League era in svantaggio con Luton Town di tre gol all'inizio del secondo tempo, un pareggio sembrava improbabile e una vittoria quasi impossibile. Dopo quattro gol a Bournemouth nell'arco di 33 minuti, i fan non potevano credere a quello che avevano appena visto.

Non è stato, infatti, il ritorno più improbabile nella stagione 2023-2024 della Premier League? Dopo aver analizzato i dati (1,2 miliardi di righe) per un totale di oltre 10 miliardi di datapoint su tutte le 380 partite, abbiamo stabilito che era effettivamente così.

Most Improbable Comeback è uno dei due premi di fine stagione annunciati dalla Premier League il 21 maggio, ciascuno basato su un'analisi dei dati rigorosa basata sui servizi Oracle Cloud Infrastructure (OCI).

Bournemouth porta a casa il trofeo Most Improbable Comeback per la vittoria 4-3 in casa del 13 marzo. Altrettanto sorprendente è stato il goal più potente della stagione, per il quale l'ala di Aston Villa, Moussa Diaby, porta a casa il trofeo per il suo fantastico tiro contro il Wolverhampton il 30 marzo.

Per definire i vincitori del premio la Premier League ha collaborato con un data scientist di Oracle che, grazie a diversi servizi all'avanguardia di OCI, ha analizzato le enormi quantità di dati sulle partite. Quello che segue è uno sguardo dietro le quinte a quell'analisi.

Il ritorno più improbabile: come viene calcolato

Il data scientist Oracle, Brian Macdonald, ha eletto i candidati al premio per la squadra della Premier League utilizzando la statistica sulla probabilità di vittoria, una statistica di terze parti che calcola la possibilità che una squadra ottenga una vittoria o un pareggio in ogni partita simulando il resto della partita 100.000 volte.

Tale modello statistico, basato su diversi anni di dati di partite generati da Stats Perform, prende in considerazione il punteggio in momenti diversi durante ogni partita, il tempo rimanente in un data partita, il numero di giocatori sul campo per ogni squadra (per tenere conto di eventuali giocatori espulsi a causa di un cartellino rosso) e se una squadra gioca in casa o fuori casa.

Utilizzando OCI Data Science Service, Oracle ha analizzato le probabilità di vittoria di ogni squadra in intervalli di 30 secondi per ciascuna delle 380 partite della stagione per calcolare quale squadra è partita dalla probabilità di vittoria più bassa per sconfiggere il proprio avversario.

Per il vincitore di Most Improbable Comeback, Bournemouth, OCI Data Science ha stabilito che Luton aveva una probabilità di vittoria del 97,6% alle 49:44 del secondo tempo, la percentuale più alta di qualsiasi squadra durante la stagione, ma alla fine ha perso la partita. A questo punto Bournemouth aveva solo uno 0,4% di possibilità di vincere.

Obiettivi di monitoraggio in tabella per AFC Bournemouth e Luton Town


Grafico % di Most Improbable Comeback Win tra AFC Bournemouth e Luton Town

Most Powerful Goal: dai dati emerge chiaramente un vincitore

Questo premio della Premier League riconosce il giocatore il cui tiro trasformato in gol ha avuto la velocità media più alta dal momento in cui è stato colpito il pallone al momento in cui ha attraversato la linea di porta, con l'accorgimento che il tiro è stato effettuato oltre la linea dei 18 metri dell'area di rigore e non è stato deviato

L'analisi di OCI Data Science ha rivelato che l'attacco di Moussa Diaby contro i Wolves del 30 marzo aveva una velocità media di 68,25 miglia all'ora (109,84 chilometri all'ora). Solo un altro gol durante la stagione 2023-24 della Premier League è stato più veloce di 65 mph (il tiro a 65,01 mph di Eberechi Eze del Crystal Palace contro l'Aston Villa il 19 maggio).

Il distacco tra il 10 ° posto e il 2 ° posto era solo di 3,2 mph. "I restanti primi 10 in questa categoria erano tutti vicini", ha dichiarato Macdonald. "Ogni incremento è piccolo e poi boom, c'è questo grande salto per il vincitore".

Per i fan che guardano la partita da casa, può essere difficile comprendere la potenza di tali tiri, soprattutto quando alcuni colpi toccano la superficie del campo, mentre altri volano nell'angolo superiore della porta. "Questa è una delle ragioni per cui l'analisi dei dati alla base di questi premi è così importante", afferma Will Brass, Chief Commercial Officer della Premier League. I calcoli sono complessi, implicano il monitoraggio del giocatore e della palla, nonché l'analisi dettagliata del momento in cui la palla viene colpita. Oracle Cloud Infrastructure ci permette di fare questi calcoli con la massima precisione e ci permette di dichiarare il vincitore che realmente merita il premio".

Come ci si può aspettare, tutti i finalisti di Most Powerful Goal sono stati selezionati per colpi vicino al centro della porta, appena fuori dall'area di rigore. "Questo risultato è corretto", dice Macdonald, "perché se osservo questi tiri, molti presentano passaggi deviati che tornano al tiratore, lontano dalla porta, il che dà alla palla una velocità extra. È solo fisica di base".

Tabella che mostra quali tiri, che si sono conclusi in gol, hanno avuto la velocità media più alta

Impostazione, tramite l'utilizzo dell'ambiente OCI

Macdonald ha dichiarato di aver applicato le istanze OCI a entrambe le valutazioni dei premi in soli 30 minuti.

Il primo passaggio è stato scrivere script Bash sulle virtual machine OCI Compute per estrarre i dati dalle API dei due principali provider di dati della Premier League e inserirli in OCI Object Storage. Questi script hanno estratto i dati aggiornati dopo ogni giornata di campionato.

Un fornitore è Second Spectrum, che offre i dati sul posizionamento (coordinate 3D) di tutti i 22 giocatori in campo, così come la palla, per ogni partita di Premier League, utilizzando algoritmi di apprendimento automatico e computer vision. L'altro fornitore è Stats Perform, il cui servizio Opta migliora i dati di posizione per identificare gli "eventi" della partita, come i colpi (inclusa la posizione sul campo, la distanza dal gol e se erano destri o mancini), i calci d'angolo, i falli, i calci di rigore e così via.

Macdonald ha caricato i dati dei fornitori in Oracle Autonomous Data Warehouse, utilizzando le funzionalità JSON integrate del warehouse basato su cloud per gestire le complesse strutture JSON nidificate necessarie per una partita di calcio. Ha quindi condotto una serie di analisi approfondite utilizzando la piattaforma di machine learning OCI Data Science.

Complessivamente l'analisi ha raccolto miliardi di dati da tutte le 380 partite per calcolare una miriade di metriche su ogni partita e gol, generando infine una breve lista di candidati per ogni premio e terminando poi nella selezione di un vincitore della Premier League per ogni categoria.

"La connessione alle API dei due provider di dati è stata probabilmente la parte più complicata, perché abbiamo dovuto lavorare attraverso i normali passaggi di autenticazione", afferma Macdonald. "Non appena è stata superata questa fase, il resto consisteva semplicemente nell'eseguire gli stessi comandi più volte. Il resto è stato facile".

Diagramma dell'architettura utilizzata per calcolare le statistiche relative ai premi
I data scientist Oracle hanno utilizzato l'architettura sopra descritta per calcolare i premi.

L'ambiente OCI ha prodotto i risultati per le due Premier League di fine stagione nelle ultime tre stagioni, aggiornando le classifiche e i dashboard per ogni premio dopo ogni partita. I risultati preliminari sono stati utilizzati sui social media per promuovere questi eventi e obiettivi speciali per tutta la stagione, mantenendo il riserbo sui candidati principali.

Macdonald spiega: "Abbiamo fatto molte analisi approfondite e abbiamo a lungo discusso i risultati, convalidando e confrontando i dati, assicurandoci di non perdere nulla".

Prodotti OCI chiave utilizzati

OCI Data Science Service, fulcro delle analisi, è una piattaforma serverless completamente gestita che consente ai team di data science di creare, addestrare e gestire modelli di apprendimento automatico di qualità. Le funzionalità di apprendimento automatico esaminano rapidamente i dati e consigliano gli algoritmi ottimali, ottimizzando al contempo il modello e spiegandone i risultati.

Gli strumenti di preparazione e integrazione dei dati tramite drag-and-drop di OCI Data Science consentono agli utenti di spostare facilmente i dati in un data lake o in un data warehouse. Gli strumenti di sicurezza e le interfacce utente della piattaforma cloud consentono agli utenti con più ruoli di partecipare ai progetti e di condividere i modelli. Le spiegazioni indipendenti dal modello consentono a data scientist, business analysts ed executive di avere fiducia nei risultati.

Oracle Autonomous Data Warehouse è un servizio di data warehouse basato su cloud che elimina le complessità operative automatizzando provisioning, configurazione, applicazione di patch, ottimizzazione, scalabilità e backup.

OCI Compute offre una capacità di calcolo veloce, flessibile e conveniente, da server Bare Metal e macchine virtuali a container leggeri, per qualsiasi carico di lavoro. OCI Compute offre istanze VM e Bare Metal estremamente flessibili per ottenere un rapporto qualità-prezzo ottimale.

OCI Object Storage consente ai clienti di archiviare in modo sicuro qualsiasi tipo di dati nel loro formato nativo. Grazie alla ridondanza integrata OCI Object Storage è l'ideale per la creazione di applicazioni moderne che richiedono scalabilità e flessibilità, poiché può essere utilizzato per consolidare più fonti di dati a scopo di analisi, backup o archiviazione.

Macdonald ha anche utilizzato Oracle Analytics Cloud per presentare una classifica completa per ogni premio, riordinando i dati in base a criteri diversi come, ad esempio, includendo per il Most Powerful Goal i tiri che si sono verificati all'interno dell'area dai 18 metri o limitare l'analisi ai giocatori di una determinata squadra.

Oracle Analytics Cloud offre un set completo di strumenti per dedurre e condividere gli insight sui dati. La piattaforma consente agli analisti di visualizzare qualsiasi risultato, su qualsiasi dispositivo. Consente inoltre agli utenti di includere, profilare e pulire i dati utilizzando una vasta gamma di algoritmi, nonché aggregare i dati e quindi eseguire modelli ML su larga scala.