Come i big data hanno trasformato il calcio

Come i big data hanno trasformato il calcio

02.07.2018 | Analisi statistiche e algoritmi di machine learning: il talento umano non è più il solo protagonista in campo.

La palla è rotonda, la partita dura 90 minuti e tutto il resto è solo teoria”. La frase è di Sepp Herberger, leggendario allenatore della nazionale tedesca che condusse la Germania Ovest alla vittoria del primo mondiale nel 1954. Il fautore del Miracolo di Berna, la finale in cui la sua squadra ribaltò lo 0-2 iniziale e vinse inaspettatamente contro la l’Ungheria di Puskas, riassume in poche parole quello che è stato per decenni il pensiero dominante nel mondo del calcio.

L’idea che uno sport dove un episodio così raro, il goal, possa fare la differenza molto più di tutte le altre variabili, ha portato a guardare con diffidenza ogni tentativo di quantificare le probabilità che ne determinano i risultati. Almeno fino a un paio di decenni fa, quando nel panorama internazionale sono apparse aziende come Opta e Prozone (oggi Stats): i più grandi database di statistiche sportive in circolazione. Il loro modello è semplice: raccogliere quanti più dati possibili sui maggiori eventi sportivi internazionali per poi fornirli a team professionistici, agenzie di scommesse sportive e media.

Per quanto riguarda il calcio i dati selezionati si dividono in due categorie principali: la raccolta degli eventi di gioco – in pratica tutti i tocchi palla e le decisioni arbitrali – e il tracking dei movimenti dei giocatori; che permette di determinare distanza percorsa e velocità. Quello che società simili possono fare è praticamente illimitato, perché riescono a raccogliere dati anche in modo retroattivo; è sufficiente che un evento sportivo sia stato trasmesso in TV. La quantità di dati che ne deriva è enorme. Oggi questa mole di informazioni ha rivoluzionato il modo di concepire e raccontare il calcio grazie a due fattori: lo sviluppo di un’infrastruttura adeguata a raccogliere ed elaborare le statistiche disponibili e il diffondersi di una narrazione dello sport sempre più basata sui numeri. Il recente hype sui big data coinvolge diversi settori della nostra vita e in fondo non è altro che una narrazione della realtà che nasce dalla capacità di raccogliere, salvare ed analizzare database non gestibili con normali strumenti computazionali; il calcio ne ha solo seguito la scia.

Tutto quello che sai sul calcio è sbagliato

Nel 2013 esce The Numbers Game: Why Everything you know about Football is Wrong, il best-seller pubblicato da Penguin Books che ha consacrato l’utilizzo dei big data nel calcio come argomento mainstream. Scritto da due professori universitari, Chris Anderson e David Sally, questo volume raccoglie in circa 400 pagine il cambio di paradigma che ha rivoluzionato il mondo del pallone. Per decenni il gioco più bello del mondo, e uno dei più grandi business a livello planetario, è stato guidato da scelte basate sull’esperienza e l’intuito dei manager. L’intuito però, se non supportato dai dati, può portare a degli errori interpretativi che i dati possono aiutare a evitare.

Se pensate che per vincere basti comprare i giocatori più costosi – quindi teoricamente più bravi – vi sbagliate. The Numbers Game spiega come nella maggior parte dei casi investire nel settore giovanile e nel miglioramento dei calciatori meno dotati porti in realtà a risultati migliori rispetto a sontuose campagne acquisti. Altre analisi statistiche rendono evidente che un allenatore influisce solo per il 15% sui risultati della sua squadra.

Grazie all’analisi di 8232 partite dei maggiori campionati europei tra il 2005 e il 2011, Sally e Anderson raccontano di come le squadre che hanno fatto più tiri in porta vincano solo poco più della metà delle volte: dal 50% al 58% a seconda dei paesi analizzati. Gli esempi sono molti, a volte quantomeno azzardati, ma il carattere provocatorio del testo ha aperto un fronte di discussione prima inesistente: dati e pattern di gioco raccontano storie controintuitive. Nel calcio finalmente qualcuno è riuscito a rendere queste storie credibili, dando loro il carattere di scienza grazie alla rielaborazione della grande quantità di dati raccolti.

Ma per andare alla genesi di quello che oggi è diventato un vero e proprio movimento dobbiamo tornare indietro di una decina d’anni, quando uscì Moneyball, il libro di Michael Lewis – poi diventato anche un film – che racconta la storia di Billy Beane, l’allenatore che grazie all’utilizzo delle statistiche riuscì a inanellare (contro ogni pronostico) un’incredibile serie di successi con gli Oakland Athletics, una squadra di seconda fascia della Major Baseball League americana.

Solo tre anni più tardi, nel 2006, si svolse invece la prima Sloan Sports Analytics Conference al MIT, ora diventata l’evento di riferimento per quanto riguarda sport e big data, un ritrovo di sport geek che parlavano di come utilizzare i dati negli sport nordamericani come baseball, basket e football americano. Volendo andare ancora più indietro nel tempo, i primi esempi di numeri al servizio della match analysis vanno ricercati addirittura negli anni ‘50, quando Charles Reep pubblicò le prime analisi numeriche sui pattern di gioco per il quotidiano inglese News Chronicle. Purtroppo la sua analisi pare fosse affetta da diversi bias interpretativi, oltre che da errori matematici, e portò alla teorizzazione della long ball che i modelli odierni hanno invece sconfessato a favore di un calcio basato sul possesso palla. Perché i numeri, se letti male, raccontano storie sbagliate.

Match Analysis

Per capire come i big data hanno influenzato la preparazione della partita delle squadre professionistiche, sono andato a parlare con Antonio Gagliardi, Head of Match Analysis per la nazionale di calcio italiana e docente del corso di match analysis della FIGC. “I big data hanno già un ruolo dominante nella preparazione fisico-atletica: tutti gli allenamenti sono monitorati, così come le partite; alimentando un database collettivo e individuale di chilometri percorsi, accelerazioni, potenza metabolica. Questi dati sono utilizzati quotidianamente per capire i diversi carichi di lavoro a cui sottoporre i diversi giocatori in squadra”.

C’è stata una rivoluzione nei metodi di allenamento dal punto di vista fisico-atletico, qualcosa di impensabile prima dell’avvento dei big data. Lo stesso vale per la preparazione delle partite dal punto di vista tattico: più sono i dati a disposizione e maggiori sono le chiavi di lettura del gioco avversario, oltre che del proprio team. Verrebbe da pensare che la figura del data scientist sia già una figura chiave negli staff tecnici del calcio professionistico, tuttavia pare ci sia ancora della strada da percorrere prima che il ruolo dei data scientist diventi centrale: “Al momento è un ruolo molto limitato per quanto riguarda l’aspetto tattico”, racconta Gagliardi. “È maggiormente sviluppato nel campo della preparazione atletica dove spesso vi sono preparatori atletici specializzati – con formazione universitaria in parte scientifica – a occupare questo ruolo”.

Lo stato dell’arte vede ancora un approccio di stampo prevalentemente qualitativo, dove la lettura del dato avviene a livello di singoli episodi piuttosto che di modelli di calcolo statistico. Gli algoritmi capaci di abbinare il tracking dei movimenti dei giocatori e del pallone agli eventi di gioco esistono, ma come spiega lo stesso Gagliardi sono ancora poco efficienti, sottovalutati e poco sfruttati.

Come tutti i grandi cambi di paradigma, l’applicazione dei big data al calcio ha cambiato il modo di interpretare il gioco più bello del mondo

Football Intelligence

Tuttavia qualcosa si sta muovendo in questo campo e un esempio arriva proprio dall’Italia. Gian Piero Cervellera è un data scientist e professore universitario, fondatore di Football Intelligence, la startup vincitrice di #hackmcfc, l’hackathon organizzato dal Manchester City di Pep Guardiola. La sua società si è aggiudicata il contest dedicato alle idee più innovative grazie a un modello che indica quale sia la tattica da utilizzare, sulla base della formazione avversaria, per avere la probabilità massima di poter arrivare a tirare in porta. Secondo Cervellera non ci sono campi dove i big data funzionano meglio, ma piuttosto “sembra che per alcune aree esistano dei modelli già assodati perché studiati da più tempo.”

Inoltre, “la maggior parte delle società che raccolgono i dati li utilizzano per creare i report che ci vengono forniti da tv e giornali dopo la partita. Football Intelligence non rileva il dato, lo elabora. Quello che ci proponiamo di fare è trasformare queste statistiche in informazioni utili agli allenatori ed ai loro staff: in termini di business, direi che il nostro obiettivo è trasformare il report in un decision support system (DSS). E per farlo utilizziamo il machine learning”.

La semplice lettura delle statistiche non necessariamente equivale a un’elaborazione efficiente dei big data: fino a qualche anno fa l’enorme quantità di dati disponibili veniva letta utilizzando metriche basilari come la media aritmetica. Oggi invece il calcio e gli algoritmi sembrano finalmente incrociare i propri percorsi. Cervellera è ben conscio degli attuali limiti del data-driven football: “Il machine learning impara dal passato e funziona nel futuro se ‘l’ambiente’ è sempre lo stesso. Deve essere inteso come decision support system – ovvero come sistema a supporto delle decisioni – come se l’allenatore avesse migliaia di persone che lo assistano racchiuse in un unico cervello. La decisione finale è sempre la sua, questi strumenti lo devono semplicemente supportare”. L’automazione degli allenatori per ora rimane un miraggio, ma proliferano le società che aiutano le squadre a orientarsi nel grande mare dei big data. Gli stessi Anderson e Sally ne hanno fondata una e collaborano con diversi club e media britannici.

Data-driven storytelling

Come tutti i grandi cambi di paradigma, l’applicazione dei big data al calcio ha cambiato il modo di interpretare il gioco più bello del mondo. Per cambiare la nostra prospettiva nei confronti di quello che osserviamo abbiamo bisogno di parole nuove per raccontarla. In questo i media giocano un ruolo fondamentale e hanno decretato il successo di aziende come Opta, capaci di fornire ai media le statistiche su cui costruire una data story. Uno dei neologismi che ha cambiato lo storytelling del calcio è l’Expected Goal (Xgoal), un indice che calcola probabilità di segnare una rete sulla base di diverse variabili, come distanza dalla porta e posizione in campo.

“Mi piace sempre ricordare la Serie A 2015/16” racconta Giacomo Zanetello, senior editor di Opta. “Dopo 10 giornate e la sconfitta col Sassuolo, la Juventus era nelle retrovie, mentre Inter (a forza di 1-0), Napoli, Roma e Fiorentina si contendevano i primi posti. I quotidiani e i talk show sportivi esaltavano squadre come quella nerazzurra e parlavano di stagione fallimentare dei bianconeri. A un’attenta analisi dei dati, e in particolare dall’applicazione del modello degli expected goal, si deduceva come i bianconeri stessero creando molto ma raccogliendo poco. Viceversa, l’Inter stava concedendo molto agli avversari, ma per diversi fattori – errori degli avversari, miracoli del portiere, fortuna – riusciva sempre a portare a casa i tre punti. Poi alla lunga i veri valori sono emersi e sappiamo come è finita. Un approccio più analitico avrebbe permesso di fare un’analisi diversa”.

Lo stesso vale per la vittoria del campionato da parte del Leicester City di Ranieri, che ci insegna anche a non fidarsi troppo di dati limitati. “Perché il modello funzioni, i big data devono essere davvero big: limitare troppo il periodo di analisi può indurre a un errore di valutazione. Se per esempio prendiamo in considerazione solo l’anno della vittoria della Premier, i dati di alcuni giocatori – condizionati da diversi fattori – possono portare a errori di valutazione sui giocatori stessi. Un approccio più analitico, come per esempio gli expected goals per Vardy e gli expected assists per Mahrez, dimostra che in quella stagione abbiano raccolto più di quanto ci si potesse aspettare”. Anche nel calcio data is gold: più dati analizziamo e più precisa sarà la nostra analisi.

E per chi crede che l’adozione delle statistiche sia una pratica recente, la storia ci fornisce un’altra versione. “Volendo tornare indietro nel tempo”, continua Zanetello, “il primo a portare l’utilizzo del computer e dei dati nel calcio è stato il Colonnello Lobanovsky (allenatore dell’Unione Sovietica e delle Dinamo Kiev, ndr), addirittura negli anni ’70”. Eppure nei successivi tre decenni, l’analisi statistica è quasi scomparsa dal mondo del calcio.

“Credo che ci sia ancora una forte opposizione di buona parte degli allenatori a un approccio simile, un po’ a causa di una formazione completamente diversa, ma un po’ forse anche alla paura di perdere potere decisionale”. Nel calcio più che in altri settori, la paura di delegare decisioni e analisi a sistemi automatizzati ha rallentato il processo di adozione di tecnologie avanzate già molto utilizzate in altri campi. A essersi evoluto è soprattutto l’approccio nei confronti dei big data, e questo è il primo fattore di cambiamento.

Se i dati sono davvero big e abbiamo un’infrastruttura che ci permette di interpretarli, i risultati sono evidenti. Il romanticismo del mondo del pallone, se mai c’è stato, ha iniziato a sbiadire qualche decennio fa. I dati non cancellano lo storytelling del pallone, lo cambiano, arricchendolo di dettagli che a volte non riusciamo a vedere. In fondo, una data story è pur sempre una storia. Che piaccia o meno, oggi i numeri sono il tessuto del nostro modo di comprendere il calcio e di gestire le enormi possibilità di business che ne derivano. Questa è la vera rivoluzione: i big data hanno migliorato le tecniche di allenamento e le strategie delle squadre professionistiche, e sono destinati a giocare un ruolo decisivo nei prossimi anni.

l'autore
Roberto Pizzato