Op het moment wordt de data van meer dan 90.000 voetbalspelers, 3500 voetbalclubs en 2000 wedstrijden per week bijgehouden. Dit zorgt natuurlijk voor enorm veel mogelijkheden om die data te analyseren en nuttige informatie eruit te halen. Misschien wordt het zelfs mogelijk de scouts te vervangen door een model die de meest geschikte speler voor een bepaalde voetbalclub genereert. Waar moeten we naar kijken in zo’n model en zal dit echt de voetbalwereld kunnen veranderen?
Een bedrijf dat zich al een paar jaar op deze data analyses in het voetbal focust, is SciSports. Dit bedrijf is opgericht door twee studenten van de Universiteit Twente. Ze waren onder andere geïnspireerd door een college waarin werd verteld over de methodes die de NASA gebruikt om het perfecte team van astronauten samen te stellen. In dat geval heb je ook een gevarieerd team nodig: mensen die de leiding nemen, technische mensen en praktische mensen. Hetzelfde geldt natuurlijk voor een voetbalteam, hier heb je ook spelers met ervaring nodig, spelers met een actie in huis, spelers die goed kunnen verdedigen en nog veel meer. Het bedrijf SciSports probeert de informatie uit de data te halen die je niet meteen ziet als je een voetbalwedstrijd bekijkt. Je zou bijvoorbeeld kunnen zeggen dat het aantal doelpunten dat een spits scoort bepaalt hoe goed hij is. Maar als je data gebruikt kan je veel dieper kijken naar wat de spits nou eigenlijk bijdraagt aan het team. Scoort de spits vaak het winnende doelpunt of scoort hij juist vaak als het team al ruim voorstaat? Staat de spits vaak op de juiste plek? Er zijn nog veel meer punten waar je naar kunt kijken en dit zorgt ervoor dat je een veel gedetailleerder beeld van een speler krijgt. Op het moment is het bedrijf aan het werk in bijna alle grote competities in Europa en zijn er steeds meer clubs die om hun hulp vragen.
Wout Weghorst
Een mooi voorbeeld dat laat zien wat zulke data analyses voor het voetbal kunnen betekenen is het verhaal van Wout Weghorst. In 2014 speelde Weghorst nog bij FC Emmen in de eerste divisie van Nederland. Hij was hier tweede spits en zijn contract werd niet verlengd. Als eredivisieclub zou dit niet bepaald de eerste speler zijn waar je aan zou denken als nieuwe spits. SciSports analyseerde Wout Weghorst en zag dat de statistieken een heel ander verhaal over Wout Weghorst vertelden. Hij stond heel vaak op de goede plek en als hij scoorde waren dit toch vaak de doelpunten die het team punten opleverden. SciSports was al langer in contact met Heracles Almelo en adviseerde hun om Weghorst binnen te halen. Heracles ging hier in mee en nam Weghorst aan als derde spits. Vanaf dit punt zullen de meeste voetballiefhebbers het verhaal wel kennen. Weghorst werd al snel eerste spits van Heracles, scoorde veel doelpunten en werd verkocht aan AZ. Op het moment speelt Weghorst voor Vfl Wolfsburg in Duitsland en heeft hij ook al zijn debuut gemaakt in het Nederlands elftal.
Voordat dit gebeurde was SciSports erg onbekend en waren de meeste clubs nog erg sceptisch over hun aanpak. Het verhaal van Wout Weghorst is een van de verhalen die het beeld van de meeste voetbalclubs heeft veranderd en die clubs heeft laten inzien dat data analyses in het voetbal toch erg nuttig kunnen zijn. Kijk bijvoorbeeld naar afgelopen WK, toen had België de hulp van SciSports ingeroepen.
Hoe ziet zo’n model eruit?
SciSports kijkt naar verschillende elementen binnen het voetbal. Dit kunnen dingen zijn zoals het aantal punten dat een team heeft behaald als een bepaalde speler wel/niet speelt, het percentage van de schoten van een speler die tot een doelpunt leiden en het aantal succesvolle passes van een speler. De bovenstaande punten zijn natuurlijk relatief makkelijk te onderzoeken en die ook door de coach van een team zelf onderzocht kunnen worden. Daarom kijkt SciSports vooral naar elementen die gecompliceerder zijn, maar meestal wel beter de kwaliteit van een speler aangeven. Een voorbeeld van zo’n model dat wat gecompliceerder is, is het model waarin SciSports kijkt naar de verwachte impact van een pass. Stel dat we kijken naar een speler die in kansrijke situaties dichtbij het doel van de tegenstander vaak de bal weer terug passt naar zijn eigen verdediging. Dit zorgt er waarschijnlijk voor dat deze speler een hoog percentage van succesvolle passes heeft. Maar in dit geval zijn er wel veel kansrijke situaties voorbij gegaan en draagt deze speler helemaal niet zoveel bij aan de overwinning van zijn team. Om beter te kijken naar wat de passes van deze speler nou echt toevoegen aan het team heeft SciSports een model gecreëerd.
In dit model worden als eerste alle balbezitreeksen van een wedstrijd gereconstrueerd. Een balbezitreeks is een serie van gebeurtenissen waarin een team de bal heeft. Zo’n serie begint met dat het team de bal krijgt en het wordt beëindigd als een team de bal verliest, de bal uitgaat, er een doelpunt wordt gescoord of als er een overtreding wordt gemaakt.
Ten tweede wordt aan elke balbezitreeks een bepaalde waarde gegeven. Als deze reeks niet leidt tot een schot op doel, krijgt het de waarde 0. Als de balbezit reeks wel resulteert in een schot, krijgt het de verwachte waarde dat dit schot tot een doelpunt leidt.
Als derde wordt vervolgens elke balbezitreeks opgedeeld in subreeksen. Als voorbeeld hebben we een balbezitreeks van een pass, nog een pass en als laatste een dribbel en een pass. Deze reeks zal worden opgedeeld in de subreeksen: pass 1, dan pass 1 en pass 2, en de derde subreeks bestaat uit pass 1, pass 2, de dribbel en pass 3.
Als laatste kijken we naar het verschil tussen de verwachte waarde van de voorafgaande subreeks en de verwachte waarde van de nieuwe subreeks. Als een speler na deze balbezitreeks een bal weer ver naar achteren speelt, krijgt deze pass een negatieve waarde. Maar als deze speler bijvoorbeeld de bal op het hoofd legt van de spits vlak voor de keeper, dan krijgt deze pass natuurlijk een positieve waarde. De verwachte waarde van een bepaalde subreeks wordt bepaald door het gemiddelde van andere reeksen die ook ongeveer langs dat punt zijn gekomen. Omdat dit misschien wat lastig te begrijpen is, zullen we kijken naar een voorbeeld op de volgende afbeelding.
Bron: www.scisports.com
Op deze afbeelding kijken we naar een groene balbezitreeks. We gaan nu kijken naar de toegevoegde waarde van de laatste pass. Hiervoor berekenen we het verschil tussen de verwachte waarde van de voorafgaande subreeks en de verwachte waarde van de nieuwe subreeks. Op het plaatje rechtsboven kijken we naar de verwachte waarde van de oude subreeks, vanaf deze positie hebben zich twee andere reeksen plaatsgevonden waarvan één de waarde 0 heeft en de ander de waarde 0,6. De verwachte waarde van de voorafgaande subreeks is het gemiddelde van deze twee, oftewel 0,3. Dezelfde methode passen we toe voor het berekenen van de verwachte waarde van de nieuwe subreeks in het plaatje linksonder, dit geeft 0,45. Vervolgens geven we de pass de waarde van het verschil van deze twee subreeksen en dat geeft ons 0,15. Zo zien we dat dit model een mooi voorbeeld is hoe we beter kunnen kijken wat de passes van een speler precies toevoegen aan een team.
De toekomst
De invloed van data analyses en een bedrijf zoals SciSports begint steeds groter te worden op het voetbal. Ook voetbalclubs beginnen steeds meer in te zien wat de toegevoegde waarde van data analyses kan zijn. Dit valt te zien aan het feit dat Manchester City een eigen afdeling heeft met maar liefst twaalf econometristen. De modellen zullen in de toekomst steeds gecompliceerder worden maar waarschijnlijk zullen we ook steeds beter worden in het analyseren van het voetbal. Omdat dit toch een vrij recente ontwikkeling is denk ik dat er nog steeds veel mogelijkheden liggen voor econometristen om die analyses te verbeteren. Verder verwacht ik dat er ook veel mogelijkheden liggen voor kunstmatige intelligentie. Op het moment programmeren wij de computers om ergens naar te kijken. Als we de computers nou zo opvoeden dat zij zelf de verbanden gaan zoeken in het voetbal dan zullen we een nog hoger niveau van analyses bereiken.
Op het moment denk ik dat data analyses een mooi hulpmiddel zijn, maar dat goede scouts in het voetbal ook nog hard nodig zijn. Dit komt onder andere doordat er ook gekeken moet worden naar de sociale plek van een speler binnen een team en dit is toch iets dat lastig in een model te verwerken is. Deze data analyses zijn er vooral om scouts en andere mensen in het voetbal zoals trainers te helpen. Toch zie ik het wel gebeuren dat als de kunstmatige intelligentie zich nog een behoorlijk stuk ontwikkelt, de scouts in de toekomst overbodig zullen zijn. En daarom zullen deze data analyses ook zeker de voetbalwereld kunnen veranderen. Verder moeten we vooral ook niet vergeten om gewoon lekker te genieten van dit mooie spelletje!
Dit artikel is geschreven door Stan Koobs.
Bronnen:
https://www.scisports.com/valuing-football-players-passes-by-leveraging-event-sequences/https://www.nrc.nl/nieuws/2017/09/28/snotneus-verovert-het-profvoetbal-13226517-a1575112https://www.volkskrant.nl/sport/hoe-data-analyse-het-nederlandse-voetbal-kan-redden~b70b8d7c/