‘We must have had 99 percent of the game. It was the other three percent that cost us the match.’ Deze wijsheid komt uit de koker van Ruud Gullit en hij bedoelde waarschijnlijk dat de eigen kansen niet erg efficiënt benut waren, of iets van die strekking. Tegenwoordig kunnen we dit soort uitspraken statistisch toetsen. De vraag die je nu waarschijnlijk hebt, is: hoe gebeurt dit?
Begin 2013 besteedde The Guardian aandacht aan het gebruik van statistische data binnen de Engelse voetbalcompetities. De columnist van dat artikel heeft het over Sam Green, een data-analist bij Opta die gebruik maakt van een model dat de kans van een schot op een doelpunt becijfert.
Hoewel het beestje nog niet bij naam wordt genoemd, hebben we hier te maken met de later gebruikte term ExpG. Deze afkorting staat voor ‘expected goal’ en is een statistische maat voor het aantal te verwachten goals van een speler of team, rekening houdend met het aantal schoten en de kwaliteit van deze schoten. De achterliggende gedachte is dat vanuit dat startpunt ergens aangegeven kan worden of een team efficiënt of inefficiënt is omgesprongen met de kansen. Of nog beter: wie er kampioen wordt van bijvoorbeeld de Eredivisie.
Tegenwoordig is het niet alleen maar Sam Green die knutselt aan wiskundige modellen. Er klotst de laatste jaren genoeg cijfermateriaal over de plinten van de sportdata-industrie (Opta en Infostrada) heen. Big data voor iedereen! Maar het zijn vooral enthousiaste bloggers die gebruik maken van deze gratis beschikbare informatie. Een van de bekendere bloggers is Paul Riley alias the @footballfactman. Riley was zo attent om op zijn weblog de ExpG-data van de laatste vijf jaar van de Premier League te delen met geïnteresseerden. In zijn databestand is van elke ploeg het verwachte aantal goals (ExpG) aan het einde van het seizoen weergegeven.
Betrouwbaarheid
Een goed model weet over herhaling heen de afwijking tussen ExpG en goals te minimaliseren. Hoe kleiner het verschil tussen ExpG en de werkelijkheid, des te beter de voorspelling. Paul Riley’s ExpG vertoont in diagram 1 een duidelijke overeenkomst tussen verwachte ExpG en aantal goals. In diagram 2 zoomen we wat verder in om het verschil tussen goals en ExpG van elk team wat scherper te krijgen.
De rondjes boven de groene streep zijn van de teams die een hogere ExpG hadden dan het gemaakte aantal goals. Of anders geformuleerd: dit zijn teams met een ExpG-overschatting binnen het model van Paul Riley. Zo had bijvoorbeeld Liverpool in het seizoen 2011/2012 een ExpG van 62,50. Aangezien ze 47 doelpunten maakten, was er sprake van een overschatting van 15,50 ExpG. Rondjes onder de groene lijn zijn de teams die een onderschatting hadden op hun ExpG. Hoe groter de afstand tot de groene lijn, des te groter het verschil tussen goals en ExpG.
Het meest perfecte model (de groene horizontale lijn in diagram 2) ontstaat wanneer de ExpG precies aansluit bij het gemaakte aantal goals over de 38 gespeelde wedstrijden per seizoen. Bijvoorbeeld: Manchester City maakte 83 goals in 2014/2015, met een ExpG van exact 83 zou dat een afwijking van nul zijn. In dit perfecte model is er geen gemiddelde afwijking tussen goals en ExpG en daardoor ook geen bijhorende spreiding. Hypothetisch zouden in dit perfecte model alle rondjes in diagram 2 precies op de groene stippellijn moeten liggen.
Verschillen
Gelukkig is Paul Riley (nog) geen statistisch omnipotent en liggen de rondjes over het algemeen in een puntenwolk die loopt van rechtsboven naar linksonder. De ‘best’ passende rode lijn door deze puntenwolk laat zien dat weinig scorende teams over het algemeen worden overschat in ExpG en teams die het net vaak weten te vinden worden onderschat. Het woord ‘best’ staat tussen haakjes, aangezien de puntenwolk beter samengevat kan worden met een zogeheten kubieke regressielijn (de zwarte stippellijn in diagram 2). Dit wijst erop dat de ExpG-afwijking binnen Riley’s model ten opzichte van het aantal goals niet helemaal lineair gerelateerd is.
Om de bovenstaande puntenwolk wat overzichtelijker te maken zijn het aantal gemaakte goals over het seizoen (de x-as) in diagram 3 gereduceerd naar vijf klassen van ongeveer twintig procent. In de Premier League maakten vijftien teams in de laatste vijf jaar minder dan 39 goals. Twintig procent van de teams scoorde in zijn totaliteit tussen de 40 en 45 goals.
De significante verschillen zitten binnen het ExpG model vooral in het kop en staart gedeelte van de grafiek. De ExpG wordt met 4,47 licht overschat bij de minst scorende 15 teams (< 39). Binnen de Premier League maakten 44 teams 40 t/m 50 doelpunten. In dit middenstuk benaderen de verwachtingswaarden van Riley het aantal goals gemiddeld zeer nauwkeurig.
Het duidelijkste significante verschil zit bij de top 21 teams (65<) van de afgelopen 5 jaar. In deze groep is er een ExpG onderschatting van gemiddeld 7,78.
ExpG-test
In een recent geschreven ExpG-artikel `Why Soccer’s Most Popular Advanced Stat Kind Of Sucks` komt blogger Michael Bertin tot de conclusie dat ExpG modellen niet significant van een hoger niveau zijn dan eenvoudige modellen. Een citaat:
‘So I took the dumbest model I could think of and plotted the exact the same thing. The super 0,095 dumb model? In other words, nothing — not distance, not angle, not that it was Zat Knight and not Bas Dost who took that shot, not even that it was taken on a wet Tuesday night at Stoke’
Als referentiekader gebruikte Bertin in zijn artikel de simpelste heuristiek die hij kon bedenken: de regel dat er ongeveer tien à elf kansen nodig zijn voor een doelpunt. Dat is per schot ruwweg 0,095 kans op een doelpunt. Door het totaal aantal schoten per team te vermenigvuldigen met 0,095 krijg je volgens Bertin een ruime inschatting van wat je aan het einde van het seizoen kan verwachten. Bijvoorbeeld Chelsea had in laatste seizoen 564 schotpogingen nodig voor 73 doelpunten. Met deze berekening komen we met de eenvoudige som van 564 * 0,095 uit op 53,58 goals.
Maar wat gebeurt er als we vervolgens deze vuistregel weer met het aantal daadwerkelijke doelpunten van Chelsea dat seizoen vergelijken (dat waren er 73). Het `super dumb model` waar Bertin over spreekt, heeft een duidelijke ExpG-onderschatting van 19,42 doelpunten. Het model van Paul Riley had als verwachtingswaarde 69,26 goals voor Chelsea en was met 3,74 doelpunten verschil een stuk zuiverder in zijn schatting. In het onderzoek is deze vergelijking tussen de vuistregel en feitelijk aantal goals voor alle 100 teams toegepast. Met de belangrijkste vraag of de claim van Bertin ergens stand houdt in vergelijking tot Riley’s ExpG.
Om het MythBusters-antwoord alvast te geven: busted! De afwijking van de 0,095 Bertin’s vuistregel over alle 100 teams is gemiddeld 7,31 goals, terwijl de gemiddelde ExpG afwijking van Paul Riley over de 100 teams heen significant (t(100) = 4,746 p < 0,001) kleiner en dus beter is met 4,9 goals. Het gemiddelde ExpG-verschil (ExpG min goal) is in diagram 4 voor zowel Bertin’s en Riley’s model aangegeven per klassen. De lijnen in de onderstaande afbeelding zijn een weergave van de bijhorende spreiding met in het midden (het rondje) de gemiddelde ExpG-afwijking. De verwachting van Riley is ten opzichte van het ‘dumb-model’ van Bertin bij alle vijf groepen beter.
Conclusie
De ExpG van Riley correleert in hoge mate met het totaal aantal goals. Wel is er in het verwachtingsmodel van Paul Riley een tendens waarin er een ExpG-overschatting is van teams die weinig scoren en een ExpG-onderschatting van teams die juist bovengemiddeld veel scoren. Michael Caley, expert op het gebied van ExpG, geeft aan dat ‘game state’ in sommige gevallen een probleem zou kunnen zijn binnen dit theoretische fenomeen, hoewel steeds meer modellen rekening houden met deze correctie.
Toevalligheden binnen een wedstrijd zijn volgens hem de grootste storende factor. Geluk of ongeluk als onverklaarde residu binnen het predictiemodel. Een zondagmiddagelftal dat zes doelpunten maakt, heeft misschien gewoon een geluksdag. ExpG-modellen hebben in vergelijking tot de werkelijkheid gewoonlijk een wat kleinere variatie, volgens Caley.
Een ander issue dat van invloed kan zijn op het verschil tussen ExpG en goals, is de spelerskwaliteit. Zeer efficiënte voetballers weten minimale kansen maximaal te benutten en daardoor continu de ExpG te overklassen. In de boekhouding kunnen ten slotte het gebrek aan data over spelerspositionering en de defensieve druk tegenstanders bijgeschreven worden.
Deze lijst die het verschil tussen ExpG en de werkelijkheid mogelijk kunnen verklaren, is nog niet uitputtend. De grootste sprongen zijn binnen het model al wel gemaakt. De grondverf zit erop en het aflakken zal zeker nog winsten opleveren. Wat we wel kunnen wegpoetsen, is de veronderstelling van Bertin dat ExpG-modellen niet beduidend beter zijn dan simpele statistische modellen. Gelukkig maar!
Er zijn reacties op dit artikel
Laat reacties zien Hide commentsZeer interessant en professional geschreven,