Ondanks dat het in de praktijk ontzettend moeilijk blijkt te zijn, zijn we er toch dol op. Of het nu om de AEX-index, het weer van morgen, de politieke verkiezingen of de eindranglijst gaat, voorspellen vinden we prachtig. Vraag iemand naar zijn kijk op de Eredivisie en binnen 10 minuten zal er voorbij zijn gekomen wie er kampioen wordt, wie er degradeert, wie de grootste verrassing gaat zijn en ga zo maar door. Ook wij ondernemen een poging!
Onlangs hebben we de prestaties van alle clubs in de Eredivisie geanalyseerd door middel van het SCoRe model. Dit model kijkt naar het verschil in behaalde punten tussen het huidige seizoen en precies dezelfde wedstrijden in het vorige seizoen. Zo kwam er bijvoorbeeld uit de analyse gerold dat NEC en Heracles Almelo dit seizoen aanzienlijk beter presteren dan vorig seizoen met puntenverschillen van 16 en 13. Daarentegen bleken met name AZ, SC Heerenveen en FC Twente het een stuk slechter te doen. Zij behaalden stuk voor stuk vorig seizoen in exact dezelfde wedstrijden meer dan 10 punten meer. Vandaag gaan we deze puntenverschillen gebruiken om de eindranglijst te voorspellen.
Simon Gleave, de initiator van SCoRe, verzamelt ieder seizoen de Premier League voorspellingen van modellen, journalisten, bookmakers en fans om deze aan het eind van het seizoen te analyseren. Uit de analyse van afgelopen seizoen, uitgevoerd door David Sumpter, bleek dat slechts één van de zeventien journalisten een kleinere gemiddelde afwijking tussen voorspelde en daadwerkelijke eindpositie had dan het ‘naïeve’ model dat simpelweg voorspelde dat iedere club op exact dezelfde positie zou eindigen.
Nou was vorig seizoen wat extreem dus om de journalisten toe te komen werd er ook gekeken naar hoe ver het naïeve model de afgelopen seizoenen gemiddeld afweek. Deze afwijking was weliswaar groter, maar na vergelijking met de prestaties van de journalisten bleken alsnog slechts vijf van de zeventien journalisten de eindranglijst beter voorspeld te hebben. Hieruit kunnen natuurlijk meerdere conclusies getrokken worden, zoals: het voorspellen van de ranglijst blijkt erg lastig te zijn, de journalisten zijn blijkbaar niet zo kundig als ze vaak geacht worden te zijn, of het ‘naïeve’ model is zo gek nog niet.
Met de eerste twee conclusies kunnen we qua onze voorspelling niets, maar met de derde natuurlijk wel. Het naïeve model blijkt een vrij goede voorspeller te zijn dus waarom zouden we de eindranglijst van vorig seizoen niet gewoon als basis gebruiken? Deze vlieger gaat echter niet voor de gepromoveerde teams op omdat zij het vorige seizoen niet in de Eredivisie hebben gespeeld. Om dit op te lossen nemen zij de puntenaantallen van de gedegradeerde teams over. Dit is vooral een makkelijke oplossing, maar daarnaast ook een logische aangezien gepromoveerde teams in hun eerste seizoen zeer vaak tegen degradatie strijden.
Zoals al eerder bleek is het naïeve model een vrij goede voorspeller. Er is echter, met name bij de teams die fors beter of slechter presteren dan vorig seizoen, nog voldoende ruimte voor verbetering. Zo voorspelde het model bijvoorbeeld dat NEC, dat de plek van NAC overnam, op plek 16 zou eindigen met 28 punten. Dit puntenaantal hebben ze echter momenteel al overtroffen.
Voorspelling via SCoRe
Om onze voorspelling in de juiste richting bij te schaven komt SCoRe zeer goed van pas. Als we namelijk de prestaties van NEC in dit seizoen vergelijken met hoe NAC exact dezelfde wedstrijden in het vorige seizoen presteerde, zien we dat NEC al 21 punten meer heeft gepakt. Dit willen we natuurlijk in onze voorspelling gaan verwerken om zo de voorspelde ranglijst nauwkeuriger te maken. Wat de voorspelde eindranglijst aan de hand van SCoRe dus doet, is het huidige verschil in punten optellen/aftrekken bij het eindtotaal van vorig seizoen. In het geval van NEC wordt dus het verschil van 21 opgeteld bij het eindtotaal van 28. De nieuwe voorspelling is dus dat NEC op 21 + 28 = 49 punten gaat eindigen.
Op het eerste gezicht ziet de voorspelde eindranglijst er best aardig uit. Het verschil tussen PSV en Ajax is dit seizoen kleiner dan vorig seizoen, terwijl Feyenoord en Vitesse wederom geen bedreiging vormen. De strijd om de Europa League play-offs daarentegen belooft heel spannend te gaan worden met nog vele kanshebbers. Verder ziet de situatie er voor SC Cambuur en Excelsior penibel uit en is De Graafschap al praktisch gedegradeerd. Dit allen matcht goed met de realiteit.
Wat echter minder matcht met de realiteit is hoe het model omspringt met de uitschieters. Het model neemt weliswaar het huidige verschil mee in de voorspelling, maar voor de nog te spelen wedstrijden schat het dat iedere ploeg een verschil van nul gaat hebben en dus in de resterende wedstrijden evenveel punten gaat behalen als het vorig seizoen deed. Neem bijvoorbeeld weer NEC. Het SCoRe model voorspelt dat zij op 49 punten gaan eindigen, terwijl zij in de eerste 21 wedstrijden al 34 punten wisten te pakken. Nou is het prima mogelijk dat hun prestatie in de tweede seizoenshelft wat gaat afvlakken (zie de prestatie van afgelopen zaterdag tegen AZ) maar een voorspelling van slechts vijftien punten in de resterende dertien wedstrijden is karig.
Om de nood voor een toevoeging aan het model duidelijker te maken, kijken we over de grens. Chelsea is bezig aan een dramatisch seizoen en heeft momenteel 20 punten minder behaald dan het vorig seizoen in exact dezelfde wedstrijden deed. Doordat zij vorig seizoen kampioen werden met 87 punten, voorspelt het SCoRe model dat zij dit seizoen op 67 punten zullen eindigen. Echter wisten zij tot nu toe slechts 28 punten te pakken in 23 wedstrijden, wat neerkomt op 1,22 punt per wedstrijd. Willen zij dus nog op 67 punten gaan eindigen zullen ze in de resterende 15 wedstrijden nog 39 punten moeten pakken. Oftewel 2,60 punt per wedstrijd! De voorspelling enkel op basis van SCoRe schiet hier dus duidelijk te kort.
A-SCoRe model
De vraag die nu dus rijst is: hoe kunnen we de voorspelling nauwkeuriger maken? Het antwoord hierop is de Adjusted SCoRe, ook wel A-SCoRe genoemd. Zoals de naam al verklapt is de basis van dit model de ranglijst verkregen door SCoRe, maar vindt er een kleine aanpassing plaats. Het probleem bij de voorspelling aan de hand van SCoRe zit hem in het feit dat het model verwacht dat een team in de resterende wedstrijden evenveel punten behaald als het vorig seizoen deed. Echter is deze verwachting voor veel teams niet juist omdat ze aantoonbaar beter of slechter zijn dan vorig seizoen.
Wat A-SCoRe hier tegen doet is het volgende. Allereerst wordt het verwachte puntenaantal van een team verdeelt in twee delen: namelijk de hoeveelheid punten die het team al daadwerkelijk heeft gepakt en de hoeveelheid punten die ze volgens SCoRe nog zouden pakken. Vervolgens wordt van beide delen het aantal punten per wedstrijd berekend. In het geval van NEC betekent dit een SCoRe van 49, bestaande uit 34 gepakte punten en nog vijftien verwachte punten. Oftewel 1,62 gepakt punt per wedstrijd en 1,15 verwacht punt per wedstrijd. Van deze twee wordt het gewogen gemiddelde berekend om tot een realistische schatting voor de rest van het seizoen te komen. Hoe zwaar de beide delen meetellen hangt ervan af om hoeveel wedstrijden ze gaan. In dit geval is het dus 21/34 * 1,62 en 13/34 * 1,15 om zo tot een schatting van 1,44 punt per wedstrijd te komen. Deze schatting wordt vermenigvuldigd met het aantal nog te spelen wedstrijden en opgeteld bij de al behaalde punten met als resultaat de A-SCoRe. In het geval van NEC betekent dit een stijging in het verwachte puntenaantal van 49 naar 52,7.
Wanneer we dit voor alle teams doen, zien we dat de verwachte eindranglijst er iets anders uit is komen te zien. Zo voorspelt A-SCoRe dat de strijd om het kampioenschap spannend gaat worden met PSV als favoriet na de slechte week van Ajax. Net als SCoRe voorspelt ook A-SCoRe dat de strijd om de Europa League play-off plaatsen zeer spannend gaat worden. Verder komen met name Ajax, FC Utrecht en NEC er bij A-SCoRe een stuk positiever uit, waar Vitesse, AZ, Willem II, FC Twente en Cambuur juist een lager verwacht puntenaantal hebben. Voor De Graafschap en Cambuur ziet het er slecht uit en lijkt het voorkomen van directe degradatie het maximaal haalbare. Tot slot is Excelsior na een lange periode zonder overwinning de voornaamste kandidaat voor de andere nacompetitie plek.
Er zijn reacties op dit artikel
Laat reacties zien Hide commentsLeuk stuk! Wat ik mij voornamelijk nog af vroeg of er ook methodes zijn (bijv. op basis van vorige seizoenen) om voordat de competitie start al met een voorspelling te komen, die beter zou presteren dan het naïeve model. Is daar iets over bekend?
Dankje! Dat is inderdaad een mooie uitdaging. Heb je zelf een idee hoe dat zou kunnen?
Ik vermoed dat deze twee toevoegingen het model het meeste zouden verbeteren:
– Meten verandering van de selectie (transfers)
– Meten hoe ’terecht’ de eindpositie van vorig seizoen was
Het eerste is echter helaas onmogelijk te meten. Daarvoor heb je een geavanceerde database, zoals GoalImpact die heeft, nodig. Dit seizoen blijkt zijn voorspelling van de BPL, tot nu toe, ook iets beter te zijn dan het naïeve model.
Het tweede punt is met behulp van Expected Goals modellen enigszins mogelijk. Al blijft het lastig om te zeggen dat een team 4 punten minder had ‘moeten’ hebben. En vooral hoe je dat dan laat meewegen in de voorspelling voor het volgende seizoen.
Een tijdje terug heb ik wel alle SCoRe’s (de verschillen tussen seizoen X en seizoen X +1) van de afgelopen 10 seizoenen van de Eredivisie, BPL, La Liga, Bundesliga en Serie A verzameld. Vervolgens heb ik een aantal subsets gemaakt, zoals:
– kampioen in het volgende seizoen
– gepromoveerd team
– gepromoveerd team in het tweede seizoen
Daaruit blijkt dat, in alle 5 de competities, de kampioen in het volgende seizoen gemiddeld slechter presteert. In de Eredivisie haalt de kampioen bijvoorbeeld het seizoen erop gemiddeld 5,70 punt minder.
Daarentegen doen gepromoveerde teams het, in alle 5 de competities, gemiddeld een stuk beter. In de Eredivisie haalt een gepromoveerd team bijvoorbeeld het seizoen erop gemiddeld 9,68 punt meer.
Echter doen deze gepromoveerde teams het in hun tweede seizoen, in alle 5 de competities, juist gemiddeld wat slechter. In de Eredivisie is dit verschil een stuk forser dan in de andere competities met gemiddeld 6 punten minder.
De logische verklaring hiervoor is dat kampioen worden vaak gepaard gaat met wat geluk gehad hebben, terwijl degradatie juist vaak gepaard gaat met wat pech gehad hebben. Dit valt (vooral kampioen en gepromoveerd team eerste seizoen) prima in de beginvoorspelling te verwerken. Ik moet er alleen nog wel even over nadenken hoe je dit vloeiend in de berekeningen (na speelronde 1, 2, etc) door laat stromen. Als iemand hier een idee voor heeft, hoor ik het graag!
Nice, al wordt het op 3/4 natuurljk ook zonder model makkelijker om de eindstand te voorspellen.
Hoe pakt(e) het A Score model uit voor de BPL, ivm met leicester/chelsea?
Inderdaad, alle modellen worden dichter naar het einde toe steeds nauwkeuriger.
Je vraag is vrij breed, dus ik weet niet of het me lukt om hem helemaal te beantwoorden, maar je kan dan natuurlijk altijd een nieuwe vraag stellen.
A-SCoRe is wat betreft Leicester zeer positief. Het model verwacht dat zij kampioen gaan worden op gepaste afstand van de rest. Dit omdat zij tot nu toe verreweg het hoogste aantal punten per wedstrijd hebben gepakt (factor 31/38 in het model) en het daarnaast in de resterende wedstrijden vorig seizoen ook best goed deden (11 punten). Terwijl bijvoorbeeld Tottenham in de resterende wedstrijden vorig seizoen slechts 7 punten pakte. Natuurlijk heeft het wel een tijdje geduurd voordat het model Leicester als titelfavoriet zag. Dit omdat het model verwachtte dat de prestaties wat zouden gaan afvlakken richting het niveau van vorig seizoen.
Qua Chelsea is het model minder positief (10e plek). Vorig seizoen pakten zij in de resterende 8 wedstrijden 20 punten, maar het model verwacht dat zij er dit seizoen slechts 13 gaan pakken.
Op Twitter post ik trouwens regelmatig grafieken over A-SCoRe & BPL, dus wellicht vind je het leuk om me daar te volgen.