Methode

De Peilingwijzer wordt gemaakt door peilingen van De Stemming (EenVandaag), I&O research, Politieke Barometer (Ipsos), Kantar Public en Peil.nl (Maurice de Hond) samen te voegen. De Peilingwijzer wordt gemaakt door politicoloog Tom Louwerse, universitair docent aan het Instituut Politieke Wetenschap van de Universiteit Leiden. Het onderliggende idee is gebaseerd op het werk van, onder andere, Simon Jackman.

Foutmarges
Peilingen hebben een foutmarge omdat maar een beperkt aantal personen wordt ondervraagd. Daardoor kan het zijn dat onder de ondervraagden bijvoorbeeld net wat meer CDA-kiezers zitten dan onder de gehele (kiesgerechtigde) bevolking. Het hadden er net zo goed iets minder kunnen zijn: de foutmarge is dus willekeurig. Merk op dat het woord 'foutmarge' niet betekent dat de peilers iets verkeerd doen, maar dat de inschatting van de kiezerssteun net wat hoger of lager kan zijn omdat je nu eenmaal maar een paar duizend mensen ondervraagt.

De foutmarge is (bij een willekeurige steekproef) afhankelijk van de steekproefgrootte en het percentage voor een partij. Voor een partij met 30% van de stemmen is de foutmarge in een peiling met 1000 ondervraagden gelijk aan +/- 2,84% (bij een betrouwbaarheidsinterval van 95%). Als we dezelfde steekproef duizenden keren zouden trekken, zou het 'echte' percentage in 95% gevallen binnen de foutmarge liggen.

Als er meerdere peilingen kort na elkaar worden gehouden en een partij steeds hetzelfde percentage stemmen krijgt, wordt de foutmarge kleiner. De Peilingwijzer maakt gebruik van dit gegeven. Het gaat er vanuit dat elke peiling een willekeurige steekproef is uit het 'echte' percentage stemmen voor een partij. Dat 'echte' percentage weten we niet (anders zouden we immers geen peilingen houden), maar we kunnen wel een schatting maken hoe hoog het is. De Peilingwijzer stelt ons in staat om voor elke dag een schatting te maken van het stemmenpercentage van een partij.

Huiseffecten
Wat nou als de ene peiler de PvdA op 20% schat en de andere partij de partij maar 15% geeft? Zo'n verschil tussen twee peilingbureaus kan het gevolg zijn van twee zaken. Allereerst: de foutmarge van een peiling, zoals we hierboven bespraken. Het kan zo zijn dat Ipsos 'toevallig' een steekproef met een hoge score voor de PvdA trok en Peil toevallig een peiling met een laag percentage PvdA-stemmers. Dit is echter niet zo heel waarschijnlijk bij een verschil van 5%.

Een tweede optie is dat bepaalde peilingbureaus het stemmenpercentage voor partijen over- of onderschatten. Zo schat Ipsos de steun voor de VVD sinds de verkiezingen van 2012 consequent hoger in dan Peil.nl. Dit noemen we huiseffecten: door verschillen in de methodes van de verschillende peiling'huizen' komen ze systematisch op andere inschattingen uit. Het model gaat er na de verkiezingen vanuit dat deze huiseffecten bij elkaar opgeteld nul zijn: Ipsos zit er misschien wat boven en Peil wat onder. In dat opzicht geeft de Peilingwijzer dus een middeling van de beschikbare cijfers.

Omdat peilers hun onderzoeksmethoden soms tussentijds aan (lijken te) passen, maken we onderscheid tussen verschillende periodes voor de huiseffecten (nog niet voor de reeks die is gestart in 2017). Voor elk van deze periodes tellen de huiseffecten op tot nul, maar ze kunnen tussen de periodes variëren.

Niet zomaar een gemiddelde
Wat nu als Ipsos op donderdag zegt dat de PvdA op 15% van de stemmen staat en Peil.nl op zondag dat de PvdA op 10% staat? Het kan natuurlijk dat de PvdA in een paar dagen 5% gezakt is, maar dat is onder normale omstandigheden niet erg waarschijnlijk. Het model gaat er vanuit dat het stemmenpercentage voor de PvdA tussen donderdag en zondag een random walk maakt. Met andere woorden, elke dag kan het percentage stemmen voor de PvdA iets veranderen (naar boven of beneden), maar niet te veel.

De Peilingwijzer neemt dus niet zomaar een gemiddelde van de laatste peilingen, maar houdt ook rekening met de peilingen van enige tijd geleden. Voor de berekening worden alle peilingen sinds de afgelopen verkiezingen meegenomen. Natuurlijk hebben peilingen van een jaar geleden geen directe invloed op de schatting van de steun die een partij vandaag geniet (alleen indirect via de schatting van de huiseffecten), maar peilingen van een aantal dagen of, buiten campagnetijd, weken geleden, zeggen wel iets over de steun vandaag.

Zetels
Een laatste aspect waarmee het model rekening houdt is het feit dat veel Nederlandse peilers geen percentages maar zetels presenteren. Dat is een vrij onnauwkeurige rapportage, want het onderliggende percentage kan zo maar 1/3 procent hoger of lager liggen. Hiermee houdt het model ook rekening. Sommige peilingen, bijvoorbeeld die van Ipsos, publiceren wel percentages: voor die peilingen hoeft de 'zetelmarge' niet in acht worden genomen (of beter gezegd: ik neem een uiterst kleine marge in acht, want de peilers presenteren cijfers op één cijfer achter de komma, dus de marge is dan een half promille).

Statistisch model
Voor elke politieke partij wordt de Peilingwijzer apart berekend. Het statistische model hieronder geldt dus voor de electorale steun voor één partij.

Het eerste deel van het statistische model zit er als volgt uit:
Voor elke peiling i
\[\begin{aligned} (1)~~ P_i & \sim Uniform(Y_i - z, Y_i + z) \\ (2)~~ Y_i & \sim \mathcal{N}(M_d, F_iD) \\ (3)~~ M_d & = A_d + H_{b_i} \end{aligned} \] De formule onder 1) betekent dat het percentage Pi dat in de peiling is gerapporteerd uit een uniforme verdeling is getrokken van een zetelmarge rond het 'onderliggende' percentage. Dit corrigeert voor het feit dat peilers zetels en geen percentages rapporteren waardoor het onderliggende percentage ook een halve zetel hoger of lager zou kunnen liggen. Als een peiler geen percentages rapporteert, worden de zetels eerst naar percentages omgerekend volgens de formule \(P_i = 0,3219978 + 0,6383387 * zetels_i\), waarbij de parameters zijn afgeleid uit een regressiemodel gebaseerd op historische peilingen van Ipsos (dat altijd zowel zetelaantallen als percentages vermeldt).

De formule onder 2) zegt vervolgens dat het 'onderliggende' percentage Yi is getrokken uit een normaalverdeling met gemiddelde M op dag met een standaardafwijking van F * D (de foutmarge van de peiling keer het 'design effect', wat wordt geschat door het model; dit design effect geeft een schatting van de mate waarin de foutmarge van de peiling groter of kleiner is dan je zou verwachten bij een willekeurige steekproef).

De formule onder 3) zegt dat M de som is van het werkelijke percentage van steun onder de gehele bevolking op dag d (AA) plus het 'huiseffect' van de peiler b van peiling i. Als Peil.nl de PVV stelselmatig hoger inschat dan Ipsos dat doet, zullen we een positief huiseffect voor Peil.nl vinden en een negatief huiseffect bij Ipsos.

Het tweede deel van het model zegt:
Voor elke dag d
\[\begin{aligned} (4)~~ A_d \sim \mathcal{N}(A_{d-1}, \tau) \end{aligned} \] Dit betekent dat het populatiepercentage A op dag d wordt getrokken uit een normaalverdeling met als gemiddelde het populatiepercentage van de dag ervoor en tau als foutmarge (dit is de zogenaamde 'random walk prior'). Dit betekent dat we er vanuit gaan dat het stemmenpercentage van vandaag gelijk is aan dat van gisteren met een zekere afwijking naar boven of beneden.

Schatting
Het model wordt geschat met behulp van Bayesiaanse Markov Chain Monte Carlo Estimation (MCMC). Het voert te ver om deze techniek hier te behandelen, maar de uitkomst is dat de computer een schatting geeft voor het stemmenpercentage onder de populatie (de gehele bevolking) voor een bepaalde partij (de analyse wordt voor elke partij apart gedraaid) met een bepaalde foutmarge. Op die manier hebben we voor elke dag een schatting van de electorale steun onder de bevolking (voor elke partij). Als je dat grafisch weergeeft, ziet dat er ongeveer zo uit:




(Klik om te vergroten)


De doorgetrokken lijn geeft de gemiddelde verwachting aan; het licht gekleurde gebied is de foutmarge. De gekleurde stippen geven de (omgerekende) percentages aan in de peilingen. De meeste peilingen liggen zoals verwacht binnen de foutmarge van onze schatting. In bovenstaand voorbeeld valt verder op dat de Politieke Barometer van Ipsos (blauwe stippen) de steun voor de VVD hoger inschat dan de andere peilers. Het model gaat er vanuit dat de peilingbureaus gemiddeld genomen geen afwijking hebben. Onder deze assumptie zou de Politieke Barometer de steun voor de VVD overschatten, maar merk op dat het best zo zou kunnen zijn dat de Barometer het bij het rechte eind heeft en de andere peilers er naast zitten. 

Voor de liefhebbers: voor de schattingen van de Peilingwijzer wordt een analyse gemaakt met 10.000 burn in iteraties en 200.000 iteraties. Er wordt een thinning factor van 80 gebruikt, zodat de gerapporteerde cijfers gebaseerd zijn op 2.500 trekkingen uit de a posteriori kansverdeling. Er is ook geëxperimenteerd met langere runs; de resultaten hiervan weken nauwelijks af van het hier gebruikte aantal. Gezien het feit dat het model elke week in relatief korte tijd moet worden herberekend, is daarom gekozen voor 200.000 iteraties. Het model wordt gedraaid in JAGS 4.2 (vanuit R); de BUGS/JAGS code is hier beschikbaar. Replicatiecode is beschikbaar op Github.

Beperkingen
Het model kent een aantal stevige assumpties. Als deze foutief blijken te zijn, zou het model een onjuiste inschatting kunnen maken (zowel van de zwarte lijn, maar ook van de foutmarges). Vooral de assumptie dat alle peilingen willekeurige steekproeven zijn, is problematisch (hiervoor wordt gecorrigeerd door middel van het zogenaamde 'design effect', maar het zou beter zijn als peilers hun precieze foutmarge zouden rapporteren). 

Daarnaast is de assumptie dat de huiseffecten gemiddeld genomen gelijk zijn aan nul problematisch. Echter, al met al geeft het model een redelijk accuraat beeld van het verloop van de electorale steun voor partijen. In ieder geval is het een poging om op een zo goed mogelijke manier een samenvatting te geven van de beschikbare gegevens.

Literatuur
Een soortgelijke methode om de gegevens uit verschillende peilingen samen te voegen tot één schatting is al eerder toegepast in onder andere de Verenigde Staten, Canada, het Verenigd Koninkrijk en Australië. Zie onder andere:

Fisher, S. D., Ford, R., Jennings, W., Pickup, M., & Wlezien, C. (2011). From polls to votes to seats: Forecasting the 2010 British general election. Electoral Studies, 30(2), 250-257. 

Jackman, S. (2005). Pooling the polls over an election campaign. Australian Journal of Political Science, 40(4), 499-517. 

Louwerse, T. (2016) Improving Opinion Poll Reporting: The Irish Polling Indicator, Irish Political Studies, 31(4), 541-566.

Pickup, M. A., & Wlezien, C. (2009). On filtering longitudinal public opinion data: Issues in identification and representation of true change. Electoral Studies, 28(3), 354-367. 

Pickup, M., & Johnston, R. (2008). Campaign trial heats as election forecasts: Measurement error and bias in 2004 presidential campaign polls. International Journal of Forecasting, 24(2), 272-284.