De Peilingwijzer combineert de peilingen voor de Tweede Kamer van I&O Research, Ipsos/EenVandaag en Kantar.



Methode

De Peilingwijzer wordt gemaakt door de gepubliceerde uitkomsten van peilingen van De Peiling (Ipsos/EenVandaag), I&O research en Kantar samen te voegen. De Peilingwijzer is een wetenschappelijk onderzoeksproject en wordt gemaakt door politicoloog Tom Louwerse, universitair hoofddocent aan het Instituut Politieke Wetenschap van de Universiteit Leiden. Het onderliggende idee is gebaseerd op het werk van, onder andere, Simon Jackman.

Foutmarges
Peilingen hebben een foutmarge omdat maar een beperkt aantal personen wordt ondervraagd. Daardoor kan het zijn dat onder de ondervraagden bijvoorbeeld net wat meer CDA-kiezers zitten dan onder de gehele (kiesgerechtigde) bevolking. Het hadden er net zo goed iets minder kunnen zijn: de foutmarge is dus willekeurig. Merk op dat het woord 'foutmarge' niet betekent dat de peilers iets verkeerd doen, maar dat de inschatting van de kiezerssteun net wat hoger of lager kan zijn omdat je nu eenmaal maar een paar duizend mensen ondervraagt.

De foutmarge is (bij een willekeurige steekproef) afhankelijk van de steekproefgrootte en het percentage voor een partij. Voor een partij met 30% van de stemmen is de foutmarge in een peiling met 1000 ondervraagden gelijk aan +/- 2,84% (bij een betrouwbaarheidsinterval van 95%). Als we dezelfde steekproef duizenden keren zouden trekken, zou het 'echte' percentage in 95% gevallen binnen de foutmarge liggen.

Als er meerdere peilingen kort na elkaar worden gehouden en een partij steeds hetzelfde percentage stemmen krijgt, wordt de foutmarge kleiner. De Peilingwijzer maakt gebruik van dit gegeven. Het gaat er vanuit dat elke peiling een willekeurige steekproef is uit het 'echte' percentage stemmen voor een partij. Dat 'echte' percentage weten we niet (anders zouden we immers geen peilingen houden), maar we kunnen wel een schatting maken hoe hoog het is. De Peilingwijzer stelt ons in staat om voor elke dag een schatting te maken van het stemmenpercentage van een partij.

Huiseffecten
Wat nou als de ene peiler de PvdA op 20% schat en de andere partij de partij maar 15% geeft? Zo'n verschil tussen twee peilingbureaus kan het gevolg zijn van twee zaken. Allereerst: de foutmarge van een peiling, zoals we hierboven bespraken. Het kan zo zijn dat de ene peiler 'toevallig' een steekproef met een hoge score voor de PvdA trok en het andere toevallig een peiling met een laag percentage PvdA-stemmers. Dit is echter niet zo heel waarschijnlijk bij een verschil van 5%.

Een tweede optie is dat bepaalde peilingbureaus het stemmenpercentage voor partijen over- of onderschatten. Zo schatte Ipsos de steun voor de VVD sinds de verkiezingen van 2012 consequent hoger in dan het gemiddelde bureau. Dit noemen we huiseffecten: door verschillen in de methodes van de verschillende peiling'huizen' komen ze systematisch op andere inschattingen uit. Het model gaat er na de verkiezingen vanuit dat deze huiseffecten bij elkaar opgeteld nul zijn: de gemiddelde peiler 'zit goed', zo is de aanname. In dat opzicht geeft de Peilingwijzer dus een middeling van de beschikbare cijfers. En let op: de assumptie dat de gemiddelde peiler geen systematische afwijking heeft, hoeft niet noodzakelijkerwijs te kloppen. Misschien heeft één peiler het bij het rechte eind; misschien over- of onderschatten alle peilers een bepaalde partij. Daarvoor corrigeert de Peilingwijzer niet.

Omdat peilers hun onderzoeksmethoden soms tussentijds aan (lijken te) passen, maken we onderscheid tussen verschillende periodes voor de huiseffecten. Voor elk van deze periodes tellen de huiseffecten op tot nul, maar ze kunnen tussen de periodes variëren. Voor de Peilingwijzer vanaf 2017 gelden drie periodes: t/m 31-12-2017, 01-01-2018 t/m 19-03-2019, en 20-03-2019 tot heden (eind 2017 stopte EenVandaag met de GfK-peilingen en publiceert sindsdien de peilingen van Ipsos; sinds maart 2019 kan ik de peilingen van Peil.nl niet meer meenemen wegens een juridisch conflict).

Niet zomaar een gemiddelde
Wat nu als Ipsos op donderdag zegt dat de PvdA op 15% van de stemmen staat en Kantar op zondag dat de PvdA op 10% staat? Het kan natuurlijk dat de PvdA in een paar dagen 5% gezakt is, maar dat is onder normale omstandigheden niet erg waarschijnlijk. Het model gaat er vanuit dat het stemmenpercentage voor de PvdA tussen donderdag en zondag een random walk maakt. Met andere woorden, elke dag kan het percentage stemmen voor de PvdA iets veranderen (naar boven of beneden), maar niet te veel.

De Peilingwijzer neemt dus niet zomaar een gemiddelde van de laatste peilingen, maar houdt ook rekening met de peilingen van enige tijd geleden. Voor de berekening worden alle peilingen sinds de afgelopen verkiezingen meegenomen. Natuurlijk hebben peilingen van een jaar geleden geen directe invloed op de schatting van de steun die een partij vandaag geniet (alleen indirect via de schatting van de huiseffecten), maar peilingen van een aantal dagen of, buiten campagnetijd, weken geleden, zeggen wel iets over de steun vandaag.

Zetels
Een laatste aspect waarmee het model rekening houdt is het feit dat sommige Nederlandse peilers geen percentages maar zetels presenteren. Dat is een vrij onnauwkeurige rapportage, want het onderliggende percentage kan zo maar 1/3 procent hoger of lager liggen. Hiermee houdt het model ook rekening. Sommige peilingen, bijvoorbeeld die van Ipsos en I&O Research, publiceren wel percentages: voor die peilingen hoeft de 'zetelmarge' niet in acht worden genomen (of beter gezegd: ik neem een uiterst kleine marge in acht, want de peilers presenteren cijfers op één cijfer achter de komma, dus de marge is dan een half promille).

Statistisch model
Voor elke politieke partij wordt de Peilingwijzer apart berekend. Het statistische model hieronder geldt dus voor de electorale steun voor één partij.

Het eerste deel van het statistische model zit er als volgt uit:
Voor elke peiling i
\[\begin{aligned} (1)~~ P_i & \sim Uniform(Y_i - z, Y_i + z) \\ (2)~~ Y_i & \sim \mathcal{N}(M_d, F_iD) \\ (3)~~ M_d & = A_d + H_{b_i} \end{aligned} \] De formule onder 1) betekent dat het percentage Pi dat in de peiling is gerapporteerd uit een uniforme verdeling is getrokken van een zetelmarge rond het 'onderliggende' percentage. Dit corrigeert voor het feit dat peilers zetels en geen percentages rapporteren waardoor het onderliggende percentage ook een halve zetel hoger of lager zou kunnen liggen. Als een peiler geen percentages rapporteert, worden de zetels eerst naar percentages omgerekend volgens de formule \(P_i = 0,3219978 + 0,6383387 * zetels_i\), waarbij de parameters zijn afgeleid uit een regressiemodel gebaseerd op historische peilingen van Ipsos (dat altijd zowel zetelaantallen als percentages vermeldt).

De formule onder 2) zegt vervolgens dat het 'onderliggende' percentage Yi is getrokken uit een normaalverdeling met gemiddelde M op dag met een standaardafwijking van F * D (de foutmarge van de peiling keer het 'design effect', wat wordt geschat door het model; dit design effect geeft een schatting van de mate waarin de foutmarge van de peiling groter of kleiner is dan je zou verwachten bij een willekeurige steekproef).

De formule onder 3) zegt dat M de som is van het werkelijke percentage van steun onder de gehele bevolking op dag d (AA) plus het 'huiseffect' van de peiler b van peiling i. Als de ene peiler de PVV stelselmatig hoger inschat dan de andere dat doet, zullen we een positief huiseffect bij die eerste peiler vinden en een negatief huiseffect bij de tweede.

Het tweede deel van het model zegt:
Voor elke dag d
\[\begin{aligned} (4)~~ A_d \sim \mathcal{N}(A_{d-1}, \tau) \end{aligned} \] Dit betekent dat het populatiepercentage A op dag d wordt getrokken uit een normaalverdeling met als gemiddelde het populatiepercentage van de dag ervoor en tau als foutmarge (dit is de zogenaamde 'random walk prior'). Dit betekent dat we er vanuit gaan dat het stemmenpercentage van vandaag gelijk is aan dat van gisteren met een zekere afwijking naar boven of beneden.

Schatting
Het model wordt geschat met behulp van Bayesiaanse Markov Chain Monte Carlo Estimation (MCMC). Het voert te ver om deze techniek hier te behandelen, maar de uitkomst is dat de computer een schatting geeft voor het stemmenpercentage onder de populatie (de gehele bevolking) voor een bepaalde partij (de analyse wordt voor elke partij apart gedraaid) met een bepaalde foutmarge. Op die manier hebben we voor elke dag een schatting van de electorale steun onder de bevolking (voor elke partij).



Voor de liefhebbers: voor de schattingen van de Peilingwijzer wordt een analyse gemaakt met 10.000 burn in iteraties en 200.000 iteraties. Er wordt een thinning factor van 80 gebruikt, zodat de gerapporteerde cijfers gebaseerd zijn op 2.500 trekkingen uit de a posteriori kansverdeling. Er is ook geëxperimenteerd met langere runs; de resultaten hiervan weken nauwelijks af van het hier gebruikte aantal. Er is daarom gekozen voor 200.000 iteraties. Het model wordt gedraaid in JAGS 4.2 (vanuit R); de BUGS/JAGS code is hier beschikbaar. Replicatiecode is beschikbaar op Github.

Beperkingen
Het model kent een aantal stevige assumpties. Als deze foutief blijken te zijn, zou het model een onjuiste inschatting kunnen maken (zowel voor de puntschatting als de foutmarges). Vooral de assumptie dat alle peilingen willekeurige steekproeven zijn, is problematisch (hiervoor wordt gecorrigeerd door middel van het zogenaamde 'design effect', maar dit is een slechts een schatting in het model). 

Daarnaast is de assumptie dat de huiseffecten gemiddeld genomen gelijk zijn aan nul problematisch. Echter, al met al geeft het model een redelijk accuraat beeld van het verloop van de electorale steun voor partijen. In ieder geval is het een poging om op een zo goed mogelijke manier een samenvatting te geven van de beschikbare gegevens.

Literatuur
Een soortgelijke methode om de gegevens uit verschillende peilingen samen te voegen tot één schatting is al eerder toegepast in onder andere de Verenigde Staten, Canada, het Verenigd Koninkrijk en Australië. Zie onder andere:

Fisher, S. D., Ford, R., Jennings, W., Pickup, M., & Wlezien, C. (2011). From polls to votes to seats: Forecasting the 2010 British general election. Electoral Studies, 30(2), 250-257. 

Jackman, S. (2005). Pooling the polls over an election campaign. Australian Journal of Political Science, 40(4), 499-517. 

Louwerse, T. (2016) Improving Opinion Poll Reporting: The Irish Polling Indicator, Irish Political Studies, 31(4), 541-566.

Pickup, M. A., & Wlezien, C. (2009). On filtering longitudinal public opinion data: Issues in identification and representation of true change. Electoral Studies, 28(3), 354-367. 

Pickup, M., & Johnston, R. (2008). Campaign trial heats as election forecasts: Measurement error and bias in 2004 presidential campaign polls. International Journal of Forecasting, 24(2), 272-284.