Hoe werkt de Peilingwijzer?

De Peilingwijzer wordt gemaakt door de gepubliceerde uitkomsten van peilingen van Ipsos I&O en Verian/EenVandaag samen te voegen. De Peilingwijzer is dus zelf geen peiling, maar een samenvoeging van bestaande zetelpeilingen.

De Peilingwijzer is een wetenschappelijk onderzoeksproject en wordt gemaakt door politicoloog Tom Louwerse, universitair hoofddocent aan het Instituut Politieke Wetenschap van de Universiteit Leiden. Het onderliggende idee is gebaseerd op het werk van, onder andere Simon Jackman.

Foutmarge

Peilingen hebben een foutmarge omdat maar een beperkt aantal personen wordt ondervraagd. Daardoor kan het zijn dat onder de ondervraagden bijvoorbeeld net wat meer CDA-kiezers zitten dan onder de gehele (kiesgerechtigde) bevolking. Het hadden er net zo goed iets minder kunnen zijn: de foutmarge is dus willekeurig. Merk op dat het woord ‘foutmarge’ niet betekent dat de peilers iets verkeerd doen, maar dat de inschatting van de kiezerssteun net wat hoger of lager kan zijn omdat je nu eenmaal maar een paar duizend mensen ondervraagt.

De foutmarge is (bij een willekeurige steekproef) afhankelijk van de steekproefgrootte en het percentage voor een partij. Voor een partij met 30% van de stemmen is de foutmarge in een peiling met 1000 ondervraagden gelijk aan +/- 2,84% (bij een betrouwbaarheidsinterval van 95%). Als we dezelfde steekproef duizenden keren zouden trekken, zou het ‘echte’ percentage in 95% gevallen binnen de foutmarge liggen.

Als er meerdere peilingen kort na elkaar worden gehouden en een partij steeds hetzelfde percentage stemmen krijgt, wordt de foutmarge kleiner. De Peilingwijzer maakt gebruik van dit gegeven. Het gaat er vanuit dat elke peiling een willekeurige steekproef is uit het ‘echte’ percentage stemmen voor een partij. Dat ‘echte’ percentage weten we niet (anders zouden we immers geen peilingen houden), maar we kunnen wel een schatting maken hoe hoog het is. De Peilingwijzer stelt ons in staat om voor elke dag een schatting te maken van het stemmenpercentage van een partij.

Huiseffecten

Wat nou als de ene peiler de PvdA op 20% schat en de andere partij de partij maar 15% geeft? Zo’n verschil tussen twee peilingbureaus kan het gevolg zijn van twee zaken. Allereerst: de foutmarge van een peiling, zoals we hierboven bespraken. Het kan zo zijn dat de ene peiler ‘toevallig’ een steekproef met een hoge score voor de PvdA trok en het andere toevallig een peiling met een laag percentage PvdA-stemmers. Dit is echter niet zo heel waarschijnlijk bij een verschil van 5%.

Een tweede optie is dat bepaalde peilingbureaus het stemmenpercentage voor partijen over- of onderschatten. Zo schatte Ipsos de steun voor de VVD sinds de verkiezingen van 2012 consequent hoger in dan het gemiddelde bureau. Dit noemen we huiseffecten: door verschillen in de methodes van de verschillende peiling’huizen’ komen ze systematisch op andere inschattingen uit. Het model gaat er na de verkiezingen vanuit dat deze huiseffecten bij elkaar opgeteld nul zijn: de gemiddelde peiler ‘zit goed’, zo is de aanname. In dat opzicht geeft de Peilingwijzer dus een middeling van de beschikbare cijfers. En let op: de assumptie dat de gemiddelde peiler geen systematische afwijking heeft, hoeft niet noodzakelijkerwijs te kloppen. Misschien heeft één peiler het bij het rechte eind; misschien over- of onderschatten alle peilers een bepaalde partij. Daarvoor corrigeert de Peilingwijzer niet.

Niet zomaar een gemiddelde

Wat nu als één bureau op donderdag zegt dat de PvdA op 15% van de stemmen staat en een ander onderzoeksbureau op zondag dat de PvdA op 10% staat? Het kan natuurlijk dat de PvdA in een paar dagen 5% gezakt is, maar dat is onder normale omstandigheden niet erg waarschijnlijk. Het model gaat er vanuit dat het stemmenpercentage voor de PvdA tussen donderdag en zondag een random walk maakt. Met andere woorden, elke dag kan het percentage stemmen voor de PvdA iets veranderen (naar boven of beneden), maar niet te veel.

De Peilingwijzer neemt dus niet zomaar een gemiddelde van de laatste peilingen, maar houdt ook rekening met de peilingen van enige tijd geleden. Voor de berekening worden alle peilingen sinds de afgelopen verkiezingen meegenomen. Natuurlijk hebben peilingen van een jaar geleden geen directe invloed op de schatting van de steun die een partij vandaag geniet (alleen indirect via de schatting van de huiseffecten), maar peilingen van een aantal dagen of, buiten campagnetijd, weken geleden, zeggen wel iets over de steun vandaag.

Statistisch model

Voor elke politieke partij wordt de Peilingwijzer apart berekend. Het statistische model hieronder geldt dus voor de electorale steun voor één partij.

Het eerste deel van het statistische model zit er als volgt uit:

Voor elke peiling $i$ :

$\begin{aligned} (1) P_{i} & \sim N (M_{d}, F) \\ (2) M_{d} & = A_{d} + H_{b_{i}} \end{aligned}$

De formule onder 1) zegt dat het percentage steun voor een partij in een peiling ( $P_{i}$ ) is getrokken uit een normaalverdeling met gemiddelde $M$ op dag $d$ met een standaardafwijking van $F$ (de foutmarge van de peiling).

De formule onder 2) zegt dat $M$ de som is van het werkelijke percentage van steun onder de gehele bevolking op dag $d$ ( $A_{d}$ ) plus het ‘huiseffect’ $H$ van de peiler $b$ van peiling $i$ . Als de ene peiler de PVV stelselmatig hoger inschat dan de andere dat doet, zullen we een positief huiseffect bij die eerste peiler vinden en een negatief huiseffect bij de tweede.

Het tweede deel van het model zegt:

Voor elke dag $d$ :

$\begin{array}{r} (3) A_{d} \sim N (A_{d - 1}, τ) \end{array}$

Dit betekent dat het populatiepercentage $A$ op dag $d$ wordt getrokken uit een normaalverdeling met als gemiddelde het populatiepercentage van de dag ervoor en $τ$ (tau) als foutmarge (dit is de zogenaamde ‘random walk prior’). Dit betekent dat we er vanuit gaan dat het stemmenpercentage van vandaag gelijk is aan dat van gisteren met een zekere afwijking naar boven of beneden.

Voor zeer kleine partijen (minder dan 1% steun) kan deze benadering tot gevolg hebben dat hun stemmenpercentage negatief wordt ingeschat door het model; om dat te voorkomen wordt voor deze partijen de ‘random walk’ op de log-schaal genomen, waardoor de steun altijd positief blijft. De schatting van de steun voor de partijen is verder hetzelfde als voor grotere partijen, al wordt de onzekerheid voor de zeer kleine partijen daarmee allicht iets onderschat. In zetels uitgedrukt nemen we de foutmarge altijd ruim (afgerond op 1 zetel naar boven of beneden) en zal dit geen impact hebben.

Schatting

Het model wordt geschat met behulp van Bayesiaanse Markov Chain Monte Carlo Estimation (MCMC). Het voert te ver om deze techniek hier te behandelen, maar de uitkomst is dat de computer een schatting geeft voor het stemmenpercentage onder de populatie (de gehele bevolking) voor een bepaalde partij (de analyse wordt voor elke partij apart gedraaid) met een bepaalde foutmarge. Op die manier hebben we voor elke dag een schatting van de electorale steun onder de bevolking (voor elke partij).

Voor de liefhebbers: voor de schattingen van de Peilingwijzer wordt een analyse gemaakt met 10.000 burn in iteraties en 200.000 iteraties. Er wordt een thinning factor van 80 gebruikt, zodat de gerapporteerde cijfers gebaseerd zijn op 2.500 trekkingen uit de a posteriori kansverdeling. Er is ook geëxperimenteerd met langere runs; de resultaten hiervan weken nauwelijks af van het hier gebruikte aantal. Er is daarom gekozen voor 200.000 iteraties. Het model wordt gedraaid in JAGS 4.2 (vanuit R); de BUGS/JAGS code is hier beschikbaar. Replicatiecode is beschikbaar op Github.

Beperkingen

Het model kent een aantal stevige assumpties. Als deze foutief blijken te zijn, zou het model een onjuiste inschatting kunnen maken (zowel voor de puntschatting als de foutmarges). Vooral de assumptie dat alle peilingen willekeurige steekproeven zijn, is problematisch (in eerdere periodes kon hier nog rekening mee worden gehouden middels schatting van een zogenoemd ‘design effect’, maar dit is gezien het beperkt aantal peilingen en bureaus in de huidige periode niet mogelijk).

Daarnaast is de assumptie dat de huiseffecten gemiddeld genomen gelijk zijn aan nul problematisch. Echter, al met al geeft het model een redelijk accuraat beeld van het verloop van de electorale steun voor partijen. In ieder geval is het een poging om op een zo goed mogelijke manier een samenvatting te geven van de beschikbare gegevens.

Literatuur

Een soortgelijke methode om de gegevens uit verschillende peilingen samen te voegen tot één schatting is al eerder toegepast in onder andere de Verenigde Staten, Canada, het Verenigd Koninkrijk en Australië. Zie onder andere:

Fisher, S. D., Ford, R., Jennings, W., Pickup, M., & Wlezien, C. (2011). From polls to votes to seats: Forecasting the 2010 British general election. Electoral Studies, 30(2), 250-257.

Jackman, S. (2005). Pooling the polls over an election campaign. Australian Journal of Political Science, 40(4), 499-517.

Louwerse, T. (2016) Improving Opinion Poll Reporting: The Irish Polling Indicator, Irish Political Studies, 31(4), 541-566.

Pickup, M. A., & Wlezien, C. (2009). On filtering longitudinal public opinion data: Issues in identification and representation of true change. Electoral Studies, 28(3), 354-367.

Pickup, M., & Johnston, R. (2008). Campaign trial heats as election forecasts: Measurement error and bias in 2004 presidential campaign polls. International Journal of Forecasting, 24(2), 272-284.

Pickup M. (2011). Methodology.