Wetenschappelijke artikelen worden voor publicatie onderworpen aan een strenge controle. De belangrijkste is de peer review, waarbij vakgenoten beoordelen of het onderzoek aan de kwaliteitseisen in het vakgebied voldoet. Daarnaast wordt statistisch onderzoek vrijwel altijd begeleid door een significantieniveau. De significantie van een test geeft aan wat de kans is dat de resultaten van het onderzoek zouden worden geobserveerd, gegeven dat er geen werkelijk verband is tussen de onderzochte variabelen. Een lagere p-waarde geeft het onderzoek meer statistische significantie.
De definitie van de p-waarde is venijnig: het lijkt op het eerste gezicht alsof de p-waarde aangeeft wat de kans is dat het verband door toeval wordt geobserveerd, maar dat is niet wat de p-waarde is. Zelfs ervaren wetenschappers maken fouten met deze verkeerde interpretatie van de p-waarde. Ook rijst direct de vraag: wanneer is onderzoek nou significant, en wanneer niet? In de wetenschap is de algemene grens voor significantie . Als onderzoek altijd goed is uitgevoerd en een significante statistische test heeft, zou het aantal fout-positieven (significant onderzoek dat feitelijk niet waar is) daarmee niet al te hoog zijn, lijkt het op het eerste gezicht. Echter leert een simpel rekensommetje dat dit niet zo makkelijk geconcludeerd kan worden.
Stel, je bent een onderzoeker in een veld waar op dit moment 1000 potentieel interessante hypothesen om te onderzoeken zijn, en dat 100 daarvan een werkelijk verband aangeven, en de rest van de hypothesen niet waar zijn. Uiteraard weet je niet welke hypothese waar is en welke niet: dat is waarom je onderzoek doet. Laten we aannemen dat ongeveer 80 van de correcte hypothesen in jouw onderzoek naar voren komen als waar (een onderscheidend vermogen van 80%), en 20 zijn fout-negatieven. Van de 900 incorrecte hypothesen zou met een p-waarde van 0.05 ongeveer 45 hypothesen onterecht als waar aangemerkt worden, en de rest terecht als onwaar. Nu hebben we dus in totaal 125 hypothesen die als significant worden aangemerkt, waarvan er maar 80 echt kloppen. Aangezien wetenschappelijke bladen een zeer grote neiging hebben om bijna uitsluitend significant onderzoek te publiceren is alleen op basis van deze korte berekening al te concluderen dat waarschijnlijk veel meer dan 1 op 20 gepubliceerde onderzoeken niet klopt. Dit resultaat wordt ondersteund door grote replicatie-onderzoeken, die het eerdere onderzoek bijna nooit ondersteunen.
p-hacking
Ook met perfect uitgevoerd onderzoek lijkt het erop dat de meeste significante resultaten geen werkelijk verband aantonen. Echter is onderzoek in werkelijkheid verre van perfect. Het onderscheidend vermogen van een onderzoek is zelden boven de 50%, en nog vaker rondom de 20%. Dit maakt de situatie die hierboven geschetst is nog erger. Daarnaast zijn onderzoekers vaak ‘op zoek’ naar significante resultaten, want toonaangevende tijdschriften hebben de neiging om artikelen met significante resultaten sneller te plaatsen dan artikelen met negatieve resultaten. Met andere woorden, artikelen die iets nieuws of onverwachts aan lijken te tonen zijn interessanter. De keerzijde van de medaille is uiteraard dat originele of onverwachte hypothesen nog minder vaak echt waar zijn dan de gemiddelde onderzochte hypothese, waardoor de kans nog groter is dat we in geval van statistische significantie te maken hebben met een fout-positief resultaat.
Om dit te bereiken maken onderzoekers vaak (bewust of onbewust) gebruik van p-hacking. Dit zijn manieren om de data te manipuleren zodat er statistisch significante resultaten uitkomen, met de conclusie dat het verband is aangetoond vanwege de significantie. Zo is er een voorbeeld van een artikel dat een statistisch significant positief verband had gevonden tussen het eten van chocolade en gewichtsverlies. Dit is natuurlijk een zeer opvallend resultaat, en werd dan ook gretig overgenomen. Uit de data van de onderzoekers bleek inderdaad een significante relatie, maar er was iets achtergehouden. Ten eerste was het aantal proefpersonen heel klein, slechts vijf mensen per onderzoeksgroep. Daarnaast testte het onderzoek maar liefst achttien indicatoren, zoals cholesterol, natriumgehalte, bloedwaarden en slaapkwaliteit. De kans dat het eten van chocola toevallig een impact had op één van deze indicatoren is behoorlijk groot. Dit onderzoek probeerde dan ook aan te tonen dat er niet te veel waarde gehecht moet worden aan p-waarden.
Een andere vorm van p-hacking is het zogenaamde cherry picking. Dit is het filteren van de data zodat er statistisch significante resultaten uitkomen. Dit kan ook onbewust gebeuren, bijvoorbeeld door de jaren 2007–2012 niet mee te nemen in een onderzoek ‘vanwege de kredietcrisis’. Vaak wordt dit besluit pas genomen nadat blijkt dat de data in die periode niet de trend uit de hypothese volgt, wat een vorm van cherry picking is.
Wat kan eraan gedaan worden?
De belangrijkste reden dat onderzoekers proberen om p-waarden zo laag mogelijk te krijgen en hun hele onderzoek eromheen bouwen, is omdat wetenschappelijke tijdschriften er zoveel waarde aan hechten. Zoals gezegd wordt wetenschappelijk onderzoek dat geen significante resultaten heeft veel minder vaak gepubliceerd dan onderzoek met significante resultaten.
Een voor de hand liggende remedie voor dit probleem is dan ook dat tijdschriften een publicatiegarantie geven voorafgaand aan het onderzoek, gegeven dat het onderzoek wordt uitgevoerd zoals in het onderzoeksvoorstel beschreven staat. Dit zorgt ervoor dat ook minder bijzondere resultaten gepubliceerd worden, en haalt de prikkel weg om alleen maar te kijken naar statistische significantie. Uiteraard heeft deze aanpak ook nadelen, aangezien wetenschappers hun ‘beloning’, publicatie, al ontvangen voordat de prestatie geleverd is. Aan de andere kant is dit wellicht minder erg dan de huidige neiging om de data zo te kneden dat er een significant resultaat uitkomt.
De p-waarde is maar een heel klein deel van het verhaal in een onderzoek en dient niet te veel in de schijnwerpers te staan. Een significant resultaat is geen garantie voor een succesvol onderzoek, ook al doet het publicatiebeleid van veel wetenschappelijke tijdschriften dat wel vermoeden.
Dit artikel is geschreven door Arthur Molenaar.