De Bayesiaanse statistiek versus de Frequentist methode

15 mei 2020 Consultancy.nl

Wat is het verschil tussen Bayesiaanse statistiek en de Frequentist-statistiek? Anya Tonne, Consultant bij datascience adviesbureau Cmotions, legt uit.

Het grote verschil tussen de twee methodes is dat de Frequentist-methode probeert om een snapshot te maken van een situatie. Op het moment dat er een beslissing moet worden gemaakt, evalueert een Frequentist alle benodigde informatie van begin tot einde alsof er geen eerdere analyse is geweest. 

Dit in tegenstelling tot de Bayesiaanse methode, waarbij eerder gemaakte analyses geüpdatet worden met nieuw beschikbare informatie. Laten we het coronavirus als voorbeeld pakken. Dit is precies wat jouw brein ook doet op het moment dat je het nieuws leest over bijvoorbeeld het aantal Covid-19 gevallen. 

Een echte Frequentist zou een datapunt toevoegen aan de dataset die hij al heeft over het onderwerp en daarna zou hij de hele analyse opnieuw uitvoeren. Deze manier van werken kost veel rekenkracht en wordt daarnaast ook lastiger om uit te voeren als het aantal datapunten groeit. Stel je voor dat je na iedere persconferentie probeert om alle informatie die je zojuist hebt gehoord te verwerken om deze vervolgens te combineren met alles wat je eerder hebt gehoord. 

Bayesiaanse statistiek

Ondertussen vraag je je waarschijnlijk al af waarom de Bayesiaanse methode efficiënter is voor zo’n vraagstuk. Bayesiaanse statistiek is gebaseerd op het Bayes-theorema, waarbij voorkennis over een situatie wordt gecombineerd met de huidige kennis over deze situatie om zo een nieuwe kijk op de realiteit te vormen. 

Als we dit samenvatten in een formule volgens het Bayesiaanse framework dan ziet dit er zo uit: 

Bayesiaans framework

Stel je voor dat we een nieuwsbericht lezen waarin staat dat er 10 nieuwe patiënten zijn opgenomen op de intensive care (wat veel lager is dan voorheen), dan is dit ons nieuwe datapunt. Als we willen bepalen hoe groot de impact hiervan is op de kans dat de restricties worden opgeheven, dan moeten we de voorafgaande waarschijnlijkheid (likelihood) meenemen en de voorafgaande overtuiging (prior). 

De voorafgaande overtuiging (prior) is wat we al weten over de situatie, in dit geval, onze verwachting voordat we het nieuws hebben gelezen. De voorafgaande waarschijnlijkheid (likelihood) is de mate waarin we dit nieuwe datapunt zagen aankomen op basis van onze huidige kennis over de situatie. Bijvoorbeeld, als het aantal patiënten gisteren 1.000 was en vandaag 10, dan was de waarschijnlijkheid van dit datapunt zeer laag. 

De Bayesiaanse statistiek heeft geen last van cognitieve bias zoals mensen die wel hebben. Ons brein heeft simpelweg niet het vermogen om perfect te evalueren hoe waarschijnlijk het is dat we informatie tegenkomen, daarom maakt het gebruik van verschillende heuristieken, waaronder de beschikbaarheidsheuristiek.

De beschikbaarheidsheuristiek zorgt ervoor dat we nieuwe informatie zwaarder laten wegen. Je kunt dus enthousiast worden als gisteren het aantal patiënten op de intensive care 1.000 was en vandaag maar 10, maar een Bayesiaan zal ook evalueren hoe waarschijnlijk deze informatie is.

Samengevat ziet Bayesiaanse formule er zo uit: 

Bayesiaanse formule

Hier kan eenvoudig de nieuwe informatie worden meegenomen, terwijl een Frequentist zijn hele analyse opnieuw zou moeten runnen met alle nieuwe informatie. Naar verwachting zouden de antwoorden hetzelfde moeten zijn, maar in dit geval is de Bayesiaanse methode een stuk intuïtiever. 

De Frequentist-methode vergeten?

De Bayesiaanse methode heeft veel voordelen en het aantal fans stijgt sinds het Bayes-theorema werd bewezen aan het einde van de 18e eeuw. Het is echter niet aan te raden om alle kennis van de Frequentist-methode overboord te gooien. Dan zou je tenslotte geen echte Bayesiaan meer zijn! Afhankelijk van de situatie, kunnen beide manieren gebruikt worden. 

Als er al informatie over de situatie aanwezig is, bijvoorbeeld het aantal patiënten dat intensive care-zorg heeft gehad, dan is de Bayesiaanse methode de beste keuze. Echter, als je nog geen informatie hebt over het onderwerp dat je wilt gaan analyseren, dan kunnen beide methodes worden toegepast. 

Het is niet verrassend dat veel mensen in dat geval kiezen voor de Frequentist-methode, waar de meeste mensen meer bekend mee zijn. Dit is de reden waarom tests voor gemiddeldes en proporties, die zo wijdverspreid zijn in data-analyse, voornamelijk worden uitgevoerd met behulp van Frequentist-statistieken. Hetzelfde geldt voor gewone en meervoudige regressies. 

Beide methodes zijn een goede aanpak als de voorafgaande informatie schaars is, maar als er wel voorafgaande verwachtingen zijn dan is de Bayesiaanse methode de beste keuze. Dit is waarom aandelenbeurzen en meteorologen zo snel kunnen reageren op nieuwe informatie die beschikbaar komt, ze gebruiken Bayesiaanse voorspellingen. 

Samenvatting

Bayesiaanse statistiek heeft vele toepassingen, is intuïtief en makkelijk om te begrijpen en interpreteren. In veel gevallen hebben we al informatie over een onderwerp voordat we een voorspelling willen maken. Als je bijvoorbeeld wilt voorspellen hoeveel klanten je over één jaar hebt, dan zou de Bayesiaanse methode misschien wel de beste kunnen zijn. 

Bayesiaanse statistiek leidt, in tegenstelling tot ons brein, niet aan cognitieve biases waardoor alle informatie even zwaar worden meegenomen. Daarom kan Bayesiaanse statistiek helpen om datagedreven beslissingen te maken, iedere keer weer.


Profiel
Meer nieuws over
×
×
Accenture ACE Company Adaptif Adlasz Adviesgroep Novius AevesBenefit Anderson MacGyver Andersson Elffers Felix Annalise Arlande Arthur D. Little AT Osborne Atos Consulting Bain & Company Baker Tilly BCG Platinion BDO BearingPoint Berenschot Best Value Group Bewegin Bisnez BlinkLane Consulting BluPoint BMC Boer & Croon Management BOLD Bolster Bostec Boston Consulting Group Bright & Company | People Strategy Buitenhuis Advies buro C5 Bvolve Capgemini Invent Cegeka Consulting Cmotions COMATCH Conclusion Count & Cooper CPMview De Issuemakers De Kleine Consultant Deloitte Delta Capita Digital Power Dimensys Ecorys Eden McCallum Energyprofs Enigma Consulting Eurekon EY EY-Parthenon Finavista Finext First Consulting Flowant flowresulting Fronteer FTE Groep FTE Improvery Galan Groep GalanNXT Grant Thornton Groenewout Gupta Strategists Gwynt Hamstra & Partners Hogenhouck m&a Hospitality Group Hot ITem House of Performance IG&H Improven InContext innergo INNOPAY Intermedius ITDS Business Consultants Itility JBR JBR Interim Executives Kearney Kirkman Company Korn Ferry KplusV KPMG Kruger Kurtosis KWINK groep Leeuwendaal M3 Consultancy Magnus Marktlink Mazars McKinsey & Company Mercer Merkle METRI Mitopics MLC Mobilee Möbius Monitor Deloitte Morgens MSR Consulting Group NEWCRAFT Node1 Oliver Wyman OrangeX Ordina Organize Agile p2 PA Consulting Group Paul Postma Marketing Consultancy People Change PNO Consultants Projective Protiviti Proven Partners PwC Qhuba Quint Quintop Raad van Toekomst RedFoxBlue ResidentieProfs RGP Rijnconsult Riverwise Roland Berger Salvéos Schaekel & Partners SeederDeBoer Sia Partners Significant Groep Simon-Kucher & Partners SiRM Solid Professionals SOLVE Consulting SparkOptimus Staffing MS Strategy& Student Consultancy Group Summiteers Supply Value Symbol Synechron The Next Organization Trevian Turner TWST TwynstraGudde UMS Group UniPartners UPD Van Oers Corporate Finance Vanberkel Professionals Varrlyn Vasco Consult Vintura VODW Volt Strategy Voogt Pijl & Partners Wielinq WIN Xebia Yellowtail YGroup YNNO Young Advisory Group YourConnector Zanders Zestgroup