De Bayesiaanse statistiek versus de Frequentist methode
Wat is het verschil tussen Bayesiaanse statistiek en de Frequentist-statistiek? Anya Tonne, Consultant bij datascience adviesbureau Cmotions, legt uit.
Het grote verschil tussen de twee methodes is dat de Frequentist-methode probeert om een snapshot te maken van een situatie. Op het moment dat er een beslissing moet worden gemaakt, evalueert een Frequentist alle benodigde informatie van begin tot einde alsof er geen eerdere analyse is geweest.
Dit in tegenstelling tot de Bayesiaanse methode, waarbij eerder gemaakte analyses geüpdatet worden met nieuw beschikbare informatie. Laten we het coronavirus als voorbeeld pakken. Dit is precies wat jouw brein ook doet op het moment dat je het nieuws leest over bijvoorbeeld het aantal Covid-19 gevallen.
Een echte Frequentist zou een datapunt toevoegen aan de dataset die hij al heeft over het onderwerp en daarna zou hij de hele analyse opnieuw uitvoeren. Deze manier van werken kost veel rekenkracht en wordt daarnaast ook lastiger om uit te voeren als het aantal datapunten groeit. Stel je voor dat je na iedere persconferentie probeert om alle informatie die je zojuist hebt gehoord te verwerken om deze vervolgens te combineren met alles wat je eerder hebt gehoord.
Bayesiaanse statistiek
Ondertussen vraag je je waarschijnlijk al af waarom de Bayesiaanse methode efficiënter is voor zo’n vraagstuk. Bayesiaanse statistiek is gebaseerd op het Bayes-theorema, waarbij voorkennis over een situatie wordt gecombineerd met de huidige kennis over deze situatie om zo een nieuwe kijk op de realiteit te vormen.
Als we dit samenvatten in een formule volgens het Bayesiaanse framework dan ziet dit er zo uit:
Stel je voor dat we een nieuwsbericht lezen waarin staat dat er 10 nieuwe patiënten zijn opgenomen op de intensive care (wat veel lager is dan voorheen), dan is dit ons nieuwe datapunt. Als we willen bepalen hoe groot de impact hiervan is op de kans dat de restricties worden opgeheven, dan moeten we de voorafgaande waarschijnlijkheid (likelihood) meenemen en de voorafgaande overtuiging (prior).
De voorafgaande overtuiging (prior) is wat we al weten over de situatie, in dit geval, onze verwachting voordat we het nieuws hebben gelezen. De voorafgaande waarschijnlijkheid (likelihood) is de mate waarin we dit nieuwe datapunt zagen aankomen op basis van onze huidige kennis over de situatie. Bijvoorbeeld, als het aantal patiënten gisteren 1.000 was en vandaag 10, dan was de waarschijnlijkheid van dit datapunt zeer laag.
De Bayesiaanse statistiek heeft geen last van cognitieve bias zoals mensen die wel hebben. Ons brein heeft simpelweg niet het vermogen om perfect te evalueren hoe waarschijnlijk het is dat we informatie tegenkomen, daarom maakt het gebruik van verschillende heuristieken, waaronder de beschikbaarheidsheuristiek.
De beschikbaarheidsheuristiek zorgt ervoor dat we nieuwe informatie zwaarder laten wegen. Je kunt dus enthousiast worden als gisteren het aantal patiënten op de intensive care 1.000 was en vandaag maar 10, maar een Bayesiaan zal ook evalueren hoe waarschijnlijk deze informatie is.
Samengevat ziet Bayesiaanse formule er zo uit:
Hier kan eenvoudig de nieuwe informatie worden meegenomen, terwijl een Frequentist zijn hele analyse opnieuw zou moeten runnen met alle nieuwe informatie. Naar verwachting zouden de antwoorden hetzelfde moeten zijn, maar in dit geval is de Bayesiaanse methode een stuk intuïtiever.
De Frequentist-methode vergeten?
De Bayesiaanse methode heeft veel voordelen en het aantal fans stijgt sinds het Bayes-theorema werd bewezen aan het einde van de 18e eeuw. Het is echter niet aan te raden om alle kennis van de Frequentist-methode overboord te gooien. Dan zou je tenslotte geen echte Bayesiaan meer zijn! Afhankelijk van de situatie, kunnen beide manieren gebruikt worden.
Als er al informatie over de situatie aanwezig is, bijvoorbeeld het aantal patiënten dat intensive care-zorg heeft gehad, dan is de Bayesiaanse methode de beste keuze. Echter, als je nog geen informatie hebt over het onderwerp dat je wilt gaan analyseren, dan kunnen beide methodes worden toegepast.
Het is niet verrassend dat veel mensen in dat geval kiezen voor de Frequentist-methode, waar de meeste mensen meer bekend mee zijn. Dit is de reden waarom tests voor gemiddeldes en proporties, die zo wijdverspreid zijn in data-analyse, voornamelijk worden uitgevoerd met behulp van Frequentist-statistieken. Hetzelfde geldt voor gewone en meervoudige regressies.
Beide methodes zijn een goede aanpak als de voorafgaande informatie schaars is, maar als er wel voorafgaande verwachtingen zijn dan is de Bayesiaanse methode de beste keuze. Dit is waarom aandelenbeurzen en meteorologen zo snel kunnen reageren op nieuwe informatie die beschikbaar komt, ze gebruiken Bayesiaanse voorspellingen.
Samenvatting
Bayesiaanse statistiek heeft vele toepassingen, is intuïtief en makkelijk om te begrijpen en interpreteren. In veel gevallen hebben we al informatie over een onderwerp voordat we een voorspelling willen maken. Als je bijvoorbeeld wilt voorspellen hoeveel klanten je over één jaar hebt, dan zou de Bayesiaanse methode misschien wel de beste kunnen zijn.
Bayesiaanse statistiek leidt, in tegenstelling tot ons brein, niet aan cognitieve biases waardoor alle informatie even zwaar worden meegenomen. Daarom kan Bayesiaanse statistiek helpen om datagedreven beslissingen te maken, iedere keer weer.