Wat is clustering analytics? En hoe pas je het toe?

08 september 2021 Consultancy.nl 4 min. leestijd
Profiel
Meer nieuws over

Steeds meer organisaties gebruiken de techniek van clustering om hun klantervaring te verrijken of hun interne besluitvorming te verbeteren. Maar wat is clustering precies? En hoe pas je het toe? Maurice Chin Ten Fung van Magnus legt het concept uit aan de hand van een aansprekend voorbeeld: Spotify.

Stel je voor: je hebt zojuist een album geluisterd van je favoriete band via Spotify. Vervolgens krijg je een album van een andere band aanbevolen en dit blijkt een schot in de roos! Een band die je nog niet kende, maar wel eentje die perfect in jouw straatje past.

Deze aanbeveling komt voort uit een recommendation engine waarmee moderne platforms als Spotify zijn uitgerust. Een recommendation engine is een systeem dat producten aanbeveelt op basis van verschillende kunstmatige intelligentie-technieken. Een recommendation engine maakt vaak gebruik van clustering.

Clustering is een techniek waarin een algoritme soortgelijke objecten probeert te vinden en deze vervolgens classificeert en categoriseert. Dit gebeurt op basis van alle beschikbare data van de objecten. 

Hoe vertaalt zich dit in het voorbeeld van de muzikale aanbeveling? Als elk nummer een object is, zijn alle nummers te categoriseren op basis van bepaalde features. Denk bijvoorbeeld aan de energie en de muzikale bezetting van een nummer. 

In onderstaand voorbeeld is met behulp van Principal Component Analysis het aantal features teruggebracht naar twee, zodat de clustering goed gevisualiseerd kan worden. Goed te zien is dat alle datapunten die bij elkaar in de buurt liggen gegroepeerd en gecategoriseerd kunnen worden. De recommendation engine maakt dus een aanbeveling voor een volgend liedje door een nummer te kiezen in hetzelfde cluster. 

Clustering van muzieknummers

Als muziek in de oren voor veel sectoren

De techniek van clustering kan voor heel veel doeleinden gebruikt worden. Drie voorbeelden: 

Marktsegmentatie
Clustering kan worden ingezet om klanten te groeperen en categoriseren aan de hand van klantgegevens. Op deze manier kan er gefocust worden op het aanspreken van bepaalde groepen in plaats van individuen binnen de klantenkring.

Dit draagt bij aan een gericht marketingbeleid. Neem het koppelen van bepaalde promoties aan speciale doelgroepen. Zodra er een nieuwe klant bijkomt, kan deze heel snel geclusterd worden in een van de bestaande doelgroepen. 

Productsegmentatie
In een markt met soms wel duizenden verschillende producten is het lastig om aan te geven met welke producten je nou daadwerkelijk concurreert. Met behulp van clustering is het mogelijk om de verschillende productgroepen binnen een markt te identificeren om zo je prijs en je acties op de juiste manier te bepalen. 

Dit wordt gedaan door het evalueren van features. Voorbeelden van deze features kunnen prijs, afzet of productkenmerken zijn.

Spamdetectie
Elke e-mail die je ontvangt is feitelijk spam of geen spam. Om dit onderscheid te kunnen maken zijn er spamdetectie-algoritmes die op basis van K-means clustering Spam en Non-Spam clusters bepalen. Met behulp van deze clusters kunnen nieuwe inkomende e-mails eenvoudig geclassificeerd worden. 

Een voorbeeld uit de praktijk

Dat clustering ook in de praktijk echt werkt, hebben we recent als Magnus ervaren bij één van onze opdrachtgevers. Voor een internationale drankenretailer bedachten we een slimme manier om een financiële forecast te maken. Dit hebben we gedaan door het opstellen van een machine learning-model.

Met behulp van dit model krijgen de planners een accurate initiële forecast die ze kunnen gebruiken om hun planning te optimaliseren. Dit levert flinke tijdswinst op, evenals een accuratere planning. 

Onderdeel van dit machine learning-model was een clusteringalgoritme voor productsegmentatie. Het doel hiervan was om producten te vinden waar de producten van onze opdrachtgever echt mee concurreerden. Uiteindelijk hebben we deze met behulp van de K–means clusteringmethode kunnen identificeren. De concurrerende producten en hun eigenschappen zijn vervolgens opgenomen in het model als features om de voorspellingen te kunnen optimaliseren.