Succesvolle machine learning? Niet zonder datavoorbereiding

05 november 2019 Consultancy.nl

Machine learning is hot. Een machine die zaken efficiënter uitvoert dan een mens en zichzelf kan verbeteren met minimale instructies. Welke organisatie wil dat nou niet? Frenk Ochse, CTO bij Virtual Sciences, over de risico’s en kansen van machine learning en hoe de voordelen benut kunnen worden.

Ondanks het feit dat machine learning veel positieve aandacht krijgt, bestaat er tegelijkertijd een schrikbeeld rondom dit buzzword. Van The Terminator tot Blade Runner, Ex Machina en The Matrix: voorbeelden van robots die de wereld dreigen over te nemen zijn er genoeg. Mensen zijn niet meer nodig, machines handelen alles af.

Of de angst voor dit toekomstbeeld terecht is? Als je het aan mij vraagt niet. Ja, een machine die taken uit kan voeren zonder menselijke tussenkomst klinkt misschien griezelig. Maar met zo’n uitspraak onderken je de wetenschap die aan de technologie ten grondslag ligt. In de praktijk komt machine learning namelijk voor een groot deel neer op ouderwetse datavoorbereiding en -verwerking in combinatie met domeinkennis.

Robots nemen het over

Laten we eens uitgaan van het schrikbeeld en aannemen dat slimme technologie inderdaad de wereld gaat overnemen. Dat beslissingen voor een groot deel worden genomen door computers die door zelflerende algoritmen ook nog eens slimmer worden. Om op dat punt te komen moeten we zo’n slim stukje technologie (of een robot) eerst iets leren. Hoe? Door het informatie aan te bieden. Nu is het zo dat vrijwel ieder bedrijf op een groot data lake zit, een ‘meer’ vol interessante informatie.

Nemen robots het straks over?

Daar moet zo’n robot toch ontzettend veel mee kunnen? Daar kan hij toch zeker de wereld mee overnemen? Je voelt het antwoord al aankomen: nee, dat kan hij niet. Machine learning-technologie bestaat vaak uit een of meerdere modellen, zoals een technisch of een statistisch model. Het technische is als het ware een beslisboom die doorlopen wordt op basis van de input die het ontvangt. Het statische model is een model dat, zoals de naam doet vermoeden, op basis van statistiek tot resultaten komt.

Beide modellen draaien in de eerste plaats om data. Relevante data, welteverstaan. Daarvoor moet je eerst het data lake induiken en hier data uithalen die schoon, consistent en nauwkeurig is. Deze moet zodanig omgevormd worden, dat het in een model past; dat een robot er daadwerkelijk iets mee kan. Daarna is het mogelijk om te kijken of de data statistisch relevant is. Door domeinkennis toe te voegen en dit te vatten in een technisch model, is het middels deze combinatie mogelijk te bepalen of de data binnen het domein en statistisch gezien relevantie heeft.

Laten we het simpeler benaderen. Stel dat het data lake jouw onopgeruimde kledingkast is. De kans is groot dat hier zeker vier kledingcombinaties in liggen die jou fantastisch staan, maar waarvan jij niet op de hoogte bent. Hoe leg je deze verborgen outfits bloot? Simpel: ruim om te beginnen je zooi op, breng orde aan en ga vanaf daar verder. Zonder een logisch overzicht zal je altijd verdwalen.

Maar dan ben je er nog niet. Voeg hier externe kennis en data aan toe, die op basis van jouw fysieke kenmerken en de komende fashiontrends kan bepalen wat het beste bij je zou passen. De combinatie van de twee kan de vier winnende kledingcombinaties blootleggen die je zelf over het hoofd zou hebben gezien. Zo werkt het ook met data. Rangschik, categoriseer en bekijk dán waar de meerwaarde zit vanuit bedrijfsoogpunt. Combineer statistiek met domeingerelateerde kennis.

“Het succes van machine learning hangt niet zozeer af van nieuwe technologieën, maar heeft alles te maken met de beschikbaarheid van data en domeinkennis.”

Datavoorbereiding is meer dan het halve werk

Helaas is het dus niet zo eenvoudig als een verzameling ruwe data in een statistisch model voeren en te wachten tot de meerwaarde eruit komt rollen. De eerste stap is bekijken hoe de data zo gerangschikt wordt dat je überhaupt iets kunt modelleren. Datavoorbereiding speelt een essentiële rol in het moderne machine learning – en dat kost meer tijd dan men denkt. Het is iets wat in de praktijk vaak wordt onderschat.

Het succes van machine learning – en of robots de wereld over gaan nemen – hangt niet zozeer af van een doorbraak van nieuwe technologieën, maar heeft dus alles te maken met de hoeveelheid en soort data en domeinkennis die beschikbaar is. Ik geloof zeker dat machine learning een hele grote toekomst heeft, mits bedrijven er op de juiste manier mee aan de slag gaan. Wanneer zij rekening houden met de moeilijkheidsgraad van machine learning en het proces vervolgens goed inrichten, ben ik ervan overtuigd dat het bedrijven veel kan brengen. Maar om die kansen te creëren, moet er eerst heel wat datawerk verzet worden!

Hoe nu verder?

Nu duidelijk is geworden dat het succesvol toepassen van machine learning in de eerste plaats om noeste (data)arbeid draait, vraag je je waarschijnlijk af hoe te beginnen. Je vraagt je misschien zelfs af of je er überhaupt aan wil beginnen. Logisch ook: als de kennis in huis ontbreekt, is het lastig je een weg te banen door onbekende technologieën. Een verstandige stap is dan om een externe partij aan te haken die bewezen ervaring heeft met data-analyse en veel markt- en klantkennis op het gebied van machine learning.

Bij Virtual Sciences [een dochterbedrijf van Conclusion] ben je hiervoor aan het goede adres. We hebben kennis opgebouwd door een jarenlange intensieve samenwerking met klanten als Schadegarant en Univé en mooie resultaten geboekt. Schroom niet om onze expertise in te schakelen. Dan bevrijden we samen de data in je data lake en zetten het om in waarde.


Profiel

Meer nieuws over

×
×
A.T. Kearney Accenture ACE Company Adaptif Adlasz Adviesgroep Novius AevesBenefit Anderson MacGyver Andersson Elffers Felix Annalise Arlande Arthur D. Little AT Osborne Atos Consulting Bain & Company Baker Tilly BCG Platinion BDO BearingPoint Berenschot Best Value Group Bisnez BlinkLane Consulting BluPoint BMC Boer & Croon Management Bolster Bostec Boston Consulting Group Bright & Company | People Strategy Buitenhuis Advies buro C5 Bvolve Capgemini Invent Centric Cmotions COMATCH Conclusion Connective Payments Count & Cooper De Kleine Consultant Deloitte Delta Capita Digital Power Dimensys Ecorys Eden McCallum Energyprofs Enigma Consulting EY EY-Parthenon Finavista Finext First Consulting Flowant flowresulting FTE Groep FTE Improvery Galan Groep GalanNXT Grant Thornton Groenewout Gupta Strategists Gwynt Hamstra & Partners Hermes | Partners Hospitality Group Hot ITem House of Performance IG&H Improven InContext innergo INNOPAY Intermedius ITDS Business Consultants Itility JBR JBR Interim Executives Kirkman Company Korn Ferry KplusV KPMG KPN ICT Consulting Kruger Kurtosis KWINK groep Leeuwendaal M3 Consultancy Magnus Marktlink Mazars McKinsey & Company Mercer Merkle METRI Mitopics MLC Mobilee Möbius Monitor Deloitte Morgens MSR Consulting Group Oliver Wyman OrangeX Ordina Organize Agile Oxyma p2 PA Consulting Group Paul Postma Marketing Consultancy PBLQ People Change PNO Consultants Projective Protiviti Proven Partners PwC Qhuba Quantics Quint Wellington Redwood Quintop Raad van Toekomst ResidentieProfs RGP Rijnconsult Roland Berger Salvéos Schaekel & Partners Schuberg Philis SeederDeBoer Sia Partners Significant Groep Simon-Kucher & Partners SiRM Solid Professionals SOLVE Consulting SparkOptimus Strategy Development Partners Strategy& Student Consultancy Group Summiteers Supply Value Symbol Synechron The Next Organization Trevian Turner TWST TwynstraGudde UMS Group UniPartners UPD Van Oers Corporate Finance Vanberkel Professionals Varrlyn Vasco Consult Vintura VODW Voogt Pijl & Partners Wielinq Willis Towers Watson WIN Yellowtail YGroup YNNO Young Advisory Group YourConnector Zanders Zestgroup