Data science maakt van big data de nieuwe olie

04 juli 2018 Consultancy.nl

“We horen vaak dat we in de ‘Information Age’ leven en dat data de nieuwe olie is. 90% van de data vandaag de dag is gegenereerd in de laatste twee jaar. Experts voorspellen dat vanaf nu ieder jaar de data minstens verdubbeld zal worden.” Aan het woord is Niels Hoogeveen, Business Intelligence Consultant bij Magnus.

“Data gegenereerd door mensen (bijvoorbeeld data van ons gedrag op mobiele apparaten en het web) en machines groeit gezamenlijk tien keer sneller dan traditionele business data. Echter groeit de machine gegenereerde data an sich, door de komst van Internet of Things (IoT), ten opzichte van business data maar liefst vijftig keer zo hard! In tegenstelling tot olie, raakt data niet op en blijft het alleen maar groeien, exponentieel groeien. Fantastisch! Maar wist je dat slechts 0,5% (je leest het goed: een half procent) van al die data daadwerkelijk geanalyseerd wordt voor besluitvorming? 99,5% van alle data is op dit moment onbenut en heeft enorme potentie. Hier moeten we iets mee doen.”

Data is kennis; Kennis is wijsheid

“Maar wat kunnen we nou eigenlijk met al die data en wat zorgt ervoor dat die data zo waardevol is? De giganten als Facebook, Google en Netflix weten aan de hand van enorme hoeveelheden data meer van jou dan jijzelf. Netflix weet op basis van gebruikersdata (bijna) exact welke films en series jij graag wilt zien, zodat je zelf niet hoeft te zoeken. Google geeft op basis van data suggesties voor jouw zoektermen. Facebook gebruikt onze data om te voorspellen wat voor een persoonlijkheid en interesses iemand heeft op basis van zijn ‘likes’ om zo advertenties te tonen die voor die persoon relevant zijn.”

“Ook Walmart, de Amerikaanse retailgigant is ons voor aan de hand van zijn data. Walmart ontwikkelde een algoritme waarmee het aan de hand van koopgedrag kon voorspellen of een vrouw in een vroeg stadium in verwachting is, om zo coupons te sturen voor babyartikelen. Eén van deze klanten, een tiener, ontving deze coupons ook in haar mailbox. De vader van het meisje was woedend, omdat hij Walmart er van verdacht tieners aan te moedigen zwanger te worden. Walmart bood vervolgens zijn excuses aan. Echter kwam de vader hier op terug, toen hij erachter kwam dat zijn dochter inderdaad zwanger was. Ja, die algoritmes zijn zo gek nog niet.” “Google, Facebook en Walmart gebruiken data science voor gerichte advertenties. Netflix stelt films en series aan je voor op basis van je kijkhistorie. Maar anno 2018 is data science niet alleen meer het gebied van giganten als Google en Facebook. De wereld van data science is nooit toegankelijker geweest dan vandaag de dag. Met alle beschikbare tools kunnen ook kleine en middelgrote bedrijven hun data omzetten in kennis.”

Magnus Blue Data science machine learning

Waarom maken kleinere bedrijven nog niet (volledig) gebruik van hun data?

“Eén van de redenen is dat bedrijven niet precies weten wat de mogelijkheden van data science/machine learning zijn. We horen elke dag termen als data mining, machine learning en artificial intelligence (AI). Termen die op elkaar lijken, maar toch anders zijn. Wat houden ze nou exact in?”

Eén term, één taak

“De eerste stap voor bedrijven is om te begrijpen wat data science is. Data science is het domein waarbinnen ruwe (big) data omgezet wordt in waardevolle kennis. Dit begint bij data logistiek, het ‘schoonmaken’ en prepareren van de ruwe data. Daarna wordt er data mining uitgevoerd, waarbij machine learning algoritmes worden toegepast, om de zowel gestructureerde als ongestructureerde data te begrijpen, kennis eruit te onttrekken en mogelijke acties te formuleren voor een oplossing. Data science is dus een breed begrip en omvat data mining én machine learning. Wat deze termen precies inhouden en hoe ze verschillen van artificial intelligence, zal in de volgende secties duidelijk worden.”

Data mining & machine learning

“Data science is dus het gebied van (big) data logistiek, inclusief data cleansing, data preparatie en data mining om kennis te onttrekken uit ruwe data. Doordat datasets vaak onvolledig of ongestructureerd zijn, heeft een data scientist een grote taak aan het voorbereidende werk. Denk aan missende data opvullen of data in het juiste formaat omzetten. Dit neemt soms wel 90% van de totale werkzaamheden in. Zoals je ziet zijn data mining en machine learning slechts twee van de onderdelen waar een data scientist mee bezig is.”

“Maar wat is dan precies data mining en machine learning? Data mining is het onttrekken van (impliciete) kennis uit data. Tijdens het data minen maakt men gebruik van traditionele statistiek, datavisualisatie en machine learning-algoritmes, wat de technische basis vormt van data minen. Machine learning is het vakgebied van het ontwikkelen van modellen zodanig dat ze kunnen ‘leren’ van data en zich dus verbeteren aan de hand van nieuwe data, voor bepaalde taken zoals voorspellingen maken, zonder expliciet geprogrammeerd te zijn. Aan de hand van feedback voor het verschil tussen de voorspelde en de daadwerkelijke output past het algoritme zijn parameters aan. Dit is het essentiële leerproces van machine learning. In de wereld van machine learning heet dit het ‘trainen’ van een model.”

Magnus Blue Machine Learning Process

“Je kunt dit vergelijken met hoe een baby leert praten. In het begin is het kindje blanco en weet nog niet hoe iets heet en hoe je het correct uitspreekt. Als het kindje iets ziet en het geeft een verkeerde benaming of spreekt het woord verkeerd uit, krijgt het ‘feedback’ van ouderen wat dat ‘iets’ is en hoe het goed uitgesproken moet worden. Op den duur begrijpt het kindje dat het ‘iets’ een hond is en je het dus niet een ‘woef’ noemt. Hierbij geldt doorgaans bij machine learning: hoe meer data, hoe meer voorbeelden het model te zien krijgt en hoe accurater de voorspelling.”

Machine learning en artificial intelligence?

“Vaak lezen we dat machine learning artificial intelligence (AI), ofwel kunstmatige intelligentie is. Machine learning is echter een onderdeel van AI. AI houdt zich bezig met het ontwikkelen van intelligente machines, bijvoorbeeld een zelfrijdende auto. AI maakt gebruik van machine learning-technieken, maar ook andere technieken, zoals reasoning systems waarbij de logica op voorhand is geprogrammeerd. AI is breder dan alleen machine learning en valt gedeeltelijk buiten het vakgebied van data science, waarbij machine learning gezien kan worden als het raakvlak tussen data science en artificial intelligence.”

Magnus Blue Machine Learning Data Science Artificial Intelligence

A life full of learning

“Grofweg zijn er drie leermethodes te onderscheiden binnen het domein van machine learning: supervised learning, unsupervised learning en reinforcement learning. Supervised learning kun je omschrijven als machine learning-algoritmes waarbij een set van inputvariabelen (features) en verwachte output (labels) is gegeven in de dataset, waarbij het algoritme de output voorspelt op basis van nieuwe input. Bij supervised learning-algoritmes zijn dus de output of correcte labels een gegeven in de dataset. Het algoritme wordt getraind door een relatie te vinden tussen de features en de labels.”

“Unsupervised learning zijn algoritmes die zoeken naar patronen binnen een dataset, waarbij de features bekend zijn, maar geen output. Het algoritme gaat dus op zoek naar verbanden tussen de inputvariabelen, ofwel features. Unsupervised learning is fundamenteel anders dan supervised learning. Bij unsupervised learning is er geen label gegeven. Het doel is dan ook niet het voorspellen of classificeren, maar het vinden van patronen, structuren en relaties tussen de features. Dus waar supervised learning een relatie probeert te zoeken tussen de features en de labels, gaan unsupervised learning algoritmes op zoek naar relaties tussen verschillende features, om deze vervolgens zelf te groeperen.”

Magnus Blue Machine Learning

“Altijd al afgevraagd hoe de computertegenstanders in moderne computerspellen werken? Dat is de wereld van reinforcement learning. Reinforcement learning is significant anders dan supervised – en unsupervised learning; er is namelijk geen bestaande trainingsdata. Het idee van reinforcement learning is dat een zogenaamde agent (bijvoorbeeld een robot of virtuele tegenstander in een computerspel) leert van de omgeving waarin het interacteert en beloond of bestraft wordt op basis van de uitgevoerde acties (‘deze actie was goed, deze actie was fout’).”

“Bij de afwezigheid van bestaande trainingsdata, leert de agent van ervaring. De verschillende acties worden verzameld, en door middel van trial-and-error wordt geprobeerd de langetermijnbeloning te maximaliseren (bijvoorbeeld het verslaan van een menselijke tegenstander in een computerspel). Reinforcement learning komt het meest in de buurt van hoe een mens leert en wordt daarom gezien als de meest pure vorm van artificial intelligence.”

“Zoals je ziet is er dus geen eenduidig verschil tussen traditionele statistiek, data mining en machine learning. Er is een sterke overlap tussen deze termen. Sommige experts claimen zelfs dat er geen verschil is en dat de essentie hetzelfde is: hoe kunnen we leren van data? Voor de eenvoud kun je samenvattend stellen:

  • Statistiek is het kwantificeren van data en analyseren van het verleden.
  • Data mining is het overkoepelende vakgebied van traditionele statistiek, datavisualisatie en het toepassen van machine learning-algoritmes om kennis uit data te onttrekken.
  • Machine learning is het instrueren van computers zodat ze zelf kunnen ‘leren’ op basis van data zonder expliciet geprogrammeerd te worden.”

“En data science? Dat is het overkoepelende vak van data logistiek, data cleansing, data preparatie en data mining, statistiek en machine learning.

“Je zult je waarschijnlijk afvragen: ik heb nu een definitie van data science en snap de verschillen tussen de termen binnen data science, maar nu? Hoe kan ik als bedrijf leren van mijn data? De eerste stap is een duidelijk beeld vormen wat je als business wilt bereiken: welke processen bestaan er binnen mijn organisatie en hoe kunnen we deze ondersteunen met data? Wat wil je gaan voorspellen of waar wil je inzicht in krijgen en waarom maakt dat jouw business efficiënter, slimmer en beter?”

Niels Hoogeveen is Business Intelligence Consultant bij Magnus
.

Nieuws

Meer nieuws over