Laatste nieuws
 
 
  Achtergrondartikelen  
 


Alledaagse problemen oplossen

Data science: het wordt vaak als iets ingewikkelds gezien waarvan de meeste mensen niet weten hoe het precies werkt. Waarschijnlijk begrijp je in grote lijnen wel wat een data scientist doet. Als je iets zegt dat lijkt op: “data scientists verzamelen data, analyseren het, maken er een model van en proberen de resultaten daarvan zodanig te visualiseren dat ze gemakkelijk kunnen worden uitgelegd aan anderen”, dan ben je al vrij goed op de hoogte van wat dit beruchte volk doet. Maar begrijp je het dan ook daadwerkelijk, zie je wat er zich in hun hoofd afspeelt en volg je de complexe besluitvorming die onderdeel is van hun werk? Of beter nog: zou je zelf eens data scientist willen zijn, al is het maar voor even?

Door: Donald van den Hoogenband van Itility

Als het antwoord daarop ja is, is vandaag je geluksdag. En niet alleen vandaag! Want iedere dag die je tot nu toe hebt geleefd en iedere dag van de rest van je leven zul je doorbrengen als zeer gekwalificeerde data scientist. Jij maakt datagedreven beslissingen sneller dan een Tesla Roadster kan rijden. Je brein is veel krachtiger dan de meeste algoritmen die in het leven zijn geroepen door de mensheid. Vaak proberen die namelijk iets te repliceren wat de natuur of het menselijk brein al lang kan.
Sommige data scientists gebruiken er misschien ingewikkelde termen voor, maar het komt erop neer dat je zelf beschikt over het meest krachtige algoritme dat er is. Je maakt er dagelijks gebruik van en data scientists willen het graag vangen in een model. Wil je weten waar ik het over heb? Blijf dan lezen, want ik ga het je uitleggen aan de hand van drie voorbeelden die je waarschijnlijk zeer bekend voorkomen.

1.    Wat trek ik aan? (Machine learning + simulation)
07:15. De wekker gaat. Natuurlijk snooze je, dus tien minuten later spring je haastig uit bed en onder de douche. Als je klaar bent loop je naar de kast en bedenk je wat je aan gaat doen vandaag. Maar wacht eens even... Het kiezen van je outfit kan best een lastige beslissing zijn. Toch zijn je hersenen in staat deze taak relatief snel uit te voeren. Desondanks kun je ook een slechte dag hebben en de verkeerde beslissing maken. Als we hier met een data science-bril naar kijken kunnen we dit proces misschien imiteren en zo mogelijk verbeteren.

Of je uiteindelijk blij bent met de outfit die je kiest hangt af van meerdere factoren. Belangrijk kan zijn of je de outfit recentelijk gedragen hebt. De meesten van ons willen immers niet hoeven wassen of strijken, maar je wil een outfit ook niet te vaak dragen. Daarnaast zijn er speciale regels rondom wat wel en echt NIET kan, bijvoorbeeld het dragen van sokken in sandalen of het combineren van de kleuren paars en bruin. En gaan we werken of sporten? Schijnt de zon of gaat het regenen? Hoe kunnen we deze informatie gebruiken om de kleding te kiezen waar je vandaag het meest blij van wordt?
We maken een tabel op basis van de punten hierboven. Iedere rij is een nieuwe dag – en dus een nieuwe observatie – en iedere kolom is een factor die van belang kan zijn in ons keuzeproces. Dit ziet er als volgt uit:


 
In dit voorbeeld hebben we slechts vijf dagen met observaties, maar stel je voor dat we deze informatie hebben over iedere dag in ons leven. Door een techniek als machine learning toe te passen kunnen we, op basis van de informatie uit de kolommen, voorspellen hoe blij je wordt van een bepaalde outfit. Dit doe je door resultaten uit het verleden te observeren en de verborgen regels daarin te ontdekken. Op basis van de tabel hierboven lijkt het aannemelijk dat je blij wordt van een blauwe trui en beige broek op een niet-regenachtige werkdag. Als zo’n dag weer voorkomt, is het dus aan te bevelen deze outfit weer aan te trekken. Je hersenen ontwikkelen na verloop van tijd het vermogen om deze beslissing in een split second te maken.

Een andere techniek die het brein nabootst is simulation. Laten we aannemen dat we moeten kiezen tussen de outfits ‘groen shirt + witte broek’, ‘gele trui+badpak’ of ‘rode polo + zwarte broek’. We moeten bedenken welke daarvan we de volgende dag aantrekken. Hier kunnen we over nadenken en een voorstelling maken van hoe we eruit zien in iedere outfit, maar we kunnen ook testen wat ons zojuist gefabriceerde machine learning-model voorspelt als geluksindicatie als we de andere kolommen invullen. Nadat het model enkele voorspellingen heeft gedaan, kunnen we de beste outfit kiezen. In dit geval zou dat ‘rode polo + zwarte broek’ zijn.
 


Met deze technieken kunnen we de beste outfit vinden voor iedere dag. In de praktijk worden dit soort technieken op hoge snelheid uitgevoerd in je hoofd. De moeite die het kost om dit model iedere dag te laten draaien als je wakker wordt, verkleint je geluk echter meer dan het af en toe kiezen van een mindere outfit.

In organisaties zijn er echter vaak grote kosten mee gemoeid als er een slechte beslissing wordt gemaakt. In die context kunnen deze technieken van grote waarde zijn. Een machine ‘aankleden’ komt in feite neer op bepalen wanneer deze in of uit moet schakelen en wanneer er moet worden op- of afgeschaald. Dit is vrijwel dezelfde beslissing als het ‘wat zal ik aantrekken’-probleem, behalve dat de kosten die bij deze afweging komen kijken vele malen groter zijn in het bedrijfsleven.

2.    Boodschappen doen (pattern mining + mathematical programming)
Je ligt lekker op de bank als je ineens honger krijgt. Het lukt je om op te staan en je naar de koelkast te begeven om iets te eten te pakken. Helaas is de koelkast leeg en moet je naar de winkel om je favoriete voedsel te kopen. Maar wat koop je? Je hersenen beantwoorden deze vraag met een algoritme dat in de wereld van data science bekend staat als pattern mining. Stel dat je graag producten koopt als kaas, ham en jam. Het is zeer waarschijnlijk dat je dan ook brood koopt, aangezien jij – en vele anderen – weten dat deze producten goed samengaan. Mensen die brood kopen, kopen vaak ook melk, aangezien de meeste mensen in Nederland zo opgevoed zijn dat ze denken dat die producten goed bij elkaar passen. Iedereen heeft deze verbindingen tussen producten in hun hoofd: eieren met spek, pasta met tomatensaus, etc. Stel je voor dat we al die (verborgen) juweeltjes uit ieders hoofd tevoorschijn kunnen toveren...

Supermarkten zouden heel blij zijn met die informatie. Als ze ham bijvoorbeeld voor de helft afprijzen, kunnen ze niet alleen van hun overtollige voorraad af komen, maar verkopen ze ook meer brood en melk. Als ze de prijs daarvan enigszins verhogen kunnen ze dus meer verdienen. Door de kassabonnen van mensen te analyseren proberen ze erachter te komen welke boodschappen vaak samen gekocht worden. In onderstaande tabel staan de bonnetjes van 5 verschillende klanten.
 


Zoals je ziet kopen de mensen die ham, kaas of jam kopen altijd brood. En blijkbaar wordt melk altijd tegelijkertijd gekocht met ham. Daaruit kunnen we afleiden dat een grotere vraag naar ham, de vraag naar brood en melk waarschijnlijk doet toenemen. Dit soort verbanden vinden op een constructieve, datagedreven manier kan resulteren in waardevolle verborgen juweeltjes in zo ongeveer iedere branche. Door gebruik te maken van een slim algoritme dat alle mogelijkheden ziet kunnen dergelijke verbanden worden ontdekt.

Zodra je hebt bepaald welke producten goed samengaan en je je boodschappenlijstje hebt gemaakt ben je klaar om de supermarkt binnen te gaan. Nu komt de volgende vraag: welke route moet ik lopen om zo efficient mogelijk boodschappen te doen? Je hersenen bedenken een route die waarschijnlijk bijna optimaal is, maar niet het meest optimaal. Zeker niet als je veel verschillende producten koopt in een grote winkel. Dat is waar mathematical programming om de hoek komt kijken. Het algoritme dat bij dit vraagstuk past is zeer bekend bij wiskundigen en heet het ‘travelling salesman problem’ (TSP). De eerste situatie waarin dit probleem voorkwam was namelijk een deur-tot-deur verkoper die de kortste route wilde vinden langs een groot aantal huizen, zodat hij op tijd klaar zou zijn met werken.
De optimale oplossing voor dit TSP-probleem vraagt om enkele wiskundige formules (y=x1 +x2, etc). Eenmaal opgelost vertellen deze je de optimale volgorde om langs te producten te lopen. Hiermee kun je dus veel tijd besparen. Het enige dat je nodig hebt is informatie over prioriteit (ijs pak je bijvoorbeeld het laatst) en afstand tussen de verschillende producten. Uiteraard duurt het langer om deze oplossing te berekenen dan dat je gelijk begint met lopen en kiest voor de suboptimale route, maar als we kijken naar transportbedrijven of productielijnen kan dit algoritme duizenden of zelfs miljoenen euro’s opleveren.

3.    Een avond uit (speech recognition + statistical theory)
Eindelijk! Het is weekend! Je vraagt wat vrienden of ze met je naar de club willen vanavond. Natuurlijk willen ze dat, want ze vinden het fantastisch om uit te gaan met een feestbeest zoals jij. Je spreekt met hen af, drinkt wat biertjes en besluit je vervolgens te verplaatsen naar je favoriete club. Om vervolgens nog meer bier te drinken. Helaas is het daar zo rumoerig dat je slechts de helft kan verstaan van wat je vrienden zeggen. Ondanks dit ongemak heeft iedereen de tijd van zijn leven, dus jullie besluiten te blijven en het algoritme voor speech recognition te gebruiken tijdens de gesprekken met je vrienden.
Dit werkt, omdat je gedeeltes van zinnen hoort en deze automatisch aanvult. Als je hoort: ‘hey, … nog een… voor je halen?’ vul je de gaten in de zin aan en maak je de intelligente inschatting dat je zojuist werd gevraagd of je nog een biertje lust. Nu willen we dit trucje van je hersenen omzetten in echte data.

Spraak kan weergegeven worden als geluidsgolven van een bepaalde frequentie. Hoewel ieder persoon een unieke stem heeft, zijn de geluidsgolven vrijwel gelijkwaardig. Als we voldoende van deze fragmenten – en de woorden of zinnen waar ze voor staan – verzamelen, kunnen we voorspellen wat iemand zegt door na te gaan welk geluidspatroon het meest lijkt op het patroon dat iemand produceert. Zelfs als er woorden – en dus data – missen, is het algoritme nog steeds in staat de meest waarschijnlijke boodschap te vinden. Deze techniek kan worden gebruikt om robots of voice assistants te leren op menselijke bevelen te reageren. Dat zou natuurlijk ontzettend cool zijn voor de wereld en ook waardevol, mits goed gebruikt.

Nadat je wat gekletst hebt met je vrienden, zie je een prachtige man of vrouw. Je vraagt je af of dit de liefde van je leven kan zijn, aangezien het een god(in) is ten opzichte van alle andere mensen die je ooit hebt ontmoet. Gelukkig kan statistical theory ons vertellen welke strategie je moet hanteren waarmee je de grootste kans hebt om te eindigen met je perfecte partner.

Om dit probleem te analyseren doen we de volgende aannames. In een bepaalde tijdspanne kom je één voor één honderd mogelijke partners tegen. Je mag de huidige persoon die je tegenover je hebt kiezen of je wijst de persoon af en wacht op de volgende mogelijke partner die in je leven verschijnt. Let wel, als je eenmaal iemand kiest is het spel voorbij en kun je niemand anders meer kiezen. En als je iemand afwijst komt deze persoon niet meer terug, aangezien ze je niet leuk meer vinden nadat je ze hebt afgewezen. Helaas weet je niet wanneer je ‘die ene’ tegenkomt. De vraag is: wat moet de strategie voor afwijzing zijn om de grootste kans te hebben te eindigen met je perfecte match?

Het antwoord is als volgt. Je begint met een periode van marktonderzoek waarbij je alle potentiele partners afwijst tot aan een bepaald punt. Nu heb je een basis waarmee je toekomstige partners kunt vergelijken en moet je de eerste partner kiezen die beter is dan alle afgewezen kandidaten. Maar op welk punt moet je stoppen met het marktonderzoek en beginnen met het accepteren van een partner?
Na wat wiskundige berekeningen kunnen we concluderen dat dit optimale punt wordt bereikt op 1/e (een wiskundige constante, zoals pi). Dit komt neer op ongeveer 1 / 2.718, dus 37 procent van de observaties. Dus nadat je 36 potentiele partners hebt afgewezen, kies je degene die beter is dan alle voorgaande kandidaten en zo heb je de grootste kans op het winnen van de ultieme prijs. Mijn advies is om zelf te bepalen of je nog in de fase van marktonderzoek bent en je nog niet aan iemand wilt binden, of dat je daar al voorbij bent. In dat geval is de kans het grootst dat die god(in) in de club je perfecte partner is.  Echter, sommige dingen zijn niet op te lossen met data science, want liefde komt uit het hart, niet het hoofd!

Conclusies
Ik hoop dat je dit artikel net zo leuk vond om te lezen als ik het vond om het te schrijven. Daarnaast zou het leuk zijn als je hebt geleerd hoe data science-technieken kunnen worden gebruikt om alledaagse problemen op te lossen. De volgende keer dat je je kleren uitkiest, boodschappen gaat doen of een aantrekkelijk persoon ziet, denk je er misschien aan hoe data science je kan helpen bij het maken van de juiste beslissingen.

Ook wilde ik laten zien dat data scientists simpelweg gebruikmaken van de logica die ook gevonden wordt in het menselijke brein. Ze gebruiken deze hersenkracht, die we allemaal bezitten, om modellen te maken die een computer snel op kan lossen. Dit is vooral waardevol als de problemen zo groot worden dat het zeer complexe puzzels worden die mensen niet meer binnen een redelijke tijdspanne kunnen oplossen.

Ten slotte, nu we hebben vastgesteld dat iedereen een data scientist is, wil ik je aanmoedigen na te denken over andere voorbeelden waar een algoritme voor kan worden ontwikkeld. Data is immers overal dus ik weet zeker dat je wat interessante onderwerpen kunt bedenken!

Plaats op:
Datum: 24 oktober 2018
Bron: Itility
Gerelateerde artikelen  
31-10-2017 Achtergrondartikelen Wij zijn zelf onze grootste bedreiging!
30-11-2015 Achtergrondartikelen We zijn zuiniger op onze edele delen dan op onze data
21-09-2017 Achtergrondartikelen Nieuwe wet- en regelgeving hét moment om databerg aan te pakken
11-10-2017 Achtergrondartikelen Gat tussen ISO-certificering en bedrijfsvoering moet worden gedicht
14-11-2018 Achtergrondartikelen Is artificial intelligence er klaar voor om in de cybersecurity spotlight te …
 
 

- partners -

 
 
 
 
 
� 2007 - 2018 Vakwereld. All rights reserved Pagina geladen in 0,23 seconden.