Data zijn ook giftig
Alles is giftig, als de dosis maar groot genoeg is. Paracelsus maakte ons in de 16e eeuw er al op attent dat er een verband is tussen de dosis en vergiftigingsverschijnselen. Uiteraard had hij het toen over de werking van giftige stoffen op biologische systemen, maar voor data geldt iets soortgelijks. Data in grote hoeveelheden zijn ook giftig.
De verhouding tussen signalen en ruis
Data bestaan uit signalen en ruis. Signalen kun je zien als de informatie waar we daadwerkelijk op kunnen sturen. Ruis is veel gedoe eromheen wat afleidt van onze eigenlijke taak. In alles wat we meten zitten én signalen én ruis. De kunst is natuurlijk om het aandeel signalen hoog te houden en het aandeel ruis laag. Intussen worden we van alle kanten ingefluisterd dat we meer moeten meten, en nog meer, en nog meer en dat je een idioot bent wanneer je nu niet als een dolle informatie gaat verzamelen om dat vervolgens door gespecialiseerde bedrijven te analyseren. Wanneer je meer data gaat binnenhalen, verandert de verhouding tussen signalen en ruis. Als je extreem veel gegevens verzamelt, hoor je uiteindelijk alleen nog maar ruis. Stel je hebt bitcoins gekocht. Natuurlijk ben je dan nieuwsgierig hoe de koers zich ontwikkeld en of je al megarijk geworden bent in de afgelopen drie maanden. Je kunt de koers één keer per maand bekijken, elke dag en als je wilt ook elk half uur. Er zijn lezers die ervaring hebben met die halfuurlijkse check, net nadat ze de bitcoins hadden gekocht. De verslavingsdrang werd onderdeel van hun vingers, waardoor ze onbewust telkens die app op hun telefoon opende. Het mag duidelijk zijn dat je daar diep ongelukkig van wordt. Teveel informatie leidt tot stress, omdat mensen ruis verwarren met informatie. Naast die verslavingsdrang (want dat is het), blijkt ook dat mensen emotioneel op data reageren. Zul je net zien: hebben we eindelijk ‘objectieve’ data, reageren we er alsnog emotioneel op. Uiteindelijk bereiken we het punt dat we zoveel data hebben, dat we niet meer goed weten wat er gaande is en onszelf uiteindelijk zieker maken. Grote hoeveelheden data zijn giftig.
Spurious correlations
Maar hoe zit het dan met artificial intelligence? Daar zijn toch grote hoeveelheden data voor nodig? Zeker waar. De data worden gebruikt bijvoorbeeld de computer te leren om schades herkennen. Of voor het maken van profielen voor gepersonaliseerde advertenties. We kunnen zelfs verbanden ontdekken, die we eerder niet hadden gezien. Helaas ontdekken we ook relaties die helemaal geen verband met elkaar houden (spurious correlations). Dat is heel vermakelijk, maar het kost ook tijd, geld en energie. Of erger nog: we hebben niet door dat het een oneigenlijk verband betreft en gaan er acties op ondernemen. In ons vakgebied zetten we data in voor predictive maintenance. Dat is natuurlijk geweldig. We (nou ja, de computers) kennen de assets door en door en kunnen net op tijd bij tweaken, of onderhoud plegen om te zorgen dat alles goed blijft functioneren. Dat klinkt toch als de natte droom van een assetmanager. Of is het tijd om met de voetjes op de grond komen?
Te strakke controle leidt tot instabiliteit
James Clerk Maxwell is iets minder oud dan Paracelsus, maar vanuit ons oogpunt nog steeds een oude knar. In de 19e eeuw toonde hij al aan dat als je een systeem tot in de puntjes toe optimaliseert, het uiteindelijk zal bezwijken. Te strakke controle leidt tot instabiliteit. Het systeem heeft geen enkele vermogen meer om kleine onvoorziene afwijkingen op te vangen. Als er dan iets mis gaat, neemt de afwijking het hele systeem mee in zijn val. Een typisch geval van een systeem zonder vet op de botten. Draaien we dat om, dan kunnen we een systeem robuust maken door de onderlinge afhankelijkheden te verkleinen en te zorgen voor meer vet in de vorm van grotere marges of redundantie. De vraag die hierbij hoort is: hoe ver moeten we dan gaan met het inzetten van data voor voorspellend onderhoud? Niet te ver. Een beetje informatie is voldoende.
Tirannie van de getallen
Ander voorbeeld. Van de PSV-voetballers wordt heel veel informatie verzameld en bijgehouden. Dit leidt tot uitgebreide statistieken op basis waarvan ze hun trainingen samenstellen. In een interview zei trainer Schmidt (die net een half jaar met de mannen aan het werk is) het volgende: “Wat mij een beetje verrast heeft in het begin, is hoe jonge spelers soms bezig zijn met hun eigen statistieken. Soms kijken ze op het veld nog naar voortzettingen om zelf een goal te kunnen maken, terwijl het erom gaat dat het team een goal maakt.” Dit is een goed voorbeeld van de tirannie van getallen. We zijn zo gericht op de statistieken dat we de omgeving niet meer zien. Dit zien we ook in assetmanagement gebeuren, in de vorm van KPI’s. De term KPI begint zo ingeburgerd te raken, dat de betekenis aan het veranderen is. In het begin was nog een KPI een indicator van de hoofdcategorie. Het gaf aan als er iets misging, of dat je op koers lag, zonder precies te weten hoe of wat. Tegenwoordig is het gewoon een andere term voor prestatie-eis. En juist in die prestatie-eisen zit de tirannie. Als je een individuele eis hebt opgelegd gekregen (jouw omzet is zoveel ton per jaar), dan probeer je die te bereiken ten koste van anderen. Voor assets geldt hetzelfde: individuele prestatie-eisen kunnen gehaald worden, terwijl het systeem slechter gaat functioneren. Operatie geslaagd, patiënt overleden. De oplossing is natuurlijk om eisen voor het systeem te introduceren. Maar systemen zijn niet voor niets systemen: er zitten allerlei afhankelijkheden in waardoor het moeilijk wordt om precies op het eindresultaat te sturen. Je kunt wel op sturen op doelen. Of, je stuurt op het verbeteren van de onderliggende processen. In het eerste geval heb je systeemdoelen en in het tweede geval procesdoelen. Een voorbeeld van een procesdoel is het telkens verbeteren van een prestatie. Je monitort dan op de mate van verbetering, maar niet op het resultaat. Maar onthoud: meet met mate. Data kunnen in grote hoeveelheden giftig zijn, terwijl ze ons in kleine hoeveelheden juist sterker maken.