Computer says no: Kunstmatige intelligentie

John Val/ Informatica/ Informatie/ Kunstmatige Intelligentie /computer says no


FOTO KOEN HAUSER

Of het nu gaat over vacatures, toekenning van kredieten of het opsporen van criminelen: slimme software kan het beter dan de mens. Of toch niet? Aangeleerde vooroordelen en een gebrek aan transparantie geven nog al te vaak problemen.

LAURENS VERHAGEN
Bron

Stelt u zich een immigrant voor die bij de Hongaarse grens staat en probeert binnen te komen. Hij had er rekening mee gehouden dat hij pittig zou worden ondervraagd. Maar niet dat dit zou gebeuren door een computer die op de kleinste gezichtsuitdrukking let. Trillend mondhoekje? Dat zou weleens kunnen duiden op een leugen. Dan zegt de computer 'nee' en wordt de man naar een hokje gedirigeerd voor extra ondervraging. Een denkbeeldig scenario? Niet echt. Een gloednieuw intelligent controlesysteem moet illegale immigranten kunnen vissen uit de stroom van 700 miljoen mensen die jaarlijks de buitengrenzen van de EU passeren. Ander recent voorbeeld, dichter bij huis: de Nederlandse politie wil met kunstmatige intelligentie (AI) verdachten oppakken vóórdat ze een misdaad plegen. De sciencefiction van Minority Report, waar exact hetzelfde gebeurt, komt zo binnen handbereik. Gegevens zijn er genoeg: beelden van camerasystemen, databases van gestolen auto's, locaties waar vaak overvallen worden gepleegd of informatie over telefoons die criminelen vaak gebruiken. Door al dit soort gegevens te combineren en daar slimme algoritmen op los te laten, hoopt de politie verdacht gedrag er uit te pikken.

Misschien wordt uw volgende sollicitatiebrief wel gelezen door een computer die uw brief razendsnel scant op trefwoorden, taalgebruik en zinslengte. Er komt geen mens aan te pas. De volgende stap is dat het eerste gesprek ook door een computer wordt gehouden, via een chatsessie. Uitzendbureau Randstad noemt dit een van de grote trends in recruitment. Of neem het aanvragen van een krediet. Het Nederlandse bedrijf Advicerobo maakt slimme software die banken kunnen gebruiken om te beoordelen of het verstandig is iemand een krediet te verlenen. Advicerobo kijkt niet alleen naar de betaalgeschiedenis van klanten, maar maakt vooral gebruik van 'niet-financiële data' over het gedrag van potentiële kredietnemers, zoals startende ondernemers. Dat zijn vragenlijsten, maar ook gegevens die afkomstig zijn van de socialemedia-accounts van klanten of van hun zoekgeschiedenis. Hiervoor moeten ze uiteraard wel toestemming geven. In combinatie met andere gegevens stelt de kunstmatige intelligentie van Advicerobo een persoonlijkheidsprofiel op, en op basis daarvan een risicoprofiel. 'We proberen zo inzicht te krijgen in wie iemand is', zegt directeur Diederick van Thiel. 'Kan iemand geld opzijzetten of is hij geneigd om bij het eerste succes gelijk een dure auto te kopen? Heeft iemand te veel zelfvertrouwen of juist te weinig?' Op basis van door de computer opgestelde risicoprofielen rolt er zo een advies uit. In Nederland maakt de Volksbank (onder andere SNS en Regiobank) gebruik van Advicerobo, maar alleen voor de robotanalyse van de vragenlijsten.

Of het nu gaat over vacatures, kredieten, het vangen van potentiële criminelen of mogelijk illegale grenspassanten: steeds vaker worden belangrijke beslissingen overgelaten aan slimme computers. Dat is niet raar, want die computers zijn dankzij kunstmatige intelligentie bijzonder goed in staat om op basis van een gigantische hoeveelheid gegevens beslissingen te nemen. En dat niet alleen: computers zouden een eind maken aan willekeur. Aan politiemannen met vooroordelen, of aan een douaneambtenaar die nodig moet lunchen en chagrijnig is.

'De modellen die we maken zijn prachtig en elegant. Maar ze kunnen uiteindelijk maar één ding: onverwachte patronen ontdekken in grote hoeveelheden gegevens die ogenschijnlijk geen verband met elkaar houden', zegt Evert Haasdijk, AI-expert bij de zakelijke dienstverlener Deloitte. 'Die systemen zijn zich niet bewust van de context. Laat staan van de impact die een uitspraak kan hebben. Het zijn gewoon rekenregels, meer niet. Een computersysteem maakt geen principieel onderscheid tussen het diagnosticeren van kanker of het tellen van koffiebonen.'

Precies dit vermogen om patronen te ontdekken komt bij veel zaken van pas die tot voor kort het domein van mensen waren. De computer schat de kans dat u een aanslag wil plegen in op 0,3 procent op basis van uw uiterlijke kenmerken, locatie en zoekgeschiedenis op internet. Of dat u de ideale kandidaat voor die nieuwe baan bent op 61 procent. Dat klinkt heel objectief, maar veel hangt af van de data waarmee je een slim systeem voedt. Als er iets mis is met die gegevens, gaat het ook mis met het uiteindelijke advies waarmee de objectief geachte computer komt.

Misschien wel het duidelijkste, en daarom vaak aangehaalde voorbeeld van hoe het fout kan gaan met kunstmatige intelligentie, is de Twitterrobot van Microsoft. 'Hellooooooo World!' is in maart 2016 het eerste, onschuldige bericht van TayTweets. Achter dit Twitteraccount zit een machine. Met het experiment wil Microsoft kunstmatige intelligentie en geautomatiseerd tekstbegrip testen aan de hand van dagelijkse conversaties. Tay leert van zijn omgeving, zo is het idee, en bouwt aan de hand hiervan een persoonlijkheid op. En leren doet hij. Nog dezelfde dag is de robot getransformeerd tot een briesende, in hoofdletters tikkende complotdenker. 'Bush zat achter 9/11 en Hitler zou het veel beter hebben gedaan dan de aap die we nu hebben. De enige hoop komt van Donald Trump.' In andere tweets zegt Tay dat 'Mexicanen en zwarten kwaadaardige rassen zijn', of dat de Holocaust een verzinsel is. Microsoft ziet zich al snel genoodzaakt Tay offline te halen, al pleiten mensen er direct daarna voor om de tweets voor de eeuwigheid te bewaren, als 'geheugensteuntje voor de gevaren van kunstmatige intelligentie'.

Uiteraard is Tay niet geprogrammeerd om zich als schuimbekkende nazi te gedragen. Nee, Tay is onbedoeld een treffende illustratie van twee bekende (internet)wetten: Godwin en Sturgeon. De wet van Godwin luidt: 'Naarmate onlinediscussies langer worden, nadert de waarschijnlijkheid van een vergelijking met de nazi's of Hitler tot 1.' Als we daar de wet van sciencefictionauteur Theodore Sturgeon aan toevoegen ('90 procent van alles is troep'), dan kom je een aardig eind in de richting van Tay. Met andere woorden: TayTweets is gewoon een spiegel van wat zich in de maatschappij afspeelt, in dit geval Twitter. En kunstmatige intelligentie gedraagt zich wat dat betreft behoorlijk voorspelbaar: als je er rommel instopt, komt er ook rommel uit.

Inmiddels wordt er beter nagedacht over voor AI cruciale gegevens. Maar ook al doen specialisten hun best de systemen te trainen met zo zuiver mogelijke data, nog steeds kan het akelig misgaan. Onder specialisten staat dit hardnekkige probleem bekend onder de term 'bias'. In goed Nederlands: vooringenomenheid. AI-systemen leren door ze te trainen met gegevens. Die gegevens kunnen, onbedoeld, vooroordelen bevatten. Het gevolg is dat die doorsijpelen in de uitkomsten en adviezen van een door AI aangedreven systeem.

Dat hoeft niet erg te zijn: als het Spotify-algoritme met Bløf komt aanzetten terwijl je daar helemaal niet van houdt, is dat hooguit irritant. Maar bij andere beslissingen staat er meer op het spel. Neem de slimme rekruteringsmachine van Amazon. Met behulp van AI wilde het bedrijf, zoals zoveel andere grote werkgevers, de beste sollicitanten uit de grote hoop pikken. Dat zag er allemaal hoopvol uit, totdat de specialisten van Amazon beseften dat er een groot probleem was. De machine legde vrouwen onder op de stapel. De verklaring daarvoor was, achteraf, eenvoudig. De machine was getraind met cv's uit het verleden. En omdat het om ict-banen ging, waren dat merendeels mannen. Het gevolg: het systeem ontwikkelde een duidelijke voorkeur voor mannen en de ongelijkheid die er al was, werd verder versterkt.

Een nog pijnlijker voorbeeld komt ook uit de Verenigde Staten. In verschillende staten wordt gebruikgemaakt van een systeem genaamd Predpol. Dit moet voorspellen waar een misdaad gaat plaatsvinden. Predpol leidde de politie naar plaatsen waar vaak drugs werden gevonden. De gegevens die het systeem daarvoor gebruikte, waren de verslagen van politieagenten die uit zichzelf meer in buurten met minderheden zochten dan in andere buurten. Logischerwijs vond de politie alleen drugs op plaatsen waar werd gezocht. Predpol versterkte dus het politiegedrag dat al bestond, inclusief de raciale vooroordelen. Ook Compas, een ander in de VS gebruikt systeem om te voorspellen of gevangenen weer in de fout zullen gaan, bleek bevoordeeld te zijn. Het voorspelde volgens onderzoekscollectief Propublica ten onrechte dat zwarte gevangen bijna twee keer zoveel kans maken om in herhaalgedrag te vervallen dan witte.

Peter Werkhoven, wetenschappelijk directeur van TNO, kent al dit soort voorbeelden. 'Iedere keer zie je weer dat ze worden veroorzaakt doordat trainingsdata incompleet of incorrect zijn of simpelweg de vooroordelen van mensen weerspiegelen. De AI-systemen zelf hebben geen ingebakken vooroordelen; het zijn de mensen die het ze leren. Trainingsdata zijn voor een groot deel een sociale spiegel van onze samenleving.' Werkhoven noemt nog een voorbeeld van hoe het verkeerd kan gaan: een studie waaruit zou blijken dat een systeem criminelen kan herkennen op basis van een foto van het gezicht. Probleem: de trainingsdata bestonden uit politiefoto's van criminelen en LinkedIn-foto's van niet-criminelen. Vervolgens ging het systeem aan de haal met kenmerken die helemaal niets zeggen over criminaliteit. Glimlach en das? Geen crimineel. Dat leerde de computer immers van de gelikte LinkedIn-kiekjes.

De oplossing ligt volgens Werkhoven in een complete, actuele en objectieve dataset om de systemen te trainen. Maar dat is nog niet zo eenvoudig, omdat vooroordelen vaak onbewust zijn. Werkhoven: 'Het is een hardnekkig probleem, omdat vooroordelen eigen zijn aan mensen en daarmee aan de gegevens die we produceren.' Werkhoven vindt dat de discussie over hoe we AI verantwoordelijk kunnen laten functioneren moet worden opgelost, 'om te voorkomen dat we de kracht ervan onbenut laten en we het kind met het badwater weggooien'. Hij verwijst naar een Voetnoot van Arnon Grunberg waarin hij schreef dat het nog niet zo'n gek idee is om menselijke leiders te vervangen door AI. Erger dan de mens kon het toch niet worden. Maar daarmee ben je er niet, zegt Werkhoven. 'Het begint met heel goed nadenken over je trainingsdata: zijn die schoon, zijn ze compleet, zijn ze waardenvrij? Dat is de kern. En we moeten onze ethische uitgangspunten expliciet en afweegbaar maken voor de systemen.'

Dat het probleem hardnekkig is, beseft ook de Europese politiek. Computerwetenschapper Francesca Rossi, bij IBM verantwoordelijk voor de ethische kant van AI en lid van de expertgroep die de Europese Commissie adviseert over kunstmatige intelligentie, noemt bias 'een van de grote problemen' bij AI. 'Als de trainingsdata niet goed zijn, komt het systeem met verkeerde aanbevelingen. Dat wil je zo veel mogelijk vermijden.' Willen Europese burgers kunstmatige intelligentie gaan vertrouwen, dan moeten we eerst het probleem met bias oplossen, zegt Rossi. En dat niet alleen: systemen moeten ook transparant en uitlegbaar zijn. Makers van AI-software mogen zich wat haar betreft niet verschuilen achter geheimhouding van hun algoritmen. Met 'oplossen' bedoelt Rossi overigens niet dat bias helemaal is uit te bannen: 'Het gaat erom wat we acceptabel vinden. Vergelijk het met nieuwe medicijnen. Die zijn ook niet perfect. Ze kunnen voor een bepaalde groep niet goed werken. Maar we zeggen dan niet dat die medicijnen niet ethisch zijn. We kunnen bias nooit compleet vermijden. Het perfecte AI-systeem bestaat niet.'

Ook AI-expert Haasdijk erkent dat bias nooit helemaal te voorkomen is. 'De vraag is hoe erg dat is. Natuurlijk is het van groot belang om heel goed na te denken over de trainingsgegevens. Maar dan nog kan het misgaan. Laat het gewoon gebeuren en probeer het daarna te herstellen. Als de uitkomst erg afwijkt van wat je verwacht, moet er een alarm afgaan.' Zoals bij een geval als Amazon: als er onder de duizend sollicitanten driehonderd vrouwen zijn, verwacht je dat 30 procent van de aangenomen kandidaten vrouw is. 'Als het minder is, moet je nagaan wat er is gebeurd. De fouten worden er uiteraard niet bewust ingestopt. Maar algoritmen gaan met dingen aan de haal, pikken er dingen uit die je zelf niet ziet.'

Terwijl alle experts hard aan het leren zijn (in de woorden van Werkhoven: 'We zitten in de kinderjaren van AI'), krijgt de burger al vaker te maken met geautomatiseerde beslissingen op basis van gekoppelde databestanden. Tijmen Wisman, als docent verbonden aan de faculteit rechtsgeleerdheid van de Vrije Universiteit in Amsterdam en actief in het Platform Bescherming Burgerrechten, maakt zich daar zorgen over. Hij noemt als voorbeeld het overheidssysteem SyRI (Systeem Risico-Indicatie). Dit is onder meer ontworpen om gemeenten en overheidsinstanties effectiever te laten zoeken naar mensen die uitkeringen of toeslagen misbruiken of belasting ontduiken. Verdachten moeten eerder worden gesignaleerd door diverse databestanden te koppelen en door te spitten.

Veel is onduidelijk over dit systeem, zegt Wisman. Zijn platform deed een beroep op de Wet openbaarheid van bestuur (WOB), waaruit naar voren kwam dat SyRI sinds 2014 is gebruikt in Capelle aan den IJssel en Eindhoven. Later werd duidelijk dat ook in sociaal-economisch zwakke buurten van Rotterdam en Haarlem onderzoek is gedaan met SyRI. Alleen van Capelle zijn inmiddels wat resultaten bekend, via een Duitse journalist van Algorithmwatch, een organisatie die algoritmische processen in kaart wil brengen. Het ministerie van Sociale Zaken en Werkgelegenheid liet in juni aan deze site weten dat bij maar liefst 62 van de 113 onderzochte risicomeldingen in Capelle aan den IJssel geen fraude of andere overtreding is vastgesteld. Wisman: 'Dat zijn nogal wat vals-positieven (een testuitslag die ten onrechte als afwijkend van de norm wordt gezien, red.). Het lastige is: we weten niet precies welke vooroordelen worden gebruikt, omdat de overheid er alles aan doet om de luiken dicht te houden als het gaat om de werking van SyRI. En dat is problematisch, want de rechtsstaat veronderstelt dat je niet zomaar grote groepen er uitpikt en benadeelt. Dat is precies wat SyRI doet: je bent bij voorbaat verdacht als je toevallig in de verkeerde groep zit.' Bijvoorbeeld omdat je in de verkeerde wijk woont.

Het versterkt ongelijkheid, stelt Wisman. 'Er worden modellen gecreëerd op basis van de beschikbare data. Van wat afwijkt van de norm. En daarna worden weer nieuwe modellen gemaakt. Maar het is zeer de vraag wat dit echt zegt. Het probleem is: sommige Nederlanders komen nu eenmaal meer voor in databestanden dan andere. Dat zijn over het algemeen net de mensen die economisch al minder sterk staan. Arbeidsongeschikten bijvoorbeeld. En als dit wordt gekoppeld aan de buurt waar je woont of aan je leeftijd, kun je ineens zomaar onderzocht worden.'

Een voorbeeld daarvan is de Hagenaar die met succes een zaak aanspande tegen het college van burgemeester en wethouders van zijn gemeente. Hij deed dat omdat zijn bijstand was ingetrokken na onderzoek op basis van het risicoprofiel waarin hij viel: alleenstaande mannen van boven de 55. De rechter gaf hem gelijk: de bevindingen vloeiden voort uit verboden discriminatie.

Het is cruciaal om te weten hoe AI tot een oordeel komt, anders kun je zo'n oordeel niet controleren of verantwoorden, zegt Werkhoven. 'We weten nu vaak niet hoe een AI-systeem tot een bepaald besluit is gekomen. Een ander gevaar: dat de redenering achter een advies van een systeem op termijn wel correct is, maar zo complex dat een mens moeite zal hebben haar te begrijpen. Dan wordt vertrouwen op basis van een bewezen trackrecord belangrijk. Als patiënt begrijp je de uitleg van een medisch specialist ook niet altijd, maar vertrouw je op zijn ervaring en staat van dienst.' Ook Van Thiel van Advicerobo hamert op de uitlegbaarheid: 'We moeten kunnen uitleggen hoe we tot een beslissing zijn gekomen.'

Dat gebeurt nog lang niet altijd. Net als Werkhoven denkt ook AI-expert Haasdijk dat er nog veel te winnen is. 'Het hoeft allemaal echt niet geheimzinnig te zijn. Laat gewoon zien welk deel van een foto verantwoordelijk is voor een bepaalde classificatie.' In het geval van 'herken de crimineel' is dat het ontbreken van een stropdas of bijvoorbeeld de doorlopende wenkbrauwen. Haasdijk: 'Burgers hebben het recht om te weten waarom een beslissing zo is uitgevallen. Dat gebeurt nog veel te weinig. En als het al gebeurt, is het vaak te vaag. Je krijgt dan iets als 'we kijken naar een combinatie van datapunten'. Dat klinkt concreet, maar eigenlijk is het gewoon een variant op 'computer says no'.' Een methode is: breng variaties aan. Maak iemand bijvoorbeeld vijf jaar jonger en kijk wat het effect is op een beslissing. Bijvoorbeeld: als u vijf jaar jonger was geweest, had u 30 procent meer kans gehad op een baan. 'Op die manier kun je mensen meer uitleg geven', zegt Haasdijk. De computer kan nog steeds 'nee' zeggen, maar dan weten we in ieder geval waarom.

LITTLE BRITAIN De uitdrukking 'computer says no' is vooral bekend van de sketches uit de comedyserie Little Britain, waarin organisaties hun handelen tot in het absurde baseren op informatie van computers. Het gezonde verstand is daarbij steevast de verliezer.

TECHNISCHE OPLOSSINGEN Zelf nadenken is natuurlijk altijd goed, maar er komen ook steeds meer programma's die het probleem van slechte trainingsdata moeten oplossen. Onder andere IBM en Google kwamen onlangs met software die onbedoelde vooroordelen er uit belooft te pikken.