Algorithm Audit ontwikkelt tools om vooroordelen in algoritmische systemen vast te stellen.
31 mei 2024
Hoe ontwikkel je algoritmes die niet onbedoeld groepen mensen ongelijk behandelen? Dat onderzoekt Algorithm Audit sinds 2021. “Er is nog te weinig praktijkkennis over hoe je algoritmes zorgvuldig kunt inzetten”, zegt oprichter Jurriaan Parie. Algorithm Audit brengt daar verandering in, onder meer met hun recente onderzoek naar een algoritme-gedreven controleproces van DUO naar de uitwonendenbeurs. “Studenten met een niet-Europese migratieachtergrond werden ruim zes keer vaker geselecteerd voor een controle dan studenten met Nederlandse herkomst.”
Sinds 2021 onderzoekt Algorithm Audit hoe AI verantwoord kan worden ingezet als onderdeel van besluitvormingsprocessen. De stichting werd opgericht door filosoof Ariën Voogt en wiskundige en datawetenschapper Jurriaan Parie. Met financiële ondersteuning van onder meer SIDN fonds ontwikkelt Algorithm Audit open-source tools om vooroordelen in algoritmische systemen te detecteren. Daarnaast onderzoekt de stichting met de hulp van experts en direct betrokkenen in hoeverre algoritmes in concrete gevallen ethisch verantwoord tot stand komen en eerlijk uitpakken.
Wat was de aanleiding voor de oprichting van Algorithm Audit?
Jurriaan Parie, directeur-bestuurder van Algorithm Audit
“In 2021 trok de Rotterdamse Rekenkamer aan de bel vanwege een algoritme dat de gemeente Rotterdam gebruikte om uitkeringsgerechtigden te selecteren voor een intensief heronderzoek. Uit zestig variabelen koos het algoritme er twintig die statistisch het meest samenhingen met onrechtmatig gebruik van de bijstandsuitkering. Daaronder bevonden zich beschermde kenmerken zoals geslacht, waarop je volgens de Algemene wet gelijke behandeling (Awgb) helemaal geen onderscheid mag maken. Er zaten ook bijzondere persoonsgegevens tussen, zoals of iemand ADHD had of een psycholoog bezocht. En dan was er nog een variabele zoals laaggeletterdheid. Die leverde volgens de Rotterdamse Rekenkamer een indirect risico op discriminatie op. Omdat mensen met een migratieachtergrond namelijk vaker laaggeletterd zijn, pikt het algoritme ze er vaker uit voor heronderzoek. Als statisticus vroeg ik me onmiddellijk af of er tussen die twintig nog meer variabelen zaten waarvoor de Rotterdamse Rekenkamer had moeten waarschuwen. Dat was de directe aanleiding om de stichting Algorithm Audit op te richten.”
“Omdat mensen met een migratieachtergrond namelijk vaker laaggeletterd zijn, pikt het algoritme ze er vaker uit voor heronderzoek.”
Jurriaan Parie
Hoe helpen jullie bepalen of algoritmes in de haak zijn?
“In het geval van de gemeente Rotterdam hebben we een commissie samengesteld, bestaande uit juridische, technisch en ethisch experts. Zij hebben met een expertblik opnieuw naar het algoritme gekeken en daarnaast direct betrokkenen gehoord. Zij ontdekten nog een tweede variabele die een risico opleverde op indirecte discriminatie: postcode of wijk. Net als geletterdheid kan dat kenmerk samenhangen met migratieachtergrond. Maar ze identificeerden ook andere redenen om variabelen uit te sluiten. Niet elke beslissing is te kwantificeren. Zo zijn subjectieve scores bijvoorbeeld ongeschikt voor algoritmegebruik. Denk aan de mate van assertiviteit en iemands professionele voorkomen, twee criteria die in het Rotterdamse risicoprofiel werden gebruikt. De score voor deze kenmerken was bepaald door een ambtenaar. Daarnaast zijn er criteria die je niet kunt gebruiken omdat ze niet relevant zijn voor het doel van het onderzoek, zoals het aantal kinderen dat iemand heeft. Uiteindelijk bleven er slechts vijf criteria over die de commissie wel toelaatbaar vond, zoals of iemand kwam opdagen bij afspraken met een gemeenteambtenaar, opnieuw moest worden herinnerd aan het aanleveren van informatie en had deelgenomen aan trajecten om werk te vinden.”
Jullie vinden het belangrijk conclusies uit onderzoek te delen?
“Er is nog te weinig praktijkkennis over hoe je algoritmes zorgvuldig kunt inzetten. Daarom is case-onderzoek belangrijk, net als het delen van de resultaten daaruit. Zo hoeft niet iedereen steeds het wiel opnieuw uit te vinden, en worden dezelfde fouten hopelijk niet steeds opnieuw gemaakt. Die werkwijze hebben we ‘algoprudentie’ gedoopt. Deze nieuwe term verwijst naar jurisprudentie voor algoritmes: concrete op casus gebaseerde en gedecentraliseerde oordeelsvorming over de verantwoorde inzet van algoritmes. De term is eerder dit jaar door Algorithm Audit geïntroduceerd in het Nederlands Juristenblad.”
Waarom gaat het mis met algoritmes?
“Bij de uitvoering van overheidstaken is het gebruik van algoritmes de afgelopen tien jaar in een stroomversnelling geraakt. Dat geldt overigens ook voor bedrijven. Op dat algoritmegebruik wordt maar beperkt controle uitgeoefend. Er is veel vertrouwen in het credo: meten is weten. Ook de gemeente Rotterdam dacht: ‘We hebben heel veel data beschikbaar. Als we die nu gewoon met statistiek gaan doorzoeken op zoek naar verborgen patronen? Dan gaan we superefficiënt te werk.’ De gemeente dacht zelfs dat ze op die manier voldeden aan het privacybeginsel van dataminimalisatie, een interessante denkfout. Ze gingen bovendien in tegen een ander principe van de AVG: dat je persoonsgegevens alleen mag gebruiken voor het doel waarvoor je ze verzamelt. En zelfs als de persoonsgegevens rechtmatig worden verwerkt, blijft het gevaar van indirecte discriminatie bestaan. Vooral op dit laatste aspect is beperkt toezicht.”
Hoe kunnen we algoritmes controleren?
“Als je wilt meten of een algoritme mogelijk vooringenomen is, stuit je op een probleem: om privacyredenen zitten er in datasets, als het goed is, geen kenmerken die worden beschermd door de Algemene wet gelijke behandeling (Awgb). Denk aan etniciteit of geslacht. Daarom ontwikkelden we in 2022 de bias-detectietool. ‘Bias’ is Engels voor ‘vooroordeel’. We verfijnen die tool momenteel verder in samenwerking met een internationaal onderzoeksteam. Deze open-sourcesoftware rekent zelfstandig uit of bepaalde groepen structureel bevoordeeld of benadeeld worden door het algoritme en heeft daarvoor geen toegang nodig tot de beschermde grond. Vaak komt gemeten vooringenomenheid niet door één variabele, maar door een combinatie van variabelen. Dat maakt het zo lastig voor mensen om daarachter te komen. Per situatie moet vervolgens door experts bekeken worden hoe erg het is dat een algoritme een bepaald onderscheid maakt. Soms is het duidelijk dat dat echt niet kan, bijvoorbeeld als het gaat om beschermde kenmerken of variabelen die sterk samenhangen met beschermde kenmerken. Maar soms is het ook niet problematisch om een kleine foutmarge te accepteren.”
Soms is het niet erg als een algoritme vooringenomen is?
“Dat was bijvoorbeeld onze conclusie toen we in 2023 onze bias-detectietool testten op een algoritme dat disinformatie op X – wat toen nog Twitter heette - moest herkennen: welke tweets waren doelbewust geplaatst om het publiek verkeerd te informeren? Het bleek dat het algoritme tweets met heel specifieke kenmerken, bijvoorbeeld afkomstig van auteurs met een geverifieerd profiel en met bovengemiddeld veel URL’s, vaker valselijk beschuldigde. Het omgekeerde gebeurde ook: sommige typen tweets werden vaker voor waar aangezien, terwijl ze bedoeld waren om te desinformeren. Bij nadere analyse bleken de algoritmische keuzes echter geen groepen met beschermde kenmerken te discrimineren, niet direct en ook niet indirect.” Statistisch gezien bestaat er altijd bias. De hamvraag is wanneer deze bias onwenselijk is.”
De context is belangrijk?
“Het hangt erg van de context af of ongelijke behandeling een probleem is. In sommige contexten, zoals het detecteren van desinformatie op X lijkt een hoger-dimensionaal verband met een beschermde grond niet te bestaan. Maar in het voorbeeld van de gemeente Rotterdam moet je erg terughoudend zijn. Denk vooral niet: ‘we gaan met geavanceerdere statistiek alle data die we kunnen vinden op één hoop gooien en doorzoeken, in de hoop het gouden ei te vinden.’ Je kunt daar beter kiezen voor een eenvoudig algoritme, waarvoor je zelf de variabelen kiest. Die selectie is al moeilijk genoeg.”
En je moet ook altijd letten op de samenstelling van je dataset?
“Representativiteit is heel belangrijk. Zo had de gemeente Rotterdam hun algoritme getraind met een dataset waarin heel weinig jongeren voorkwamen, waarvoor vaak onrechtmatig gebruik was vastgesteld. Daardoor overschatte het algoritme het risico dat jongeren misbruik maken van bijstandsuitkeringen. Als je de representativiteit van een dataset wilt controleren, stuit je als buitenstaander alleen op een probleem: het gaat vaak om privacygevoelige informatie. Daarom ontwikkelen we samen met een ander internationaal onderzoeksteam een synthetische datageneratietool om trainingsdata te anonimiseren. De kunstmatige dataset die vervolgens ontstaat, bevat geen persoonsgegevens. Toch heeft die set een populatieverdeling die een exacte afspiegeling is van de oorspronkelijke dataset. Zo kan iedereen onderzoeken of het algoritme mogelijk vooringenomen is geraakt door de dataset waarmee het is getraind.”
Maar algoritmes zijn niet altijd de boosdoener?
“Algoritmes worden vaak afgeschilderd als de boosdoener, terwijl ze meestal slechts een deel uitmaken van het besluitvormingsproces. Ook de werkinstructies die werknemers ontvangen, hebben invloed op besluiten. Soms is die invloed groter dan de keuzes die algoritmes geautomatiseerd maken. Dat geldt bijvoorbeeld voor het algoritme waarmee DUO in 2023 in opspraak kwam en waarover we op 1 maart met DUO een rapport naar de Tweede Kamer hebben gestuurd. Dat algoritme was bedoeld om studenten te identificeren waarvan vermoed werd dat ze vaker ten onrechte een uitwonendenbeurs hadden aangevraagd. Volgens onderzoek door Investico zouden daar onevenredig vaak mensen met een migratieachtergrond uitrollen. In een vervolgonderzoek in opdracht van het ministerie van Onderwijs, Cultuur en Wetenschap concludeerde advieskantoor PwC dat dat inderdaad het geval was. Geselecteerde studenten woonden namelijk relatief vaak in postcodegebieden waar ook veel migranten woonden. Alleen kun je zo’n conclusie niet zomaar trekken: de bewoners van studentenflats hebben vermoedelijk een andere achtergrond dan de mensen in de rest van hun wijk. Je hebt dus fijnmaziger data nodig. Die hebben we in januari aangevraagd bij het CBS en inmiddels ontvangen en geanalyseerd. Daaruit bleek alsnog dat studenten met een niet-Europese migratieachtergrond – die ofwel zelf buiten Europa zijn geboren ofwel hun ouders – door het algoritme twee keer zo vaak werden geclassificeerd als hoog risico door het risicoprofiel dan studenten met Nederlandse herkomst.”
Dus het controleproces van DUO discrimineerde wel degelijk?
“Ja, en dat komt door verschillende stappen in het proces. Allereerst omdat het risicoprofiel onderscheid maakte op onderwijsvorm en woonafstand tot de ouders. Dat zijn in dit geval proxykenmerken: ogenschijnlijk neutrale gegevens die sterk samenhangen met migratieachtergrond. Ten tweede omdat studenten met een migratieachtergrond vaker handmatig werden geselecteerd voor controle. Studenten met een niet-Europese migratieachtergrond werd ruim zes keer vaker geselecteerd voor een controle dan studenten met Nederlandse herkomst. Dat was overigens lang niet altijd de beslissing van de medewerker zelf. Zij volgden werkinstructies op. Door die werkinstructies werd de vooringenomenheid die door het risicoprofiel ontstaan was nog eens extra versterkt. Door deze voorselectie ontstond een vergrootglaseffect waardoor onrechtmatig gebruik van de uitwonendenbeurs ook vaker bij studenten met een niet-Europese migratieachtergrond werd vastgesteld. Met behulp van CBS-data hebben we deze gelaagde vorm van vooringenomenheid kunnen traceren. De bias-detectietool – waarvoor geen toegang nodig is tot CBS-data – bevestigt de resultaten op hoofdlijnen. De tool is daarmee een veelbelovend instrument gebleken. We gaan deze dit jaar uitgebreid testen en verder finetunen. Via de online web app en offline software van Algorithm Audit kunnen ook publieke en private organisaties er zonder toegang tot data over beschermde gronden onwenselijke vooringenomenheid in algoritmes mee detecteren en aanpakken.”
Digitale gemeenschapsgoederen
Burgers en publieke organisaties zijn vaak afhankelijk van private platformen voor publieke activiteiten, waardoor publieke waarden in het gedrang komen. Digitale gemeenschapsgoederen - ‘common goods’ - kunnen een alternatief bieden. SIDN fonds stimuleert daarom met het ministerie van Binnenlandse Zaken de ontwikkeling daarvan. “De keuzes die algoritmes maken moeten duidelijk zijn, zodat iedereen ze kan controleren”, zegt programmamanager Mieke Van Heesewijk van SIDN fonds. “Dat is nodig om ongelijke behandeling te voorkomen, maar ook om vertrouwen in algoritmische systemen te vergroten. Dat laatste kan alleen wanneer relevante stakeholders bij dit controleproces betrokken zijn.”
Over Jurriaan Parie
Jurriaan Parie studeerde wiskunde aan de Universiteit Utrecht, data science aan The London School of Economics and Political Science (LSE) en deed aan de ETH Zürich onderzoek naar het gebruik van statistiek om besluitvormingsprocessen te ondersteunen. Hij werkte twee jaar als datawetenschapper in de bedrijfswereld – eerst bij IBM en daarna bij Deloitte. In 2021 richtte hij tijdens een pioniersproject van SIDN fonds samen met filosoof Ariën Voogt de stichting Algorithm Audit op.