NTT DATA Business Solutions
Thomas Nørmark | april 28, 2020 | 5 min.

Kontrafaktisk fairness. En af flere metoder til etisk Machine Learning

 

Hvordan laver man egentlig etisk machine learning (ML) i praksis? Her kan du stifte bekendtskab med nogle af metoderne.

Machine Learning

Hvordan laver man egentlig etisk machine learning (ML) i praksis? Her kan du stifte bekendtskab med nogle af metoderne.

Da vi for nylig fortalte offentligheden om vores samarbejde med Børns Vilkår om at udvikle en løsning inden for kunstig intelligens fik nyheden stor opmærksomhed. Ideen er at bruge machine learning til at forbedre chatten på Børnetelefonen, som får 220.000 henvendelser om året. Der er et potentiale, så de 500 frivillige rådgivere på linjen leverer en endnu mere effektfuld hjælp til børnene.

Rygmarvsreaktion og mangel på viden

På de sociale medier fik vi dog straks en kritisk reaktion. Nogen var instinktivt forarget over selve ideen. Reaktionen vil jeg tillade mig at kalde en rygmarvsreaktion. Den virkede baseret på frygt for teknologien med rod i den globale rolle, som ikke mindst kunstig intelligens har spillet på den globale scene i de sidste år. Projektet blev automatisk skudt i skoene at være uetisk brug af personfølsomme data, at være profiling af svage børn og at rumme alskens andre ulyksaligheder.

Børns Vilkår forklarede sobert, hvad intentionen er. Og her hos NTT DATA Business Solutions brugte jeg en del krudt på at forklare, hvordan vi egentlig arbejder med data og software. I den proces oplevede jeg, at mange mangler teknisk og metodisk viden. Og derfor besluttede jeg mig for at fortælle lidt om nogle af metoderne bag en forsvarlig brug af data og ML.

Lærer ML af vores fejl?

Helt generelt handler ML om, at man oplærer software på en krop af data. Styrken er at software kan knuse mange flere data end et menneskes hjerne kan overskue. Den kan finde mønstre og sammenhænge, som er skjult for os. Men en af farerne ved at bruge fortiden til at komme med handlingsanvisninger om fremtiden er, at disse træningsdata i sig selv rummer en skævhed skabt af fordomme, fejlslutninger og menneskelig forudfattethed. På det globale plan arbejdes der bevidst på at afkoble dette ”bias” i forhold til køn, race, religion, seksuel orientering med mere. Der er en trend i gang mod ”ethical machine learning”.  Se for eksempel et EU-bidrag her.

Lad os nu antage at vi tager et kvartals henvendelser til Børnetelefonen og lader software kategorisere, samle og vurdere. Løsningen skal, når den er færdig, levere guidance til rådgiverne under deres dialog med børnene. Alle dens resultater er altså kun en hjælp til mennesker. Men hvad nu hvis data rummer en skævvridning? Bliver piger og drenge behandlet ens? Får Ibrahim og Magnus det samme råd?

Fjern visse data

For at overkomme dette arbejder vi metodisk med at analysere og fjerne bias. Her skal jeg blot beskrive to af flere metoder. Den første og allermest simple er at definere de data, som rummer mulighed for skævvridning, og så fjerne dem. I forhold til Børnetelefonen kunne det jo være etnicitet og køn. Det vil sige at vi eliminerer muligheden for diskrimination på de givne datapunkter. Men problemet ved den metode er, at vi måske går glip af et læringspotentiale og samtidig vil en bias stadig kunne være indirekte afspejlet i de øvrige data. Derfor går vi ofte uden om denne metode.

Kontrafaktisk fairness

Vi kan også lade disse data blive i ”kroppen”, og så i stedet analysere vores data ud fra om pigen og drengen får den samme behandling, og om Ibrahim og Magnus får lige god rådgivning. Metoden kalder jeg kontrafaktisk fairness. Hvis du vil lære lidt mere om den, så skal du søge efter counterfactual fairness. Se for eksempel dette oplæg.

Her handler det om matematisk/statistisk metode nede i ML-værktøjskassen. Du kan også dykke dybere ved at læse dette paper.

Metoden har som sin ide, at vi definerer fairness, sådan her: To ens henvendelser skal behandles ens uanset køn og etnicitet (eller andre definerede variable, som vi har en hypotese om kan drive skævvridning). Vi tester på forhånd på vores krop af data for at se om der – alt andet lige – er en bestemt skævvridning til stede.  Hvis den er til stede, kan vi eliminere den, fordi vi nu har identificeret den. Før vi går i drift laver vi en testmekanisme, som kører mange forskellige eksempler igennem, og vi sikrer, at resultatet er det fair output, vi ønsker.

Det er hverken målet – eller muligt – at slippe helt af med bias, for dem, der i sidste ende tager beslutningerne, er mennesker, og man kan diskutere om der overhovedet findes bias fra AI.
Det, vi fokuserer på, er, at vi ikke vil have uacceptabel bias i modellerne. Så det er alle de uacceptable eksempler, vi tester for.

Black box eller ekspertviden?

Ideen med ML – og kunstig intelligens i det hele taget – er, at softwaren kan finde mønstre og årsagssammenhænge, som mennesker ikke kan. Der er altså et element af black box. Vi kan ikke helt forstå, hvordan den gør det, og hvordan den finder frem til denne viden. Men vi skal ikke gøre en dyd ud af denne nødvendighed, og vi skal kombinere algoritmerne med ekspertviden.

I forhold til Børnetelefonen er det jo ikke en ML-ekspert som mig, der skal definere hvad kvalitet er i en rådgivning på Børnetelefonen. Hvem der skal behandles ens i hvilke typer af henvendelser må bero på børnefaglig ekspertviden. Med andre ord vil udviklingen af en algoritme under alle omstændigheder sætte en proces i gang i en organisation.

Hos Børns Vilkår kommer det sikkert til at handle om kvaliteten og effekten leveret af 500 frivillige rådgivere. I en bank vil det måske handle om kreditscoringen af kunderne eller i detailkæden om den automatiserede logistikbeslutning. Faktum er, at vi skal udvikle de etisk forsvarlige algoritmer i et samspil med domæneeksperterne i det givne felt.

Med den rette indstilling kan vi opnå nogle meget store fordele. Algoritmer er hverken gode eller onde i sig selv. De er, hvad vi gør dem til. Det er bare om at komme i gang!