KMD: Kunstig intelligens må ikke føre til uforklarlige afgørelser

DEBAT: Hvis kunstig intelligens skal fungere som kommunale sagsbehandlere, skal der stilles kritiske spørgsmål først. Men mulighederne i den kunstige intelligens er store, skriver Hans Jayatissa, der er teknologidirektør i KMD.

Af Hans Jayatissa
Teknologidirektør i KMD

Digitalisering og kunstig intelligens er emner, der er meget oppe tiden i den offentlige debat – ikke mindst i forhold til den offentlige sektor. KMD er som Danmarks største it-virksomhed en stor leverandør af netop digitale løsninger til en lang række offentlige instanser.

Derfor er det selvfølgelig en debat, vi i KMD følger ganske tæt. 

Kunstig intelligens har potentialet til at sikre hurtigere, mere ensartede og mere retfærdige afgørelser.

Det næste oplagte skridt i digitaliseringen af den offentlige sektor er derfor at inddrage kunstig intelligens til brug ved afgørelser af sager i den offentlige sektor. En udvikling, der formentlig kan lyde problematisk i nogens ører.

Derfor skal udviklingen selvfølgelig ske med krav og omtanke, for brugen af kunstig intelligens har også et potentiale til at diskriminere og umyndiggøre borgerne.

Men hvad er kunstig intelligens i sagsbehandlingen egentlig? Og hvilke strenge krav skal vi som samfund stille til implementeringen af kunstig intelligens i sagsbehandlingen?

Fortidens data forudsiger fremtiden
Jeg har valgt at fokusere på den gren af kunstig intelligens, der hedder assisteret maskinlæring.

Det er typisk den type teknologi, man vil anvende til sagsbehandling, og den indebærer, at en computer groft sagt bruger fortidens data til at forudsige fremtiden.

Det sker, ved at computeren processerer en lang række eksisterende eksempler på input og svar. Det kunne eksempelvis være, at computeren skal finde ud af, om et konkret billede er et billede af en kat.

På baggrund af et stort antal billeder, samt oplysningen om, hvorvidt de viser en kat eller ej, danner computeren en matematisk model, der så efterfølgende på nye billeder kan vurdere, hvorvidt hvert af disse nye billeder forestiller en kat eller ej.

I en offentlig kontekst kan man tænke, at man fodrer maskinen med tidligere sager og sagsafgørelser, og på baggrund af dem skaber en model til at foretage lignende afgørelser på nye sager i fremtiden.

Så langt, så godt. Men man skal stille to kritiske spørgsmål til assisteret maskinlæring:

Hvilke eksempler er den matematiske model blevet skabt på grundlag af? Og hvordan er computeren kommet frem til sit svar?

Og så kommer vi til det med krav og omtanke.

En uønsket sammenhæng
Med hensyn til det første spørgsmål: Enhver skævhed i de eksempler, modellen er skabt på grundlag af, vil blive reflekteret i modellen.

Hvis vi eksempelvis forsøger at træne en model til at forudsige, om en byggesag bliver godkendt, og vi kun skaber modellen ud fra data om sager for étplanshuse, så vil modellen være dårlig til at afgøre byggesager for toetagershuse eller udestuer og så videre.

Det vil altså være relevant at korrigere for en sådan skævhed ved at medtage alle relevante typer af byggesager. Dette problem kendes også som udvælgelsesbias.

Men modellen kan også fange skævheder, som er irrelevante. Hvis eksempelvis ansøgerens højde eller hårfarve tilføjes som parameter, ud over de almindelige informationer om byggesagen, så vil datasættet måske vise, at lyshårede over 180 cm oftere får en byggesag godkendt.

Det vil sige, at en tilfældig sammenhæng indføres i modellen. Computeren vil dermed være mere tilbøjelig til at give en positiv afgørelse til byggesager fra høje, lyshårede borgere.

Dette er en uønsket sammenhæng, der ikke bør indføres i modellen. Problemet omtales også som en ikke-kausal korrelation, altså at det ikke er højde og hårfarve, som er den ægte årsag til sammenhængen.

I de tilfælde, hvor denne type teknologi bruges til afgørelser eller råd til borgere, er det derfor væsentligt at skabe gennemsigtighed om følgende:

Hvilke eksempler er modellen blevet skabt på grundlag af? Hvis det eksempelvis kun er sager fra før 2017, så kan lovgivningen jo være ændret siden. 

Hvilke parametre fra eksemplerne er anvendt? Er der eksempelvis parametre, som er irrelevante for sagsmaterien?

Vi kender ikke mellemregningerne
Med hensyn til det andet spørgsmål, nemlig hvordan computeren er kommet frem til sit svar: De matematiske modeller bag assisteret maskinlæring kan groft sagt opdeles i to kategorier: Klassiske matematiske modeller og neurale netværk. 

Den førstnævnte gruppe udgøres af forholdsvis simple matematiske modeller, der ud fra et ikke voldsomt stort datasæt kan skabe en matematisk formel, som gør det muligt at afgøre, om et nyt datapunkt ligger tæt på eller langt fra tidligere sete datapunkter.

Det vil sige, om der er lille eller stor sandsynlighed for at en sag godkendes, når den sammenlignes med historiske sager.

Denne type modeller har den fordel, at man kan forklare, hvordan modellen er kommet frem til løsningen, enten fordi man kan forstå og forklare den matematiske formel, eller fordi man forholdsvis nemt kan visualisere modellen med eksempelvis et beslutningstræ.

Derimod er neurale netværk meget komplekse og flerdimensionelle matematiske formler med tusindvis af vægte og parametre. Neurale netværk skal bruge rigtig mange eksempeldata for at blive skabt – typisk mange millioner eksempler.

Til gengæld er de rigtig gode til at ramme plet, når de først er skabt.

Det er brugen af neurale netværk, der har gjort billedgenkendelse og maskinoversættelse markant bedre gennem de senere år. På grund af den høje kompleksitet kan man desværre ikke så nemt forklare, hvordan modellen er kommet frem til et svar.

Tilbage til eksemplet med katten: Vi kan med andre ord konstatere, at computeren rammer rigtigt og fortæller os, at billedet af en kat er et billede af en kat. Men vi kender ikke mellemregningerne.

Der foregår i øjeblikket en hel del forskning i at skabe forklarbare neurale netværk. 

Kombination af flere typer af modeller
Til sagsafgørelser i det offentlige er neurale netværk mindre anvendelige, da vi meget sjældent har millioner af eksempler at bygge modellerne på.

Det vil derfor ofte være en fordel at kombinere flere typer af modeller, både matematiske modeller og neurale netværk, for at nå frem til en præcis og forklarbar model.

Som borger skal man kræve, at afgørelser kun træffes på grundlag af forklarbare modeller.

Kort sagt er det centralt for både sagsbehandler og sagsparter, at der er fuld transparens i brugen af den kunstige intelligens, og at det for alle er muligt at få oplyst disse ting:

Hvilke sager er modellen blevet skabt på grundlag af? – eksempelvis alle typer byggesager i en konkret kommune over de seneste fem år.

Hvilke parametre indgår i modellen? – eksempelvis hustype, plantegning, areal, placering på grunden, adresse.

Hvad er modellens forklaring på afgørelsen? – eksempelvis afvisning på grund af, at afstand til naboskel kombineret med vindue i gavl har givet anledning til klager i 90 procent af tidligere sager.

På denne måde vil det være muligt for enhver at forholde sig kritisk til computerens afgørelse og kvalificeret kunne anke en afgørelse, som man er uenig i.

Ved at overholde disse tre krav om transparens vil det offentlige således kunne komme i gang med at høste gevinsterne ved brug af kunstig intelligens.

Forrige artikel Bosse til direktør: Regulering af politiske reklamer udelukker ikke transparens Bosse til direktør: Regulering af politiske reklamer udelukker ikke transparens Næste artikel Niels Frid-Nielsen: Bibliotekarer skal turde forlade skrivebordet Niels Frid-Nielsen: Bibliotekarer skal turde forlade skrivebordet
Smittesporingen kan blive et farligt redskab for despoter

Smittesporingen kan blive et farligt redskab for despoter

INTERVIEW: Når den danske app til at spore covid-19-smittede lanceres i juni, vil der være taget behørige hensyn til borgernes privatliv og personlige data, for vi er nervøse for, at en app, der indføres for at sikre vores sundhed, kan vise sig at være et redskab til overvågning. I andre dele af verden er den frygt yderst velbegrundet.