Da teknologien brynet seg på personvernet i Lånekassen
Ny teknologi, ny juss. Da Lånekassen ville bruke maskinlæring til å effektivisere kontrollen av om studentene bor hjemme, testet de spennet mellom teknologi og personvern gjennom et internt forsøk.
Statens lånekasse er et statlig forvaltningsorgan som gir stipend og lån til utdanning og administrerer tilbakebetaling av studielån.
Et vilkår for at kunder skal få omgjort lån til utdanningsstipend er at de ikke bor sammen med foreldrene sine under studiene. Hvert år gjennomføres en manuell kontroll der et utvalg kunder blir bedt om å dokumentere hvor de bodde i undervisningsåret.
-Tidligere kontrollerte vi 54 000 kunder, der mellom 2-3 000 har gitt uriktige opplysninger, sier Liv Simonsen, jurist og fagdirektør kvalitet og kontroll i Lånekassen.
Lånekassen ønsket å undersøke om maskinlæring kunne effektivisere utvalget av kandidater for kontroll av bostatus, slik at de slipper å kontrollere en så stor gruppe.
Etablering av datagrunnlag
Lånekassen måtte aller først etablere hvilke data de hadde tilgjengelig og hva de kunne benytte dataen til.
-Det er viktig å ha orden i eget hus. Med andre ord må vi vite hvor dataen vi har kommer fra, hva den betyr og kan brukes til. Vi må også sikre ting som at tilsynelatende like data som er lagret på ulike tidspunkt betyr det samme, sier Liv Simonsen.
-Det var en lærerik prosess der vi måtte balansere juridiske og teknologiske hensyn. Den juridiske metoden passer jo ikke helt inn med den teknologiske metoden for utviklingen, forklarer Simonsen.
De måtte gjøre helt konkrete vurderinger av hver type data, for eksempel om opplysningene kunden ga da de søkte om utstyrsstipend på videregående skole kunne brukes på høyere utdanning (svaret var nei). De måtte også avklare forhold som om kunden kunne motsette seg bruk av maskinlæring.
-Det var viktig å tenke igjennom hvordan vi kan forklare bruken av maskinlæring for kundene slik at ikke dette ble en «svart boks» der vi i etterkant ikke kan vise hvorfor noen er plukket ut til kontroll, sier Simonsen.
Modellbygging og kontrollgruppe
Det var en stor fordel at Lånekassen hadde tilgjengelig fasit fra alle tidligere års kontroller, som kunne mates inn i modellen. De visste med andre ord hva resultatet skulle bli og kunne teste opp mot det. Da maskinlæringsmodellen var bygget og matet med datagrunnlaget som gir høyest forklaringskraft, måtte de beslutte hvor mange som skulle kontrolleres.
De trakk ut 15 000 mennesker ved hjelp av den nye metoden. Den sammenlignet de med en kontrollgruppe på 10000 som ble trukket ut tilfeldig, altså på gamlemåten.
Gevinstene
Resultatene fra kontrollen viste at maskinlæringsutplukket var dobbelt så effektivt som det tilfeldige utvalget til å finne studenter som har oppgitt uriktige opplysninger om bosted – uavhengig av årsak. Det ble avdekket like mange avvik som året før, men antallet som ble kontrollert var nesten halvert.
-Erfaringene allerede nå viser at maskinlæringsutplukket gir 75 prosent treff, med bruk av den dataen som er i tråd med regelverket. Det er veldig høyt, sier Simonsen, som tror de skal øke treffprosenten ytterligere når modellene begynner å lære av seg selv.
Gevinstene med denne typen innovasjon er mange.
-Selve bokontrollen i 2018 sørget for at 38,4 millioner kroner ikke ble feilaktig gjort om fra lån til stipend, mens bruken av maskinlæring i prosessen gjorde at vi kunne bruke midlene tildelt til kontrollen mer effektivt ved å redusere behovet for manuell saksbehandling, sier Simonsen.
For kundenes del måtte færre studenter bruke tid på å sende inn dokumentasjon, noe som reduserte antall henvendelser og ga mer fornøyde kunder.
Tre kjappe
Hva lærte dere av arbeidet som dere tar med videre?
At vi er nødt til å samarbeide på tvers av fagretninger. Informasjonsforvaltningsmiljøet må med for å få dette opp i storskala, og ha full oversikt over hva disse dataene er brukt til tidligere fordi vi ikke kan bruke dem til nye formål. Analysemiljøet må finne de hensiktsmessige modellene, og sørge for at individene kan få forståelig innsyn i det tekniske. Og teknisk personell må utvikle dette systematisk.
Hva ville dere gjort annerledes om dere fikk starte på nytt?
Det er viktig at alle de relevant fagmiljøene jobber i prosjektet sammen fra start, slik at man ikke må «spole tilbake» i prosjektet etter hvert som nye fagretninger blir involvert. Dersom vi skulle gjort prosjektet på nytt, hadde vi for eksempel koblet på juristene enda tidligere. Også for juristene er det digitale et nytt felt med store mulighetsrom. Juristene må forstå at de må bli digitale jurister, mer hands-on, og ikke komme inn mot slutten.
Hva kan andre lære av dette?
Mange offentlige etater har begynt å jobbe med dette nå, men mange har enda ikke tenkt skikkelig gjennom formålet med arbeidet. Formålet må være helt tydelig formulert fra starten. Det er nødvendig av hensyn til lovverket, og vil forenkle arbeidet mot å skape resultater betraktelig. Hadde vi i med denne bokontrollen sagt at formålet med maskinlæringen hadde vært å fatte vedtak, ville vi vært et helt annet sted enn nå. Fordi vi sa det var utplukket vi skulle se på, hadde vi hjemlene vi trengte.
Lånekassen
- Statlig forvaltningsorgan underlagt Kunnskapsdepartementet. Lånekassen gir stipend og lån til utdanning i Norge og utlandet, og administrerer tilbakebetaling av studielån.
- Ved utgangen av 2018 hadde Lånekassen 318 fast ansatte.
- Driftsutgiftene i 2018 var på 403,1 millioner kroner.
- Aktuell: Lånekassen har undersøkt, vurdert og prøvd ut hvordan kunstig intelligens kan bidra til at vi blir mer effektive. Arbeidet var basert på utforsking og læring, i tillegg til å få erfaring gjennom konkrete enkelttiltak og pilotering.