Sprogmodel skal forhindre GDPR-brud

Sprogmodel skal forhindre GDPR-brud

Det kan være en udfordring for den enkelte ansatte at udpege personfølsomme oplysninger i dokumenter og korrespondancer. KMD har derfor udviklet en sprogmodel, der kan klare arbejdet, og træfsikkerheden forventes at gøre værktøjet særdeles nyttigt i blandt andet aktindsigter

En række af Danmarks førende eksperter inden for sprogprocessering har udviklet et værktøj, som kan hjælpe i processen med at blive GDPR-compliant. Det drejer sig om identifikation af sensitive, personhenførbare oplysninger i sager, der er lagret i sagsbehandlingssystemet KMD Workzone. Sagsbehandlingssystemet bruges i dag af omkring 70% af Danmarks centralforvaltning og behandler således store mængder data om borgere.

GDPR stiller krav til, at personfølsomme data skal behandles med særlige fortrolighedshensyn, så privatlivet bliver beskyttet. Når en offentlig myndighed f.eks. udleverer akter i en aktindsigt, skal personhenførbare oplysninger som udgangspunkt overstreges, så de ikke kan læses. Dette arbejde plejer at kræve en manuel gennemgang af hver enkelt sagsakt, men med KMD's nye sprogværktøj, KMDtxt, vil systemet selv kunne identificere og anonymisere de sensitive data. Værktøjet er baseret på NLP - helt specifikt danske intelligente sprogmodeller, som er trænet i dansksproget data.

"Både virksomheder og myndigheder er klar over, hvor vigtigt det er at beskytte borgernes sensitive data, men det er et afsindigt omfattende arbejde at klare manuelt. Den enkelte sagsbehandler har jo kun et sæt øjne, og sammenlignet med vores nyudviklede AI-modeller er den menneskelige hjerne desværre ret begrænset over for gigantiske mængder data og information. Vi vil gerne hjælpe med at lette arbejdet og automatisere processer som denne inde i sagsbehandlingssystemet, og derfor har vi udviklet det nye værktøj," fortæller Lead Data Scientist Malte Højmark-Bertelsen fra KMD.

KMDtxt del af KMD Innovation Program

KMD har allerede implementeret sprogmodeller i forskellige løsninger, og tiden er nu inde til at kombinere sprogmodellerne i et samlet værktøj. Derfor har it-koncernen afsat midler via et innovationslegat til at udvikle den fælles tekstprocesseringsservice KMDtxt, hvor værktøjerne bl.a. bliver udstillet igennem et API. Den samme sprogmodel kan nemlig genbruges i mange forskellige sammenhænge. Ambitionen er at tilbyde 'AI as a Service'.

KMDtxt eksisterer i øjeblikket i en betaversion, som kan identificere CPR-numre, telefonnumre, e-mail, lovparagraffer og personer, som en tekst drejer sig om. Værktøjet kan også identificere sager, som ligner hinanden, analysere danske teksters sentiment (teksters positive, negative eller neutrale ladning) og mere til. På sigt skal værktøjet rumme flere funktioner såsom oversættelse, besvarelse af spørgsmål, redigering af tekster og mulighed for at træne sine egne sprogmodeller.

Baseret på NLP

Natural language processing, NLP, gør det muligt for computere at læse tekst, genkende tale og fortolke sprog på et niveau, hvor det til tider er umuligt at adskille computeres sprogforståelse fra menneskers. De nye kvantespring inden for området betyder, at sprogmodellerne nu kan trække oplysninger ud af ellers "dødt" data fra f.eks. brødtekstfelter i databaser eller meget avanceret klassifikation af skreven tekst.

For at løse den type NLP-opgaver er der behov for at træne sprogmodellerne. Dette gøres ved at udsætte algoritmen for en masse skreven tekst, så den derigennem får en abstrakt repræsentation af sproget. Det er bl.a. træningen af disse sprogmodeller og evnen til at anvende dem i den rigtige sammenhæng, som har gjort KMD's Data Scientists førende på området.

- lb