Anonymiseringsprojekt stärker rättssäkerheten i samhället
Norstedts Juridiks anonymiseringsprojekt syftar till att skydda den personliga integriteten genom pseudonymisering av personuppgifter i företagets informationstjänst JUNO med hjälp av AI-teknik.
Så pseudonymiseras dokumenten i JUNO
Pseudonymiseringen av de personliga uppgifterna i dokumenten som finns i JUNO möjliggörs genom AI-teknik och en deeplearning-modell. Modellen är tränad på verkliga rättsfall och skräddarsydd för bästa prestanda på just rättsfallsdokument.
1. När ett dokument laddas upp i vårt system används en maskininlärningsmodell som kallas för Optisk Teckenigenkänning, eller Optical Character Recognition (OCR). Denna känner igen och extraherar text som finns i det inskannade dokumentet. Därefter bedömer modellen sin egen noggrannhet på en skala från 0-100.
2. En annan modell som arbetar med entitetsigenkänning, så kallad Entity Recognition Model, söker efter personlig information så som namn och adresser. Denna bedömer också sin egen noggrannhet på en skala från 0-100.
Om någon av maskininlärningsmodellerna inte är säkra på informationen flaggar de dokumentet för manuell granskning.
3. En tredje modell (som körs parallellt med algoritmen för entitetsigenkänning) undersöker vilken roll personen eller personerna har i dokumentet genom att titta på sammanhanget kring hur de respektive namnen nämns.
4. Datan från de olika modellerna sätts ihop för att skapa en slutlig version av dokumentet.
5. För att kontrollera att personlig information inte läcks, används en metod som kallas för "recall metric". Den mäter hur bra datorn är på att hitta alla förekomster av en persons namn för att på så vis undvika att personlig information läcker ut.
I processen görs bedömningen att modellerna hellre maskerar något som inte är personlig information, en så kallad "false positive", än att missa någon personlig information. Vi prioriterar alltså personlig integritet samtidigt som vi ser till att det bearbetade dokumentet är lätt att läsa.