link to top

DSGVO-Compliance prüfen mit Cognotekt

 Jobst Landgrebe |   06.11.2019

Nicht erst seit Inkrafttreten der EU-Datenschutzgrundversorgung (DSGVO) spielt der Datenschutz eine wichtige Rolle für das Compliance-Management. Während DSGVO-Verstöße in strukturierten Daten noch relativ leicht zu finden sind, lauern in archivierten Freitexten schwer zu findende Verstöße. Mit Cognotekts Sprachtechnologie Wernicke® lassen sich solche “toxischen Papiere” finden und automatisiert entschärfen.

Das steht in Artikel 9 der DSGVO

Art. 9 der DSGVO besagt, dass die “Verarbeitung personenbezogener Daten, aus denen die rassische und ethnische Herkunft, politische Meinungen, religiöse oder weltanschauliche Überzeugungen oder die Gewerkschaftszugehörigkeit hervorgehen, sowie die Verarbeitung von genetischen Daten, biometrischen Daten zur eindeutigen Identifizierung einer natürlichen Person, Gesundheitsdaten oder Daten zum Sexualleben oder der sexuellen Orientierung einer natürlichen Person” untersagt ist.

Die DSGVO gilt auch für Informationen in Freitexten

Personenstammdaten, Bilder, Tonaufnahmen, Filme und Freitexte sind die Hauptbereiche, die von Art. 9 betroffen sind. Während Kontaktdaten gut mit Ergänzungsmodulen zu SAP (SAP-ILM), CRM- und Emailsoftware auf DSGVO-Konformität überprüft werden können, gibt es kaum leistungsfähige Lösungen für Freitexte (z. B. Gesprächsnotizen, Email etc.).

DSGVO-Problem elektronische Archive

Das Problem: Personenbezogene Informationen in Texten sind genauso zu behandeln wie solche, die in Datenbanken gespeichert sind. Wer diese Daten ohne Erlaubnis oder zu lange speichert und auf Verlangen keine Auskunft geben kann, ist von hohen Strafzahlungen bedroht. Es kann sich daher lohnen, elektronische Archive auf DSGVO-Verstöße zu durchsuchen.

Grenzen schlagwortbasierter Enterprise-Search Systeme

Bei größeren Textmengen ist die manuelle Prüfung auf DSGVO-Compliance keine Option. Verschiedene Hersteller bieten schlagwortbasierte (“Enterprise-Search”) Softwaresysteme oder solche mit KI-Komponente an. Aufgrund ihres eingeschränkten Textverständnisses liefern diese Systeme aber viele

  • falsch-positive “Pseudo”-Treffer und
  • falsch-negative “Freigaben”

zurück. Oftmals sind bis zu 75% der Treffer falsch-positiv und das Ergebnis daher für eine automatisierte Bearbeitung unbrauchbar, denn würde man alle diese Text-Passagen löschen, gingen zahlreiche wertvolle Informationen über Kunden verloren. Andererseits ist bei großen Textmengen eine manuelle Durchforstung der Treffer ökonomisch nicht realisierbar.

Grund für die schlechte Ausbeute ist das mangelhafte Textverständnis schlagwortbasierter Systeme. Eine vermeintlich “intelligente” Software, die nach Schlagworten sucht, kann einen Satz wie “der Kunde hat einen Kater und keine Katze” nicht eindeutig klassifizieren: Hat der Sachbearbeiter notiert, welche Haustiere der Kunde hält oder war eine Verständigung unmöglich, weil der Kunde an den Folgen seines Alkoholkonsums litt? (Letztere Information zu speichern, wäre ein DSGVO-Verstoß) Ohne Verständnis des Satzkontext (Katze, nicht Kater) ist eine Entschlüsselung unmöglich.

Insgesamt führt eine Durchsuchung von Texten mit Schlagworten oder dNN und anschliessende manuelle Musterung der Treffer zu keiner zuverlässigen Aussage über das Ausmaß der DSGVO-Compliance.

“Cognitive Search” nach DSGVO-Verstößen mit Cognotekt

Mit Wernicke® hat Cognotekt eine KI-Technologie entwickelt, die große Textmengen unter Berücksichtigung des Satzkontext automatisch auf DSGVO-Compliance untersuchen kann. Eine solche “cognitive search” liefert Ergebnisse zurück, die über 80 % True Positives (Sensitivität) und über 99% True Negatives (Spezifität) aufweisen können.

DSGVO-Compliance mit mathematischer Sicherheit

Die hohe Spezifität macht es möglich, vollautomatisch und fehlerfrei nicht-konforme Inhalte durch konforme Sprache (d. h. i. d. R. abstraktere Formulierungen) zu ersetzen. Dies ist auch selektiv, nach Compliance-Gebieten oder sogar phrasenbezogen möglich.

Gleichzeitig liefert der Algorithmus eine sehr genaue Schätzung (bis zu 99 % Genauigkeit) zurück, wie hoch der Anteil von Texten (oder Sätzen) mit Verstößen an allen Texten (oder Sätzen) ist. Dies geschieht durch Auszählung einer hinreichend großen Stichprobe. Diese Häufigkeitsschätzung wird zur Ermittlung der Sensitivität des Verfahrens genutzt.

Im Ergebnis lässt sich mit mathematischer Sicherheit feststellen, wie häufig DSGVO-Verstöße in einem Datenbestand vorkommen und wie viele davon maschinell aufgefunden werden.

Senden Sie uns gerne eine Nachricht über unser Kontaktformular, wenn Sie weitere Informationen wünschen oder den Einsatz unserer Software für Ihr Unternehmen prüfen wollen.


Alle Artikel