Schülerdatenbanken? Aber bitte mit Hash!

schuelerdatenbank-paper-v01-rc3_seite_1Anstatt neue Fristen einzuführen, sollen nun, etwa in Berlin, Bundeslands-weite Schülerdatenbanken helfen unlautere Doppelanmeldungen von Schülern an weiteren Schulen rechtzeitig ausfindig zu machen. Das ist auch realisierbar, ohne die realen Namen zusammen führen zu müssen, wie es derzeit in den Gesetzen bzw -entwurf vorgesehen ist.

Drum habe ich ein Papier geschrieben, das erklärt, wie das funktioniert – Es trägt den provokanten, gar paradox-anmutenden Titel: Skizze einer Datenschutz-gerechten Schülerdatenbank (PDF).

Ich bitte um Kritik und Anregungen. Bitte gebt das Dokument ruhig weiter, es steht unter CC BY Matthias Mehldau <wetterfrosch@einmachglas.info>

Kurzer Hintergrund im aktuellem Kontext: Hash-Werte funktionieren ähnlich wie Prüfsummen und bilden kryptographisch einen eindeutigen Wert, um ursprüngliche Eingaben (wie etwa Passwörter) zu sichern. Dieses Verfahren ist auch sehr hilfreich, wenn man – entsprechend der bundesdeutschen Grundsätze der Datensparsamkeit – eine zentrale Datenbank zum Abgleich doppelter Einträge aus verschiedenen Listen schaffen.
So geschehen – man glaube es kaum – im Rahmen der Korruptionsbelämpfung bei der Telekom. Die Deutsche Bahn hat diesen Schritt leider verschlampt und nun sind viele Bundesländer dabei es ihnen gleich zu tun.

About these ads

3 Responses to “Schülerdatenbanken? Aber bitte mit Hash!”


  1. 1 Patrick 19. Februar 2009 um 1:54

    Hallo Matthias,

    meinst du nicht, dass man kurz darauf eingehen müsste, dass so ein Hash prinzipbedingt nicht ein-eindeutig sein kann? Natürlich ist es extrem unwahrscheinlich (zumal SHA-256 da ja AFAIK keine bekannten Schwachstellen zum Angriff hat), dennoch ist es nicht unmöglich, dass eine solche Kollision auftritt, und wie dann damit umgegangen werden müsste. Außerdem gibt es natürlich auch bei Namens-, Geburtsdatums- und Jahrgangsstufen-Gleichheit ganz natürlich solche Kollisionen, die nicht automatisch eine doppelte Anmeldung bedeuteten.

    Btw: die Vorstellung, die hinter der Planung der bayerischen Schüler-DB steckt, geht davon aus, _natürlich_ personenbezogene Daten haben zu wollen. Man will ja tatsächlich alles wissen…

    Schöne Grüße

  2. 2 Martin 19. Februar 2009 um 18:06

    Der Vorschlag ist nicht tauglich, um Mehrfachanmeldungen zu erkennen. Das Problem mit Hash-Werten ist, dass sich damit keine Ähnlichkeiten zwischen Daten erkennen lassen. Wenn im Ursprungstext nur ein Buchstabe verändert wird, ist der Hash-Wert weitgehend anders.

    Beispiel: Ein Schüler meldet sich bei drei Schulen an. In den Schulsekretariaten werden dabei die folgenden drei Adressen notiert: “Martin-Luther Str.”, “Martin Luther Straße” und “Martin – Lutter – Strasse” (und die richtige Schreibweise der Straße ist da noch nicht einmal dabei). Wenn die Daten jetzt im Klartext miteinander verglichen werden, kann Software die Ähnlichkeit der drei Adressen zuverlässig erkennen. Wird aber erst ein Hash-Wert erstellt, ist der in den drei Fällen so unterschiedlich, dass beim Vergleich der Hash-Werte nicht erkennt werden kann, dass die Ausgangswerte ähnlich sind.

    Ok, man könnte natürlich eine zentrale Vorgabe machen, ob das Wort “Straße” abgekürzt wird oder nicht und darüber hinaus auch den Menschen, die in den Schulsekretariaten arbeiten, Nachhilfe in der Rechtschreibung von Straßennamen geben (richtig wäre: “Martin-Luther-Straße” mit zwei Bindestrichen und ohne Leerzeichen). Es ist aber unrealistisch, dass sich da genügend Schulsekretariate dran halten und mit der hinreichenden Sorgfalt arbeiten. Der Vorschlag ist also gut, aber die Welt noch nicht bereit.

  3. 3 MF 11. März 2009 um 15:32

    noch ein punkt: “verschluesselung” mit hash ist nicht sicher gegen wörterbuchangriffe, und die sind bei deutlich weniger als 1 mio schülern, deren namen dann auch noch in genug anderen z.t. öffentlichen datenbanken zu finden sind, schnell implementiert und durchgeführt (nimm die liste aller schüler, berechne zu jedem den hash, und schon kannst du einen gegebenen hash aus der schülerdatenbank auflösen). auf diesen punkt muss man deutlich hinweisen und möglichst einen begriff wie “verschleierung” verwenden, der sich von “verschlüsselung” abhebt. verschleierung ist möglicherweise besser als klartext, aber man muss sauber argumentieren warum (erschwert “versehentliches” benutzen der daten, etc.).


Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ photo

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s




Guten Tag!

Hier ist das Blog vom Wetterfrosch am Entstehen. Gerade fängt er an in Hamburg Flosse zu fassen und rekunstruiert hier seine jüngste Vergangenheit. Viel Spaß!

Wettermeldungen

Februar 2009
M D M D F S S
« Nov   Mär »
 1
2345678
9101112131415
16171819202122
232425262728  

Folgen

Erhalte jeden neuen Beitrag in deinen Posteingang.

%d Bloggern gefällt das: