Wie auf arXiv berichtet, zeigt eine Untersuchung der University of Washington und der Carnegie Mellon University, dass selbst bewusst zusammengestellte Open-Source-Datensätze mit festgelegten Filterkriterien weiterhin große Mengen personenbezogener Informationen enthalten können.
12,8 Milliarden Bild-Text-Paare
Der DataComp CommonPool, Nachfolger des LAION-5B-Datensatzes, umfasst 12,8 Milliarden Bild-Text-Paare und wurde bereits mehr als zwei Millionen Mal heruntergeladen. In einer Stichprobe von nur 0,1 Prozent des Gesamtvolumens stieß das Forschungsteam auf Tausende sensibler Dateien – darunter Scans von Pässen und Führerscheinen, Kreditkartendaten, Geburtsurkunden sowie medizinische Unterlagen von Minderjährigen.
Von Bewerbungsunterlagen bis Gesundheitsdaten
Die Forschenden entdeckten zudem über 800 vollständige Bewerbungsunterlagen mit Angaben zu Behinderungen oder ethnischer Herkunft. Hochgerechnet auf den gesamten Datensatz könnte die Zahl der betroffenen Dateien in die Hunderte Millionen gehen. Mitautor William Agnew fasst zusammen:
„Alles, was online gestellt wird, kann gesammelt werden – und wurde es wahrscheinlich bereits.“
Einmal im Modell, immer im Modell
Ein wesentliches Problem: Selbst wenn Plattformen wie Hugging Face, die den Datensatz hosten, sensible Dateien entfernen, bleiben diese in bereits trainierten KI-Modellen - dauerhaft - erhalten. Der Datenschutz wird damit in der Praxis ausgehebelt.
Wahlloses Sammeln von Informationen
Die Studie beschäftigt sich auch mit dem Problem, dass öffentlich zugängliche Daten ohne Einschränkung weiterverwendet werden. Viele der gefundenen Dateien wurden ursprünglich für einen klar begrenzten Zweck hochgeladen, etwa Bewerbungen oder private Fotos, gelangten aber ungefiltert in den Trainingspool. Kritiker sehen in dieser massenhaften und unkontrollierten Sammlung von Web-Daten einen grundlegenden Fehler der aktuellen KI-Entwicklung.
Datenschutzgesetze oft nicht ausreichend
Bestehende Datenschutzgesetze wie die DSGVO greifen oft nicht für kleinere Forschungsprojekte und Organisationen, die selbst Datensätze zusammenstellen und pflegen – so wie beim DataComp CommonPool, der aus vielen "kleineren" Quellen zusammengesetzt ist.
Fehlende Ressourcen kleiner Datensatz-Kuratoren
Gerade diese „kleineren Datensatz-Kuratoren“ verfügen häufig nicht über ausreichende Ressourcen, um sensible Informationen zuverlässig zu entfernen. Die Studie zeigt, dass solche Lücken im Datenschutz dazu führen, dass hochsensible Daten ungefiltert in großen öffentlichen Trainingssets landen. Nach Ansicht der Forschenden muss diese Schutzlücke dringend durch strengere Regelungen und bessere Kontrollen geschlossen werden.






















