Notebookcheck Logo

KI-Datenleck DataComp CommonPool: Forscher warnen vor gigantischem Datenschutz-Skandal

KI-Datenleck DataComp CommonPool: Forscher warnen vor gigantischem Datenschutz-Skandal (Bildquelle: GPT-image-1)
KI-Datenleck DataComp CommonPool: Forscher warnen vor gigantischem Datenschutz-Skandal (Bildquelle: GPT-image-1)
Eine neue Studie warnt vor gravierenden Datenschutzrisiken in offenen KI-Datensätzen. Im DataComp CommonPool, einer der größten Sammlungen für das Training von Bildgeneratoren, fanden Forschende Millionen hochsensibler Dateien. Die Erkenntnisse verdeutlichen, wie unkontrolliertes Web-Scraping private Informationen in KI-Systeme einspeist – und wie schwer sich diese später wieder entfernen lassen.

Wie auf arXiv berichtet, zeigt eine Untersuchung der University of Washington und der Carnegie Mellon University, dass selbst bewusst zusammengestellte Open-Source-Datensätze mit festgelegten Filterkriterien weiterhin große Mengen personenbezogener Informationen enthalten können.

12,8 Milliarden Bild-Text-Paare

Der DataComp CommonPool, Nachfolger des LAION-5B-Datensatzes, umfasst 12,8 Milliarden Bild-Text-Paare und wurde bereits mehr als zwei Millionen Mal heruntergeladen. In einer Stichprobe von nur 0,1 Prozent des Gesamtvolumens stieß das Forschungsteam auf Tausende sensibler Dateien – darunter Scans von Pässen und Führerscheinen, Kreditkartendaten, Geburtsurkunden sowie medizinische Unterlagen von Minderjährigen.

Von Bewerbungsunterlagen bis Gesundheitsdaten

Die Forschenden entdeckten zudem über 800 vollständige Bewerbungsunterlagen mit Angaben zu Behinderungen oder ethnischer Herkunft. Hochgerechnet auf den gesamten Datensatz könnte die Zahl der betroffenen Dateien in die Hunderte Millionen gehen. Mitautor William Agnew fasst zusammen:

„Alles, was online gestellt wird, kann gesammelt werden – und wurde es wahrscheinlich bereits.“

Einmal im Modell, immer im Modell

Ein wesentliches Problem: Selbst wenn Plattformen wie Hugging Face, die den Datensatz hosten, sensible Dateien entfernen, bleiben diese in bereits trainierten KI-Modellen - dauerhaft - erhalten. Der Datenschutz wird damit in der Praxis ausgehebelt.

Wahlloses Sammeln von Informationen

Die Studie beschäftigt sich auch mit dem Problem, dass öffentlich zugängliche Daten ohne Einschränkung weiterverwendet werden. Viele der gefundenen Dateien wurden ursprünglich für einen klar begrenzten Zweck hochgeladen, etwa Bewerbungen oder private Fotos, gelangten aber ungefiltert in den Trainingspool. Kritiker sehen in dieser massenhaften und unkontrollierten Sammlung von Web-Daten einen grundlegenden Fehler der aktuellen KI-Entwicklung.

Datenschutzgesetze oft nicht ausreichend

Bestehende Datenschutzgesetze wie die DSGVO greifen oft nicht für kleinere Forschungsprojekte und Organisationen, die selbst Datensätze zusammenstellen und pflegen – so wie beim DataComp CommonPool, der aus vielen "kleineren" Quellen zusammengesetzt ist.

Fehlende Ressourcen kleiner Datensatz-Kuratoren

Gerade diese „kleineren Datensatz-Kuratoren“ verfügen häufig nicht über ausreichende Ressourcen, um sensible Informationen zuverlässig zu entfernen. Die Studie zeigt, dass solche Lücken im Datenschutz dazu führen, dass hochsensible Daten ungefiltert in großen öffentlichen Trainingssets landen. Nach Ansicht der Forschenden muss diese Schutzlücke dringend durch strengere Regelungen und bessere Kontrollen geschlossen werden.

Quelle(n)

static version load dynamic
Loading Comments
Diesen Artikel kommentieren / Antworten
Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!
Mail Logo
> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2025-08 > KI-Datenleck DataComp CommonPool: Forscher warnen vor gigantischem Datenschutz-Skandal
Autor: Ulrich Mathey, 12.08.2025 (Update: 25.08.2025)