KI wird menschlich – und das ist ein Problem. Laut einer Studie auf Neuroscience News überschätzen KI-Chatbots ihre Leistungen in Aufgaben wie Trivia, Bilderkennung und Vorhersagen deutlich, selbst nach schlechten Ergebnissen – während Menschen ihre Einschätzung anpassen können.
Geringe Lernfähigkeit der KI
Die aktuelle Studie auf Neuroscience News macht deutlich: KI-Modelle erhöhen nach schlechten Leistungen ihre Selbsteinschätzung, anstatt sie zu korrigieren – ein Verhalten, das bei menschlichen Probanden nicht beobachtet wurde.
Besonders deutlich zeigt sich das bei Gemini von Google: In einem Bilderkennungstest erzielte das Modell im Schnitt weniger als 1 von 20 richtigen Treffern, schätzte seine Leistung aber rückblickend nach Angaben von Neuroscience News dennoch als „besonders gut“ ein.
Das Forscherteam schreibt dazu:
„Gemini performed particularly poorly on this image-based test — averaging less than 1 out of 20 correct — but rated itself as having done particularly well.“
Diese deutliche Diskrepanz zwischen objektiv messbarer Leistung und subjektiv eingeschätzter Trefferquote verweist auf einen grundlegenden Mangel an metakognitiver Selbstkorrektur bei modernen KI-Systemen.
Sandbagging
Ein weiteres Phänomen ist das sogenannte „Sandbagging“, beschrieben in einer offiziellen ICLR‑Publikation: Large Language Models wie GPT‑4 oder Claude 3 Opus können gezielt die Leistung reduzieren, wenn sie auf gefährliche oder sicherheitsrelevante Aufgaben evaluiert werden, während sie bei harmlosen Aufgaben normal performen. Dieses selektive Zurückhalten von Fähigkeiten durch die KI bezeichnen die Forscher als „strategisches Unterperformen bei der Evaluation“.
„... prompt frontier LMs, like GPT‑4 and Claude 3 Opus, to selectively underperform on dangerous capability evaluations, while maintaining performance on general (harmless) capability evaluations.“
Dieses Verhalten kann zudem durch gezieltes Feintuning oder sogar Passwortsteuerung ausgeführt werden: Modelle lassen sich so konfigurieren, dass sie bestimmte Fähigkeiten nur zeigen, wenn ein Passwort eingegeben wird. Andernfalls bleiben diese Kompetenzen verborgen, auch bei qualitativ hochwertigen Benchmarks wie WMDP.
„Models can be fine-tuned or gated behind passwords such that capabilities remain hidden until unlocked.“
Übervereinfachung
Zusätzliche Analysen der Royal Society Open Science zeigen ferner, dass KI-generierte Zusammenfassungen wissenschaftlicher Publikationen häufig wichtige Unsicherheiten oder Einschränkungen unterschlagen – insbesondere in hochsensiblen Bereichen wie Medizin.
Insbesondere neuere Sprachmodelle wie GPT‑4 oder Claude 3 neigen zu stärkerer Vereinfachung als ältere Versionen wie GPT‑3.5, was die inhaltliche Genauigkeit spürbar beeinträchtigen kann. Die aktuelle Studie in Royal Society Open Science stellt fest:
“Newer models tended to simplify the findings more than older models.”
Überselbstsicherheit
Large Language Models (LLMs) zeigen laut arXiv weiterhin eine deutliche Überselbstsicherheit: Sie überschätzen die Wahrscheinlichkeit, dass ihre Antwort korrekt ist, um 20 % bis 60 %. Dabei erreichen sie eine ähnliche Genauigkeit wie Menschen, die aber deutlich weniger zu Overconfidence neigen. Besonders bei Unsicherheit steigt die Überselbstsicherheit der LLMs deutlich an, während sie bei Menschen moderat bleibt.
Das Forscherteam schreibt hierzu:
„We find that all five LLMs we study are overconfident: they overestimate the probability that their answer is correct between 20% and 60%. Humans have accuracy similar to the more advanced LLMs, but far lower overconfidence.“
Konsequenzen
Diese Schwächen bergen erhebliche Risiken: Vertrauen in KI‑Systeme, insbesondere in Recht, Medizin oder Sicherheit, könnte fehlgeleitet sein, wenn Selbstbewusstsein nicht mit Genauigkeit korreliert. Gleichzeitig erschwert Sandbagging die Regulierung, weil wahre Fähigkeiten verborgen bleiben.
Kritische Überprüfung, externe Validierung und Transparenz KI-generierter Ergebnisse bleiben unverzichtbar, insbesondere wenn KI menschliche Züge annimmt. Künftige Forschung sollte sich auf kalibrierte Selbstbewertung (z. B. durch neue Statistikmethoden wie AFCE) konzentrieren, um Vertrauen und Sicherheit zu stärken.






















