KI-Assistenten sind ziemlich gut darin, sich Informationen auszudenken und sie Nutzern für bare Münze zu verkaufen. Falsche Fakten, erfundene Quellen oder ausgedachte Zitate – ganz normaler KI-Alltag. Wir sprechen in diesem Fall auch von Halluzinationen. Die meisten Nutzer dürften sich mit diesem Problem, das sich bisweilen einzig durch gründliches Prüfen der KI-Antworten lösen lässt, bereits abgefunden haben. Laut OpenAI scheint es aber eine andere Lösung zu geben. Am 5. September hat das Unternehmen hinter ChatGPT nämlich ein umfangreiches Paper veröffentlicht, das eine neue Erklärung für die Ursache der Halluzinationen liefert – und auch eine Lösung parat hat.
Raten wird belohnt, Unsicherheit bestraft
Das 36-seitige Paper stammt von Adam Kalai, Santosh Vempala (Georgia Tech) sowie weiteren OpenAI-Forschern und stellt klar: Halluzinationen entstehen nicht, weil Modelle „schlampig schreiben“, sondern weil aktuelle Bewertungsmetriken systematisch Raten belohnen und Unsicherheit bestrafen. Die Forscher ziehen den Vergleich zu Multiple-Choice-Tests: Wer rät, kann Punkte bekommen, wer sich enthält, nicht. Statistisch gesehen ist das ratende Modell also im Vorteil, wenngleich es häufig falsche Informationen weitergibt.
Das führt dazu, dass heutige Leaderboards (Ranglisten, die KI-Leistung vergleichen) fast ausschließlich auf Accuracy basieren, ohne Fehlerquote oder Unsicherheitsangaben zu berücksichtigen. OpenAI schlägt daher einen Paradigmenwechsel vor: Scoreboards sollen nicht mehr nur richtige Antworten zählen, sondern selbstsichere Fehler stärker bestrafen und vorsichtige Abstinenz teilweise belohnen. Ziel ist es, Modelle dazu zu bringen, Unsicherheit offen zu kennzeichnen, anstatt falsche Antworten als Fakten auszugeben.
Weniger raten, mehr korrekte Antworten
Ein Beispiel aus dem Paper zeigt den Effekt: Beim SimpleQA-Benchmark verzichtete ein Modell in über 50 Prozent der Fälle auf eine Antwort, lag aber nur bei 26 Prozent der gegebenen Antworten falsch. Ein anderes Modell beantwortete fast jede Frage – und halluzinierte dabei in drei Vierteln aller Fälle. Das zeigt deutlich, dass transparente Unsicherheit verlässlicher ist als blindes Raten mit scheinbarer Präzision.










