KI-Halluzinationen: Forscher haben den Grund gefunden – und eine Lösung

Laut OpenAI-Forschern lassen sich die Halluzinationen von Sprachmodellen dadurch begründen, dass aktuelle Tests falsche Antworten belohnen und ehrliche Unsicherheit bestrafen. (Bildquelle: OpenAI)

Wer KI zur Informationsbeschaffung nutzt, sollte stets damit rechnen, dass die Informationen halluziniert – also ausgedacht – sind. OpenAI-Forscher wollen nun nicht nur die Ursache, sondern auch eine Lösung für dieses Problem gefunden haben.

Marius Müller, Veröffentlicht am 08.09.2025 🇺🇸 🇪🇸 ...

AI Science Business

KI-Assistenten sind ziemlich gut darin, sich Informationen auszudenken und sie Nutzern für bare Münze zu verkaufen. Falsche Fakten, erfundene Quellen oder ausgedachte Zitate – ganz normaler KI-Alltag. Wir sprechen in diesem Fall auch von Halluzinationen. Die meisten Nutzer dürften sich mit diesem Problem, das sich bisweilen einzig durch gründliches Prüfen der KI-Antworten lösen lässt, bereits abgefunden haben. Laut OpenAI scheint es aber eine andere Lösung zu geben. Am 5. September hat das Unternehmen hinter ChatGPT nämlich ein umfangreiches Paper veröffentlicht, das eine neue Erklärung für die Ursache der Halluzinationen liefert – und auch eine Lösung parat hat.

Raten wird belohnt, Unsicherheit bestraft

Das 36-seitige Paper stammt von Adam Kalai, Santosh Vempala (Georgia Tech) sowie weiteren OpenAI-Forschern und stellt klar: Halluzinationen entstehen nicht, weil Modelle „schlampig schreiben“, sondern weil aktuelle Bewertungsmetriken systematisch Raten belohnen und Unsicherheit bestrafen. Die Forscher ziehen den Vergleich zu Multiple-Choice-Tests: Wer rät, kann Punkte bekommen, wer sich enthält, nicht. Statistisch gesehen ist das ratende Modell also im Vorteil, wenngleich es häufig falsche Informationen weitergibt.

Das führt dazu, dass heutige Leaderboards (Ranglisten, die KI-Leistung vergleichen) fast ausschließlich auf Accuracy basieren, ohne Fehlerquote oder Unsicherheitsangaben zu berücksichtigen. OpenAI schlägt daher einen Paradigmenwechsel vor: Scoreboards sollen nicht mehr nur richtige Antworten zählen, sondern selbstsichere Fehler stärker bestrafen und vorsichtige Abstinenz teilweise belohnen. Ziel ist es, Modelle dazu zu bringen, Unsicherheit offen zu kennzeichnen, anstatt falsche Antworten als Fakten auszugeben.

Weniger raten, mehr korrekte Antworten

Ein Beispiel aus dem Paper zeigt den Effekt: Beim SimpleQA-Benchmark verzichtete ein Modell in über 50 Prozent der Fälle auf eine Antwort, lag aber nur bei 26 Prozent der gegebenen Antworten falsch. Ein anderes Modell beantwortete fast jede Frage – und halluzinierte dabei in drei Vierteln aller Fälle. Das zeigt deutlich, dass transparente Unsicherheit verlässlicher ist als blindes Raten mit scheinbarer Präzision.

Quelle(n)

OpenAI

Verwandte Artikel

Alle 9 Beträge lesen / Antworten

Loading Comments

Diesen Artikel kommentieren / Antworten

⟨

Ältere News

Apple Powerbeats Fit: Leak enthüllt Europreis und Upgrades der Fitness-Ohrhörer

Neuere News

2026 Volvo XC70: neuer Long Range Plug-in-Hybrid (PHEV) bringt 200 km rein elektrische Reichweite

⟩

Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!

Marius Müller - Tech Writer - 3340 Artikel auf Notebookcheck veröffentlicht seit 2024

Als Kind der 90er war mein Gameboy mein ständiger Begleiter. Nach der Schule wurde die PlayStation angeworfen. Als ich schließlich meinen ersten PC bekam, war es vollends um mich geschehen. Meine Leidenschaft fürs Gaming ist seitdem nie wieder abgeflacht. Für Notebookcheck zu schreiben bedeutet für mich, über Themen zu berichten, die mir wirklich am Herzen liegen – neben Gaming auch gerne über E-Mobilität, Fotovoltaik oder innovative Gadgets. Wenn ich gerade nicht am Rechner sitze, schiebe ich wahrscheinlich Wasserrettungsdienst an der Ostseeküste oder versuche, den Schattenseiten meines Geek-Lebens – nämlich dem langen Sitzen – in der lokalen Schwimmhalle entgegenzuwirken.

> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2025-09 > KI-Halluzinationen: Forscher haben den Grund gefunden – und eine Lösung

Autor: Marius Müller, 8.09.2025 (Update: 8.09.2025)