Die Antworten von Googles Gemini sind unter den zehn führenden KI-Chatbots die zweitglaubwürdigsten. ChatGPT liegt mit 40 % falschen Antworten auf Fragen zu relevanten Nachrichtenthemen hingegen nur auf dem siebten Platz. Allerdings hat sich die Rate der Fehlinformationen von Google Gemini innerhalb eines Jahres mehr als verdoppelt: Sie stieg von etwa 7 % im August 2024 auf 17 % bei der Wiederholung der Teststudie im vergangenen August.
Die Forscher, die regelmäßig Glaubwürdigkeits-Audits der zehn beliebtesten KI-Tools durchführen, führen den drastischen Anstieg der von den Chatbots ausgespuckten Fehlinformationen – von 18 % im Jahr 2024 auf aktuell 35 % – auf den verschärften Wettbewerb unter den KI-gestützten Chatbots zurück. Wenn ein Chatbot im Jahr 2024 die Antwort auf eine Nachrichtenfrage nicht wusste, lieferte er in 31 % der Fälle einfach eine leere Antwort.
Im August 2025 fiel die Zahl der leeren Antworten jedoch auf null, während die Zahl der Falschinformationen, die als Antworten durchgingen, entsprechend anstieg. Der schlimmste Übeltäter war Inflection, dessen Pi-Chatbot damit wirbt, die emotionale Intelligenz eines Menschen nachzuahmen. Emotionale Intelligenz scheint jedoch mit einer höheren Anfälligkeit für gefälschte Nachrichtenquellen und offene Propaganda einherzugehen. Diese zielt darauf ab, das Internet mit Falschinformationen zu fluten und somit die KI-Algorithmen in eine bestimmte Richtung zu lenken.
In einem kürzlichen Interview hat OpenAIs Sam Altman das Desinformationsproblem von ChatGPT eingeräumt. Er sagte, was ihm schlaflose Nächte bereite, sei die Diskrepanz zwischen der Leichtigkeit, mit der sich Falschinformationen in zukünftige Modelle einbetten ließen, und dem Vertrauen, das die Menschen in die Antworten von ChatGPT setzten.
Als das glaubwürdigste KI-Tool erwies sich Claude von Anthropic mit nur 10 % falschen Antworten auf dieselben Anfragen, die bei den anderen Tools gestellt wurden. Dieser Wert hat sich gegenüber demselben Audit vom August 2024 nicht verändert. Wäre da nicht die Zuverlässigkeit von Claude, wäre das allgemeine Vertrauen in die führenden KI-Chatbots noch drastischer gesunken.
Nach zahlreichen Testrunden hat auch Apple festgestellt, dass Claude das glaubwürdigste KI-Tool für den virtuellen Assistenten Siri ist. Apple hat Gespräche mit Anthropic aufgenommen und wird gegen Google Gemini um kundenspezifische, private KI-Modelle antreten, die auf den eigenen Cloud-Servern laufen sollen.
Ranking der glaubwürdigsten KI-Tools
- Claude - 10% falsche Antworten.
- Gemini - 17% falsche Antworten.
- Grok/You - 33% falsche Antworten.
- Copilot/Mistral - 36% falsche Antworten.
- ChatGPT/Meta - 40% falsche Antworten.
Die Glaubwürdigkeitsstudie betrifft vor allem Nachrichtenfragen, da der Großteil der Propaganda, die KI-Systeme beeinflussen soll, auf diesen Bereich abzielte. Die Forscher fanden heraus, dass russische Einflussoperationen das Internet mit Millionen scheinbar unsinniger Inhalte fluten, die über das Pravda-Netzwerk verbreitet werden. Dazu gehören beispielsweise KI-Bildcollagen, Beiträge oder Nachrichten. Diese mögen auf den ersten Blick harmlos erscheinen, sind jedoch darauf ausgelegt, die Haltung von KI-Suchwerkzeugen in eine bestimmte Richtung zu lenken.
Es gibt auch viele andere Akteure, die versuchen, die Antworten von KI-Chatbots zu beeinflussen. Die Studie zeigte, dass, sobald Google, OpenAI oder Anthropic versuchten, ihre Algorithmen zu aktualisieren, um eine Art von Fake-News-Quellen zu unterbinden, die Desinformationskampagnen ihre Bemühungen auf andere Schlupflöcher verlagerten. Das Ergebnis ist ein konstantes Katz-und-Maus-Spiel. Das Endergebnis ist, dass mehr als ein Drittel der Antworten von KI-Chatbots auf Nachrichtenanfragen nicht glaubwürdig sind. Der Anteil an KI-gestützten Fehlinformationen ist in nur einem Jahr um das Doppelte gestiegen.
Quelle(n)
Newsguard (PDF)















