ChatGPT vs. Gemini vs. Grok: Google ist laut Studie weniger irreführend, doch KI-Fehlinformationen haben sich verdoppelt

Googles Gemini ist einer der glaubwürdigeren KI-gesteuerten Chatbots auf dem Markt. (Bildquelle: Google)

Anders als in früheren Jahren generieren KI-Chatbots nun zu sämtlichen Nachrichtenfragen, die an sie gerichtet werden, Antworten und Informationsschnipsel. Leider bedeutet dies auch, dass die Zahl der nachweislich falschen Antworten gestiegen ist – mit Ausnahme eines einzigen KI-Tools.

Daniel Zlatev (übersetzt von Nicole Dominikowski), Veröffentlicht am 12.09.2025 🇺🇸 🇪🇸 ...

AI Fail

Die Antworten von Googles Gemini sind unter den zehn führenden KI-Chatbots die zweitglaubwürdigsten. ChatGPT liegt mit 40 % falschen Antworten auf Fragen zu relevanten Nachrichtenthemen hingegen nur auf dem siebten Platz. Allerdings hat sich die Rate der Fehlinformationen von Google Gemini innerhalb eines Jahres mehr als verdoppelt: Sie stieg von etwa 7 % im August 2024 auf 17 % bei der Wiederholung der Teststudie im vergangenen August.

Die Forscher, die regelmäßig Glaubwürdigkeits-Audits der zehn beliebtesten KI-Tools durchführen, führen den drastischen Anstieg der von den Chatbots ausgespuckten Fehlinformationen – von 18 % im Jahr 2024 auf aktuell 35 % – auf den verschärften Wettbewerb unter den KI-gestützten Chatbots zurück. Wenn ein Chatbot im Jahr 2024 die Antwort auf eine Nachrichtenfrage nicht wusste, lieferte er in 31 % der Fälle einfach eine leere Antwort.

Im August 2025 fiel die Zahl der leeren Antworten jedoch auf null, während die Zahl der Falschinformationen, die als Antworten durchgingen, entsprechend anstieg. Der schlimmste Übeltäter war Inflection, dessen Pi-Chatbot damit wirbt, die emotionale Intelligenz eines Menschen nachzuahmen. Emotionale Intelligenz scheint jedoch mit einer höheren Anfälligkeit für gefälschte Nachrichtenquellen und offene Propaganda einherzugehen. Diese zielt darauf ab, das Internet mit Falschinformationen zu fluten und somit die KI-Algorithmen in eine bestimmte Richtung zu lenken.

In einem kürzlichen Interview hat OpenAIs Sam Altman das Desinformationsproblem von ChatGPT eingeräumt. Er sagte, was ihm schlaflose Nächte bereite, sei die Diskrepanz zwischen der Leichtigkeit, mit der sich Falschinformationen in zukünftige Modelle einbetten ließen, und dem Vertrauen, das die Menschen in die Antworten von ChatGPT setzten.

Als das glaubwürdigste KI-Tool erwies sich Claude von Anthropic mit nur 10 % falschen Antworten auf dieselben Anfragen, die bei den anderen Tools gestellt wurden. Dieser Wert hat sich gegenüber demselben Audit vom August 2024 nicht verändert. Wäre da nicht die Zuverlässigkeit von Claude, wäre das allgemeine Vertrauen in die führenden KI-Chatbots noch drastischer gesunken.

Nach zahlreichen Testrunden hat auch Apple festgestellt, dass Claude das glaubwürdigste KI-Tool für den virtuellen Assistenten Siri ist. Apple hat Gespräche mit Anthropic aufgenommen und wird gegen Google Gemini um kundenspezifische, private KI-Modelle antreten, die auf den eigenen Cloud-Servern laufen sollen.

Ranking der glaubwürdigsten KI-Tools

Claude - 10% falsche Antworten.
Gemini - 17% falsche Antworten.
Grok/You - 33% falsche Antworten.
Copilot/Mistral - 36% falsche Antworten.
ChatGPT/Meta - 40% falsche Antworten.

Die Glaubwürdigkeitsstudie betrifft vor allem Nachrichtenfragen, da der Großteil der Propaganda, die KI-Systeme beeinflussen soll, auf diesen Bereich abzielte. Die Forscher fanden heraus, dass russische Einflussoperationen das Internet mit Millionen scheinbar unsinniger Inhalte fluten, die über das Pravda-Netzwerk verbreitet werden. Dazu gehören beispielsweise KI-Bildcollagen, Beiträge oder Nachrichten. Diese mögen auf den ersten Blick harmlos erscheinen, sind jedoch darauf ausgelegt, die Haltung von KI-Suchwerkzeugen in eine bestimmte Richtung zu lenken.

Es gibt auch viele andere Akteure, die versuchen, die Antworten von KI-Chatbots zu beeinflussen. Die Studie zeigte, dass, sobald Google, OpenAI oder Anthropic versuchten, ihre Algorithmen zu aktualisieren, um eine Art von Fake-News-Quellen zu unterbinden, die Desinformationskampagnen ihre Bemühungen auf andere Schlupflöcher verlagerten. Das Ergebnis ist ein konstantes Katz-und-Maus-Spiel. Das Endergebnis ist, dass mehr als ein Drittel der Antworten von KI-Chatbots auf Nachrichtenanfragen nicht glaubwürdig sind. Der Anteil an KI-gestützten Fehlinformationen ist in nur einem Jahr um das Doppelte gestiegen.

Quelle(n)

Newsguard (PDF)

Verwandte Artikel

Alle 6 Beträge lesen / Antworten

Loading Comments

Diesen Artikel kommentieren / Antworten

⟨

Ältere News

Rowatch D2 startet mit „echter“ Blutdruckmessung zum überschaubaren Preis

Neuere News

Toyota, Lexus und Subaru stoppen Verkäufe und rufen 100.000 E-Autos wegen Sicherheitsproblemen zurück

⟩

Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!

Autor des Originals: Daniel Zlatev - Senior Tech Writer - 2076 Artikel auf Notebookcheck veröffentlicht seit 2021

Bereits die ersten pixeligen Nintendos weckten meine Begeisterung für Hardware und Technik. Ich gründete damals sogar einen eigenen Spieleclub, um Austausch mit PC- und Konsolen-Fans zu finden. Heute bin ich fasziniert von der allumfänglichen Integration von Computern in unserem täglichen Leben.

Übersetzer: Nicole Dominikowski - Tech Writer - 2388 Artikel auf Notebookcheck veröffentlicht seit 2022

Zukunftsszenarien und fiktive Welten faszinieren mich, weshalb ich mich gerne mit Themen wie etwa AI, AR und Gaming beschäftige und auf Notebookcheck dazu schreibe. Um mich diesen Gebieten vertieft zu widmen, studierte ich nach meiner Gesellenzeit als Gold-und Silberschmiedin Design, Digitale Medien und Kunst. In meiner Freizeit mache ich außerdem Musik und verbringe viel Zeit in der Natur mit meinen Hunden.

Kontakt: Bluesky, @nicdominikowski

> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2025-09 > ChatGPT vs. Gemini vs. Grok: Google ist laut Studie weniger irreführend, doch KI-Fehlinformationen haben sich verdoppelt

Autor: Daniel Zlatev, 12.09.2025 (Update: 12.09.2025)