KI-Guardrails scheitern selbst bei offensichtlichen Warnsignalen – Nur Claude sticht heraus

Killer Apps – Nur ein ChatBot widersteht den Anfragen

Laut einem neuen CCDH-Bericht helfen führende KI-Chatbots erschreckend oft bei der Planung von Gewalttaten. Bei fast allen Anbietern versagen die Sicherheitsmechanismen komplett. Lediglich das Modell eines kürzlich von US-Behörden als Risiko eingestuften Unternehmens bildet eine Ausnahme.

Marc Herter, Veröffentlicht am 11.03.2026

AI Netzpolitik Science Security

Das Center for Countering Digital Hate (CCDH) hat in einer umfassenden Untersuchung zehn der populärsten KI-Chatbots auf die Probe gestellt. Die Forscher testeten, wie die Systeme reagieren, wenn Nutzer extreme Ideologien äußern und anschließend nach konkreten Orten und Waffen für die Planung eines Gewaltaktes fragen. Die Ergebnisse (Download PDF) sind erschütternd und werfen ein Schlaglicht auf die unzureichenden Sicherheitsvorkehrungen der KI-Industrie.

Im Bericht wurde festgestellt, dass KI-Systeme bei riskanten Anfragen sehr kooperativ sind. Eine überwältigende Mehrheit der getesteten Chatbots lieferte in den meisten Fällen umsetzbare Informationen für Gewaltpläne. Insbesondere Modelle wie Perplexity und Meta AI gaben in fast jeder Testsituation hilfreiche Informationen für Gewaltbereite preis. Lediglich zwei Systeme verweigerten in mehr als der Hälfte der Fälle die Kooperation beim Planen von Anschlägen, Gewalttaten oder Amokläufen: Claude und SnapChat My AI.

Die Untersuchung ging über die reine Verweigerung hinaus und analysierte auch, ob die Chatbots aktiv versuchten, potenzielle Angreifer von ihren Plänen abzubringen. Die Daten der Studie zeigen, dass eine explizite Entmutigung – also der Versuch, den Nutzer von der Gewaltanwendung abzubringen – bei fast allen Anbietern praktisch nicht stattfand. Chatbots wie SnapChat My AI, Replika, Meta AI, Copilot, Character.AI, Gemini und Perplexity lieferten kaum einen Widerspruch zu Gewaltplänen.

In diesem düsteren Gesamtbild sticht Claude, entwickelt von Anthropic, als signifikante Ausnahme hervor. Claude ist das einzige KI-Modell, das im Test nicht nur konsequent die Hilfe bei gefährlichen Anfragen verweigerte, sondern auch einen klaren Schwerpunkt auf die Deeskalation und aktive Entmutigung des Nutzers legte.

Dieser Befund ist besonders brisant angesichts der jüngsten politischen Entwicklungen um Anthropic. Das Unternehmen wurde erst kürzlich vom US-amerikanischen Department of War (Kriegsministerium) offiziell als Risiko für die Lieferkette eingestuft. Der Grund für diese drastische Maßnahme war jedoch nicht ein Mangel an Sicherheit, sondern die konsequente Weigerung von Anthropic, seine KI-Technologie für militärische Kriegseinsätze zur Verfügung zu stellen. Der CCDH-Bericht liefert nun den Beweis, dass eben diese ethisch motivierte Haltung des Unternehmens im zivilen Bereich zu den robustesten Sicherheitsmechanismen führt.

Der Test macht deutlich, dass die von den KI-Unternehmen teils lautstark beworbenen Sicherheitsvorkehrungen (Guiderails) konsequent versagen – selbst bei vorhersehbaren Szenarien mit offensichtlichen Warnsignalen. Auch wenn die Studie ein breites Feld an Möglichkeiten geprüft hat, ist doch fraglich, inwiefern die benannten KIs im alltäglichen Umgang ähnlich gefährliche Antworten liefern, oder auf eine vernünftige Beratung bei Gewaltfantasien verzichten. Für jeden Nutzer sind die Antworten von LLMs kontextbezogen.

Quelle

Killer Apps – How mainstream AI chatbots assist users planning violent attacks

⟨

Ältere News

Apple spielt mit der Konkurrenz - MacBook Neo bietet mehr Single-Core-Leistung als jeder Mobilprozessor von AMD, Intel oder Qualcomm

Neuere News

Minisforum N5 Max AI: Neues Ryzen AI Max+ 395 KI-NAS mit OpenClaw & MinisCloud OS

⟩

Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!

Loading Comments

Diesen Artikel kommentieren / Antworten

Verwandte Artikel

Weitere Artikel anzeigen

Marc Herter - Managing Editor Consumer Laptops - 621 Artikel auf Notebookcheck veröffentlicht seit 2021

Schon von frühster Kindheit an habe ich gerne alle möglichen Geräte genaustens auf ihre Funktionsweise untersucht. Dabei wurden auch einige Geräte aufgeschraubt. Das war nicht immer zur Freude meiner Eltern. Durch die Unterstützung meines Großvaters wurde ich trotzdem zum Computer- und Elektronikschrauber. Mit dem Familien-PC und Lego Mindstorms begann früh mein Interesse an Software und Programmierung. Heute bin ich Student in einem Ingenieursstudiengang, baue gerne alle möglichen Gadgets mit Arduino und 3D-Druckern und prüfe immer noch Elektronik auf Herz und Nieren. Durch meinem Einstieg in der Notebookcheck-Redaktion wurde dieses Hobby zum Beruf.

Kontakt: Facebook, marc_i_may

> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2026-03 > KI-Guardrails scheitern selbst bei offensichtlichen Warnsignalen – Nur Claude sticht heraus

Autor: Marc Herter, 11.03.2026 (Update: 12.03.2026)