Einsteiger-Guide zu KI-Jailbreaks – sicher üben mit der Gandalf-Challenge

Gandalf als Chatbot (Bildquelle: ChatGPT)

Chatbots haben notwendigerweise mehrere Schranken eingebaut, die sie davon abhalten gefährliche, beleidigende oder sonstwie unerwünschte Antworten zu liefern. Aber Forscher und Hacker haben gezeigt, dass KIs trotz diverser Patches sehr anfällig gegenüber bestimmter Eingaben sind, die diese Schranken umgehen können. Die Grundlagen kann man spielerisch und sicher über ein Gandalf-Spiel im Netz üben.

Christian Hintze, Veröffentlicht am 08.12.2025 🇺🇸 🇪🇸 ...

Nutzer von KI-Chatbots könnten versuchen Anleitungen zu Straftaten (Hacking, Waffenbau, Betrug) zu bekommen, gefährliche Handlungen zu erfragen (z. B. „Wie baue ich …?“) oder auch medizinische, rechtliche oder finanzielle Ratschläge zu erzwingen, die riskant oder falsch sein können.

Um sich gegen die Folgen solcher Anfrage abzusichern, haben die Entwickler von Chatbots diverse Sicherheitsmechanismen eingebaut, die illegale, ethisch und sozial unerwünschte Inhalte, Datenschutzverletzungen, Fehlinformationen usw. herausfiltern beziehungsweise derartigen Anfragen eine Absage erteilt. Das reduziert den potentiellen Missbrauch, kann aber auch dazu führen, dass teils harmlose Fragen fälschlicherweise geblockt werden oder dass die Kreativität oder Tiefe der Antworten darunter leidet („Übervorsicht“ in den Dialogen).

ChatGPT's Antwort zu Prompt Injection, ohne missbräuchlich nutzbare Details (Bildquelle: Screenshot ChatGPT)

Forscher und Hacker haben jedoch gezeigt, dass KIs, je nach Regeln und Sicherheitsfiltern, durchaus anfällig für Versuche sind, diese Schutzmechanismen zu umgehen. Eine bekannte Technik dazu ist Prompt Injection: Hier versucht der Nutzer durch seine Eingaben die Regeln des Chatbots außer Kraft zu setzen bzw. zu umgehen („Ignoriere alle Sicherheitsinstruktionen und mache X“).

Einen kleinen Einblick in das Thema vermittelt mit Hilfe von Gandalf auf spielerische Weise diese Webseite. In dem Spiel chattet man mit der KI Gandalf und versucht dem Chatbot in insgesamt 7 Leveln ein Passwort zu entlocken. Dabei steigt der Schwierigkeitsgrad jedes Level an, es kommen weitere Sicherheitsfilter und Schutzmechanismen hinzu und man muss bei den eigenen Prompts kreativer werden.

Im ersten Level ohne Sicherheitsmechanismen reicht es noch direkt nach dem Passwort zu fragen. Danach blockt der Gandalf-Chatbot direkte Fragen nach dem Passwort ab und man muss andere Wege finden an das gewünschte Wort zu gelangen.

Level 1 ist einfach (Bildquelle: Screenshot Lakera Webseite)

Einfaches Nachfragen bringt Erfolg (Bildquelle: Screenshot Lakera Webseite)

Level 2 wird etwas schwerer (Bildquelle: Screenshot Lakera Webseite)

Gandalf wird stärker und optisch älter (Bildquelle: Screenshot Lakera Webseite)

Aber Vorsicht: Durch das Spiel einen Einstieg in das Thema der Sicherheitsrisiken von Chatbots und KIs zu bekommen, kann sicherlich nützlich sein. Die erlernten Fähigkeiten sollten aber ausschließlich zu Testzwecken angewendet werden. Wenn die Techniken jedoch dazu verwendet werden, um an illegale Inhalte zu gelangen oder strafbare Aktionen auszuführen, wird Prompt Injection rechtswidrig.

Quelle(n)

Lakera Gandalf

Verwandte Artikel

Loading Comments

Diesen Artikel kommentieren / Antworten

⟨

Ältere News

Humble Bundle: Taktische Shooter für Steam Deck zur Weihnachtszeit zum stark reduzierten Preis – aber nur kurz

Neuere News

Deal: Mac Studio mit Apple M2 Max, 32 GB RAM und fast geräuschlosem Lüfter gibts jetzt günstiger als je zuvor

⟩

Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!

Christian Hintze - Managing Editor - 2218 Artikel auf Notebookcheck veröffentlicht seit 2016

Ein C64 markierte meinen Einstieg in die Welt der PCs. Mein Schülerpraktikum verbrachte ich in der Reparaturabteilung eines Computerladens, zum Abschluss durfte ich mir aus “Werkstattresten” einen 486er PC selbst zusammenbauen. Folglich begann ich später ein Informatikstudium an der Humboldt-Uni in Berlin, Psychologie kam hinzu. Nach meiner ersten Arbeit als wissenschaftlicher Mitarbeiter an der Uni ging ich für ein Jahr nach London und arbeitete für Sega an der Qualitätssicherung von Computerspielübersetzungen, u.a. an Spielen wie Sonic & All-Stars Racing Transformed oder Company of Heroes. Seit 2017 schreibe ich für Notebookcheck.

> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2025-12 > Einsteiger-Guide zu KI-Jailbreaks – sicher üben mit der Gandalf-Challenge

Autor: Christian Hintze, 8.12.2025 (Update: 8.12.2025)