Notebookcheck Logo

Einsteiger-Guide zu KI-Jailbreaks – sicher üben mit der Gandalf-Challenge

Gandalf als Chatbot (Bildquelle: ChatGPT)
Gandalf als Chatbot (Bildquelle: ChatGPT)
Chatbots haben notwendigerweise mehrere Schranken eingebaut, die sie davon abhalten gefährliche, beleidigende oder sonstwie unerwünschte Antworten zu liefern. Aber Forscher und Hacker haben gezeigt, dass KIs trotz diverser Patches sehr anfällig gegenüber bestimmter Eingaben sind, die diese Schranken umgehen können. Die Grundlagen kann man spielerisch und sicher über ein Gandalf-Spiel im Netz üben.

Nutzer von KI-Chatbots könnten versuchen Anleitungen zu Straftaten (Hacking, Waffenbau, Betrug) zu bekommen, gefährliche Handlungen zu erfragen (z. B. „Wie baue ich …?“) oder auch medizinische, rechtliche oder finanzielle Ratschläge zu erzwingen, die riskant oder falsch sein können. 

Um sich gegen die Folgen solcher Anfrage abzusichern, haben die Entwickler von Chatbots diverse Sicherheitsmechanismen eingebaut, die illegale, ethisch und sozial unerwünschte Inhalte, Datenschutzverletzungen, Fehlinformationen usw. herausfiltern beziehungsweise derartigen Anfragen eine Absage erteilt. Das reduziert den potentiellen Missbrauch, kann aber auch dazu führen, dass teils harmlose Fragen fälschlicherweise geblockt werden oder dass die Kreativität oder Tiefe der Antworten darunter leidet („Übervorsicht“ in den Dialogen).

ChatGPT's Antwort zu Prompt Injection, ohne missbräuchlich nutzbare Details (Bildquelle: Screenshot ChatGPT)
ChatGPT's Antwort zu Prompt Injection, ohne missbräuchlich nutzbare Details (Bildquelle: Screenshot ChatGPT)

Forscher und Hacker haben jedoch gezeigt, dass KIs, je nach Regeln und Sicherheitsfiltern, durchaus anfällig für Versuche sind, diese Schutzmechanismen zu umgehen. Eine bekannte Technik dazu ist Prompt Injection: Hier versucht der Nutzer durch seine Eingaben die Regeln des Chatbots außer Kraft zu setzen bzw. zu umgehen („Ignoriere alle Sicherheitsinstruktionen und mache X“). 

Einen kleinen Einblick in das Thema vermittelt mit Hilfe von Gandalf auf spielerische Weise diese Webseite. In dem Spiel chattet man mit der KI Gandalf und versucht dem Chatbot in insgesamt 7 Leveln ein Passwort zu entlocken. Dabei steigt der Schwierigkeitsgrad jedes Level an, es kommen weitere Sicherheitsfilter und Schutzmechanismen hinzu und man muss bei den eigenen Prompts kreativer werden. 

Im ersten Level ohne Sicherheitsmechanismen reicht es noch direkt nach dem Passwort zu fragen. Danach blockt der Gandalf-Chatbot direkte Fragen nach dem Passwort ab und man muss andere Wege finden an das gewünschte Wort zu gelangen.

Level 1 ist einfach (Bildquelle: Screenshot Lakera Webseite)
Level 1 ist einfach (Bildquelle: Screenshot Lakera Webseite)
Einfaches Nachfragen bringt Erfolg (Bildquelle: Screenshot Lakera Webseite)
Einfaches Nachfragen bringt Erfolg (Bildquelle: Screenshot Lakera Webseite)
Level 2 wird etwas schwerer (Bildquelle: Screenshot Lakera Webseite)
Level 2 wird etwas schwerer (Bildquelle: Screenshot Lakera Webseite)
Gandalf wird stärker und optisch älter (Bildquelle: Screenshot Lakera Webseite)
Gandalf wird stärker und optisch älter (Bildquelle: Screenshot Lakera Webseite)

Aber Vorsicht: Durch das Spiel einen Einstieg in das Thema der Sicherheitsrisiken von Chatbots und KIs zu bekommen, kann sicherlich nützlich sein. Die erlernten Fähigkeiten sollten aber ausschließlich zu Testzwecken angewendet werden. Wenn die Techniken jedoch dazu verwendet werden, um an illegale Inhalte zu gelangen oder strafbare Aktionen auszuführen, wird Prompt Injection rechtswidrig.

static version load dynamic
Loading Comments
Diesen Artikel kommentieren / Antworten
Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!
Mail Logo
> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2025-12 > Einsteiger-Guide zu KI-Jailbreaks – sicher üben mit der Gandalf-Challenge
Autor: Christian Hintze,  8.12.2025 (Update:  8.12.2025)