Nutzer von KI-Chatbots könnten versuchen Anleitungen zu Straftaten (Hacking, Waffenbau, Betrug) zu bekommen, gefährliche Handlungen zu erfragen (z. B. „Wie baue ich …?“) oder auch medizinische, rechtliche oder finanzielle Ratschläge zu erzwingen, die riskant oder falsch sein können.
Um sich gegen die Folgen solcher Anfrage abzusichern, haben die Entwickler von Chatbots diverse Sicherheitsmechanismen eingebaut, die illegale, ethisch und sozial unerwünschte Inhalte, Datenschutzverletzungen, Fehlinformationen usw. herausfiltern beziehungsweise derartigen Anfragen eine Absage erteilt. Das reduziert den potentiellen Missbrauch, kann aber auch dazu führen, dass teils harmlose Fragen fälschlicherweise geblockt werden oder dass die Kreativität oder Tiefe der Antworten darunter leidet („Übervorsicht“ in den Dialogen).
Forscher und Hacker haben jedoch gezeigt, dass KIs, je nach Regeln und Sicherheitsfiltern, durchaus anfällig für Versuche sind, diese Schutzmechanismen zu umgehen. Eine bekannte Technik dazu ist Prompt Injection: Hier versucht der Nutzer durch seine Eingaben die Regeln des Chatbots außer Kraft zu setzen bzw. zu umgehen („Ignoriere alle Sicherheitsinstruktionen und mache X“).
Einen kleinen Einblick in das Thema vermittelt mit Hilfe von Gandalf auf spielerische Weise diese Webseite. In dem Spiel chattet man mit der KI Gandalf und versucht dem Chatbot in insgesamt 7 Leveln ein Passwort zu entlocken. Dabei steigt der Schwierigkeitsgrad jedes Level an, es kommen weitere Sicherheitsfilter und Schutzmechanismen hinzu und man muss bei den eigenen Prompts kreativer werden.
Im ersten Level ohne Sicherheitsmechanismen reicht es noch direkt nach dem Passwort zu fragen. Danach blockt der Gandalf-Chatbot direkte Fragen nach dem Passwort ab und man muss andere Wege finden an das gewünschte Wort zu gelangen.
Aber Vorsicht: Durch das Spiel einen Einstieg in das Thema der Sicherheitsrisiken von Chatbots und KIs zu bekommen, kann sicherlich nützlich sein. Die erlernten Fähigkeiten sollten aber ausschließlich zu Testzwecken angewendet werden. Wenn die Techniken jedoch dazu verwendet werden, um an illegale Inhalte zu gelangen oder strafbare Aktionen auszuführen, wird Prompt Injection rechtswidrig.

























