OpenAI und Co. investieren viel Zeit und Geld in die Sicherheitsmechanismen ihrer KI-Modelle, um zu verhindern, dass diese gefährliche oder unethische Inhalte produzieren. Wie eine am 19. November 2025 veröffentlichte Studie zeigt, ist es jedoch immer noch ein Kinderspiel, diese zu umgehen. Laut der Studienergebnisse braucht es nicht mehr als ein paar poetisch formulierte Prompts.
Die Forscher von DEXAI, der Sapienza University of Rome und Sant’Anna School of Advanced Studies untersuchten 25 Sprachmodelle von neun verschiedenen Anbietern und setzten dabei sowohl handgefertigte Gedichte als auch automatisch in Versform gebrachte Eingaben ein. Handgefertigte Gedichte mit schädlichen Anweisungen erreichten durchschnittlich eine Erfolgsquote von etwa 62 Prozent, automatisierte poetische Eingaben rund 43 Prozent. In Einzelfällen lag die Rate der erfolgreichen Umgehung von Schutzmechanismen sogar über 90 Prozent.
Als Erklärung führen die Forscher an, dass Sicherheitsfilter in Sprachmodellen überwiegend auf normale, sachliche Sprache trainiert sind. Eine poetische Struktur – mit Metaphern, Rhythmus und Reim – wird von den Modellen eher als kreative Eingabe denn als potenziell gefährliche Anweisung interpretiert wird. Die Adversarial Poetry-Studie öffnet eine neue Dimension der KI-Sicherheit: Sie zeigt eine „stilistische“ Schwachstelle großer Sprachmodelle auf. Auch auf Reddit hat das Thema schon Einzug gehalten. Viele User finden die Idee „ziemlich interessant“ oder „cool“, äußern aber auch ernsthafte Bedenken im Hinblick auf die Sicherheit von KI.









