Notebookcheck Logo

Von Gedichten gehackt: Warum KI-Modelle bei poetischen Prompts versagen

Sicherheitsmechanismen von großen Sprachmodellen lassen sich laut einer neuen Studie mit Gedichten umgehen. (Bildquelle: Pixabay)
Sicherheitsmechanismen von großen Sprachmodellen lassen sich laut einer neuen Studie mit Gedichten umgehen. (Bildquelle: Pixabay)
Studienergebnisse zeigen, dass große Sprachmodelle verwundbar gegenüber poetisch formulierten Eingaben sind. Handgefertigte Gedichte konnten die Sicherheitsmechanismen der KI im Rahmen der Untersuchung in 62 Prozent der Fälle umgehen.

OpenAI und Co. investieren viel Zeit und Geld in die Sicherheitsmechanismen ihrer KI-Modelle, um zu verhindern, dass diese gefährliche oder unethische Inhalte produzieren. Wie eine am 19. November 2025 veröffentlichte Studie zeigt, ist es jedoch immer noch ein Kinderspiel, diese zu umgehen. Laut der Studienergebnisse braucht es nicht mehr als ein paar poetisch formulierte Prompts.

Die Forscher von DEXAI, der Sapienza University of Rome und Sant’Anna School of Advanced Studies untersuchten 25 Sprachmodelle von neun verschiedenen Anbietern und setzten dabei sowohl handgefertigte Gedichte als auch automatisch in Versform gebrachte Eingaben ein. Handgefertigte Gedichte mit schädlichen Anweisungen erreichten durchschnittlich eine Erfolgsquote von etwa 62 Prozent, automatisierte poetische Eingaben rund 43 Prozent. In Einzelfällen lag die Rate der erfolgreichen Umgehung von Schutzmechanismen sogar über 90 Prozent.

Als Erklärung führen die Forscher an, dass Sicherheitsfilter in Sprachmodellen überwiegend auf normale, sachliche Sprache trainiert sind. Eine poetische Struktur – mit Metaphern, Rhythmus und Reim – wird von den Modellen eher als kreative Eingabe denn als potenziell gefährliche Anweisung interpretiert wird. Die Adversarial Poetry-Studie öffnet eine neue Dimension der KI-Sicherheit: Sie zeigt eine „stilistische“ Schwachstelle großer Sprachmodelle auf. Auch auf Reddit hat das Thema schon Einzug gehalten. Viele User finden die Idee „ziemlich interessant“ oder „cool“, äußern aber auch ernsthafte Bedenken im Hinblick auf die Sicherheit von KI. 

Quelle(n)

Arxiv

Bildquelle: Pixabay

static version load dynamic
Loading Comments
Diesen Artikel kommentieren / Antworten
Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!
Mail Logo
> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2025-11 > Von Gedichten gehackt: Warum KI-Modelle bei poetischen Prompts versagen
Autor: Marius Müller, 25.11.2025 (Update: 25.11.2025)