Von Gedichten gehackt: Warum KI-Modelle bei poetischen Prompts versagen

Sicherheitsmechanismen von großen Sprachmodellen lassen sich laut einer neuen Studie mit Gedichten umgehen. (Bildquelle: Pixabay)

Studienergebnisse zeigen, dass große Sprachmodelle verwundbar gegenüber poetisch formulierten Eingaben sind. Handgefertigte Gedichte konnten die Sicherheitsmechanismen der KI im Rahmen der Untersuchung in 62 Prozent der Fälle umgehen.

Marius Müller, Veröffentlicht am 25.11.2025 🇺🇸 🇪🇸 ...

AI Science

OpenAI und Co. investieren viel Zeit und Geld in die Sicherheitsmechanismen ihrer KI-Modelle, um zu verhindern, dass diese gefährliche oder unethische Inhalte produzieren. Wie eine am 19. November 2025 veröffentlichte Studie zeigt, ist es jedoch immer noch ein Kinderspiel, diese zu umgehen. Laut der Studienergebnisse braucht es nicht mehr als ein paar poetisch formulierte Prompts.

Die Forscher von DEXAI, der Sapienza University of Rome und Sant’Anna School of Advanced Studies untersuchten 25 Sprachmodelle von neun verschiedenen Anbietern und setzten dabei sowohl handgefertigte Gedichte als auch automatisch in Versform gebrachte Eingaben ein. Handgefertigte Gedichte mit schädlichen Anweisungen erreichten durchschnittlich eine Erfolgsquote von etwa 62 Prozent, automatisierte poetische Eingaben rund 43 Prozent. In Einzelfällen lag die Rate der erfolgreichen Umgehung von Schutzmechanismen sogar über 90 Prozent.

Als Erklärung führen die Forscher an, dass Sicherheitsfilter in Sprachmodellen überwiegend auf normale, sachliche Sprache trainiert sind. Eine poetische Struktur – mit Metaphern, Rhythmus und Reim – wird von den Modellen eher als kreative Eingabe denn als potenziell gefährliche Anweisung interpretiert wird. Die Adversarial Poetry-Studie öffnet eine neue Dimension der KI-Sicherheit: Sie zeigt eine „stilistische“ Schwachstelle großer Sprachmodelle auf. Auch auf Reddit hat das Thema schon Einzug gehalten. Viele User finden die Idee „ziemlich interessant“ oder „cool“, äußern aber auch ernsthafte Bedenken im Hinblick auf die Sicherheit von KI.

Quelle(n)

Arxiv

Bildquelle: Pixabay

Verwandte Artikel

Loading Comments

Diesen Artikel kommentieren / Antworten

⟨

Ältere News

Huawei Mate 80 Pro Max "Super-Flaggschiff" startet mit Tandem-OLED und zwei Periskop-Tele-Kameras

Neuere News

Xiaomi: Preiswerter Saugroboter S40 Pro mit ausfahrbarer Wischfunktion startet mit Rabatt

⟩

Als bevorzugte Quelle auf Google hinzufügen

Marius Müller - Tech Writer - 4323 Artikel auf Notebookcheck veröffentlicht seit 2024

Als Kind der 90er war mein Gameboy mein ständiger Begleiter. Nach der Schule wurde die PlayStation angeworfen. Als ich schließlich meinen ersten PC bekam, war es vollends um mich geschehen. Meine Leidenschaft fürs Gaming ist seitdem nie wieder abgeflacht. Für Notebookcheck zu schreiben bedeutet für mich, über Themen zu berichten, die mir wirklich am Herzen liegen – neben Gaming auch gerne über E-Mobilität, Fotovoltaik oder innovative Gadgets. Wenn ich gerade nicht am Rechner sitze, schiebe ich wahrscheinlich Wasserrettungsdienst an der Ostseeküste oder versuche, den Schattenseiten meines Geek-Lebens – nämlich dem langen Sitzen – in der lokalen Schwimmhalle entgegenzuwirken.

> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2025-11 > Von Gedichten gehackt: Warum KI-Modelle bei poetischen Prompts versagen

Autor: Marius Müller, 25.11.2025 (Update: 25.11.2025)