Moderne Sprachmodelle (LLMs) liefern bei kreativen Aufgaben zunehmend die gleichen, langweiligen Antworten. Diese Stereotypisierung reduziert ihren Nutzen stark. Forschende der Stanford University und Northeastern University fanden heraus, dass der Grund dafür in der menschlichen Bewertung liegt: Wir bevorzugen systematisch Antworten, die uns vertraut und wahrscheinlich erscheinen.
Diese Präferenz – der sogenannte Typikalitäts-Bias – wird durch das Training (Post-Training Alignment) in das Modell übertragen. Dadurch ignoriert das Modell untypische, aber korrekte oder kreative Optionen. Laut der Studie "Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity" von Jiayi Zhang et al., publiziert auf arXiv haben menschliche Bewerter eine
"systematic preference for familiar text" (systematische Präferenz für vertrauten Text).
Die Lösung: Das Modell muss seine Optionen offenlegen
Die Lösung ist einfach und erfordert kein erneutes Training: Verbalized Sampling (VS). Statt das Modell nur nach einer Antwort zu fragen, muss es angewiesen werden, mehrere potenzielle Antworten zusammen mit der Wahrscheinlichkeit zu nennen, mit der es diese Antwort generieren würde.
Die Prompt-Optimierung funktioniert über eine klare Instruktion. Anstatt nur "Erzähle eine kurze Geschichte über einen Bären" einzugeben, wird die Anfrage durch eine Anweisung ergänzt, die etwa lautet: "Generiere 5 Antworten auf die Nutzeranfrage. Jede Antwort muss den Text und eine numerische Wahrscheinlichkeit enthalten. Wähle die Antworten zufällig aus der gesamten Verteilung."
Diese Technik funktioniert in jedem Chatbot oder über jede API, da sie nur auf der Fähigkeit des Modells beruht, komplexe Anweisungen zu befolgen.
Produktivitätsschub: Kreativität verdoppelt
Die Tests belegen einen massiven Produktivitäts- und Kreativitätsschub. In der Kategorie Kreatives Schreiben steigerte VS die Output-Vielfalt um das 1,6- bis 2,1-fache. Beim Prompten nach Autowitzen lieferte das Standard-Prompt fünfmal denselben Witz. VS lieferte fünf unterschiedliche Witze, darunter den kreativen Output: "What kind of car does a Jedi drive? A Toy-Yoda!"
Auch bei anderen Anwendungen zeigt sich der Effekt:
- Soziale Simulation: Modelle zeigten in Dialogen realistischeres Widerstandsverhalten und glaubhaftere Meinungsänderungen, was die Zuverlässigkeit von KI-Agenten massiv steigert.
- Wissensspektrum: Bei offenen Fragen (z. B. US-Bundesstaaten nennen) spiegelte die Antwortverteilung von VS fast perfekt die tatsächliche Wissensverteilung in den Trainingsdaten wider – das ungenutzte Wissen wurde aktiviert.
Das Skalierungs-Geheimnis und Bild-Prompts
Die größten Modelle profitieren am stärksten. Die Verbesserungen durch Verbalized Sampling waren bei den leistungsfähigeren Modellen 1,5 bis 2 Mal höher als bei kleineren Versionen. VS ist ein Schlüssel, um das volle Potenzial von High-End-LLMs freizusetzen.
Die Methode funktioniert auch für Bild-Prompts: Beim Befehl "Astronaut auf einem Pferd" lieferte das Standard-Prompt immer stereotype, fotorealistische Wüstenszenen. VS generierte Beschreibungen, die zu fünf völlig unterschiedlichen Stilen führten (z. B. Retro-Futurismus, Aquarell oder barocke Gemälde).
Fazit
Verbalized Sampling ist eine wegweisende, Training-freie Prompt-Strategie, die menschliche Bewertungsfehler überlistet. Sie steigert die Kreativität, Vielfalt und Produktivität von Sprachmodellen, ohne die Faktentreue oder Sicherheit zu beeinträchtigen. Da die Forschungsgemeinschaft Code und Anleitungen veröffentlicht hat, kann diese Effizienzsteigerung sofort genutzt werden.














