ChatGPT, Gemini & Co. werden immer häufiger zum Gesundheitsberater. „Ich habe Kopfschmerzen – woran kann das liegen?“ oder „Meine Schulter schmerzt – wann sollte ich zum Arzt gehen?“ sind typische Fragen, die Chatbots tagtäglich beantworten. Wie eine neue Studie des Massachusetts Institute of Technology (MIT) zeigt, bekommen allerdings nicht alle Nutzer die gleichen Antworten auf solche Fragen.
Die am 23. Juni veröffentlichte Studie trägt den Namen „The Medium is the Message: How Non-Clinical Information Shapes Clinical Decisions in LLMs“ (auf deutsch: Das Medium ist die Botschaft: Wie nicht-klinische Informationen klinische Entscheidungen in Sprachmodellen beeinflussen) und untersuchte, wie scheinbar nebensächliche Faktoren wie Tonfall, Schreibstil oder Formatierung die Behandlungsempfehlungen von KI-Systemen beeinflussen.
Um herauszufinden, wie stark Sprache und Stil die Entscheidungen von KI-Chatbots beeinflussen, entwickelten die Forschenden ein sogenanntes „Perturbationsframework“. Damit erstellten sie stilistisch abgeänderte Versionen von ein und derselben Anfrage – etwa mit unsicherem Ton, dramatischer Ausdrucksweise, Tippfehlern oder wechselnder Groß-/Kleinschreibung. Dann ließen sie diese Varianten durch vier verschiedene LLMs laufen: GPT-4, LLaMA-3-70B, LLaMA-3-8B und dem speziell für den Medizinbereich entwickelten Palmyra-Med.
Besonders betroffen: Frauen, nicht-binäre Personen, technikferne Nutzer und nicht-Mutterspracher
Die Ergebnisse der MIT-Studie sprechen eine klare Sprache: Manche Menschen bekommen von KI-gestützten Chatbots eher zu zurückhaltende medizinische Empfehlungen – je nachdem, wie sie schreiben oder wirken. Besonders auffällig: Frauen wurden häufiger dazu aufgefordert, sich selbst zu behandeln oder bekamen seltener den Hinweis, einen Arzt aufzusuchen – obwohl der medizinische Inhalt der Anfrage derselbe war.
Benachteiligt werden offenbar auch Menschen, die sich unsicher ausdrücken, einfache Sprache nutzen oder mal einen Tippfehler drin haben – also etwa technikferne Nutzer, Personen mit wenig Gesundheitswissen oder Menschen mit eingeschränkten Sprachkenntnissen beziehungsweise nicht-Muttersprachler.
Die Forschenden machen deutlich: Bevor KI-Systeme im Gesundheitswesen großflächig eingesetzt werden, braucht es gründliche Prüfungen – und zwar nicht nur im Durchschnitt, sondern gezielt für einzelne Gruppen. Denn bloße Durchschnittswerte bei der Genauigkeit sagen wenig darüber aus, wie fair und verlässlich ein Modell tatsächlich ist – vor allem, wenn Sprache, Stil oder Ausdrucksweise von der Norm abweichen.
YouTube: Zwischen Lob und Gänsehaut
In einem begleitenden YouTube-Video wird die Studie zwar für ihre clevere und realitätsnahe Herangehensweise gelobt – die Ergebnisse selbst werden allerdings als „beunruhigend“ und „eiskalt“ beschrieben. Dass genau solche äußeren Faktoren medizinische Antworten beeinflussen, widerspricht komplett dem Bild, das viele von objektiver, neutraler KI haben.










