In einem elfseitigen Positionspapier fordern die Wissenschaftler, eine Offenlegung der CoT (Akronym für: Chain-of-Thought), also der „Gedankenkette“ von KI-Modellen mittels standardisierten Verfahren. Die Forscher befürchten, dass ohne Kontrolle Artifical Intelligence Modelle ihre Schritte stark komprimieren, sodass Menschen sie nicht mehr nachvollziehen können.
Ein praktischer Anwendungsfall wäre das sogenannte Reinforcement Learning (RL). Bei diesen Modellen lernt der KI-Agent (häufig auch Software Agent genannt) durch Interaktion mit seiner Umwelt Entscheidungen zu treffen. Je leistungsfähiger diese Modelle werden, desto stärker fällt die Komprimierung von Einzelschritten aus.
Industrie in die Pflicht nehmen
In Zukunft könnten leistungsfähige Modelle Teilschritte vorenthalten (wie oben erwähnt durch starke Komprimierung) und so der Nachvollziehbarkeit entgegenwirken. Daher fordern die Wissenschaftler in ihrem Papier (zum PDF-Download), von den Techunternehmen die Entwicklung standardisierter Metriken und Evaluierungen, um so eine gewisse Transparenz zu erreichen.
Im Anschluss sollen die Erkenntnisse in sogenannte „System Cards“ eingefügt werden. Auf Basis dieser Karten sollen Entwickler schließlich entscheiden, ob ihr KI-Modell bereit und sicher genug für die Veröffentlichung ist oder ob noch Handlungsbedarf vorliegt.
Überwachungsmaßnahmen als zusätzliche Sicherheitsebene
Den Autoren ist bekannt, dass neue KI-Modelle immer leistungsfähiger werden. Die CoT-Überwachung ist daher nicht als Allheilmittel, sondern als weitere Sicherheitsebene anzusehen. Daher soll die Maßnahme in Zukunft andere Ansätze, wie die „Mechanistic Interpretability“ von Anthropic unterstützen.
Beim letztgenannten Ansatz handelt es sich mehrere Maßnahmen, die darauf ausgelegt sind, Merkmale von KI-Modellen zu erkennen, welche das Verhalten der KI gezielt verändern könnten.
Quelle(n)
Tomekkorbak Bildquelle: Google DeepMind







