Bisherige Tests für KI-Finanzagenten bewerten vor allem, ob Aufgaben in kontrollierten Umgebungen gelöst werden. Die Realität von Finanzmärkten – insbesondere im Kryptowährungsbereich – ist jedoch sehr komplex: Informationen werden gezielt manipuliert, Fehler sind irreversibel, und jeder Fehlgriff kann Millionen kosten. Die Studie „When Hallucination Costs Millions“, veröffentlicht auf arXiv, hat genau dieses Szenario untersucht.
Die Untersuchung
Die Forschenden entwickelten den CAIA-Benchmark, ein Testfeld für KI-Finanzagenten in „adversarialen“, also schwierigen Finanzmärkten. 17 führende Modelle wurden getestet – darunter GPT-5, Claude und Gemini. Die Aufgaben reichten von der Analyse von Blockchain-Daten bis hin zur Bewertung von Projekten und Token-Ökonomien. Menschliche Vergleichsgruppen von Einsteigeranalysten dienten als Basislinie für Leistung und Zuverlässigkeit.
Mangelnde Genauigkeit ohne zusätzliche Informationsquellen
Ohne zusätzliche Informationsquellen erreicht die KI nur eine Genauigkeit von 12 bis 28 Prozent, kaum besser als eine zufällige Entscheidung. Der Grund: Ohne aktuelle Daten und spezialisierte Datenbanken kann die KI nur auf das - oft nicht aktuelle - Wissen aus ihrer Trainingsphase zugreifen.
Verbesserung durch Zusatzdaten
Nur mit Echtzeit-Daten oder Blockchain-Datenbanken steigt die Genauigkeit auf bis zu 67 Prozent. Diese Quellen liefern der KI aktuelle, verlässliche Informationen. Menschliche Einsteiger erreichen hingegen 80 Prozent.
Unsichere Quellen statt verlässlicher Daten
Trotz zusätzlicher Werkzeuge greift die KI laut den Forschern oft auf unsichere Web- und Social-Media-Daten zurück, obwohl verlässliche Blockchain-Daten zur Verfügung stehen. Das führt zu falschen Entscheidungen aufgrund der Nutzung falscher Datenquellen.
Riskanter Trial-and-Error-Ansatz
Ein weiteres Problem: Die KI setzt oft auf Trial-and-Error, also wiederholte Versuche, um Lösungen zu finden. In der Finanzwelt ist das jedoch riskant, da Fehler irreversible Verluste verursachen können und verlorenes Kapital nicht erneut investiert werden kann.
KI keine Basis der Entscheidung
Die Studie verdeutlicht damit eine entscheidende Lücke der KI: Moderne KI-Finanzagenten sind in komplexen realen Märkten schnell überfordert. Für Investoren, die KI-gestützten Finanzentscheidungen folgen wollen, heißt das: Vertrauen in KI allein ist gefährlich und sollten nicht die alleinige Basis der Entscheidung sein.
Fazit: KI-Finanzagenten sind weit von menschlicher Zuverlässigkeit entfernt
Die Untersuchung zeigt eindrücklich, dass selbst modernste KI-Finanzagenten in der Praxis weit von menschlicher Zuverlässigkeit entfernt sind. Kryptowährungen dienen hier nur als extremes Testfeld – ähnliche Schwächen dürften in anderen sensiblen Bereichen wie Cybersecurity oder kritischer Infrastruktur bestehen. Der Weg zu vertrauenswürdigen, autonomen KI-Agenten bleibt also noch lang.



















