GPT-5.5 dominiert €1.300-Hacking-Test, während Gemini den Versuch komplett verweigert

Ein Sicherheitsforscher hat gerade einen der aufschlussreichsten KI-Leistungstests des Jahres veröffentlicht. Die Ergebnisse sagen viel darüber aus, wo die verschiedenen Modelle derzeit tatsächlich stehen. Kasra Rahjerdi, der beruflich im Bereich App-Sicherheitsforschung tätig ist, entwickelte eine absichtlich sicherheitsanfällige Buchrezensions-App.
Diese enthielt eine praxisnahe Exploit-Klasse: Offengelegte Firebase-Zugangsdaten innerhalb der APK, die einen direkten Datenbankzugriff ermöglichen und eine ansonsten abgesicherte API komplett umgehen. Anschließend setzte er über ein Dutzend KI-Modelle auf diese Herausforderung an – jedem Modell standen pro Durchlauf ein Budget von 10 US-Dollar (etwa 8,60 Euro) und zwei Stunden Zeit zur Verfügung, was insgesamt zu Kosten von 1.500 US-Dollar (etwa 1.300 Euro) führte.
GPT-5.5 ging als klarer Sieger hervor. Das Modell löste die Aufgabe in 7 von 10 Durchläufen zu Kosten von 9,46 US-Dollar (etwa 8 Euro) pro erfolgreichem Versuch. Fast jeder erfolgreiche Durchlauf konzentrierte sich direkt nach dem Entpacken der APK auf Firebase, ohne sich von der API oder der App selbst ablenken zu lassen.
DeepSeek V4 Pro war der Champion in Sachen Kosteneffizienz – es löste 3 von 10 Durchläufen für gerade einmal 0,62 US-Dollar (etwa 0,53 Euro) pro Erfolg. Damit ist es pro gelöstem Versuch etwa 15-mal günstiger als GPT-5.5, trotz einer niedrigeren Erfolgsquote. Für jeden, der Sicherheits-Tools im großen Stil betreibt, dürfte dieser Unterschied enorm ins Gewicht fallen.
Claude Sonnet 4.6 und Claude Opus 4.8 lösten jeweils 2 von 10 Durchläufen, wobei insbesondere Opus mehrmals kurz vor dem Ziel stand, bevor Sicherheitsbeschränkungen die Sitzung beendeten. Das Schlusslicht bildet Gemini. Gemini 3.1 Pro Preview verweigerte in fast jedem Durchlauf sofort die Mitarbeit, was sich in einer medianen Token-Anzahl von nur 9.000 widerspiegelt – im Vergleich zu über 100.000 bei jedem anderen getesteten Modell.
Kasra beobachtete, dass chinesische Modelle weitaus eher bereit waren, direkt mit Live-Datenbanken zu interagieren, während westliche Modelle mitten in der Aufgabe mehr Zögern zeigten – selbst dann, wenn sie den richtigen Ansatz bereits identifiziert hatten. Der Forscher fügt hinzu, dass dies keineswegs eine wissenschaftliche Evaluierung sei, sondern lediglich ein gut dokumentiertes Experiment.






