Notebookcheck Logo

GPT-5.5 dominiert €1.300-Hacking-Test, während Gemini den Versuch komplett verweigert

Neben anderen KI-Modellen lieferten Claude, Gemini, GPT und DeepSeek einige der interessantesten Erkenntnisse
ⓘ Anthropic, OpenAI, DeepSeek, Google - edited
Neben anderen KI-Modellen lieferten Claude, Gemini, GPT und DeepSeek einige der interessantesten Erkenntnisse
Ein Sicherheitsforscher investierte 1.500 US-Dollar (etwa 1.300 Euro), um mehr als 13 KI-Modelle gegen eine absichtlich sicherheitsanfällige App antreten zu lassen. GPT-5.5 führte das Feld mit einer Erfolgsquote von 70 % an, DeepSeek V4 Pro löste die Aufgabe für 0,62 US-Dollar (etwa 0,53 Euro) pro Versuch, und Gemini verweigerte die Mitarbeit fast vollständig.

Ein Sicherheitsforscher hat gerade einen der aufschlussreichsten KI-Leistungstests des Jahres veröffentlicht. Die Ergebnisse sagen viel darüber aus, wo die verschiedenen Modelle derzeit tatsächlich stehen. Kasra Rahjerdi, der beruflich im Bereich App-Sicherheitsforschung tätig ist, entwickelte eine absichtlich sicherheitsanfällige Buchrezensions-App.

Diese enthielt eine praxisnahe Exploit-Klasse: Offengelegte Firebase-Zugangsdaten innerhalb der APK, die einen direkten Datenbankzugriff ermöglichen und eine ansonsten abgesicherte API komplett umgehen. Anschließend setzte er über ein Dutzend KI-Modelle auf diese Herausforderung an – jedem Modell standen pro Durchlauf ein Budget von 10 US-Dollar (etwa 8,60 Euro) und zwei Stunden Zeit zur Verfügung, was insgesamt zu Kosten von 1.500 US-Dollar (etwa 1.300 Euro) führte.

GPT-5.5 ging als klarer Sieger hervor. Das Modell löste die Aufgabe in 7 von 10 Durchläufen zu Kosten von 9,46 US-Dollar (etwa 8 Euro) pro erfolgreichem Versuch. Fast jeder erfolgreiche Durchlauf konzentrierte sich direkt nach dem Entpacken der APK auf Firebase, ohne sich von der API oder der App selbst ablenken zu lassen.

Screenshots der absichtlich anfälligen Buchrezensions-App

DeepSeek V4 Pro war der Champion in Sachen Kosteneffizienz – es löste 3 von 10 Durchläufen für gerade einmal 0,62 US-Dollar (etwa 0,53 Euro) pro Erfolg. Damit ist es pro gelöstem Versuch etwa 15-mal günstiger als GPT-5.5, trotz einer niedrigeren Erfolgsquote. Für jeden, der Sicherheits-Tools im großen Stil betreibt, dürfte dieser Unterschied enorm ins Gewicht fallen.

Claude Sonnet 4.6 und Claude Opus 4.8 lösten jeweils 2 von 10 Durchläufen, wobei insbesondere Opus mehrmals kurz vor dem Ziel stand, bevor Sicherheitsbeschränkungen die Sitzung beendeten. Das Schlusslicht bildet Gemini. Gemini 3.1 Pro Preview verweigerte in fast jedem Durchlauf sofort die Mitarbeit, was sich in einer medianen Token-Anzahl von nur 9.000 widerspiegelt – im Vergleich zu über 100.000 bei jedem anderen getesteten Modell.

Kasra beobachtete, dass chinesische Modelle weitaus eher bereit waren, direkt mit Live-Datenbanken zu interagieren, während westliche Modelle mitten in der Aufgabe mehr Zögern zeigten – selbst dann, wenn sie den richtigen Ansatz bereits identifiziert hatten. Der Forscher fügt hinzu, dass dies keineswegs eine wissenschaftliche Evaluierung sei, sondern lediglich ein gut dokumentiertes Experiment.

Google LogoAls bevorzugte Quelle auf Google hinzufügen
Mail Logo
static version load dynamic
Loading Comments
Diesen Artikel kommentieren / Antworten
> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2026-06 > GPT-5.5 dominiert €1.300-Hacking-Test, während Gemini den Versuch komplett verweigert
Autor: Anubhav Sharma,  4.06.2026 (Update:  4.06.2026)