GPT-5.5 dominiert €1.300-Hacking-Test, während Gemini den Versuch komplett verweigert

ⓘ Anthropic, OpenAI, DeepSeek, Google - edited

Neben anderen KI-Modellen lieferten Claude, Gemini, GPT und DeepSeek einige der interessantesten Erkenntnisse

Ein Sicherheitsforscher investierte 1.500 US-Dollar (etwa 1.300 Euro), um mehr als 13 KI-Modelle gegen eine absichtlich sicherheitsanfällige App antreten zu lassen. GPT-5.5 führte das Feld mit einer Erfolgsquote von 70 % an, DeepSeek V4 Pro löste die Aufgabe für 0,62 US-Dollar (etwa 0,53 Euro) pro Versuch, und Gemini verweigerte die Mitarbeit fast vollständig.

Anubhav Sharma (übersetzt von Nicole Dominikowski), Veröffentlicht am 04.06.2026 🇺🇸 🇪🇸 ...

AI Security

Ein Sicherheitsforscher hat gerade einen der aufschlussreichsten KI-Leistungstests des Jahres veröffentlicht. Die Ergebnisse sagen viel darüber aus, wo die verschiedenen Modelle derzeit tatsächlich stehen. Kasra Rahjerdi, der beruflich im Bereich App-Sicherheitsforschung tätig ist, entwickelte eine absichtlich sicherheitsanfällige Buchrezensions-App.

Diese enthielt eine praxisnahe Exploit-Klasse: Offengelegte Firebase-Zugangsdaten innerhalb der APK, die einen direkten Datenbankzugriff ermöglichen und eine ansonsten abgesicherte API komplett umgehen. Anschließend setzte er über ein Dutzend KI-Modelle auf diese Herausforderung an – jedem Modell standen pro Durchlauf ein Budget von 10 US-Dollar (etwa 8,60 Euro) und zwei Stunden Zeit zur Verfügung, was insgesamt zu Kosten von 1.500 US-Dollar (etwa 1.300 Euro) führte.

GPT-5.5 ging als klarer Sieger hervor. Das Modell löste die Aufgabe in 7 von 10 Durchläufen zu Kosten von 9,46 US-Dollar (etwa 8 Euro) pro erfolgreichem Versuch. Fast jeder erfolgreiche Durchlauf konzentrierte sich direkt nach dem Entpacken der APK auf Firebase, ohne sich von der API oder der App selbst ablenken zu lassen.

Screenshots der absichtlich anfälligen Buchrezensions-App

DeepSeek V4 Pro war der Champion in Sachen Kosteneffizienz – es löste 3 von 10 Durchläufen für gerade einmal 0,62 US-Dollar (etwa 0,53 Euro) pro Erfolg. Damit ist es pro gelöstem Versuch etwa 15-mal günstiger als GPT-5.5, trotz einer niedrigeren Erfolgsquote. Für jeden, der Sicherheits-Tools im großen Stil betreibt, dürfte dieser Unterschied enorm ins Gewicht fallen.

Claude Sonnet 4.6 und Claude Opus 4.8 lösten jeweils 2 von 10 Durchläufen, wobei insbesondere Opus mehrmals kurz vor dem Ziel stand, bevor Sicherheitsbeschränkungen die Sitzung beendeten. Das Schlusslicht bildet Gemini. Gemini 3.1 Pro Preview verweigerte in fast jedem Durchlauf sofort die Mitarbeit, was sich in einer medianen Token-Anzahl von nur 9.000 widerspiegelt – im Vergleich zu über 100.000 bei jedem anderen getesteten Modell.

Kasra beobachtete, dass chinesische Modelle weitaus eher bereit waren, direkt mit Live-Datenbanken zu interagieren, während westliche Modelle mitten in der Aufgabe mehr Zögern zeigten – selbst dann, wenn sie den richtigen Ansatz bereits identifiziert hatten. Der Forscher fügt hinzu, dass dies keineswegs eine wissenschaftliche Evaluierung sei, sondern lediglich ein gut dokumentiertes Experiment.

Quelle(n)

Kasra Rahjerdi

⟨

Ältere News

B&W enthüllt 805 D5 Flaggschiff-Lautsprecher mit Diamant-Hochtöner

Neuere News

Als GTA noch Konkurrenz hatte: Open-World-Action für weniger als 3 Euro auf Steam

⟩

Als bevorzugte Quelle auf Google hinzufügen

Loading Comments

Diesen Artikel kommentieren / Antworten

Verwandte Artikel

Autor des Originals: Anubhav Sharma - Senior Tech Writer - 1772 Artikel auf Notebookcheck veröffentlicht seit 2024

Most of my time goes into writing - and somehow it hasn’t stopped being fun yet. My work mainly revolves around everyday tech, gaming, watches, DIY modding, and the occasional piece on tech-policy chaos when companies and governments clash. I try to keep things simple and honest, without sounding like a product brochure. I have a Bachelor’s degree in Computer Science Engineering and an Associate Degree in English Studies from the College of New Caledonia in British Columbia, Canada. Away from articles and deadlines, life usually shifts to making music, taking photos, or trying to finish games that should have been completed months ago.

Kontakt: @lottamuzic, LinkedIn

Übersetzer: Nicole Dominikowski - Tech Writer - 3041 Artikel auf Notebookcheck veröffentlicht seit 2022

Zukunftsszenarien und fiktive Welten faszinieren mich, weshalb ich mich gerne mit Themen wie etwa AI, AR und Gaming beschäftige und auf Notebookcheck dazu schreibe. Um mich diesen Gebieten vertieft zu widmen, studierte ich nach meiner Gesellenzeit als Gold-und Silberschmiedin Design, Digitale Medien und Kunst. In meiner Freizeit mache ich außerdem Musik und verbringe viel Zeit in der Natur mit meinen Hunden.

Kontakt: Bluesky, @nicdominikowski

> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2026-06 > GPT-5.5 dominiert €1.300-Hacking-Test, während Gemini den Versuch komplett verweigert

Autor: Anubhav Sharma, 4.06.2026 (Update: 4.06.2026)