Open-Source-Tool misst den „Dummheitsfaktor“ von KI-Modellen

KI-Modelle sind nicht stabil (Bildquelle: erstellt mit OpenAI)

Ein neu entwickeltes Open-Source-Tool überwacht in Echtzeit führende KI-Modelle wie OpenAI GPT-5, Claude Opus 4 und Gemini 2.5 Pro. Erstmals ist es damit möglich, automatisch festzustellen, ob Anbieter die Modellleistung aus Kostengründen drosseln. Nutzer können Benchmarks außerdem direkt mit ihren eigenen API-Schlüsseln von OpenAI, xAI, Anthropic oder Google starten.

Codrut Nistor (übersetzt von Carmen Pol), Veröffentlicht am 18.09.2025 🇺🇸 🇪🇸 ...

Wer mit KI-Modellen für verschiedene Aufgaben – insbesondere in der Programmierung – gearbeitet hat, kennt das Problem: Die Tools verhalten sich oft inkonsistent. Mal liefern sie keine Antwort, mal fehlerhaften Code, und selbst wenn das Ergebnis korrekt ist, geschieht dies häufig langsamer als erwartet. Genau hier setzt das KI-Benchmark-Tool von AistupidLevel.info an. Es bietet Echtzeitinformationen zur Leistung und Genauigkeit verschiedener KI-Modelle, inklusive Kostendaten.

Das Open-Source-Tool führt mehr als 140 Aufgaben aus den Bereichen Codierung, Debugging und Optimierung auf allen großen Modellen aus. Aktuell werden OpenAI GPT, Claude und Gemini überwacht, Grok folgt in Kürze. Highlights des Tools:

Echtzeit-Preisinformationen: Modelle, die günstig wirken, benötigen teils 10 Iterationen pro Aufgabe, während teurere Modelle dieselbe Aufgabe in nur 2 Iterationen lösen – und damit effektiver sind.
Eigene API-Schlüssel: Benchmarks lassen sich direkt mit Schlüsseln von OpenAI, xAI, Anthropic oder Google durchführen.
Echtzeit-Monitoring: Live-Rankings der Modelle basierend auf „Dummheit“ und Intelligenz.
Intelligente Empfehlungen: Vorschläge auf Basis kombinierter Leistungswerte.
Verschlechterungs-Alerts: Etwa fiel die Leistung von Gemini-2.5-Flash zuletzt um 44 % gegenüber dem Basiswert.

Die aktuellen Empfehlungen lauten: Gemini-2.5-Flash-Lite für Code, Claude-3.5-Sonnet-20241022 für Zuverlässigkeit und erneut Gemini-2.5-Flash-Lite für Geschwindigkeit. Das gesamte Projekt ist auf GitHub (API- und Frontend-Repository) als Open Source verfügbar – Beiträge der Community sind ausdrücklich willkommen. Alle weiteren Informationen sowie das Tool selbst finden sich auf der offiziellen Website (siehe erster Absatz).

Quelle(s)

Reddit (übersetzt)

Verwandte Artikel

Loading Comments

Diesen Artikel kommentieren / Antworten

⟨

Ältere News

Oppo Find X9 Pro mit 50/200 MP Foto-Standard toppt 24 MP im iPhone 17 Pro. Hasselblad-Kamera-Kit auch global laut Leaker

Neuere News

Epic Games verschenkt sehr gut bewertetes PC-Spiel (Steam Deck-kompatibel) und DLC für kostenloses Mobile Game

⟩

Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!

Autor des Originals: Codrut Nistor - Senior Tech Writer - 6718 Artikel auf Notebookcheck veröffentlicht seit 2013

Während meiner Schulzeit habe ich es gehasst, zu schreiben und Geschichten zu erfinden. Ein Jahrzehnt später wendete sich das Blatt. Seither habe ich einige Offline-Artikel veröffentlicht und bin dann in den Online-Bereich gewechselt, wo ich für große Websites, die auch 2021 noch online sind, wie Softpedia, Brothersoft, Download3000, aber ich auch für mehrere Blogs geschrieben habe, die im Laufe der Jahre verschwunden sind. Seit 2013 bin ich mit der Notebookcheck-Crew unterwegs und habe nicht vor, sie in nächster Zeit zu verlassen. Ein Faible habe ich für gute mechanische Tastaturen, Vinyl und Tape Sound, aber auch Smartphones, Streaming-Dienste und digitale Kunst.

Kontakt: @online_digi, online.digital.craft, LinkedIn

Übersetzer: Carmen Pol - Translator - 1073 Artikel auf Notebookcheck veröffentlicht seit 2023

Nachdem ich den größten Teil meiner frühen Jahre in Deutschland verbracht hatte, wurde meine Erziehung als zweisprachiges Kind erleichtert. Im Jahr 2007 fand ich mich wöchentlich gezwungen, mein Windows-Betriebssystem neu zu installieren ... Also besorgte ich mir eines Tages ein MacBook Black. Es war während dieser Zeit, dass ich eine tiefe Wertschätzung für Technologie entwickelte, die mein Leben erheblich verbesserte.

> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2025-09 > Open-Source-Tool misst den „Dummheitsfaktor“ von KI-Modellen

Autor: Codrut Nistor, 18.09.2025 (Update: 18.09.2025)