Notebookcheck Logo

Open-Source-Tool misst den „Dummheitsfaktor“ von KI-Modellen

KI-Modelle sind nicht stabil (Bildquelle: erstellt mit OpenAI)
KI-Modelle sind nicht stabil (Bildquelle: erstellt mit OpenAI)
Ein neu entwickeltes Open-Source-Tool überwacht in Echtzeit führende KI-Modelle wie OpenAI GPT-5, Claude Opus 4 und Gemini 2.5 Pro. Erstmals ist es damit möglich, automatisch festzustellen, ob Anbieter die Modellleistung aus Kostengründen drosseln. Nutzer können Benchmarks außerdem direkt mit ihren eigenen API-Schlüsseln von OpenAI, xAI, Anthropic oder Google starten.

Wer mit KI-Modellen für verschiedene Aufgaben – insbesondere in der Programmierung – gearbeitet hat, kennt das Problem: Die Tools verhalten sich oft inkonsistent. Mal liefern sie keine Antwort, mal fehlerhaften Code, und selbst wenn das Ergebnis korrekt ist, geschieht dies häufig langsamer als erwartet. Genau hier setzt das KI-Benchmark-Tool von AistupidLevel.info an. Es bietet Echtzeitinformationen zur Leistung und Genauigkeit verschiedener KI-Modelle, inklusive Kostendaten.

Das Open-Source-Tool führt mehr als 140 Aufgaben aus den Bereichen Codierung, Debugging und Optimierung auf allen großen Modellen aus. Aktuell werden OpenAI GPT, Claude und Gemini überwacht, Grok folgt in Kürze. Highlights des Tools:

  • Echtzeit-Preisinformationen: Modelle, die günstig wirken, benötigen teils 10 Iterationen pro Aufgabe, während teurere Modelle dieselbe Aufgabe in nur 2 Iterationen lösen – und damit effektiver sind.
  • Eigene API-Schlüssel: Benchmarks lassen sich direkt mit Schlüsseln von OpenAI, xAI, Anthropic oder Google durchführen.
  • Echtzeit-Monitoring: Live-Rankings der Modelle basierend auf „Dummheit“ und Intelligenz.
  • Intelligente Empfehlungen: Vorschläge auf Basis kombinierter Leistungswerte.
  • Verschlechterungs-Alerts: Etwa fiel die Leistung von Gemini-2.5-Flash zuletzt um 44 % gegenüber dem Basiswert.

Die aktuellen Empfehlungen lauten: Gemini-2.5-Flash-Lite für Code, Claude-3.5-Sonnet-20241022 für Zuverlässigkeit und erneut Gemini-2.5-Flash-Lite für Geschwindigkeit. Das gesamte Projekt ist auf GitHub (API- und Frontend-Repository) als Open Source verfügbar – Beiträge der Community sind ausdrücklich willkommen. Alle weiteren Informationen sowie das Tool selbst finden sich auf der offiziellen Website (siehe erster Absatz).

Quelle(s)

Reddit (übersetzt)

static version load dynamic
Loading Comments
Diesen Artikel kommentieren / Antworten
Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!
Mail Logo
> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2025-09 > Open-Source-Tool misst den „Dummheitsfaktor“ von KI-Modellen
Autor: Codrut Nistor, 18.09.2025 (Update: 18.09.2025)