Wer mit KI-Modellen für verschiedene Aufgaben – insbesondere in der Programmierung – gearbeitet hat, kennt das Problem: Die Tools verhalten sich oft inkonsistent. Mal liefern sie keine Antwort, mal fehlerhaften Code, und selbst wenn das Ergebnis korrekt ist, geschieht dies häufig langsamer als erwartet. Genau hier setzt das KI-Benchmark-Tool von AistupidLevel.info an. Es bietet Echtzeitinformationen zur Leistung und Genauigkeit verschiedener KI-Modelle, inklusive Kostendaten.
Das Open-Source-Tool führt mehr als 140 Aufgaben aus den Bereichen Codierung, Debugging und Optimierung auf allen großen Modellen aus. Aktuell werden OpenAI GPT, Claude und Gemini überwacht, Grok folgt in Kürze. Highlights des Tools:
- Echtzeit-Preisinformationen: Modelle, die günstig wirken, benötigen teils 10 Iterationen pro Aufgabe, während teurere Modelle dieselbe Aufgabe in nur 2 Iterationen lösen – und damit effektiver sind.
- Eigene API-Schlüssel: Benchmarks lassen sich direkt mit Schlüsseln von OpenAI, xAI, Anthropic oder Google durchführen.
- Echtzeit-Monitoring: Live-Rankings der Modelle basierend auf „Dummheit“ und Intelligenz.
- Intelligente Empfehlungen: Vorschläge auf Basis kombinierter Leistungswerte.
- Verschlechterungs-Alerts: Etwa fiel die Leistung von Gemini-2.5-Flash zuletzt um 44 % gegenüber dem Basiswert.
Die aktuellen Empfehlungen lauten: Gemini-2.5-Flash-Lite für Code, Claude-3.5-Sonnet-20241022 für Zuverlässigkeit und erneut Gemini-2.5-Flash-Lite für Geschwindigkeit. Das gesamte Projekt ist auf GitHub (API- und Frontend-Repository) als Open Source verfügbar – Beiträge der Community sind ausdrücklich willkommen. Alle weiteren Informationen sowie das Tool selbst finden sich auf der offiziellen Website (siehe erster Absatz).
Quelle(s)
Reddit (übersetzt)








