TRUEBench von Samsung prüft KI-Produktivität im Arbeitsalltag

Galaxy KI (Bildquelle: Antony Muchiri)

Samsung hat mit TRUEBench einen neuen Benchmark vorgestellt, der nicht nur auf enge akademische Tests setzt, sondern die Leistungsfähigkeit von KI-Systemen bei realen Aufgaben im Arbeitsalltag misst. Insgesamt umfasst er 2.485 Szenarien in zehn Kategorien und zwölf Sprachen – von kurzen Eingabeaufforderungen bis hin zur Verarbeitung umfangreicher Dokumente. Die Bewertung gilt als besonders streng, da Modelle alle Anforderungen vollständig erfüllen müssen, was die Ergebnisse zwar anspruchsvoller, zugleich aber auch realistischer macht.

Antony Muchiri (übersetzt von Carmen Pol), Veröffentlicht am 26.09.2025 🇺🇸 🇪🇸 ...

Samsung AI Launch

KI-Benchmarks hatten lange Zeit Schwierigkeiten, die tatsächliche Nutzung durch Menschen realistisch abzubilden. Viele Tests konzentrieren sich nach wie vor auf englischsprachige Frage-Antwort-Szenarien, die zwar auf dem Papier solide wirken, jedoch kaum die Vielfalt der Aufgaben widerspiegeln, die im Arbeitsalltag relevant sind. Mit TRUEBench – kurz für Trustworthy Real-world Usage Evaluation Benchmark – hat Samsung nun ein neues Verfahren vorgestellt, das die Leistungsfähigkeit von KI-Systemen näher an realen Büroanforderungen misst.

TRUEBench geht deutlich über einfache Quizfragen hinaus. Die Tests umfassen unter anderem Textzusammenfassungen, Übersetzungen in zwölf Sprachen, Datenanalysen und mehrstufige Anweisungen, bei denen die KI den Kontext über längere Passagen hinweg wahren muss. Insgesamt wurden 2.485 Testsätze in zehn Kategorien und 46 Unterkategorien entwickelt – von Eingaben mit nur wenigen Zeichen bis hin zu Texten mit über 20.000 Zeichen. Ziel ist es, sowohl kurze Befehle als auch komplexe Geschäftsberichte realistisch zu simulieren.

Paul (Kyungwhoon) Cheun, CTO der DX-Sparte bei Samsung Electronics und Leiter von Samsung Research, erklärte: „Samsung Research bringt durch seine praktische KI-Erfahrung fundiertes Fachwissen und einen klaren Wettbewerbsvorteil mit. Wir erwarten, dass TRUEBench neue Bewertungsstandards für Produktivität setzt und gleichzeitig die technologische Führungsrolle von Samsung stärkt.“

TRUEBench-KI-Tool von Samsung (Bildquelle: Samsung Newsroom)

Damit ein Modell einen Test besteht, muss es alle erforderlichen Bedingungen erfüllen – einschließlich impliziter Anforderungen, die widerspiegeln, was eine vernünftige Person erwarten würde, auch wenn diese nicht ausdrücklich genannt werden. Diese Alles-oder-Nichts-Methode macht die Bewertung zwar strenger, spiegelt jedoch besser wider, wie man in der Praxis entscheiden würde, ob ein Ergebnis wirklich nützlich ist. Samsung entwickelte die Regeln, indem menschliche Eingaben mit KI-Prüfungen kombiniert wurden: Menschliche Annotatoren legten die Ausgangsbedingungen fest, die KI identifizierte Widersprüche oder Inkonsistenzen, und anschließend verfeinerten Menschen das Framework, bevor es endgültig festgelegt wurde. Nach Fertigstellung konnte die Bewertung dann automatisiert und in großem Maßstab durchgeführt werden.

Darüber hinaus hat Samsung den Datensatz, die Ranglisten und die Ausgabestatistiken über Hugging Face veröffentlicht. Nutzer können bis zu fünf Modelle direkt vergleichen und sehen, wie ihre Ergebnisse abschneiden. Diese Transparenz ermöglicht es Entwicklern, Forschern und Anwendern, den Benchmark selbst zu überprüfen, anstatt sich ausschließlich auf Samsungs Angaben zu verlassen.

Der Benchmark ist jedoch nicht fehlerfrei. Die Festlegung der Regeln bringt immer ein gewisses Maß an Voreingenommenheit mit sich, und die strikte Forderung nach vollständigem Erfolg führt dazu, dass teilweise korrekte, dennoch hilfreiche Antworten als Fehlschläge gewertet werden. Zwar unterstützt TRUEBench mehr Sprachen als die meisten bestehenden Tests, die Leistung variiert jedoch, insbesondere bei Sprachen mit wenigen Trainingsdaten. Außerdem richtet sich der Testsatz auf allgemeine Geschäftsaufgaben, sodass hochspezialisierte Bereiche wie Recht, Medizin oder wissenschaftliche Forschung möglicherweise nicht vollständig abgedeckt werden.

Quelle(n)

Samsung Newsroom

Verwandte Artikel

Loading Comments

Diesen Artikel kommentieren / Antworten

Keine Brandgefahr: Neue Powerbank k...

Xiaomi Portable Bluetooth Speaker s...

Autor des Originals: Antony Muchiri - Tech Writer - 126 Artikel auf Notebookcheck veröffentlicht seit 2025

I’ve been obsessed with tech for as long as I can remember, so much so that I’ve become the unofficial "tech support" for my entire family. Whether it’s fixing gadgets, explaining specs, or recommending the best buys, I love breaking down tech for everyday people. That passion led me to writing about tech. When I’m not testing gadgets or writing reviews, you’ll probably find me hiking or doom-scrolling car listings (still hunting for my first ride, wish me luck, lol).

Kontakt: @TechWithMuchiri

Übersetzer: Carmen Pol - Translator - 1015 Artikel auf Notebookcheck veröffentlicht seit 2023

Nachdem ich den größten Teil meiner frühen Jahre in Deutschland verbracht hatte, wurde meine Erziehung als zweisprachiges Kind erleichtert. Im Jahr 2007 fand ich mich wöchentlich gezwungen, mein Windows-Betriebssystem neu zu installieren ... Also besorgte ich mir eines Tages ein MacBook Black. Es war während dieser Zeit, dass ich eine tiefe Wertschätzung für Technologie entwickelte, die mein Leben erheblich verbesserte.

Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!