Eine Überlegenheit künstlicher Intelligenz gegenüber Menschen wird von OpenAI erstmals systematisch anhand realer Arbeitsaufgaben untersucht. Mit GDPval präsentiert das Unternehmen eine neue Methode, um die Leistung von Modellen bei wirtschaftlich relevanten Tätigkeiten zu messen. Ziel ist es, nicht länger nur akademische Benchmarks zu betrachten, sondern authentische Arbeitsergebnisse, wie sie in Unternehmen und Organisationen anfallen.
OpenAI beschreibt GDPval als
„a new evaluation that measures model performance on economically valuable, real-world tasks“.
Breite Datenbasis
Für die erste Version wurden Aufgaben aus 44 Berufen in neun Industriezweigen ausgewählt. In die Analyse flossen insgesamt 1.320 spezialisierte Tätigkeiten ein, von denen ein Teil als offenes Gold-Set zugänglich ist. Beispiele reichen von juristischen Schriftsätzen über technische Zeichnungen bis hin zu Pflegeplänen. Die Aufgaben stammen direkt aus den Berufsfeldern, die den größten Anteil am Bruttoinlandsprodukt haben, und sollen ein realistisches Bild der Arbeitswelt abbilden.
Bewertungsverfahren
Die Auswertung erfolgt über Blindtests. Fachleute vergleichen anonymisierte Ergebnisse von Menschen und Modellen und entscheiden anhand standardisierter Kriterien, ob die Lösung besser, gleichwertig oder schlechter ist. Zusätzlich setzt OpenAI einen automatischen Grader ein, der die Urteile der Expertinnen und Experten approximiert. Dieser soll die Forschung unterstützen, ersetzt jedoch nicht die manuelle Begutachtung.
Ergebnisse der Studie
Die Resultate zeigen, dass moderne Modelle in vielen Fällen auf Augenhöhe mit menschlichen Profis liegen. So wird berichtet, dass einzelne Modelle in nahezu der Hälfte der Fälle Ergebnisse liefern, die als gleichwertig oder besser eingestuft wurden. In den Worten des Reports: „produced outputs rated as good as or better than humans in just under half the tasks.“ Besonders auffällig ist, dass unterschiedliche Modelle unterschiedliche Stärken aufweisen. Einige zeichnen sich durch bessere ästhetische Gestaltung und Formatierung aus, andere punkten durch höhere Genauigkeit in fachlichen Detailfragen.
Geschwindigkeit und Kosten
Neben der inhaltlichen Qualität hebt OpenAI hervor, dass die bearbeiteten Aufgaben deutlich effizienter erledigt werden können. Nach Angaben des Reports bewältigen aktuelle Frontier-Modelle die GDPval-Aufgaben rund 100-mal schneller und günstiger als menschliche Expertinnen und Experten, wenn reine Inferenzzeiten und API-Kosten zugrunde gelegt werden. OpenAI betont jedoch, dass diese Werte den zusätzlichen Aufwand für Überprüfung und Integration in reale Prozesse nicht berücksichtigen.
Einschränkungen
Die Evaluation ist bewusst als erste Version konzipiert. Gegenwärtig konzentriert sich GDPval auf einmalige Aufgabenstellungen, die ohne Interaktion und längere Rückkopplung bearbeitet werden. Iterative Abläufe, wie sie in vielen Berufsfeldern üblich sind, werden bislang nicht erfasst. OpenAI benennt diese Limitationen offen und kündigt an, künftige Versionen stärker auf Kontext, Interaktion und Mehrdeutigkeit auszurichten.
Ausblick
Mit GDPval legt OpenAI ein Instrument vor, das die Leistungsfähigkeit von KI-Modellen auf realwirtschaftlich relevante Weise messbar macht. Historisch betrachtet dauerte es bei vielen Technologien Jahre, bis ein systematischer Vergleich mit menschlicher Arbeit möglich war. GDPval eröffnet nun die Möglichkeit, Fortschritt und wirtschaftliche Auswirkungen laufend zu beobachten. Ob dies langfristig zu neuen Tätigkeitsprofilen oder zu veränderten Anforderungen in den betroffenen Berufen führt, hängt weniger von einzelnen Testergebnissen ab als von der Art, wie Unternehmen die Modelle in ihre Abläufe einbinden.

















