KI-Duell: Grok beeindruckt Mrwhosetheboss – ChatGPT sichert sich den Sieg

Gemini, ChatGPT, Grok, und Perplexity (Bildquelle: Gemini)

In einem auf YouTube veröffentlichten Video testete Mrwhosetheboss vier KI-Modelle verschiedener Anbieter und bewertete ihre Leistung in unterschiedlichen Aufgabenbereichen. Dabei reichte das Spektrum von einfachen Abfragen bis hin zu komplexen Fragestellungen und Recherchen – und brachte jedes Modell an seine Grenzen.

Chibuike Okpara (übersetzt von Carmen Pol), Veröffentlicht am 04.07.2025 🇺🇸 🇪🇸 ...

Mrwhosetheboss prüfte in dem Video die vier KI-Modelle Grok (Version 3), Gemini (2.5 Pro), ChatGPT (GPT-4o) und Perplexity (Sonar Pro). Dabei betonte er durchgehend, wie beeindruckt er von Groks Leistung war. Grok legte einen starken Start hin, schwächelte zwischenzeitlich etwas, konnte sich aber wieder fangen und landete letztlich auf dem zweiten Platz hinter ChatGPT. Zur Fairness muss man hinzufügen, dass ChatGPT und Gemini einen Vorteil hatten: Sie konnten durch ein Feature punkten, das den anderen schlicht nicht zur Verfügung steht – die Videogenerierung.

Zu Beginn des Tests überprüfte Mrwhosetheboss die Fähigkeit der KI-Modelle, reale Probleme zu lösen, und stellte ihnen folgende Frage: „Ich fahre einen Honda Civic 2017. Wie viele Aerolite 29"-Hartschalenkoffer (79 x 58 x 31 cm) passen in meinen Kofferraum?“ Grok lieferte die einfachste und zugleich korrekte Antwort: „2“. ChatGPT und Gemini erklärten, dass theoretisch 3 Koffer hineinpassen könnten, praktisch aber nur 2. Perplexity hingegen lag deutlich daneben – es führte rein rechnerische Volumenberechnungen durch, vergaß dabei aber, dass es sich nicht um formlose Objekte handelt, und kam auf „3 oder 4“.

Bei der nächsten Frage ging er nicht gerade zimperlich mit den Chatbots um – er bat um Tipps zum Backen eines Kuchens. Dabei lud er ein Bild hoch, auf dem fünf Gegenstände zu sehen waren, von denen einer nicht zum Kuchenbacken passt: ein Glas mit getrockneten Steinpilzen. Bis auf ein Modell fielen alle auf den Trick herein. ChatGPT identifizierte das Glas als mit gemahlenen Gewürzen gefüllt, Gemini meinte, es handele sich um knusprig gebratene Zwiebeln, Perplexity nannte es Instantkaffee. Nur Grok erkannte korrekt, dass es sich um ein Glas mit getrockneten Pilzen von Waitrose handelt. Hier ist das Bild, das er hochgeladen hat:

Ein bearbeitetes Bild der fünf Zutaten, die Mrwhosetheboss an KI-Chatbots übermittelt hat – mit besonderer Hervorhebung des Glases mit den Pilzen. (Bildquelle: Mrwhosetheboss; zugeschnitten)

Im weiteren Verlauf testete er die Modelle in den Bereichen Mathematik, Produktempfehlungen, Buchhaltung, Sprachübersetzung, logisches Denken und mehr. Eines war bei allen gleich: Halluzinationen. Jedes der Modelle zeigte an mehreren Stellen im Video eine gewisse Neigung dazu, also das Erfinden von Informationen, die schlicht nicht existieren, und zwar mit absoluter Überzeugung. So schnitt jede KI am Ende ab:

ChatGPT (29 Punkte)
Grok (24 Punkte)
Gemini (22 Punkte)
Perplexity (19 Punkte)

Künstliche Intelligenz hat viele Aufgaben deutlich erleichtert, besonders seit dem Aufkommen großer Sprachmodelle (LLMs). Das Buch KI Erfolgreich Einsetzen (aktuell 15,50 Euro auf Amazon) ist ein hilfreicher Leitfaden, um die Potenziale der KI besser zu verstehen und gezielt anzuwenden.

Quelle(n)

Mrwhosetheboss

Verwandte Artikel

Loading Comments

Diesen Artikel kommentieren / Antworten

⟨

Ältere News

Epic Games enthüllt kostenlose Spiele der kommenden Woche im Wert von fast 40 Euro

Neuere News

Steam Summer Sale: Eines der besten Open-World-AAA-Action-RPG von Ubisoft jetzt mit 85% Rabatt

⟩

Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!

Autor des Originals: Chibuike Okpara - Tech Writer - 405 Artikel auf Notebookcheck veröffentlicht seit 2024

I have always been fascinated by technology and digital devices my entire life and even got addicted to it. I have always marveled at the intricacy of even the simplest digital devices and systems around us. I have been writing and publishing articles online for about 6 years now, just about a year ago, I found myself lost in the marvel of smartphones and laptops we have in our hands every day. I developed a passion for learning about new devices and technologies that come with them and at some point, I asked myself, "Why not get into writing tech articles?" It is useless to say I followed up the idea — it is evident. I am an open-minded individual who derives an infinite amount of joy from researching and discovering new information, I believe there is so much to learn and such a short life to live, so I put my time to good use — learning new things. I am a 'bookworm' of the internet and digital devices. When I am not writing, you will find me on my devices still, I do explore and admire the beauty of nature and creatures. I am a fast learner and quickly adapt to changes, always looking forward to new adventures.

Übersetzer: Carmen Pol - Translator - 1083 Artikel auf Notebookcheck veröffentlicht seit 2023

Nachdem ich den größten Teil meiner frühen Jahre in Deutschland verbracht hatte, wurde meine Erziehung als zweisprachiges Kind erleichtert. Im Jahr 2007 fand ich mich wöchentlich gezwungen, mein Windows-Betriebssystem neu zu installieren ... Also besorgte ich mir eines Tages ein MacBook Black. Es war während dieser Zeit, dass ich eine tiefe Wertschätzung für Technologie entwickelte, die mein Leben erheblich verbesserte.

> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2025-07 > KI-Duell: Grok beeindruckt Mrwhosetheboss – ChatGPT sichert sich den Sieg

Autor: Chibuike Okpara, 4.07.2025 (Update: 4.07.2025)