Gemma 4 auf Hugging Face: Googles Oster-Überraschung zum Download

Gemma-4

Google veröffentlicht Gemma 4: Die neue Modellfamilie (E2B bis 31B) bringt Reasoning-Fähigkeiten und Multimodalität direkt auf Laptop und Smartphone. Mit einem riesigen Kontextfenster von bis zu 256K Tokens und Apache 2.0-Lizenz setzt Google ein Zeichen für freie lokale KI.

Marc Herter, Veröffentlicht am 02.04.2026 🇺🇸 🇪🇸 ...

Kurz vor Ostern hat Google ein dickes Ei auf Hugging Face versteckt. Das von der Community lang erwartete Gemma 4 ist nun zum Download verfügbar. Den Start machen vier verschiedene Größenklassen: E2B, E4B, 26B A4B sowie 31B. Da alle Modelle einen integrierten „Thinking“-Modus haben, sind sie in der Lage, komplexe Probleme schrittweise zu durchdenken, bevor sie eine Antwort ausgeben. Gemma 4 ist dabei so beliebt, dass es bereits wenige Stunden nach dem Release in Programmen wie LM Studio oder Unsloth lokal nutzbar sind.

Laut Google setzt die neue Generation vor allem auf Effizienz statt auf reine Größe. Ein deutlicher Fortschritt gegenüber der Vorgängerversion Gemma 3 zeigt sich darin, dass die kleinsten Modelle der aktuellen Serie laut diverser Benchmarks bereits ein Leistungsniveau erreichen, das dem größten Modell von Gemma 3 ebenbürdig ist. Das bedeutet konkret: Aufgaben, für die man früher leistungsstarke Hardware benötigt hätte, lassen sich nun sogar lokal auf dem Smartphone erledigen.

Die Architektur der Modelle wurde je nach Einsatzgebiet unterschiedlich gestaltet. Während bei der 31B-Variante eine einigermaßen klassische Struktur zum Einsatz kommt, nutzt die Variante 26B-A4B ein sogenanntes Mixture-of-Experts-Verfahren (MoE). Hierbei werden während der eigentlichen Berechnung – der sogenannten Inferenz – nur etwa vier Milliarden Parameter aktiviert, obwohl das Modell insgesamt 26 Milliarden Parameter besitzt. Das sorgt trotz umfangreichen Wissens des Modells für eine hohe Geschwindigkeit und moderaten Ressourcenverbrauch. Die kleineren Modelle E2B und E4B nutzen hingegen die Technik der Per-Layer-Embeddings (PLE). Dabei erhält jede Schicht des Modells spezialmäßigere Informationen für jedes Token – also die kleinste Informationseinheit von Text oder Bild –, was den Einsatz auf mobilen Prozessoren optimiert.

Auch beim Kontextfenster, also der Menge an Daten, die das Modell gleichzeitig „im Kopf“ behalten kann, gibt es Fortschritte. Bei den E2B- und E4B-Modellen beträgt dieser Bereich 128.000 Tokens, während die größeren Varianten (26B A4B und 31B) bis zu 256.000 Tokens verarbeiten können. Ein Token entspricht dabei etwa einem Wort oder einer Silbe. Diese Kapazität ermöglicht es, sehr umfangreiche Dokumente oder komplexe Code-Strukturen in einem einzigen Arbeitsgang zu analysieren.

Die Multimodalität ist fest in Gemma 4 integriert und erlaubt es, Texte und Bilder beliebig gemischt in einer Anfrage zu nutzen. Die Modelle beherrschen Aufgaben wie die Objekterkennung, das Auslesen von PDF-Dokumenten oder die optische Zeichenerkennung (OCR – Optical Character Recognition). Bei den Edge-Modellen E2B und E4B kommt zusätzlich die native Verarbeitung von Video- und Audioformaten hinzu, was unter anderem die automatische Spracherkennung ermöglicht.

Ein praktisches Feature ist die native Unterstützung für „Function Calling“. Das erlaubt es der KI, wie ein kleiner Assistent selbstständig Softwarebefehle oder externe Werkzeuge zu nutzen, um Aufgaben zu erledigen. Ein klares Beispiel für solche automatisierten Abläufe ist das in China gerade sehr beliebte Tool „OpenClaw“, das genau auf dieses Prinzip der KI-Agenten setzt. Mit Gemma 4 sollte es nun wesentlich einfacher werden, solche Systeme komplett auf dem eigenen Gerät laufen zu lassen.

Auch rechtlich gibt es gute Nachrichten: Die Modelle stehen unter der Apache-2.0-Lizenz. Das bedeutet, dass sie nicht nur kostenfrei genutzt, sondern auch flexibel in eigene Projekte integriert und kommerziell verwendet werden können, was die Hürden für Entwickler deutlich senkt. Bisher wurden alle Gemma-Modelle unter einer von Google eigens verfassten Lizenz veröffentlicht.

Unsere ersten Tests mit Googles neuen Modellen unterstreichen die sprachlichen Kapazitäten der Modelle. Gemma 4 spricht ausgesprochen gut Deutsch. Deutlich wird auch die gestiegene Effizienz. Wir haben Gemma 4 31B auf dem Bosgame M5 unter LM Studio immerhin eine Antwortgeschwindigkeit von etwas mehr als 10 Token pro Sekunde (tok/s) entlockt. Damit schreibt das Modell hier schneller, als der durchschnittliche Leser die Informationen erfassen kann. Richtig flink sind die kleineren Modelle. E4B und 26B A4B erreichen Geschwindigkeiten von deutlich über 40 tok/s das kleinste sogar über 60 tok/s. Will man mit dem größten Gemma 4 Modell allerdings die volle Kontextgröße ausschöpfen, werden selbst die 128 GB Arbeitsspeicher des Bosgame M5 etwas knapp. Mehr als 80 GB versucht sich die KI dann zu sichern, womit wenig Arbeitsspeicher für andere Aufgaben bereitsteht.