Google DeepMind hat mit "Gemini Robotics On-Device" ein neues KI-Modell vorgestellt, das Roboter ohne ständige Cloud-Anbindung steuern kann. Das neue Modell ist eine kompaktere Version des Vision-Language-Action (VLA)-Modells Gemini Robotics, und ermöglicht es Robotern, komplexe Aufgaben direkt auf dem Gerät auszuführen. Vorteile sind laut Google DeepMind die verbesserte Geschwindigkeit, Privatsphäre und Leistung – besonders in Umgebungen mit eingeschränkter oder fehlender Netzwerkanbindung.
Was kann der neue Gemini Roboter?
Die zentrale Neuerung des Gemini Robotics On-Device ist die Funktionalität auch ohne Online-Anbindung. Im Gegensatz zu traditionellen Cloud-basierten Robotersystemen, die auf eine stabile Internetverbindung angewiesen sind, arbeitet das neue Modell vollständig auf der Hardware des Roboters. Dies eliminiert Latenzprobleme und macht den Roboter auch in abgelegenen Gebieten, Fabriken oder Lagerhäusern mit schlechter Konnektivität praktikabel. Trotz der lokalen Ausführung soll die Leistung des Modells laut Carolina Parada von Google nahe an der Cloud-basierten Version liegen.
Das Modell integriert Seh-, Sprach- und Aktionskontrolle, was ihm multiple Fähigkeiten verleiht. Es kann menschliche Anweisungen in natürlicher Sprache verstehen und in präzise Roboteraktionen umsetzen. Demonstrationen zeigen die erfolgreiche Bewältigung komplexer Aufgaben wie das Verschließen eines Reißverschlusses, das Falten von Kleidung oder das Montieren von Komponenten in einer industriellen Umgebung.
Welche Vorteile bietet das neue Gemini Robotics-Modell?
Ein weiterer Vorteil ist die Effizienz beim Erlernen neuer Fähigkeiten. Gemini Robotics On-Device kann sich mit nur 50 bis 100 Demonstrationen an neue Aufgaben anpassen, was die Einsatzmöglichkeiten in realen Szenarien erweitert. Parallel zur Veröffentlichung des Modells hat Google DeepMind ein Software Development Kit (SDK) für Gemini Robotics bereitgestellt. Dieses SDK ermöglicht Entwicklern das Testen, Feinabstimmen und Integrieren des On-Device-Modells in ihre eigenen Arbeitsabläufe.
Es unterstützt Trainings für aufgabenspezifische Anpassungen und ist mit verschiedenen Robotertypen sowie Kameraeinstellungen kompatibel. Die Möglichkeit, das Modell über natürliche Sprache zu steuern, vereinfacht die Entwicklung und den Einsatz von Robotik-Anwendungen hin zu autonomeren und widerstandsfähigeren Robotersystemen. Durch die Verlagerung der KI-Verarbeitung direkt auf das Gerät können neue Anwendungsbereiche erschlossen und die Interaktion von Robotern mit ihrer Umgebung effizienter gestaltet werden. Dies könnte zukünftig die Entwicklung von Hausrobotern, Robotern im Gesundheitswesen und adaptiven industriellen Automatisierungssystemen maßgeblich beeinflussen.



























