In der aktuellen Beta-Version der Gemini-App für Android deutet sich eine Erweiterung der Funktionalität an, die künftig den Umgang mit Audiodateien ermöglichen soll. Ein von Android Authority durchgeführter Teardown der Version 16.30.59 zeigt, dass in der Chat-Oberfläche bereits erste Elemente für die Audioverarbeitung integriert wurden. Nutzer*innen erhalten beim Hochladen einer MP3-Datei einen Button mit der Aufschrift „Talk live about this“. Diese Schaltfläche ist zwar sichtbar, die dahinterliegende Funktionalität ist jedoch noch nicht aktiv. In der Praxis führt der Upload aktuell entweder zu keiner Reaktion oder zu ungenauen Ergebnissen.
Aber die technische Basis für eine solche Funktion ist bereits vorhanden. Die Gemini-API (Application Programming Interface) unterstützt seit Längerem die Verarbeitung von Audiodaten in verschiedenen Formaten wie MP3, WAV und FLAC. Dabei kann das System Audioinhalte analysieren, beschreiben oder transkribieren. Auch zeitbezogene Angaben innerhalb von Audiodateien lassen sich erkennen, etwa wenn bestimmte Informationen innerhalb eines bestimmten Zeitfensters angesprochen werden. Die Infrastruktur zur Audiobearbeitung ist also grundsätzlich vorbereitet.
Nach Optik folgt Akustik
Nachdem Bilder erfolgreich in die Gemini-App integriert wurden, erscheint die Ausweitung auf Audio als konsequenter nächster Schritt. Die Kombination aus Sprachverarbeitung und kontextbezogenem Chat eröffnet neue Anwendungsmöglichkeiten, insbesondere im Bereich der interaktiven Analyse oder Besprechung von Inhalten. Derzeit fehlt zwar noch ein offizieller Veröffentlichungstermin, doch die im Code entdeckten Komponenten deuten darauf hin, dass Google die Implementierung in die Gemini-Anwendung aktiv vorantreibt.
Insgesamt lässt sich feststellen, dass Google mit dem KI-Chatbot weiterhin stark auf multimodale Interaktion setzt. Die Audiofunktion steht offenbar kurz vor dem nächsten Entwicklungsschritt. Sobald die Funktion stabil arbeitet, könnte sie den Dialog mit der KI (künstliche Intelligenz) deutlich flexibler gestalten – etwa durch spontane Sprachanalyse oder den Austausch über gesprochene Inhalte in Echtzeit.















