Notebookcheck Logo

Lebensechte Sprechanimationen: Microsofts neue Technik "VASA 1" soll menschlich wirkende Avatare ermöglichen

Mit VASA 1 können Videoclips von real anmutenden Personen in der Auflösung 512 × 512 und 53 Fps erstellt werden. (Bild: Microsoft)
Mit VASA 1 können Videoclips von real anmutenden Personen in der Auflösung 512 × 512 und 53 Fps erstellt werden. (Bild: Microsoft)
Microsoft forscht an einer Technologie, mit der natürlich wirkende Avatare künftig in Echtzeit mit Menschen interagieren sollen. Als ersten Schritt veröffentlichte man nun Videos von real anmutenden Personen, welche auf Grundlage eines Fotos und einer Audiospur basieren. Damit könnte sich jede Person dessen Abbild man benutzt, nachahmen lassen.

Das Microsoft Research Lab Asia hat ein noch in der Entwicklung befindliches Programm vorgestellt, welches realistisch wirkende Videos von sprechenden oder singenden Menschen erstellen kann. Die Software benötigt dazu lediglich ein Foto einer Person, um ein synchronisiertes Video auf Grundlage einer Audioquelle zu erstellen und sie damit alles sagen zu lassen, was man möchte. Ziel der Forschung soll es laut dem Entwickler sein, später virtuelle Avatare erstellen zu können, welche in Echtzeit möglichst menschlich agieren, ohne dabei auf Videomaterial angewiesen zu sein. 

Zur Demonstration von VASA 1 hat das Team einige Videos veröffentlicht, in denen Menschen bestimmte Dinge sagen oder sprechen, welche als Audiospur von vornherein aufgezeichnet wurden. Dabei demonstrieren sie auch, dass sie in der Lage sind, Details wie den Blickwinkel oder die Emotionen der gezeigten Person zu steuern. Obwohl in den Videos noch einige Fragmente zu sehen sind, wirken die Avatare relativ lebensecht, vor allem in ihrer Mimik. Laut Microsoft besitzt das Programm einen Vorsprung gegenüber bestehenden Sprechanimationen, wobei momentan in verschiedenen Projekten weltweit an entsprechenden Technologien gearbeitet wird, welche immer neue Meilensteine erreichen. Als Training für VASA 1 diente der VoxCeleb2-Datensatz, welcher kurze Videoschnipsel von Prominenten enthält. 

Aus Datenschutzgründen wurden dabei lediglich Fotos von KI-generierten Personen genutzt. Eine Ausnahme stellt nur das Gemälde der Mona Lisa dar. Allerdings ist es natürlich auch möglich, Bilder von echten Menschen zu verwenden und sie so alles sagen zu lassen, was man möchte. Damit wäre es jetzt bereits realisierbar, Videos zu manipulieren und später mithilfe eines in Echtzeit agierenden Avatars, auch Videochats zu faken. Die Forscher stellen aber klar, dass dies nicht die Intention ihrer Arbeit sein soll. Potenzielle Anwendungsgebiete sehen sie bei der Verbesserung der Bildungsgerechtigkeit, in der Unterstützung von Menschen mit Kommunikationsschwierigkeiten sowie bei der therapeutischen Begleitung. Dennoch ist ein Missbrauch der Technologie nicht ausgeschlossen, weshalb man sich offen dafür zeigt, die Technologie für die Fälschungs-Erkennung bereitzustellen. 

Quelle(n)

Alle 1 Beträge lesen / Antworten
static version load dynamic
Loading Comments
Diesen Artikel kommentieren / Antworten
Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!
> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2024-04 > Lebensechte Sprechanimationen: Microsofts neue Technik "VASA 1" soll menschlich wirkende Avatare ermöglichen
Autor: Tristan Hesser, 23.04.2024 (Update: 23.04.2024)