Notebookcheck Logo

Google enthüllt Lumiere: Generative KI zur Erstellung realistischerer Bilder und Videos aus Texten

Google präsentiert Lumiere - die neueste Entwicklung der generativen KI, die aus Text realistische Videoclips erstellt (Bild: Google Research).
Google präsentiert Lumiere - die neueste Entwicklung der generativen KI, die aus Text realistische Videoclips erstellt (Bild: Google Research).
Google hat Lumiere vorgestellt, die jüngste Entwicklung im Bereich der realistischen Text-Bild- und Text-Video-Generierung durch maschinelles Lernen. Eine der wichtigsten Neuerungen ist die Fähigkeit, realistische Bewegungen wie z. B. Gehen zu erzeugen, mit denen die derzeitige generative KI Schwierigkeiten hat. Googles Lumiere erreicht dies, indem sie alle Videobilder auf einmal erzeugt, anstatt Keyframes und Training zu verwenden, um zu lernen, wie sich bewegende Objekte aussehen sollten.

Google hat Lumiere vorgestellt, den neuesten Stand der Technik im Bereich der realistischen Text-Bild- und generativen Video-KI. Die Software verbessert die Bewegungsdarstellung erheblich, indem sie einen neuen Ansatz zur Erzeugung von Videobildern verwendet, bei dem alle Bilder in einem Durchgang erzeugt werden, um Fehler durch Bewegung zu minimieren.

Generative Bild-KI erzeugt Bilder aus Text. Ein Schlüssel dazu ist die große Menge an Bildern und Videos, die online für das Training zur Verfügung stehen. Ein weiterer ist die Entwicklung von Methoden, um alle Wörter einer Sprache über Vektoren miteinander zu verknüpfen. So kann die KI verstehen, dass beispielsweise ein Wortpaar wie "Ich bin" wahrscheinlicher ist als "Ich eigenmächtig". Bilderzeugende KI wie Stable Diffusion verbindet Wörter mit Objektbildern. Eine solche KI versteht, dass das Wort "königliche Residenz" eher mit dem Bild "Schloss" als mit dem Bild "Haus" assoziiert wird.

Die Generative Video-KI erweitert die Bild-KI, um Videos aus Text zu erzeugen. Die Konkurrenten von Lumiere erstellen zuerst die Keyframes und dann die Zwischenbilder. Das ist so, als würde ein erfahrener Animator die Start- und Endbilder eines Basketballwurfs zeichnen und dann einen Assistenten die Zwischenbilder zeichnen lassen. Das Problem dabei ist, dass es oft zu Fehlern in der Bewegungsdarstellung kommt, weil die Zwischenbilder nicht korrekt gezeichnet werden. Lumiere umgeht dieses Problem, indem es alle Videobilder ohne Keyframing erstellt. Außerdem ist Lumiere darauf trainiert, wie bewegte Objekte in verschiedenen Bildgrößen aussehen, sodass die Videos besser aussehen.

Technisch gesehen verwendet Lumiere Modelle der Diffusionswahrscheinlichkeitstheorie zur Erzeugung von Bildern in Verbindung mit einem sogenanten Raum-Zeit-U-Netz, einer U-Netz-Architektur mit zeitlicher Auf- und Abwärtsskalierung und Aufmerksamkeitsblöcken, die zusätzlich zur üblichen Skalierung der Bildauflösung verwendet werden. Die zeitliche Herunterskalierung gleichzeitig mit der Auflösung reduziert die Rechenlast erheblich, während die Hochskalierung in Verbindung mit einem räumlichen Superauflösungsmodell die hochaufgelöste Ausgabe erzeugt. Aufgrund der begrenzten Speicherkapazität ist jedoch eine Segmentierung der Bilder erforderlich. Daher wird Multidiffusion über überlappende Bildsegmentgrenzen hinweg verwendet, um zeitliche Bewegungsartefakte zu reduzieren.

Lumiere kann mit anderen KI-Programmen kombiniert werden, um ein breiteres Spektrum an Ergebnissen zu erzielen. Dazu gehören:

  • Cinemagraphs - ein Abschnitt eines Bildes wird animiert
  • Inpainting - ein Objekt in einem Video wird durch ein anderes ersetzt
  • Stilisierte Erzeugung - das Erscheinungsbild wird in einem anderen Kunststil nachgebildet
  • Bild-zu-Video - ein gewünschtes Bild wird animiert
  • Video-zu-Video - Videos werden in einem anderen Kunststil neu erstellt

Die Videolänge ist auf 5 Sekunden begrenzt, und es ist nicht möglich, Videoübergänge oder mehrere Kameraperspektiven zu erstellen. Leser, die mit generativer KI auf ihrem Desktop-Computer experimentieren möchten, sollten sich eine leistungsfähige Grafikkarte zulegen, um eine optimale Trainingsleistung zu erzielen.

Lumiere kann aus Texten Bilder und Videos erstellen, die stilisiert werden, um einer anderen Kunstform zu entsprechen, und sogar Objekte ersetzen. (Quelle: Google Research)
Lumiere kann aus Texten Bilder und Videos erstellen, die stilisiert werden, um einer anderen Kunstform zu entsprechen, und sogar Objekte ersetzen. (Quelle: Google Research)
Lumiere kann einen Teil eines Bildes animieren und die Ausgabe kann leicht in andere KI-Systeme eingespeist werden. (Quelle: Google Research)
Lumiere kann einen Teil eines Bildes animieren und die Ausgabe kann leicht in andere KI-Systeme eingespeist werden. (Quelle: Google Research)
static version load dynamic
Loading Comments
Diesen Artikel kommentieren / Antworten
Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!
> Notebook Test, Laptop Test und News > Tests > Notebook Testberichte > Google enthüllt Lumiere: Generative KI zur Erstellung realistischerer Bilder und Videos aus Texten
Autor: David Chien, 31.01.2024 (Update: 31.01.2024)