Google enthüllt Lumiere: Generative KI zur Erstellung realistischerer Bilder und Videos aus Texten

Google präsentiert Lumiere - die neueste Entwicklung der generativen KI, die aus Text realistische Videoclips erstellt (Bild: Google Research).

Google hat Lumiere vorgestellt, die jüngste Entwicklung im Bereich der realistischen Text-Bild- und Text-Video-Generierung durch maschinelles Lernen. Eine der wichtigsten Neuerungen ist die Fähigkeit, realistische Bewegungen wie z. B. Gehen zu erzeugen, mit denen die derzeitige generative KI Schwierigkeiten hat. Googles Lumiere erreicht dies, indem sie alle Videobilder auf einmal erzeugt, anstatt Keyframes und Training zu verwenden, um zu lernen, wie sich bewegende Objekte aussehen sollten.

David Chien (übersetzt von Alexander Pensler), Veröffentlicht am 31.01.2024 🇺🇸 🇵🇱 ...

Google hat Lumiere vorgestellt, den neuesten Stand der Technik im Bereich der realistischen Text-Bild- und generativen Video-KI. Die Software verbessert die Bewegungsdarstellung erheblich, indem sie einen neuen Ansatz zur Erzeugung von Videobildern verwendet, bei dem alle Bilder in einem Durchgang erzeugt werden, um Fehler durch Bewegung zu minimieren.

Generative Bild-KI erzeugt Bilder aus Text. Ein Schlüssel dazu ist die große Menge an Bildern und Videos, die online für das Training zur Verfügung stehen. Ein weiterer ist die Entwicklung von Methoden, um alle Wörter einer Sprache über Vektoren miteinander zu verknüpfen. So kann die KI verstehen, dass beispielsweise ein Wortpaar wie "Ich bin" wahrscheinlicher ist als "Ich eigenmächtig". Bilderzeugende KI wie Stable Diffusion verbindet Wörter mit Objektbildern. Eine solche KI versteht, dass das Wort "königliche Residenz" eher mit dem Bild "Schloss" als mit dem Bild "Haus" assoziiert wird.

Die Generative Video-KI erweitert die Bild-KI, um Videos aus Text zu erzeugen. Die Konkurrenten von Lumiere erstellen zuerst die Keyframes und dann die Zwischenbilder. Das ist so, als würde ein erfahrener Animator die Start- und Endbilder eines Basketballwurfs zeichnen und dann einen Assistenten die Zwischenbilder zeichnen lassen. Das Problem dabei ist, dass es oft zu Fehlern in der Bewegungsdarstellung kommt, weil die Zwischenbilder nicht korrekt gezeichnet werden. Lumiere umgeht dieses Problem, indem es alle Videobilder ohne Keyframing erstellt. Außerdem ist Lumiere darauf trainiert, wie bewegte Objekte in verschiedenen Bildgrößen aussehen, sodass die Videos besser aussehen.

Technisch gesehen verwendet Lumiere Modelle der Diffusionswahrscheinlichkeitstheorie zur Erzeugung von Bildern in Verbindung mit einem sogenanten Raum-Zeit-U-Netz, einer U-Netz-Architektur mit zeitlicher Auf- und Abwärtsskalierung und Aufmerksamkeitsblöcken, die zusätzlich zur üblichen Skalierung der Bildauflösung verwendet werden. Die zeitliche Herunterskalierung gleichzeitig mit der Auflösung reduziert die Rechenlast erheblich, während die Hochskalierung in Verbindung mit einem räumlichen Superauflösungsmodell die hochaufgelöste Ausgabe erzeugt. Aufgrund der begrenzten Speicherkapazität ist jedoch eine Segmentierung der Bilder erforderlich. Daher wird Multidiffusion über überlappende Bildsegmentgrenzen hinweg verwendet, um zeitliche Bewegungsartefakte zu reduzieren.

Lumiere kann mit anderen KI-Programmen kombiniert werden, um ein breiteres Spektrum an Ergebnissen zu erzielen. Dazu gehören:

Cinemagraphs - ein Abschnitt eines Bildes wird animiert
Inpainting - ein Objekt in einem Video wird durch ein anderes ersetzt
Stilisierte Erzeugung - das Erscheinungsbild wird in einem anderen Kunststil nachgebildet
Bild-zu-Video - ein gewünschtes Bild wird animiert
Video-zu-Video - Videos werden in einem anderen Kunststil neu erstellt

Die Videolänge ist auf 5 Sekunden begrenzt, und es ist nicht möglich, Videoübergänge oder mehrere Kameraperspektiven zu erstellen. Leser, die mit generativer KI auf ihrem Desktop-Computer experimentieren möchten, sollten sich eine leistungsfähige Grafikkarte zulegen, um eine optimale Trainingsleistung zu erzielen.

Lumiere kann aus Texten Bilder und Videos erstellen, die stilisiert werden, um einer anderen Kunstform zu entsprechen, und sogar Objekte ersetzen. (Quelle: Google Research)

Lumiere kann einen Teil eines Bildes animieren und die Ausgabe kann leicht in andere KI-Systeme eingespeist werden. (Quelle: Google Research)

Quelle(n)

Google Research: Lumiere, Inbar Mosseri (Youtube)

Verwandte Artikel

Loading Comments

Diesen Artikel kommentieren / Antworten

⟨

Ältere News

Zahlreiche Angebote im Huawei "Back to School"-Sale, z. B. MatePad 11.5 und MateBook D 15/16 mit sattem Rabatt

Neuere News

EndeavourOS Galileo Neo veröffentlicht: Neues Release der rollenden Linux-Distribution auf Arch-Basis

⟩

Als bevorzugte Quelle auf Google hinzufügen

Autor des Originals: David Chien - Tech Writer - 1042 Artikel auf Notebookcheck veröffentlicht seit 2023

Ich habe bei Activision, UCLA, Anime Expo und anderen gearbeitet und gesehen, wie Technologie eingesetzt wird, um Leben zu retten, Spiele zu entwickeln und fantastische 3D VR/AR-Welten zu schaffen. Bei neuen Technologien gibt es immer etwas, das mir Spaß macht, und alle meine Freunde wenden sich stets an mich, um das Beste für ihre Bedürfnisse zu finden. Daher freue ich mich, meine Erfahrung bei Notebookcheck einzubringen.

Übersetzer: Alexander Pensler - Tech Writer - 675 Artikel auf Notebookcheck veröffentlicht seit 2023

Angefangen vom 386er im Kinderzimmer meines Cousins über diverse Konsolen bis hin zu Gaming-PCs und Laptops: Meistens findet man mich schraubend, spielend oder schreibend an einem meiner unzähligen technischen Geräte. Wenn wir schon beim Schreiben sind: Das tue ich seit 2022 als Freiberufler für verschiedene Webseiten und Magazine in den Bereichen Wissenschaft und IT. Davor habe ich unter anderem in der Biochemie gearbeitet, wo ich als Forscher auch Publikationen verfasst und nebenbei Popsongs und Musik für Videospiele komponiert habe.

Kontakt: Bluesky, LinkedIn

> Notebook Test, Laptop Test und News > Tests > Notebook Testberichte > Google enthüllt Lumiere: Generative KI zur Erstellung realistischerer Bilder und Videos aus Texten

Autor: David Chien, 31.01.2024 (Update: 15.08.2024)