
KI-Videos mit konsistenten Charakteren und Situationen? KI-Videogenerator Vidu.com im Praxistest
Künstliche Intelligenzprobleme.
Vidu.com verspricht per Künstlicher Intelligenz Videos mit konsistenten Personen und Umgebungen erschaffen zu können. Damit wären aneinandergereihte Sequenzen mit gleich bleibenden "Schauspielern" möglich, man könnte ganze (Kurz-)Filme damit erstellen. Wir prüfen ob das funktioniert.Christian Hintze Veröffentlicht am 🇺🇸 🇫🇷 ...
Fazit - Riesiges Potential, aber Versprechen noch nicht eingelöst
Das Potential (und die Gefahren) sind beeindruckend, KI wird sicherlich in Zukunft sowohl die Content-Creator-, aber auch die Film- und Gameslandschaft stark verändern. Konsistente Charaktere, Situationen und Umgebungen sind ein enorm wichtiger Schritt darin die KI-Videogeneratoren auch abseits von Spielereien praktisch nutzen zu können.
Noch allerdings ist es nicht soweit, denn was nützt es wenn die Person gleich bleibt (ja wenn!), aber dafür durch feste Oberflächen hindurchwandert, sich plötzlich verdoppelt oder 6 Finger an der Hand hat?
Aktuell ist Vidu.com für uns eher Spielerei, denn bislang können sie ihr Versprechen noch nicht einlösen und ist so noch nicht wirklich fit für den praktischen Einsatz in Film, Werbung und Co, dafür gibt es derzeit deutlich zu viele Fehler.
Pro
Contra
Preise und Verfügbarkeit
Wer Vidu.com ausprobieren möchte, kann dies kostenlos nach Accounterstellung tun. Das Ganze basiert auf einem Credit-System. Neueinsteiger erhalten ein paar Anfangs-Credits, und man kann durch bestimmte Aktionen Credits "verdienen".
Ansonsten gibt es monatliche und jährliche Abo-Optionen.
KI finden wir bei aller berechtigter Kritik super-spannend. Videos schwanken aber noch stark in der Qualität: Einerseits sind unglaublich detailreiche Szenerien möglich, die direkt der Phantasie des Nutzers entspringen. Andererseits blicken KI-Personen in Videos oft wie Idioten in der Luft herum und machen seltsame Zeitlupenbewegungen.
Wir schnappen uns deshalb den neuen KI-Videogenerator Vidu.com und probieren das Ganze selbst einmal aus. Die Entwickler haben dafür unseren Account netterweise mit 500 Credits zum Testen aufgestockt. Das neue KI-Modell Vidu Q1 ist das aktuelle Flaggschiff der Plattform und soll bis zu 7 Referenzbilder in einer einzelnen Videosequenz verarbeiten können. Fehlende Teile kann es durch Texteingaben erzeugen.
Was kann man mit Vidu machen?
Mit Vidu erstellt man KI-generierte Videos. Folgende Tools gibt es dafür:
- Text zu Video: Mittels eines Promts schreibt man, was im Video vorkommen soll.
- Bild zu Video: Aus einem Bild wird ein Video generiert. Das Coole daran: Legt man ein Bild als Anfangsframe und eines als Endframe fest, wird alles dazwischen generiert.
- Referenz zu Video: Der spannendste Bereich - hier lassen sich diverse Bilder von Charakteren, Orten und Objekten hochladen. Diese dienen dann als konstante Referenz in einem Video.
Ausgegeben wird in Full-HD, 16:9, wahlweise auch im Smartphone-Format und Videos lassen sich sogar hochskalieren, bspw. auf 4K.
Praxiserfahrung - Einarbeitungszeit, präzise Prompts
Unser ambitionierter Plan:
- Szene 1: Ein Notebookcheck-Redakteur steht in einem Büro am Schreibtisch und testet einen Laptop.
- Szene 2: Er tippt eine eher mittelprächtige Wertung ein.
- Szene 3: Ortswechsel - Ein anderes Büro, Männer in Anzügen sehen den Inhalt einer Überwachungskamera: Den Redakteur, wie er eine ungünstige Wertung ihres Laptops eintippt.
- Szene 4: Einer der "Suits" drückt einen Alarmknopf.
- Szene 5: Eine Art SWAT-Team wird losgeschickt.
Insgesamt haben wir 10 Szenen grob vorgedacht.
1. Szene: Redakteur testet Laptop
Ein aus Altersgründen nicht mehr ganz repräsentatives Foto einer unserer Redakteure sollte als Charakter-Referenz herhalten. Des Weiteren ein Foto eines Büros als Ortsreferenz. Dazu unser Notebookcheck-Logo, ein Laptop und ein fiktives Logo einer fiktiven PC-Firma ("Lavani"). Dann unser Prompt:
Grob gesagt: Unser Redakteur (Bild 1) sollte also im Büro (Bild 2) stehen und einen Laptop testen. An der Backsteinwand hinten sollte das Notebookcheck-Logo (Bild 3) angebracht sein.
Das Erstellen eines 5-s-Videos mit dem Vidu-Q1-Modell dauert nur etwa 1 bis 2 Minuten und kostet 15 bis 20 Credits. Das Ergebnis:
Mit folgenden Fehlern waren wir unzufrieden:
- Warum hat unsere Figur eine andere Frisur als im Referenzbild? Bleibt diese über die kommenden Szenen konstant?
- Warum ist unser Referenz-Logo in "notobochech" umbenannt worden?
- Warum gibt es nicht den von uns geforderten "Blick über die Schulter"?
- Warum spricht der Redakteur die ganze Zeit ins Mikrofon?
Für Filmemacher dürfte es so recht schwierig werden die Kameraperspektiven und Situationen zu bekommen, die sie beschrieben haben.
Wir ändern unseren Prompt, aber je detaillierter wir die Szene schilderten desto mehr Probleme tauchten auf: Jetzt stimmt die "Frisur", dafür gibt es uns plötzlich doppelt - seltsam. Dann läuft unser Redakteur durch einen Schreibtisch hindurch.
Irgendwie bekommt die KI auch nicht hin, dass wir im Vordergrund stehen wollen. Auch den geprompteten Kamerablick über die Schulter bekommt das Tool einfach nicht gebacken. Unsere Eingaben im Text werden also nicht wirklich umgesetzt.
Bild-zu-Video
Wir nehmen von unserem enthusiastischen Filmvorhaben vorerst Abstand. Jetzt versuchen wir uns noch an Bild-zu-Videos und der Transition zwischen zwei Referenzbildern.
Ersteres klappt ganz gut. Unser Bild von Illidan (Warcraft 3) wird in ein kurzes Video verwandelt. Darin fährt die Kamera an das Gesicht des Dämonenjägers heran, dieser guckt grimmig. Wegen unsicherer Copyright-Bestimmungen, zeigen wir Bild und Video lieber nicht.
Zu guter Letzt die Transition zwischen zwei Bilder:
- Illidan steht auf einem Felsen
- Illidan landet auf dem Boden
Illidan soll vom Felsen (Bild 1) springen und auf dem Boden (Bild 2) landen. Im generierten Video verwandelt sich Illidan in einen schwarzen, vogelartigen Schatten, das Video ist völlig unbrauchbar.
Zusammenfassung
Videos über Vidu.com zu generieren ist super-einfach. Aber die Szenen, Kameraperspektiven usw. zu bekommen, die man wirklich haben möchte, ist alles andere als einfach. Prompts werden nicht genau umgesetzt, Referenzbilder verfälscht (unser Logo, Frisur), die "Stofflichkeit" von Objekte nicht eingehalten (Gang durch den Schreibtisch) oder es gibt andere Fehler (verdoppelter Redakteur).
Alles zusammen frustriert etwas und macht es zum jetzigen Zeitpunkt nahezu unmöglich wirklich konsistente Videos nach den eigenen Wünschen zu gestalten.
Transparenz
Die Auswahl der zu testenden Geräte erfolgt innerhalb der Redaktion. Das vorliegende Testmuster wurde dem Autor vom Hersteller unentgeltlich zu Testzwecken überlassen. Eine Einflussnahme auf den Testbericht gab es nicht, der Hersteller erhielt keine Version des Reviews vor der Veröffentlichung. Es bestand keine Verpflichtung zur Publikation. Als eigenständiges, unabhängiges Unternehmen unterliegt Notebookcheck keiner Diktion von Herstellern, Shops und Verlagen.
































