Google macht riesige Fortschritte bei KI-Videos

Google Imagen Video

Bild: Google

Ich bin über die letzten Monate etwas tiefer ins Thema der Künstlichen Intelligenz versunken und die Geschwindigkeit, die die Wissenschaft derzeit vor allem in Sachen Bildgenerierung macht, ist atemberaubend. Innerhalb kürzester Zeit sind Technologien wie DALL-E 2, Midjourney und Stable Diffusion auf den Markt gekommen und geben praktisch jedem die Möglichkeit, seiner Fantasie visuell freien Lauf zu lassen. Dabei geht es nicht um verpixelte, abstrakte, Zeichnungen – auch fotorealistische Ergebnisse in Full-HD oder noch mehr sind längst machbar. Daraus hat sich mit stockai.com etwa schon eine erste vollständig KI-generierte Stockfotodatenbank entwickelt.

Wenn man mehrere Bilder hintereinander abspielt, ist der Weg zum Video nicht weit. Hier hat Google jüngst Durchbrüche zu vermelden, nachdem erst wenige Tage zuvor Meta eine große Ankündigung in einem ähnlichen Bereich gemacht hatte. Was Googles Entwickler aber präsentieren, kann zu den am weitesten fortgeschrittenen Softwares zur künstlichen Generierung von Bewegtbild gezählt werden.

Dabei handelt es sich tatsächlich nicht nur um ein, sondern gleich zwei Systeme. Eins davon – Imagen Video – produziert höherwertiges Material, aber nur wenige Bilder pro Sekunde, das andere, genannt Phenaki punktet bei der Länge der Clips.

Wie The Verge schreibt, seien die überzeugendsten Beispiele von Imagen die Videos, die eine Animation nachahmen. Das liege daran, dass wir von solchen Aufnahmen nicht unbedingt erwarten, dass sie strengen Regeln der zeitlichen und räumlichen Komposition folgen. „Sie können etwas lockerer sein – was der Schwäche des Modells entgegenkommt.“

Am wenigsten überzeugend sind Clips, die die Bewegungen echter Menschen und Tiere nachahmen, wie die Figur beim Schneeschaufeln oder die Katze, die auf eine Couch springt. Hier, wo wir eine so klare Vorstellung davon haben, wie sich Körper und Gliedmaßen bewegen sollten, ist die Verformung und Verschlechterung des Filmmaterials noch offensichtlicher.

Beispiele von Google Imagen Video gibt es auf der offiziellen Webseite – die Software selbst ausprobieren wie bei den diversen KI-Bildgeneratoren werden wir so schnell aber wohl nicht können. Bei diesem Thema wird der Blick auch schnell auf das Training der KI und mögliche ethische Probleme gelenkt: „von der rassistischen und geschlechtsspezifischen Voreingenommenheit dieser Systeme (die auf Material aus dem Internet trainiert werden) bis hin zu ihrem Missbrauchspotenzial (etwa Erstellung von nicht einvernehmlicher Pornografie, Propaganda und Fehlinformationen)“

Auch wenn die Ergebnisse von Imagen noch etwas schrottig wirken mögen, verglichen mit dem Stand noch vor einem Jahr sind sie umso bemerkenswerter. In wiederum einem Jahr werden wir vermutlich nur noch müde lächeln. Ähnliches gilt für das zweite System Phenaki.

Die Generierung von Videos aus Text ist aufgrund der hohen Rechenkosten, der begrenzten Menge an qualitativ hochwertigen Text-Videodaten und der variablen Länge der Videos eine besondere Herausforderung. Um diese Probleme anzugehen, führen wir ein neues kausales Modell für das Lernen von Videorepräsentationen ein, das das Video zu einer kleinen Repräsentation von diskreten Token komprimiert.

Aus einer Eingabe über mehrere Zeilen kann die KI ein etwas verschwommenes und inkohärentes Video, aber immerhin mehrere Minuten dauerndes Video zaubern. Laut der zugehörigen wissenschaftlichen Abhandlung könnten die Videos angeblich in der Theorie sogar unbegrenzt sein.

Künftige Versionen des Modells würden „Teil eines immer breiter werdenden Instrumentariums für Künstler und Nicht-Künstler gleichermaßen, das neue und aufregende Möglichkeiten bietet, Kreativität auszudrücken“. Bis die Qualität der von Phenaki erzeugten Videos von echten Videos zu unterscheiden wäre, sei nur eine Frage der Zeit.

Kommentar verfassen

Bleibt bitte nett zueinander!