Neue Google-KI generiert realistische Videos aus Text

Google-Lumiere-Video-AI-Screenshot

Bild: Google

Google hat in einem Paper eine neue Text-zu-Video KI namens Lumiere vorgestellt, die in der Lage ist, sehr realistische Videos aus Textbeschreibungen zu generieren. Lumiere nutzt dafür eine neuartige Architektur namens Space-Time U-Net (STUNet), mit der Videos mit natürlichen Bewegungen und hoher Qualität erzeugt werden können.

Im Gegensatz zu vorherigen Ansätzen ist Lumiere vielmehr als ganzheitliches Video-Modell zu verstehen, anstatt verschiedene Modelle für einzelne Teilbereiche einzusetzen. Dies ist möglich durch ein Downsampling der räumlichen und zeitlichen Auflösung zu Beginn. Dadurch lernt das Modell grundlegende Bewegungsmuster, die es dann auf die finale Videoauflösung überträgt. Zum Schluss wird die Auflösung mit Diffusionsmodellen wieder hochskaliert. Hinten raus fallen dann bis zu fünfsekündige Clips mit 16 Bildern pro Sekunde. Als Trainingsmaterial dienten 30 Millionen Videos.

In Tests konnte Lumiere laut Google bereits überzeugen und bestehende Text-zu-Video-Ansätze wie Googles eigenes Imagen Video oder Stable Diffusion Video von der Konkurrenz deutlich übertreffen. Dennoch gibt es auf jeden Fall noch Verbesserungspotenzial, da das Modell bisher keine langen Videos mit Szenenübergängen generieren kann.

Die Möglichkeiten für die neue Google-KI sind vielfältig. Sie könnte beispielsweise für automatisierte Erstellung von Erklärvideos, Animationen oder auch Videoinpainting, also Veränderung von bestehendem Material, eingesetzt werden. Wann und ob Lumiere kommerziell genutzt werden darf, ist bisher aber nicht bekannt. Die wissenschaftliche Veröffentlichung zeigt aber, dass Google intensiv an generativen KI-Modellen für Video arbeitet.

via

Kommentar verfassen

Bleibt bitte nett zueinander!