Das Unternehmen, das am besten für ChatGPT bekannt ist, OpenAI, betritt das Feld der Videoerzeugung. Diese Woche stellte OpenAI Sora vor, ein generatives KI-Modell, das Text in Video umwandelt, und folgt damit den Technologiegiganten Google und Meta, die bereits erste Schritte in diesem Bereich gemacht haben.
Mit einer qualitativen Beschreibung oder Texteingabe kann Sora filmische Szenen erzeugen in 1080p-Qualität, die mehrere Charaktere, verschiedene Arten von Bewegungen und Hintergrunddetails enthalten, behauptet OpenAI, und es kann auch bestehende Videos verlängern, indem es ‚alles Mögliche tut, um fehlende Details auszufüllen.‘
– Sora hat ein tiefes Verständnis der Sprache, das es ihm ermöglicht, Anweisungen genau zu interpretieren und überzeugende Charaktere zu erzeugen, die lebendige Emotionen ausdrücken. Das Modell versteht nicht nur, was der Benutzer in der Anfrage angefordert hat, sondern auch, wie diese Dinge in der physischen Welt existieren – schrieb das Unternehmen in seinem Blog. Obwohl Sora noch nicht öffentlich verfügbar ist, erscheint die Ankündigung ziemlich beeindruckend, zumindest im Vergleich zu anderen Tools, die Text in Video umwandeln.
Das KI-Tool kann laut aktuellem Wissen Videos in einer Vielzahl von Stilen (fotorealistisch, animiert, schwarz-weiß) erzeugen, die bis zu einer Minute dauern, was erheblich länger ist als die meisten Modelle, die nach dem Prinzip der Text-zu-Video-Umwandlung arbeiten. Die Videos zeigen eine angemessene Kohärenz, da es keine seltsamen ‚künstlichen‘ Elemente in den Videos gibt, was bedeutet, dass sich Objekte nicht in physikalisch unmögliche Richtungen bewegen.
Laut ausländischen Medienberichten sowie dem, was bisher von OpenAI veröffentlicht wurde, könnte man schließen, dass einige von Soras Videos eine Video-Spiel-Qualität haben, vielleicht sogar eine bessere Qualität als einige einfachere Videospiele. OpenAI selbst gibt jedoch zu, dass das Modell nicht perfekt ist, und erklärt, dass Sora mit komplexen Szenen ‚kämpfen‘ könnte und möglicherweise spezifische Ereignisse nicht versteht.
