Home / Geschäft und Politik / OpenAI stellt Sora vor, ein neues Tool zur Umwandlung von Text in hochauflösendes Video

OpenAI stellt Sora vor, ein neues Tool zur Umwandlung von Text in hochauflösendes Video

Das Unternehmen, das am besten für ChatGPT bekannt ist, OpenAI, betritt das Feld der Videoerzeugung. Diese Woche stellte OpenAI Sora vor, ein generatives KI-Modell, das Text in Video umwandelt, und folgt damit den Technologiegiganten Google und Meta, die bereits erste Schritte in diesem Bereich gemacht haben.

Mit einer qualitativen Beschreibung oder Texteingabe kann Sora filmische Szenen erzeugen in 1080p-Qualität, die mehrere Charaktere, verschiedene Arten von Bewegungen und Hintergrunddetails enthalten, behauptet OpenAI, und es kann auch bestehende Videos verlängern, indem es ‚alles Mögliche tut, um fehlende Details auszufüllen.‘

– Sora hat ein tiefes Verständnis der Sprache, das es ihm ermöglicht, Anweisungen genau zu interpretieren und überzeugende Charaktere zu erzeugen, die lebendige Emotionen ausdrücken. Das Modell versteht nicht nur, was der Benutzer in der Anfrage angefordert hat, sondern auch, wie diese Dinge in der physischen Welt existieren – schrieb das Unternehmen in seinem Blog. Obwohl Sora noch nicht öffentlich verfügbar ist, erscheint die Ankündigung ziemlich beeindruckend, zumindest im Vergleich zu anderen Tools, die Text in Video umwandeln.

Das KI-Tool kann laut aktuellem Wissen Videos in einer Vielzahl von Stilen (fotorealistisch, animiert, schwarz-weiß) erzeugen, die bis zu einer Minute dauern, was erheblich länger ist als die meisten Modelle, die nach dem Prinzip der Text-zu-Video-Umwandlung arbeiten. Die Videos zeigen eine angemessene Kohärenz, da es keine seltsamen ‚künstlichen‘ Elemente in den Videos gibt, was bedeutet, dass sich Objekte nicht in physikalisch unmögliche Richtungen bewegen.

Laut ausländischen Medienberichten sowie dem, was bisher von OpenAI veröffentlicht wurde, könnte man schließen, dass einige von Soras Videos eine Video-Spiel-Qualität haben, vielleicht sogar eine bessere Qualität als einige einfachere Videospiele. OpenAI selbst gibt jedoch zu, dass das Modell nicht perfekt ist, und erklärt, dass Sora mit komplexen Szenen ‚kämpfen‘ könnte und möglicherweise spezifische Ereignisse nicht versteht.

– Eine Person kann einen Keks beißen, aber danach zeigt der Keks möglicherweise keinen Bissabdruck. Das Modell kann auch räumliche Details falsch darstellen und könnte Probleme mit präzisen Beschreibungen von über die Zeit ablaufenden Ereignissen haben – erklärte das Unternehmen, das sehr wenig über die Daten preisgegeben hat, die zur Schulung dieses Modells verwendet wurden.

Wann Sora der Öffentlichkeit zur Verfügung stehen wird, ist noch unbekannt, aber OpenAI hält derzeit von der Veröffentlichung ab, um Missbrauch zu vermeiden. Um dies zu verhindern, sagt das Unternehmen, das von Sam Altman geleitet wird, dass sie mit Experten zusammenarbeiten, um Werkzeuge zu prüfen, die erkennen können, ob ein bestimmtes Video von Sora generiert wurde.

– Wir werden politische Entscheidungsträger, Pädagogen und Künstler weltweit einbeziehen, um ihre Bedenken zu verstehen und positive Anwendungsfälle für diese neue Technologie zu identifizieren. Trotz umfangreicher Forschung und Tests können wir nicht vorhersagen, auf welche vorteilhafte Weise Menschen unsere Technologie nutzen werden, noch auf welche Weise sie missbraucht werden könnte. Daher glauben wir, dass das Lernen aus der Nutzung in der realen Welt ein Schlüsselkomponente bei der Schaffung und Veröffentlichung zunehmend sicherer KI-Systeme im Laufe der Zeit ist – sagte OpenAI.

Markiert: