Das Zeitalter der künstlichen Intelligenz verblüfft uns weiterhin mit seinen zunehmenden Fähigkeiten. Kürzlich gab das KI-Unternehmen Runway bekannt, dass sein neuestes Text-zu-Video-Modell namens Gen-4.5 noch genauere Bilder erzeugt als das Vorgängermodell. Nach eigenen Angaben kann das Gen-4.5-Modell “filmreife und äußerst realistische Ergebnisse” liefern. Dies wirft sicherlich spannende, aber auch beunruhigende Fragen hinsichtlich unserer Fähigkeit auf, zwischen der Realität und den von KI erzeugten Bildern zu unterscheiden.
Die Ankündigung von Runway lobt Gen-4.5 in den höchsten Tönen und vergleicht seine Fähigkeiten mit “beispielloser physikalischer Genauigkeit und visueller Präzision”. Ein wichtiger Aspekt dieses Modells ist seine verbesserte Einhaltung vorgegebener Vorgaben. Einfach ausgedrückt bedeutet dies, dass es hochdetaillierte Szenen erstellen kann, ohne Kompromisse bei der Videoqualität einzugehen. Laut Runway ist die Schaffung von verblüffend realistischen physikalischen Effekten kein Wunschtraum mehr. KI-generierte Objekte “bewegen sich nun mit realistischem Gewicht, Schwung und Kraft” und setzen damit neue Maßstäbe in Bezug auf die Authentizität, die wir von KI-generierten Bildern erwarten können.
Gen-4.5 stellt zwar einen technologischen Sprung dar, aber eine ordnungsgemäße Einführung braucht Zeit; das Modell wird nach und nach für alle Nutzer verfügbar gemacht. Trotz seiner beeindruckenden Fähigkeiten ist es wichtig, sich vor Augen zu halten, dass das Modell seine Grenzen hat. So kann es beispielsweise zu Komplikationen im Zusammenhang mit der Objektpermanenz und dem kausalen Denken kommen; es kann zu einer Verwechslung von Ursache und Wirkung kommen, beispielsweise wenn sich eine Tür öffnet, bevor jemand überhaupt den Türgriff berührt hat.
Natürlich ist Runway nicht das einzige Unternehmen im Bereich der KI, das die Grenzen dessen, was KI-generierte Bilder leisten können, erweitert. Auch OpenAI hat in diesem Bereich große Fortschritte gemacht. Im September letzten Jahres stellte das Unternehmen Verbesserungen der Physik im Text-zu-Video-Modell Sora 2 vor. Die Bilder sind so überzeugend, dass man in einem KI-generierten Video sogar einen Rückwärtssalto auf einem Paddleboard auf einem Gewässer machen könnte, mit präziser Strömungsdynamik und Auftrieb.
Was Gen-4.5 jedoch auszeichnet, ist, dass es besser für die Verarbeitung verschiedener visueller Stile geeignet ist. Laut Runway kann es konsistentere fotorealistische, stilisierte und filmische Visualisierungen erzeugen. Das Ergebnis? Fotorealistische Visualisierungen, die “von realen Aufnahmen mit lebensechten Details und Genauigkeit nicht zu unterscheiden sind”. Das lässt uns fragen: Was kommt als Nächstes auf dieser erstaunlichen Reise der KI-generierten Visualisierungen?
Die KI-Technologie wächst und entwickelt sich weiterhin in einem erstaunlichen Tempo. Dabei verschwimmt die Grenze zwischen Realität und künstlicher Intelligenz zunehmend. Was die Zukunft bringen wird, kann niemand vorhersagen. Vorerst ist jedoch klar, dass in der Welt der KI-generierten Bilder die einzige Grenze der Himmel ist.
Ursprünglicher Artikel: Hier verlinken