OpenAI hace temblar al cine con Sora: así crea un vídeo con cuatro palabras

La inteligencia artificial de los creadores de Chat GPT consigue generar un vídeo corto a partir de unas líneas de texto, pero oculta el origen de las imágenes que alimentan el algoritmo

José A. González

Viernes, 16 de febrero 2024, 10:38

La inteligencia artificial da un paso más allá. Los algoritmos ya son capaces de responder por escrito a una pregunta, también pueden crear imágenes fijas a partir de un simple texto y ahora parecen ser competentes para generar imágenes en movimiento. ¿Los culpables? Open AI que tras ChatGPT (generador de texto) y Dall-E(generador de imágenes fijas) ahora su apuesta se llama Sora.

Esta herramienta no necesita ni cámaras, ni focos, ni localizaciones; solo necesita un pequeño texto para hacer, de momento, un vídeo corto. «Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción con el mundo real», anuncia Open AI en su página web.

Desde ciencia ficción hasta recetas de cocina, ningún género se le escapa a Sora. La nueva herramienta de la compañía dirigida por Sam Altman es capaz de generar escenas complejas en las que aparezcan varios personajes, completar un escenario detallado e interpretar toda la información que reciba. La calidad y espectacularidad del vídeo dependerá de la pericia del usuario a la hora de describir su película.

https://t.co/qbj02M4ng8 pic.twitter.com/EvngqF2ZIX
— Sam Altman (@sama) February 15, 2024

El guion de este vídeo es sencillo y consta de 20 palabras. «Una carrera de bicicletas en el océano con diferentes animales como atletas montando bicicletas con vista de cámara de drones». La creación llega en segundos.

Ni cámaras, ni focos, ni siquiera actores. «El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico». Además, la herramienta permite el uso de diferentes planos dentro de la misma creación. «Estamos otorgando acceso a una serie de artistas visuales, diseñadores y cineastas para obtener comentarios sobre cómo hacer avanzar el modelo para que sea más útil para los profesionales creativos», anunció OpenAI este viernes en su página web.

Noticia relacionada

Apple Vision Pro: una vistazo a otras realidades

José A. González

De momento, este modelo de inteligencia artificial está en una fase temprana de su desarrollo, y genera vídeos de hasta 60 segundos. Además, la empresa advierte que puede tener algunos problemas a la hora de recrear con exactitud algunas físicas.

Derechos de autor

La irrupción de Sora en el mundo tecnológico no es la primera incursión de la IA como herramienta para la generación de contenidos audiovisuales. En abril del año pasado, la empresa emergente Runway AI presentó una inteligencia artificial capaz de generar imágenes en movimiento con una simple instrucción en texto.

Ahora casi un año después, OpenAI ha elevado la calidad y la duración de estos vídeos cortos. El producto de Runway AI eran archivos de cuatro segundos y estaban borrosos y entrecortados. En ambas herramientas, sus creadores no han desvelado la cantidad de información ni el origen de esta para el entrenamiento de estos algoritmos. «Solo necesita una biblioteca enorme de vídeos para recrear las peticiones de los usuarios», afirma la tecnológica de Sam Altman.

Vídeo demostración OpenAI

Tanto Chat GPT, como Dall-E, como Sora y otras soluciones similares son sistemas de inteligencia artificial generativa que aprenden analizando datos digitales; en este caso, videos y subtítulos que describen lo que contienen esos videos. Por el momento, ni los directivos de la firma, ni Open AI han aclarado el origen de las imágenes que alimentan los algoritmos de Sora.

«Solo necesita una biblioteca enorme de vídeos para recrear las peticiones de los usuarios»

Un nuevo frente judicial que se abre a este unicornio tecnológico que ya se enfrenta a demandas millonarias de empresas editoriales por el uso de sus textos para entrenar los algoritmos de Chat GPT.

Desinformación

El copyright no es el único obstáculo que tiene ante sí Sora. «No lo lanzamos porque estamos investigando aún los peligros que entraña», señalaron hace unas semanas los creadores de esta herramienta en una entrevista. «A pesar de investigaciones y pruebas exhaustivas, no podemos predecir todas las formas beneficiosas en que las personas utilizarán nuestra tecnología, ni todas las formas en que abusarán de ella», advierte OpenAI en su página oficial.

En los últimos meses, el concepto deepfake se ha colado en los informativos, en las páginas de periódico y también en las conversaciones políticas. Este concepto anglosajón hace referencia a las fotografías, vídeos y hasta audios generados por la inteligencia artificial y que suplantan la identidad real de las personas.

En 2023, en varios grupos de guasap circularon imágenes pornográficas de menores generadas por IA. Recientemente, ocurrió un caso similar con Taylor Swift en X, antes Twitter. Y, en Estados Unidos, se han distribuido audios simulando la voz de Joe Biden que pedía a los votantes que evitasen participar en las primarias de New Hampshire. «Involucraremos a formuladores de políticas, educadores y artistas de todo el mundo para comprender sus preocupaciones e identificar casos de uso positivos para esta nueva tecnología», explica OpenAI. «Es por eso que creemos que aprender del uso en el mundo real es un componente crítico para crear y lanzar sistemas de IA cada vez más seguros con el tiempo», añade.

De momento, Sora está en una fase de prueba, y solo pueden acceder investigadores de OpenAI. Pero llegará pronto al catálogo de OpenAI.