En el corazón del bullicioso Brooklyn, en un pequeño restaurante italiano llamado «Mamma Mia», se sientan a disfrutar de un delicioso plato de pasta dos sospechosos habituales del vecindario, Joey «surruros» LaMotta y Frank Costello «el tranquilo». Entre risas y el aroma tentador de la cocina, surge un tema inesperado: la revolución de la inteligencia artificial generativa y un video muy peculiar protagonizado por Will Smith.
Joey: Oye, Frank, el otro día me encontré con Vito Sora en el cruce de la 36 con la 30, y me contó que la gente está empezando a hacer pequeñas películas con GenAI o algo así. ¿Has oído algo sobre este asunto?
Frank: GenAI, ¿qué demonios es eso, Joey?
Joey: Es como una especie de pócima mágica dentro de una computadora. Se pueden hacer videos casi de cualquier cosa, y cuando digo cualquier cosa, es cualquier cosa. Me enseñó un video de Will Smith comiendo espaguetis, ¿te lo puedes creer?
Frank: ¿Will Smith comiendo espaguetis? ¿Qué sigue, De Niro haciendo lasaña con un quarteto de jazz? ¿Hacia dónde va este mundo?
Joey: ¡Incrédulo! Con la tecnología de hoy en día, cualquiera puede ser Scorsese.
Frank: No lo entiendo. ¿Por qué diablos alguien querría ver a Will Smith comiendo espaguetis?
Joey: Quién sabe, Frank. La gente tiene gustos extraños. Quizá algún día echen de menos los viejos tiempos, cuando estrellas como nosotros se sentaban en un lugar como este y se comían un plato de espaguetis.
Frank: Ojalá vuelvan esos días, Joey. Ahora, todo son cosas artificiales, sin alma, «ni chicha, ni limoná». ¿Qué pasó con los buenos tiempos? ¿Dónde está «El Padrino»?
Joey: Los tiempos están cambiando, Frank. Hay que mantenerse al día con las disrupciones, incluso si eso significa ver a Will Smith comer espaguetis.
Frank: No sé nada de todo este lío de las generativas, pero te puedo asegurar que nunca podrá superar lo real, lo auténtico, como los espaguetis que tenemos enfrente de nosotros.
¡Brindemos por la artesanía, Joey!
Joey: ¡Brindemos, amigo Frank!
Lo han vuelto a hacer.
Había mucho interés en la comunidad para conocer la receta que estaba cocinando OpenAI respecto al video generativo, y una vez más, nos han dejado en shock, y es que este equipo de talentos están normalizando la excepcionalidad practicamente cada seis meses.
Sora no es un modelo de texto-a-video, sino como explican en su web, se trata de un simulador tridimensional del mundo. Es un modelo que representa un mundo que ya está comenzando a comprender muy bien. Un mundo que se rige por las reglas de la física, las posiciones de cámara en una escena, y las propiedades de la luz en los objetos. En un primer vistazo, podemos razonar que la disrupción sobre las plataformas de videos de stock es inminente, pero Sora va mucho más allá de las primeras impresiones.
Desarrollar un modelo del mundo no es trivial, existen grandes problemas o muros en otras tecnologías que necesitan como el agua entender el mundo en tres dimensiones para poder evolucionar, para que la conducción autónoma o la robótica se pueda desplegar a escala en todo el mundo, se necesita un modelo de datos del mundo tridemensional para que las máquinas puedan entender, razonar y tomar decisiones a través de información enriquecida. Luego habrá Soras especializados en resolver estos problemas a través de generación de video simulado.
Este tipo de modelos se podrían utilizar para cambiar completamente el modo en el que se crean videojuegos, y quizá hasta los metaversos del futuro se reinventen a través de estos nuevos modelos de difusión tridemensionales. Se realizarán arquitecturas de transformers específicas para cada caso de uso y entorno tecnológico.
Sora resultará ser la clave en la carrera hacia la AGI, incluso adquirirá más peso que los modelos multimodales del tipo ChatGPT. No existe un set de datos más rico y con más información que el que nos ofrece la señal de video. El video fusiona texto, imagen y sonido, y tendrá sentido que la AGI no venga por la evolución en un silo aislado en un modelo como ChatGPT, sino que la chispa se encenderá en el punto en el que colisionen diferentes modelos evolucionados de texto, audio, y especialmente video como Sora.
El futuro de la industria del video.
Hace más de 10 años, trabajé en la industria del streaming de video. Mi labor se centró en la construcción de una plataforma CDN (Content Delivery Network) que proporcionaba servicios de transmisión de streaming en Internet para OTTs (over-the-top). Como estudiante de ingeniería de sonido e imagen, también hice algún pinito de video en streaming. En total, he dedicado aproximadamente 4 años de mi tiempo en esta industria. Más o menos tengo una idea de cómo funciona este mundillo.
Se trata de una industria con un grado de complejidad alto, y es que suceden muchas cosas por detrás cuando te sientas en tu sofá y le das al botón de Netflix. La cadena de valor comienza en la producción de video, que requiere muchos medios humanos y tecnológicos. Crear video de calidad es muy costoso, consume muchos recursos. Luego comienza el tortuoso camino legal para poder explotar la licencia de ese contenido. Finalmente, se procede a la distribución del video en los diferentes canales y plataformas.
La primera disrupción que se produjo comenzó con la digitalización del contenido. Al ser digital, era replicable. Luego Internet creó un canal de distribución incontrolable. Pasaron los años, se normalizaron las plataformas de contenido como Netflix, y a día de hoy mayoritamente todos consumimos contenido pagando suscripciones. En estos años, la disrupción enfatizó en el cambio del modelo de distribución, pero apenas se había cambiado el modo de crear desde el inicio ese contenido audiovisual.
Estos modelos nuevos de texto-a-video cambian radicalmente el modo en el que creamos ese video desde el origen, para crear un plano secuencia aéreo de un acantalido en el que las olas rompen contran las rocas. Puedes alquilar un helicóptero con piloto, instalar una cámara aérea manejada por un cámara experto, y grabar ese plano con un coste aproximado de 10.000 euros, o puedes alquilar un dron de alta resolución y planificar un vuelo con un coste de 2.500 €, o puedes ir a Sora, crear una prompt, lanzar el proceso y obtener un video espectacular en cuestión de segundos, a un coste de 0,04 €.
Históricamente, desde la irrupción de Internet en nuestras vidas, los avances tecnológicos siempre impactan en primera persona a la industria del video y de la música, son de algún modo los conejillos de India, dónde se producen las disrupciones iniciales que en años posteriores se trasladan a otras industrias. Lo que está sucediendo hoy con herramientas como Sora cambia la partida de póker en este mercado, el cambio que se va a producir en estas industrias audiovisuales va a ser profundo, y no resulta baladí.
El eslabón pérdido.
Si no existe, habrá que inventarla, pero queda un hueco por cubrir. Saldrán nuevas plataformas de video que se basen en la arquitectura de lo que llamamos la economía de creadores. Me imagino un Substack para creadores de contenido de video. Al fin y al cabo, en breve todos seremos Scorsese, todos tendremos la capacidad de crear y producir contenido audiovisual de alta calidad, todos podremos crear nuestros guiones y series, estarán al alcance de todos, y saldrán nuevos formatos de consumo de video y experiencias audiovisuales que no existen todavía.
Igual que nos suscribimos a newsletters de creadores, nos suscribiremos a contenidos de directores de cine en potencia. En algún pueblo remoto del Himalaya, habrá un niño de 9 años con un don especial para producir cine, y quizá ni el mismo lo sepa a día de hoy que tiene ese gen innato. Cuando acceda a Sora, se le empoderará para que pueda mostrar su arte al mundo.
Disfrutarás del entretenimiento audivisual en una experiencia totalmente personalizada, entrarás a tu Netflix y no te pasarás media hora par encontrar el contenido que quieres. Las recomendaciones que tenemos a día de hoy evolucionarán hacia una experiencia a medida y altamente personalizada. Elegirás el tiempo del metraje, escribirás un breve guión de entrada a través de una prompt, definirás a los actores y elegirás las localizaciones, le darás a un botón de generar y el reto computacional estará en reproducir ese contenido en tiempo «casi» real.
Con GenAI el guión nunca está escrito, luego las posibilidades son infinitas. Cuando tengas que ver el segundo capítulo de tu serie ultra personalizada, probablemente debas seleccionar en el fin del capítulo 1 cómo quieres que continúe la historia.
La inteligencia artificial generativa abrirá un nuevo mundo de hiper personalización con infinitas posibilidades, en el que tú serás el protagonista de la historia, crearás tus películas, compondrás tus canciones favoritas, y contruirás tus softwares a medida, esto no ha hecho más que comenzar, bienvenidos a una nueva de era de video generativo.