Acabo de crear mi primera obra de arte, y estoy muy orgulloso de ella, os lo cuento, tardé 1 minuto en conceptualizar el texto de la idea: «Two Picassian Lovers Walking On The Beach» y 1 segundo en generar la imagen artística.
Cuando acabé mi primera obra, me dejé llevar por el frenesí, y pensé en un posible nombre para la segunda, me encanta el estilo del pintor Basquiat, y me chiflan las jirafas, luego se me ocurrió esta entrada para el algoritmo:
«A giraffe with eagle wings flying over a pyramid in the style of Basquiat.»
Et voilá, apareció la obra maestra:
Para rizar el rizo, se me ocurrió enfrentar a Basquiat con Picasso, en un reto extraordinario, tenían que crear la mejor obra de arte del mundo, y lancé la orden de abajo al algoritmo de IA:
«Basquiat and Picasso fight to create the world’s greatest work of art.»
Y se pusieron manos a la obra (nunca mejor dicho):
Si Picasso o Basquiat vivieran, seguro que se apuntarían a la fiesta que tenemos montada con la Inteligencia Artificial Generativa. A finales de 2020, hubo una la explosión de modelos generativos de texto, dando un salto sin precedente con GPT-3, este verano de 2022 le toca el turno a la imagen, llegando a un nivel de innovación que se recordará en los libros de historia.
DALL-E, Midjourney, Imagen (de Google) y Disco Diffusion, nos prometen unas vacaciones muy divertidas.
Señales.
Internet se basa en lo que los telecos llamamos las cuatro señales básicas:
Texto
Imagen
Audio
Video
De las cuatro, el texto (el lenguage), es la más importante, construyendo la base narrativa de las restantes. El texto se usa para etiquetar una imagen, para componer la letra de una canción o para crear el guion de un video, es la base subyacente de cualquier creación que quiera realizar un humano.
En un futuro no muy lejano trabajaremos generando textos muy breves (prompts), que generarán la escritura de otro texto más desarrollado, la creación de una imagen o diseño, la base de una melodía, o la composición de un videoclip, cuando interactúas con este tipo de herramientas de IA generativa, debes empezar a familiarizarte con el término prompt (es de estas palabras que mejor la dejamos en inglés), es decir, tu trabajo se va a reducir a la ideación de prompts, y os preguntaréis ¿Qué es una prompt? Esto:
«Two Picassian Lovers Walking On The Beach»
Utilizando ese texto de entrada, he obtenido en este caso una imagen a la salida, si hubiera querido generar un artículo o un poema con ese título también lo podía haber hecho usando Writesonic.
El mecanismo siempre es el mismo, idea una prompt ENTRADA; cliquea el botón de GENERAR; y recibe a la SALIDA un texto, un documento, una imagen, un audio, o un video.
Para generar código, por ejemplo no hará falta conocer los lenguajes de programación, escribirás lo que quieres hacer en lenguaje natural y herramientas como Copilot generan todo el código en el lenguaje de programación que decidas. Le dices, genérame una matriz de 3×3 y asigna un peso por celda de 0 a 9, y Copilot te devuelve el código en menos de un segundo.
Para simplificar aún más en Vizologi os pedimos que introduzcáis 2 keywords, ni siquiera una prompt completa, a partir de las mismas os generamos un listado de ideas de startups asociado a la entrada de las keywords, por ejemplo con [CATS] y [SOCIAL MEDIA] como entrada, os genera a la salida una aplicación tipo Tinder para gatos (bueno más bien para los dueños de gatos).
Y no nos quedamos aquí, en el último trimestre de este año, sacamos Autopilot, os pediremos 5 campos de entrada, la idea (prompt), el nombre, el mercado, continente y país.
Y a la salida os generamos un briefing de proyecto completo de 14 slides, incluyendo todo tipo de detalles de mercado, competencia, busines model canvas, SWOT, PESTLE, etc, todo con lenguaje natural autogenerado por IA.
Es más el año que viene, os generaremos el logo, la marca, la imagen de la idea que estéis desarrollando en nuestro software, esto acaba de empezar.
Estado del arte.
Recapitulando, los mayores avances hasta la fecha se están produciendo en texto, GPT-3 (motor de IA que usamos en Vizologi) hasta la fecha se ha posicionado como la red neuronal más potente y sofisticada, con una red neuronal de 175 Billones de parámetros, se está especulando mucho sobre Megatron Turin, que a priori ofrecerá una red neuronal de 530 Billones de parámetros.
Se podría decir que la tecnología está muy por delante del negocio real que estamos generando las primeras startups de IA generativa, para hacernos una idea, es esta página de demos de GPT-3 https://gpt3demo.com/ encontraréis más de 300 experimentos, de aquí 40 tenemos un producto real con base generativa, de los 40, tan solo 20 estamos monetizando la tecnología, y tenemos una base de clientes razonable.
El gran reto ya no está en la tecnología, sino en cómo monetizar la Inteligencia Artificial a través de nuevos productos y servicios. Van a hacer falta toneladas de emprendedores para poder hacer llegar estas tecnologías hasta pie de calle, para que llegue a la masa general.
Para todos, emprendedores y early adopters, esto es nuevo y estamos empezando a darle sentido, ni Microsoft ni Google con miles y miles de millones invertidos han empezado a monetizar. La mayoría de la inversión se va en el hardware, pero sobre todo en el entrenamiento de las redes neuronales.
GPT-3 es lo que es, a día de hoy, porque Microsoft compró OpenAI e inyectó 1000 millones de golpe para en entrenamiento de los datos, aparte de ofrecer todo su hardware. La algoritmia que hay detrás de esta tecnología apenas a variado en 60 años, la explosión que estamos teniendo ahora es una conjunción de grandes volúmenes de datos desde que apareció Internet, avances notables en la potencia de las GPUs, y una inversión titánica en el entrenamiento de las redes.
Para que os hagáis una idea, las actuales redes neuronales de generación de imágenes, están llegando a 20 Billones de parámetros, y los resultados a día de hoy son ya espectaculares, aún yendo 9 veces por detrás del texto.
No hay nada más didáctico que mostrar una imagen para explicar un concepto, para que entendamos en nivel de exponencialidad y la velocidad del cambio en el que nos estamos moviendo las startups de IA nativa, entre la imagen de la derecha de abajo y la de la izquierda hay 9 meses de diferencia, pensad ¿Qué podremos hacer en 2030? Dentro de tan solo 8 años.
Sobre audio, también hay avances significativos, pero aquí los bancos de datos están siendo más restrictivos por temas de Copyright, Jukebox ya está generando temas de música, si quieres generar un tema de rock, tan solo necesitas ordenar la prompt: Rock in the style of Elvis Presley. Le cargas la letra generada previamente por GPT-3, y obtendrás el tema musical.
A futuro, cuando entres a tu Spotify es muy probable que tengas que dar una breve entrada de datos del estilo musical y tu estado de humor, y de manera automática se te generará una playlist de temas autogenerados y personalizados en tiempo real.
Sobre video, estamos todavía en pañales, entendiendo que el video no deja de ser una secuencia de 24 imágenes por segundo, tarde o temprano cuando el hardware nos lo permita podremos generar video con IA. Abajo os dejo un aperitivo de un videoclip musical donde le dieron como entrada la letra y el audio a partir de este se autogeneró el video:
Errores comunes experimentando con Inteligencia Artificial.
Hablando con mis clientes, en el día a día, cuando me abren un incidencia o me lanzan una pregunta, hay un error común entre todos ellos, me preguntan hasta la saciedad, ¿Qué dónde está el Link? … No hay link chic@s, esto es IA, no lo confundais con Internet, la IA no es Internet, no es lanzar una pregunta sobre el buscador de Google, y recibir millones de links a webs, la IA no funciona con links de hipertexto, la IA compone texto combinado prediciendo la siguiente palabra después de una entrada, la IA apunta a vectores en un océano de 175 Billones de parámetros.
Otro error muy común, es escribir delante de una barra de búsqueda de IA como lo hacemos con la barra de Google, llegamos rápido y escribimos algo mal expresado y con faltas de ortografía: blahbalha juash ahahys smss.
Google siempre te responderá con algo a esta entrada, con la IA olvídate, no funciona así, cuanto peor sea la calidad de la query, peor va a ser el resultado de la IA, para entendernos, cuando te enfrentes a un producto de IA generativa, piensa que tienes que escribir el mejor tweet del mundo, exprésate con total corrección y sofisticación, la IA no tiene una calidad u otra, depende de ti como usuario, cuanto más inteligente sea tu entrada, más inteligente va a ser la salida del algoritmo.
Se trata de un espejo, la IA no es ni más inteligente ni menos que la persona que está interactuando con ella.
El futuro será de los tuiteros.
Preparando la documentación de este artículo encontré un video en Youtube en el que se propone un reto entre un diseñador gráfico Vs DALL-E, consiste en realizar 3 diseños de 3 imágenes, sobre tres prompts creativas lanzadas aleatoriamente, os recomiendo verlo hasta el final, al hombre lo encontraréis muy angustiado, se va a enfrentar a una IA y sus compañeros realizarán una votación con veredicto final sin saber que fuente ha generado cada imagen.
En el resultado de la votación de las tres imágenes, 2 ganó el humano y 1 DALL-E, en el video no se nombra nada sobre el tiempo utilizado, el diseñador tarda aproximadamente una jornada de trabajo de 8 horas. DALL-E generó las tres imágenes en menos de 3 segundos.
En el proceso humano, se realizan cerca de 600 microtareas humanas utilizando el software Photoshop, con DALL-E son tres clics al botón de GENERAR IMAGEN.
El 98% de la economía global, de algún modo, se basa en ese precio por hora de ese diseñador, por poner un ejemplo, podría ser un arquitecto, un ingeniero industrial, un programador, un copywriter, un jefe de proyecto, un artista, un doblador de cine, etc. Todas las profesiones conectadas o dependientes de algún modo u otro a la sociedad de la información se basan en las cuatro señales básicas como pilares fundamentales, texto, imagen, audio y video, en el momento en que estos pilares sean generativos, todo cambia.
Nuestra economía radica en la productividad que podamos extraer para realizar esas 600 microtareas que un trabajador necesita para realizar un trabajo X, que previamente se ha debido formar durante años para adquirir un buen nivel técnico de uso de Photoshop.
Con la IA generativa, el proceso de trabajo se simplifica a 3 pasos simples:
1/ Genera un ENTRADA – Donde la skill necesaria será la creatividad.
2/ Lanza el proceso generativo automático.
3/ Obtén una SALIDA – Donde la skill necesaria será el criterio de validación, modificación y readaptación del trabajo realizado por la tecnología.
Nuestros flujos de trabajo van a cambiar radicalmente, no sé si sobrarán horas de trabajo o gente, recordemos que estamos en el inicio de los inicios de la IA generativa, entrevistas que ya les han realizado a músicos o diseñadores, no ven claro que haya una sustitución clara, si no más bien una readaptación y cambio profundo en el su modo de trabajar.
La diferencia entre Internet y la IA, es que usamos Internet para que nos ayude a realizar nuestras tareas como humanos, la IA, sin embargo, no te ayuda, te hace el trabajo directamente, y aquí está la gran diferencia, no es trivial este cambio.
Ya están empezando a salir conceptos y posiciones laborales como Prompt Enginners, o Professional Curators. Que duda cabe que cuando digo que el futuro será de las tuiteros, me refiero a aquellos que tengan una habilidad innata para concentrar en 140 caracteres conceptos muy complejos y abstractos, serán la gente más empleable en el futuro que ya estamos construyendo.
El camino hacia la singularidad.
¿En qué punto nos encontramos hacia la singularidad? Quizá todavía nos quede esperanza, según el experto Geoff Hinton, a día de hoy la mayor red neuronal que existe se basa en 175 Billones de parámetros (GPT-3), el cerebro humano se compone de una red neuronal de 100 Trillones de sinapsis (parámetros), luego se podría decir que todavía somos aproximadamente 1000 veces más inteligentes que la mejor IA del mundo hasta la fecha.
Finalizando el artículo, os he demostrado que ya estamos dentro de un loop acelerado y exponencial, es más, los planes y desarrollos que se están conociendo para GPT-4 apuntan al alcanzar la singularidad llegando a esa red de 100 Trillones de parámetros, para vaya este proyecto va para largo, no esperemos a GPT-4 para 2023, tampoco será en 2029 o 2030, que según todos los futuristas era la fecha en la que se produciría la singularidad, que duda cabe, que en cualquier caso vamos muy por delante de la fecha, vamos muy rápido.