De texto a acción – Anatomía de un agente.

Radiografía de un Agente Robótico en estilo Cyberpunk 2077. Author: Pedro Trillo. Herramienta: Bing

A lo largo del día, nosotros los humanos planificamos continuamente, desde que te levantas hasta que te acuestas. Cuando conduces, cocinas, practicas deporte o cualquier tipo de tarea, realizas una serie de pasos; al tenerlos tan interiorizados y automatizados en el neocórtex de tu cerebro, no te paras a pensar en ellos, simplemente actúas y ejecutas la tarea de manera automática, ya que lo has aprendido previamente, y ante una tarea nueva (sin aprendizaje previo) te readaptas con lo aprendido en otras áreas para poder resolver ese problema nuevo que te aparece.

Todos sabemos que cuando tenemos que resolver un problema complejo, lo lógico es dividirlo en trozos más pequeños y crear una priorización (un orden lógico para acometer una tarea en una serie de pasos). Los agentes de IA que se están cocinando ahora actuarán de una manera muy similar a cómo realizamos tareas los humanos, razonarán el problema, lo dividirán en tareas, y planificarán la ejecución con pasos lógicos.

La Transición de Modelos Monolíticos a Sistemas Compuestos.

Desde la explosión de LLMs (Large Language Models) de 2022, los primeros sistemas de IA se basan en modelos monolíticos que ejecutan tareas específicas de manera aislada. Estos modelos tienen un conocimiento limitado; normalmente se basan en los paquetes de datos CommonCrawl y RefinedWeb, entre otros, que básicamente son scrapeos del texto de Internet entero.

Imagina que tienes un restaurante, y tus empleados acceden a un bot para conocer los turnos de trabajo de la semana que viene. Si realizas una búsqueda al LLM sin datos interconectados, no te responderá nada con sentido; si interconectas la base de datos de turnos al LLM y lanzas una query de búsqueda de texto, te devolverá el resultado correcto con lenguaje natural. A este concepto se le llama sistema compuesto, y se basa en técnicas de fine tunning, entrenando al LLM con tus datos propietarios.

En cualquier caso, se parte de una capacidad limitada para interactuar con otros sistemas o adaptarse a nuevos datos o tareas. Al principio requería de ingeniería, desarrollo de código, datos estructurados y limpios, así como la preparación de los mismos, y luego aparecieron los interfaces GPTs o plugins con carga de datos directa y sencilla.

Las técnicas de IA denominadas RAG (Retrieval Augmented Generation) son de algún modo un sistema compuesto, ya que se pueden configurar para combinar las capacidades de los modelos generativos con los sistemas de recuperación de información Este enfoque permite a la IA generar respuestas más precisas y contextualmente relevantes accediendo a fuentes de conocimiento externas.

Luego, para diseñar un agente, conviene destacar que habrá un cambio de modelos LLM standalone a sistemas de IA compuestos e interconectados que resuelvan tareas más complejas.

Integración con Bases de Datos y Herramientas Externas.

Un LLM-agente deberá ser modular por naturaleza y se integrará con varias fuentes diferentes. Podrá ser otro LLM, un modelo específico y propietario de fine tunning, una app multimodal, generadores de imágenes, bases de datos propietarias, herramientas de software, apps, un repositorio en cloud, Internet, APIs, otros agentes, etc.

Ahora, cuando le preguntas a ChatGPT, hace una llamada al LLM GPT4.o para devolverte una respuesta (piensa rápido), pero cuándo le preguntes a este LLM-agente o sistema compuesto complejo, pensará «despacio», descompondrá tu query en tareas más pequeñas, y repartirá cada una de esas tareas al módulo de integración correspondiente. El agente razonará, descompondrá, planificará, negociará y repartirá las tareas entre los diferentes módulos. De texto a acción, razona y actúa.

Volviendo al ejemplo del restaurante, imagina que eres el manager de una cadena de restaurantes con 50 empleados, y una de tus tareas es la de gestionar los turnos de trabajo semanales del personal. Cada semana entras a tu herramienta de software de planificación, repartes los turnos, cuadras los datos con el software de recursos humanos dónde parecen vacaciones y bajas, y por último cada viernes envías un correo por empleado informándole del horario de la semana que viene.

En todo el proceso el control lo tiene el humano, tienes que abrir varios softwares, consultar datos y enviar correos. Cuando estén en marcha los agentes, el control será del LLM, definirás tu tarea de manera específica, con todo tipo de detalle, y le lanzarás la tarea al agente, él se encargará de todo el proceso, y cómo tendrá memoria, recordará que cada viernes debe lanzar esa rutina, y cuándo se equivoque le corregirás hasta llegar a la perfección en la ejecución de esa tarea, y cuando acabes con esa tarea le mandarás la automatización de otra.

Consideraciones.

Sobre la capacidad de razonamiento de las futuras versiones de LLMs, se debería pensar más en la capacidad de planificar. Será GPT-5 un sistema IA agente, quizá lo veremos en breve, y no será por más datos o capacidad de cómputo, si no por algún tipo de fine tunning que funcione para que nativamente el modelo divida las prompts en tareas, el razonamiento suficiente para que pueda planificar y orchestrar los diferentes sistemas.

Recordemos que la primera versión de ChatGPT fue un GPT-3 muy tuneado, forzado, entrenado y educado para responder de una determinada forma; luego con técnicas de entrenamiento parecidas se podrá conseguir que GPT-5 empiece a ser un LLM-agente.

Los que más posibilidades de éxito tienen, serán aquellas empresas que tengan ecosistemas tecnológicos completos e interoperables. Microsoft y Google con sus suites de software y clouds podrán crear los agentes más potentes. En un mundo ideal, una empresa que tenga su stack tecnológico harmonizado con Windows, 365, Teams, Azure y Dynamics con el futuro agente de Microsoft podrá hacer virgerías.

Aquellas empresas que tengan un stack tecnológico más variado y complejo van a ser todo un reto para los futuros agentes que vienen.

La última incógnita será la interoperabilidad y negociación entre agentes externos; hasta aquí hemos hablado de cómo un agente reparte tareas entre diferentes módulos y sistemas, pero la duda será el día que quieras que tu agente te prepare tus vacaciones, y se tenga que comunicar con el agente de Booking.com para el avión, y con el agente Marriot Hotels para la reserva de la habitación; es más, llamará a un tercer agente, el de banco para que realice el pago.