Con libertad se escribe mejor código.

Agent Zero

“Libre, como el sol cuando amanece, yo soy libre como el mar… Libre, como el código abierto, que está redefiniendo la industria de GenAI” Este estribillo, inmortalizado en la icónica canción de Nino Bravo, resuena hoy con fuerza en el mundo de la inteligencia artificial. La comunidad de código abierto ha tomado la delantera, superando a gigantes como OpenAI y Anthropic, demostrando que la verdadera innovación nace de la colaboración y la libertad de compartir conocimientos, fuera de los despachos y los incentivos de rondas de inversiones.

En un entorno donde el acceso abierto y la transparencia son pilares fundamentales, el movimiento del código libre no solo está redefiniendo el estado del arte de la IA generativa, sino que también está estableciendo un nuevo estándar de ética y progreso.

Este año he estado muy activo probando modelos, herramientas y entornos libres y recientemente me encontré una joyita llamada Agent Zero del checo Jan Tomášek y hoy la quiero compartir con vosotros.

Si esto no es GPT-Next, será algo muy parecido…

Agent Zero hace honor a su nombre, y en ningún momento es pretencioso. Estamos viviendo un hype tremendo en el mal uso de la palabra «Agente» en redes sociales; la etiqueta de hace dos años, «AI-powered», está abriendo el camino a «AI-agent», ahora todo son agentes, ya no hay copilots, ni autopilots, ni asistentes, ni bots, ni modelos, ni entornos, ni procesos de automatizaciones, y la confusión que se está creando es tremenda.

Esta herramienta de código libre cumple con las tres premisas sencillas para considerar que una IA es un agente:

Autonomía: Puede tomar decisiones sin intervención humana.
Propósito: No solo sigue instrucciones; persigue metas.
Adaptabilidad: Aprende del entorno y ajusta sus acciones.

Se ha conceptualizado como un asistente personal de propósito general, y tiene diferencias notables con ChatGPT, ya que puede actuar como orchestrador, hablando y coordinando diferentes agentes de tipo especializado para resolver cualquier problema que se le presente.

De igual modo interactúa con tu ordenador local, descarga archivos, se conecta a Internet y ejecuta código de forma autónoma. Adicionalmente, puede trabajar con todos los modelos de lenguaje del mercado, tanto los privados como GPT-4o, como los abiertos tipo Llama.

Un todo en uno, capaz de ejecutar cualquier tarea imaginable. Su modus operandi difiere ligeramente del modo de trabajo de o1 (el modelo reciente de razonamiento de OpenAI), también crea cadenas de pensamiento para resolver un problema, pero la diferencia está en que ejecuta el código en Python en tiempo real para resolver cualquier tipo de tarea.

Lanzas la tarea, la divide en subtareas y genera el código que resuelve esas subtareas; es decir, ante cualquier problema genera el código que lo resuelve, llamando e instalando por el camino cualquier recurso o librería que necesite para resolver ese problema.

Aquí está la autonomía, toma decisiones sobre la marcha adaptándose al entorno y es de propósito general. No es un agente especializado en desarrollo de código, es un agente general que utiliza siempre el código para resolver cualquier tipo de problema, para cualquier tipo de tarea que imagines. Este enfoque es muy diferencial.

Si le preguntas a Agent Zero ¿Qué hora es en Berlín y Seattle? Define su cadena de pensamiento … razona que necesita la librería ‘pytz’ para obtener esa información, y ejecuta una herramienta llamada code_execution_ tool basada en Phyton …

Que detecta que no tiene esa librería instalada en su entorno; luego llega a la conclusión de que tiene que ejecutar un comando para instalar la librería y obtener la información.

Finalmente, consigue la repuesta tras varias iteraciones y devuelve el resultado:

Si le preguntas a ChatGPT la misma pregunta, se conecta con los GPTs de su marketplace que tienen esa información, Time and Date o World Time Clock, para devolverte el resultado.

Si le preguntas al Copilot de tu navegador en Edge conectado a Internet, encontrará la respuesta directamente desde la página web que tiene esa información.

Aquí os presento tres formas distintas de resolver el mismo problema. La diferencia con Agent Zero es que, a diferencia de los demás, no recurre a terceros para consultar información. En su lugar, construye una pequeña herramienta en tiempo real basada en código para solucionar cualquier tipo de problema.

Este enfoque es increíblemente potente, ya que muy pocos problemas pueden resistirse a este método de razonamiento nativo de un agente.

Si le lanzas la misma pregunta al modelo de razonamiento o1 de OpenAI, directamente no te va a responder nada:

Luego, entendamos el impacto que tiene esta herramienta de código libre en el estado del arte actual de lo que estamos llamando agentes de IA.

Estamos hablando de una herramienta en fase muy experimental, y lamentablemente no está preparada aún para el usuario que no tenga un mínimo de conocimientos técnicos, ya que su instalación y puesta en marcha requiere cierta maña, y al tener acceso a los archivos locales y a Internet, entendamos que en estas versiones iniciales hay riesgos de seguridad en el uso de Agent Zero.

De modo que se recomienda usar contenedores Docker para ejecutar Agente Zero de manera segura y evitar daños accidentales en los archivos locales.

Pero qué duda cabe de que probablemente las nuevas versiones de herramientas propietarias como o1, GPT-4o, etc. empiecen a funcionar de una manera similar a Agent Zero, con sus diferencias, pero en la base del enfoque coincidirán todos.

El dilema de IA propietaria vs Código libre

En conversaciones con clientes que están empezando a integrar IA generativa en sus empresas, tarde o temprano se plantea el dilema de usar IA propietaria como ChatGPT o utilizar herramientas y modelos de código abierto. Depende de muchos factores y variables.

Los modelos propietarios, como GPT-4 de OpenAI, ofrecen un inicio rápido con una inversión inicial mínima. Sin embargo, los modelos de código abierto, inspirados en LLaMa de Meta, están cerrando rápidamente la brecha de rendimiento, proporcionando adaptabilidad y rentabilidad a largo plazo.

La elección entre IA propietaria y de código abierto no es trivial. Ejecutar IA internamente de código abierto mejora la privacidad y la seguridad, aspectos cruciales para aplicaciones empresariales. Además, el ecosistema de código abierto fomenta una comunidad activa de desarrolladores que contribuyen a la mejora continua y la innovación compartida.

Este ciclo de innovación es vital para mantener la competitividad en un mercado en constante evolución.

En conclusión, las empresas deben evaluar sus necesidades específicas, recursos y objetivos a largo plazo para tomar una decisión informada que maximice el valor y la innovación. Y lo que no te gastes en software propietario, lo tendrás que invertir en hardware para ejecutar código libre y en horas de desarrolladores que se manejen bien en estos entornos.

La estrategia de implementación de IA dependerá de tus objetivos empresariales y cada enfoque tiene sus ventajas y desafíos únicos.