Orquestación de agentes IA: cómo coordinar múltiples LLMs en un mismo flujo

Orquestación de agentes IA

La primera vez que alguien te habla de «agentes de IA», la imagen mental suele ser la de un único asistente muy capaz haciendo tareas por vos. Esa imagen está desactualizada.

Lo que está pasando en producción hoy —y lo que MIT Technology Review pone en su lista de las 10 cosas más importantes en IA en 2026— es otra cosa: equipos de agentes que se reparten el trabajo, se pasan contexto entre sí y se corrigen mutuamente para resolver tareas que ninguno podría completar solo. A eso se le llama orquestación de agentes, y entender cómo funciona dejó de ser opcional para cualquiera que esté construyendo sistemas con LLMs.

De los agentes solos a los equipos de agentes

La primera generación de agentes de IA —la que usaba herramientas como ReAct o los primeros AutoGPT— funcionaba en modo secuencial: el modelo pensaba un paso, ejecutaba una acción, observaba el resultado, y repetía. Era un único proceso, una única cadena de razonamiento.

El problema es evidente: si el modelo se equivoca en el paso 3, los pasos 4, 5 y 6 heredan ese error. Y para tareas complejas con muchas partes móviles, ese modelo se rompe rápido.

La orquestación multi-agente resuelve esto de una manera que en retrospectiva parece obvia: en lugar de tener un agente que hace todo, tenés varios agentes especializados que trabajan en paralelo o en secuencia, con roles definidos. Uno escribe código, otro lo revisa, un tercero lo testea. Uno hace la investigación, otro sintetiza, otro verifica las fuentes. El ejemplo más concreto es Claude Code: permite lanzar y coordinar docenas de subagentes simultáneos trabajando en distintas partes de la misma base de código.

Los cuatro patrones de orquestación que dominan en producción

No existe una sola forma de organizar un sistema multi-agente. Con el tiempo se consolidaron cuatro patrones principales, y conocerlos te ahorra mucho tiempo de diseño.

1. Patrón Supervisor (el más usado)

Un agente central —el supervisor— recibe la tarea, la descompone, delega subtareas a agentes especializados y sintetiza los resultados. El 70% de los despliegues en producción usan este patrón o variantes jerárquicas de él.

Es el más predecible y el más fácil de debuggear. Tiene un punto de control claro donde se puede inspeccionar qué está pasando. La contra: si el supervisor falla o toma una mala decisión de routing, todo el flujo se ve afectado.

2. Patrón Pipeline (secuencial)

Los agentes procesan la tarea en cadena: el output del agente A es el input del agente B. Cada uno refina o transforma el resultado anterior. Funciona bien cuando el problema tiene pasos naturalmente ordenados y bien definidos —por ejemplo, extraer datos → limpiarlos → analizarlos → generar un reporte.

Es determinístico y trazable. El overhead de tokens es el más bajo de todos los patrones (~58% extra comparado con un agente único). El problema es que no tiene manejo de errores automático: si un paso falla, hay que definir qué hace el siguiente.

3. Patrón Jerárquico

Es una extensión del patrón supervisor con capas anidadas. Un supervisor de alto nivel coordina supervisores intermedios, cada uno de los cuales maneja sus propios agentes especializados. Escala bien para problemas multi-dominio donde cada dominio tiene su propia lógica interna.

La contrapartida es el costo: los sistemas centralizados pueden generar hasta un 285% de overhead en tokens comparado con un agente único. Usar este patrón solo tiene sentido cuando la complejidad real del problema lo justifica.

4. Patrón Swarm (enjambre)

Los agentes trabajan en paralelo sin coordinación central. Cada uno tiene acceso al estado compartido y toma decisiones de manera autónoma. Es el más difícil de controlar pero potencialmente el más potente para ciertos tipos de exploración o generación creativa donde querés diversidad de enfoques.

En producción, el swarm puro es raro. Lo más común es usar variantes híbridas con algún mecanismo de consenso o evaluación final.

El problema que nadie menciona: el estado compartido

Hay algo que la mayoría de los tutoriales de multi-agente no dice explícitamente: la causa número uno de fallos en producción no es el patrón elegido. Es la inconsistencia del contexto compartido.

Cuando varios agentes trabajan en paralelo sobre el mismo problema, necesitan acceso a un estado común. Si el agente A actualiza ese estado y el agente B todavía está trabajando con la versión anterior, el resultado final va a ser incoherente. No importa qué tan buenos sean los prompts individuales de cada agente.

La solución no es técnicamente complicada —es básicamente un sistema de gestión de estado con control de concurrencia— pero requiere diseñarla explícitamente. LangGraph, por ejemplo, tiene checkpointing y «time travel» (la capacidad de volver a un estado anterior del grafo) como funcionalidades de primera clase exactamente por esta razón.

Los tres frameworks principales y cuándo usar cada uno

En 2026 hay tres frameworks que dominan el espacio de orquestación multi-agente. Tienen filosofías distintas y conviene elegir el que encaja con tu tipo de problema, no el que está más de moda.

LangGraph

Define los flujos de trabajo como grafos de estado dirigidos. Cada nodo es un agente o una función, y las aristas definen las transiciones. Permite condiciones, loops y ramificaciones complejas.

Cuándo usarlo: cuando tu workflow tiene lógica condicional no trivial, necesitás trazabilidad paso a paso, o querés manejo robusto de errores con posibilidad de retomar desde un punto intermedio. Es el más verbose de los tres —no arrancás en 20 líneas— pero es el que te da más control.

CrewAI

Modelo basado en roles. Definís agentes como si fueran personas con un puesto: «sos un analista de datos con acceso a estas herramientas, tu objetivo es esto». El framework se encarga de la coordinación. Tiene la curva de aprendizaje más baja de los tres.

Cuándo usarlo: cuando tenés una secuencia de pasos relativamente clara y querés llegar a un prototipo funcional rápido. Para workflows definidos con dependencias lineales, CrewAI es la opción más directa.

AutoGen / AG2 (Microsoft)

Los agentes interactúan mediante conversación multi-turno. La v0.4 (rebautizada AG2) reescribió la arquitectura con un núcleo event-driven y ejecución asíncrona. El patrón de coordinación central es GroupChat: múltiples agentes en una conversación compartida donde un selector decide quién habla en cada turno.

Cuándo usarlo: cuando los agentes necesitan debatir, criticarse mutuamente o refinar outputs de forma iterativa. Es el más natural para tareas como revisión de código, análisis legal multi-perspectiva o investigación con fact-checking.

El costo real de los sistemas multi-agente

Hay algo que conviene saber antes de armar un sistema multi-agente para cualquier cosa: no siempre vale la pena.

Un sistema multi-agente independiente genera alrededor de un 58% de overhead en tokens comparado con un agente único. Uno centralizado puede llegar al 285%. Eso se traduce directamente en costo y en latencia.

La pregunta que hay que hacerse antes de diseñar un sistema así no es «¿cómo orquesto esto?» sino «¿el problema realmente se beneficia de la especialización, el paralelismo o la crítica mutua?». Si la respuesta es no, un agente bien promoteado con buenas herramientas va a ser más económico, más rápido y más fácil de mantener.

La orquestación multi-agente paga dividendos cuando: la tarea es demasiado grande para el context window de un solo modelo, cuando distintas partes requieren habilidades genuinamente distintas, o cuando la calidad del output mejora con revisión iterativa. En esos casos, la inversión en complejidad tiene retorno claro.

Lo que viene: agentes que se auto-organizan

El paso lógico siguiente —que ya se está investigando— son sistemas donde los propios agentes negocian sus roles y se redistribuyen tareas de manera dinámica, sin que un supervisor humano o un grafo estático lo defina de antemano. Google DeepMind’s Co-Scientist, que coordina equipos de agentes para hacer investigación científica end-to-end (búsqueda bibliográfica, generación de hipótesis, diseño de experimentos), es probablemente el ejemplo más avanzado de esto en producción hoy.

El desafío principal no va a ser técnico. Va a ser saber cuándo confiar en el sistema y cuándo intervenir. La orquestación de agentes a escala es la nueva gestión de equipos, con todo lo que eso implica: necesitás observabilidad, necesitás puntos de intervención humana bien diseñados, y necesitás entender qué puede salir mal cuando el sistema actúa de forma autónoma en infraestructura real.

Como escribió MIT Technology Review: «¿Estamos listos para que los agentes se suelten sobre nuestra infraestructura digital ubicua, desde la salud hasta las finanzas?» Es la pregunta correcta. Y la respuesta, por ahora, es: depende de qué tan bien diseñada esté la orquestación

 

 

Comentarios
advertise width me