Skip to content

Modelos Open Source

AgentCrew incluye soporte integrado para ejecutar modelos open source localmente a traves de Ollama. Cuando seleccionas Ollama como proveedor de modelos, AgentCrew gestiona automaticamente todo el ciclo de vida: iniciar el contenedor de Ollama, descargar modelos, precalentarlos y detener el contenedor cuando ningun equipo lo necesite.

Esto significa que puedes ejecutar equipos de agentes IA completamente en tu propio hardware, sin necesidad de claves API externas y con total privacidad de datos.

Como Funciona

Infraestructura Compartida

A diferencia de los contenedores de equipo (que estan aislados por equipo), Ollama se ejecuta como infraestructura compartida. Un unico contenedor agentcrew-ollama sirve a todos los equipos que usan el proveedor Ollama. Esto evita duplicar archivos de modelos grandes y reduce el uso de recursos.

  • Conteo de referencias: AgentCrew rastrea cuantos equipos estan usando Ollama. El contenedor se inicia cuando el primer equipo Ollama se despliega y se detiene cuando el ultimo se elimina.
  • Almacenamiento persistente: Los modelos descargados se almacenan en un volumen Docker (agentcrew-ollama-models) que persiste incluso cuando el contenedor se detiene. Los modelos solo necesitan descargarse una vez.
  • Multi-red: El contenedor de Ollama se conecta a la red Docker de cada equipo, permitiendo que los contenedores de agentes lo alcancen via DNS (agentcrew-ollama:11434).

Ciclo de Vida Automatico

Cuando despliegas un equipo con el proveedor Ollama, AgentCrew automaticamente:

  1. Inicia el contenedor agentcrew-ollama (o lo reutiliza si ya esta en ejecucion).
  2. Lo conecta a la red Docker del equipo.
  3. Descarga el modelo seleccionado (si no esta descargado previamente).
  4. Precalienta el modelo cargando los pesos en RAM, evitando retrasos de arranque en frio en el primer mensaje.
  5. Despliega los contenedores de agentes del equipo con OLLAMA_BASE_URL preconfigurado.

Cuando detienes un equipo, AgentCrew desconecta Ollama de la red de ese equipo y decrementa el conteo de referencias. Si ningun otro equipo esta usando Ollama, el contenedor se detiene (pero el volumen con los modelos descargados se preserva).

Soporte de GPU

AgentCrew detecta automaticamente GPUs NVIDIA en la maquina host. Si se encuentra nvidia-smi en el PATH del sistema, se habilita el passthrough de GPU para el contenedor de Ollama, dando a los modelos acceso a todas las GPUs disponibles para una inferencia drasticamente mas rapida.

No se necesita configuracion manual. Si hay una GPU disponible, se usara automaticamente. Puedes verificar el estado de la GPU a traves del endpoint de estado.

Usando Ollama en AgentCrew

Creando un Equipo

  1. En el asistente de creacion de equipos, selecciona OpenCode como proveedor.
  2. Elige Ollama como proveedor de modelos.
  3. Selecciona un modelo para tus agentes. El modelo por defecto es qwen3:4b, pero puedes usar cualquier modelo disponible en la biblioteca de modelos de Ollama.
  4. Configura tus agentes como de costumbre. Todos los agentes del equipo usaran el proveedor de modelos Ollama seleccionado.

Formato de Modelos

Al especificar modelos de agentes, usa el prefijo ollama/ seguido del nombre del modelo y la etiqueta opcional:

  • ollama/qwen3:4b
  • ollama/llama3.3:8b
  • ollama/codellama:13b
  • ollama/mistral:7b
  • ollama/devstral

Tambien puedes usar inherit para que el agente use el modelo por defecto del equipo.

Restriccion de Proveedor de Modelos

Cuando el proveedor de modelos de un equipo esta configurado como Ollama, todos los agentes de ese equipo deben usar modelos de Ollama. No puedes mezclar proveedores dentro de un mismo equipo OpenCode (por ejemplo, un agente usando Ollama y otro usando OpenAI). Esta restriccion garantiza un comportamiento consistente en tiempo de ejecucion, ya que todos los agentes comparten el mismo entorno de contenedor.

Si cambias el proveedor de modelos en un equipo existente, todas las selecciones de modelo de los agentes se reinician automaticamente a inherit.

Endpoint de Estado

Puedes verificar el estado actual de la infraestructura de Ollama a traves de la API:

GET /api/ollama/status

Ejemplo de respuesta:

{
  "running": true,
  "container_id": "abc123...",
  "models_pulled": ["qwen3:4b", "codellama:13b"],
  "ref_count": 2,
  "gpu_available": true
}
Campo Descripcion
running Si el contenedor de Ollama esta actualmente en ejecucion.
container_id ID del contenedor Docker (vacio si no esta en ejecucion).
models_pulled Lista de modelos ya descargados y disponibles.
ref_count Numero de equipos activos usando Ollama.
gpu_available Si el passthrough de GPU NVIDIA esta disponible.

Requisitos

  • Docker: Ollama se ejecuta como contenedor Docker, por lo que Docker debe estar disponible en el host.
  • Espacio en disco: Los modelos van desde ~2 GB (modelos pequenos de 4B parametros) hasta ~10+ GB (modelos grandes de 13B+ parametros). El volumen persistente almacena todos los modelos descargados.
  • RAM: Los modelos se cargan en RAM (o VRAM si hay GPU disponible). Asegurate de que tu host tiene suficiente memoria para el tamano del modelo seleccionado.
  • GPU (opcional): GPU NVIDIA con nvidia-smi y el NVIDIA Container Toolkit instalado para aceleracion por GPU.

Siguientes Pasos

  • Proveedores: Conoce todos los proveedores soportados y como se comparan.
  • Configuracion: Revisa las variables de entorno y ajustes de la aplicacion.
  • Arquitectura: Comprende como funcionan juntos los contenedores, sidecars y redes.