Modelos Open Source
AgentCrew incluye soporte integrado para ejecutar modelos open source localmente a traves de Ollama. Cuando seleccionas Ollama como proveedor de modelos, AgentCrew gestiona automaticamente todo el ciclo de vida: iniciar el contenedor de Ollama, descargar modelos, precalentarlos y detener el contenedor cuando ningun equipo lo necesite.
Esto significa que puedes ejecutar equipos de agentes IA completamente en tu propio hardware, sin necesidad de claves API externas y con total privacidad de datos.
Como Funciona
Infraestructura Compartida
A diferencia de los contenedores de equipo (que estan aislados por equipo),
Ollama se ejecuta como infraestructura compartida. Un unico
contenedor agentcrew-ollama sirve a todos los equipos que usan
el proveedor Ollama. Esto evita duplicar archivos de modelos grandes y
reduce el uso de recursos.
- Conteo de referencias: AgentCrew rastrea cuantos equipos estan usando Ollama. El contenedor se inicia cuando el primer equipo Ollama se despliega y se detiene cuando el ultimo se elimina.
- Almacenamiento persistente: Los modelos descargados se
almacenan en un volumen Docker (
agentcrew-ollama-models) que persiste incluso cuando el contenedor se detiene. Los modelos solo necesitan descargarse una vez. - Multi-red: El contenedor de Ollama se conecta a la red
Docker de cada equipo, permitiendo que los contenedores de agentes lo
alcancen via DNS (
agentcrew-ollama:11434).
Ciclo de Vida Automatico
Cuando despliegas un equipo con el proveedor Ollama, AgentCrew automaticamente:
- Inicia el contenedor
agentcrew-ollama(o lo reutiliza si ya esta en ejecucion). - Lo conecta a la red Docker del equipo.
- Descarga el modelo seleccionado (si no esta descargado previamente).
- Precalienta el modelo cargando los pesos en RAM, evitando retrasos de arranque en frio en el primer mensaje.
- Despliega los contenedores de agentes del equipo con
OLLAMA_BASE_URLpreconfigurado.
Cuando detienes un equipo, AgentCrew desconecta Ollama de la red de ese equipo y decrementa el conteo de referencias. Si ningun otro equipo esta usando Ollama, el contenedor se detiene (pero el volumen con los modelos descargados se preserva).
Soporte de GPU
AgentCrew detecta automaticamente GPUs NVIDIA en la maquina host. Si se
encuentra nvidia-smi en el PATH del sistema, se habilita el
passthrough de GPU para el contenedor de Ollama, dando a los modelos
acceso a todas las GPUs disponibles para una inferencia drasticamente
mas rapida.
No se necesita configuracion manual. Si hay una GPU disponible, se usara automaticamente. Puedes verificar el estado de la GPU a traves del endpoint de estado.
Usando Ollama en AgentCrew
Creando un Equipo
- En el asistente de creacion de equipos, selecciona OpenCode como proveedor.
- Elige Ollama como proveedor de modelos.
-
Selecciona un modelo para tus agentes. El modelo por defecto es
qwen3:4b, pero puedes usar cualquier modelo disponible en la biblioteca de modelos de Ollama. - Configura tus agentes como de costumbre. Todos los agentes del equipo usaran el proveedor de modelos Ollama seleccionado.
Formato de Modelos
Al especificar modelos de agentes, usa el prefijo ollama/
seguido del nombre del modelo y la etiqueta opcional:
ollama/qwen3:4bollama/llama3.3:8bollama/codellama:13bollama/mistral:7bollama/devstral
Tambien puedes usar inherit para que el agente use el modelo
por defecto del equipo.
Restriccion de Proveedor de Modelos
Cuando el proveedor de modelos de un equipo esta configurado como Ollama, todos los agentes de ese equipo deben usar modelos de Ollama. No puedes mezclar proveedores dentro de un mismo equipo OpenCode (por ejemplo, un agente usando Ollama y otro usando OpenAI). Esta restriccion garantiza un comportamiento consistente en tiempo de ejecucion, ya que todos los agentes comparten el mismo entorno de contenedor.
Si cambias el proveedor de modelos en un equipo existente, todas las
selecciones de modelo de los agentes se reinician automaticamente a
inherit.
Endpoint de Estado
Puedes verificar el estado actual de la infraestructura de Ollama a traves de la API:
GET /api/ollama/status Ejemplo de respuesta:
{
"running": true,
"container_id": "abc123...",
"models_pulled": ["qwen3:4b", "codellama:13b"],
"ref_count": 2,
"gpu_available": true
} | Campo | Descripcion |
|---|---|
running | Si el contenedor de Ollama esta actualmente en ejecucion. |
container_id | ID del contenedor Docker (vacio si no esta en ejecucion). |
models_pulled | Lista de modelos ya descargados y disponibles. |
ref_count | Numero de equipos activos usando Ollama. |
gpu_available | Si el passthrough de GPU NVIDIA esta disponible. |
Requisitos
- Docker: Ollama se ejecuta como contenedor Docker, por lo que Docker debe estar disponible en el host.
- Espacio en disco: Los modelos van desde ~2 GB (modelos pequenos de 4B parametros) hasta ~10+ GB (modelos grandes de 13B+ parametros). El volumen persistente almacena todos los modelos descargados.
- RAM: Los modelos se cargan en RAM (o VRAM si hay GPU disponible). Asegurate de que tu host tiene suficiente memoria para el tamano del modelo seleccionado.
- GPU (opcional): GPU NVIDIA con
nvidia-smiy el NVIDIA Container Toolkit instalado para aceleracion por GPU.
Siguientes Pasos
- Proveedores: Conoce todos los proveedores soportados y como se comparan.
- Configuracion: Revisa las variables de entorno y ajustes de la aplicacion.
- Arquitectura: Comprende como funcionan juntos los contenedores, sidecars y redes.