Generar vídeo con ComfyUI es un salto en complejidad respecto a las imágenes, pero el principio es el mismo: nodos conectados que transforman ruido en fotogramas. La diferencia es que ahora tienes que generar entre 16 y 120 fotogramas con coherencia temporal, lo que multiplica el uso de VRAM y el tiempo de generación.
Esta guía cubre las dos herramientas principales: AnimateDiff para animar imágenes existentes con modelos SD 1.5, y Wan 2.1/2.2 para generación de vídeo nativa de alta calidad.
🏗️ Workflow Pro: Wan Video 2.1
📡 AnimateDiff vs Wan: cuándo usar cada uno
Antes de descargar nada, elige la herramienta correcta para lo que quieres hacer.
| AnimateDiff | Wan 2.1/2.2 | |
|---|---|---|
| VRAM mínima | 8 GB (text-to-video) | 8 GB (modelo 1.3B) |
| Calidad | Buena, estilo SD | Alta, nativa de vídeo |
| Velocidad | Rápida | Lenta (especialmente 14B) |
| Tipo de movimiento | Sutil, bucles | Complejo, cinético |
| Base | SD 1.5 / SDXL | Modelo propio |
| Ecosistema LoRA | Enorme | Creciente |
Usa AnimateDiff si:
- Quieres animar imágenes existentes que ya generas con SD 1.5
- Necesitas resultados rápidos (segundos por fotograma)
- Tu GPU tiene 8-10 GB de VRAM
- Quieres bucles de movimiento sutil (pelo, agua, nubes)
Usa Wan si:
- Buscas vídeo de alta calidad con movimiento complejo
- Tienes 12 GB+ de VRAM (o usas el modelo 1.3B con 8 GB)
- Generas vídeo desde texto o desde una imagen de referencia
📡 AnimateDiff en ComfyUI
📡 Instalación
AnimateDiff Evolved es el fork más completo. Instálalo desde ComfyUI Manager buscando ComfyUI-AnimateDiff-Evolved.
También necesitas un motion module — el modelo que define cómo se mueven los fotogramas. Descarga mm_sd_v15_v2.ckpt de Hugging Face (Guoyww/animatediff-motion-adapter-v1-5-2) y colócalo en:
ComfyUI/models/animatediff_models/
📡 Nodos del workflow básico
El workflow de AnimateDiff extiende el workflow de imágenes con cuatro nodos adicionales:
1. ADE_LoadAnimateDiffModel — carga el motion module. Conecta su salida MOTION_MODEL al nodo ADE_UseEvolvedSampling.
2. ADE_UseEvolvedSampling — sustituye al KSampler estándar. Recibe el MOTION_MODEL y añade la dimensión temporal a la generación.
3. ADE_AnimateDiffUniformContextOptions — define cómo se divide la animación en ventanas de fotogramas:
context_length: 16 (óptimo — es la limitación del modelo)context_overlap: 4 (superposición entre ventanas para transiciones suaves)- Aumentar
context_lengthmás allá de 16 degrada la calidad del movimiento
4. VHS_VideoCombine (del pack ComfyUI-VideoHelperSuite) — combina los fotogramas en un vídeo. Instálalo desde Manager.
📡 Flujo de conexiones
CheckpointLoaderSimple (SD 1.5)
├─ MODEL ──→ ADE_UseEvolvedSampling
├─ CLIP ───→ CLIPTextEncode (+/-)
└─ VAE ────→ VAEDecode
ADE_LoadAnimateDiffModel ──→ ADE_UseEvolvedSampling (motion_model)
ADE_AnimateDiffUniformContextOptions ──→ ADE_UseEvolvedSampling (context_options)
EmptyLatentImage (batch_size = nº de fotogramas) ──→ ADE_UseEvolvedSampling
ADE_UseEvolvedSampling ──→ VAEDecode ──→ VHS_VideoCombine
Tip sobre batch_size: en EmptyLatentImage, el campo batch_size define cuántos fotogramas generas. A 24 fps, 48 fotogramas = 2 segundos de vídeo. Empieza con 16-24 para pruebas.
📡 Ajustes recomendados del sampler
| Parámetro | Valor para AnimateDiff |
|---|---|
steps | 20–25 (Euler) / 30–35 (otros) |
cfg | 7–8 |
sampler | euler |
scheduler | normal |
denoise | 1.0 (text-to-video) |
El checkpoint base debe ser SD 1.5 — AnimateDiff no funciona bien con SDXL en la mayoría de motion modules. Usa checkpoints como DreamShaper 8 o Realistic Vision V6.
📡 Exportar el vídeo
El nodo VHS_VideoCombine soporta varios formatos:
| Formato | Cuándo usarlo |
|---|---|
image/gif | Compartir rápido, sin ffmpeg |
video/h264-mp4 | Máxima compatibilidad |
video/h265-mp4 | Mejor compresión (necesita ffmpeg) |
image/webp | Bucles animados para web |
Para formatos de vídeo (MP4, WebM) necesitas ffmpeg instalado y en el PATH de Windows. Descárgalo de ffmpeg.org y añade la carpeta bin/ a las variables de entorno del sistema.
📡 Wan 2.1 y 2.2 en ComfyUI
Wan es un modelo de generación de vídeo nativo de Alibaba. No parte de SD 1.5 — tiene su propia arquitectura y produce movimiento más natural y complejo.
📡 Requisitos por modelo
| Modelo | VRAM necesaria | Calidad |
|---|---|---|
| Wan 2.1 1.3B | ~8 GB | Buena para resoluciones bajas |
| Wan 2.2 5B | ~8 GB (con offloading) | Muy buena |
| Wan 2.1 14B FP8 | ~16 GB | Excelente |
| Wan 2.1 14B completo | 40–80 GB | Máxima |
Para GPUs de 8 GB, el punto de entrada práctico es Wan 2.2 5B o Wan 2.1 1.3B.
📡 Instalación
El soporte nativo de Wan llega a través del paquete ComfyUI-WanVideoWrapper. Instálalo desde ComfyUI Manager.
Descarga los modelos desde Hugging Face (Wan-AI/Wan2.1-T2V-1.3B o Wan-AI/Wan2.2-T2V-5B) y colócalos en:
ComfyUI/models/diffusion_models/
También necesitas los encoders de texto de Wan:
ComfyUI/models/clip/
├── umt5-xxl-enc-bf16.safetensors ← encoder de texto
ComfyUI/models/vae/
└── wan_2.1_vae.safetensors ← VAE
📡 Nodos del workflow Wan
El workflow de Wan usa nodos propios del wrapper:
- WanVideoModelLoader — carga el modelo Wan
- WanVideoTextEncode — codifica el prompt de texto (usa el encoder T5 de Wan)
- WanVideoSampler — equivalente al KSampler, específico para Wan
- WanVideoVAEDecode — decodifica a fotogramas
- VHS_VideoCombine — combina y exporta
📡 Ajustes recomendados para Wan
| Parámetro | 8 GB VRAM | 12-16 GB VRAM |
|---|---|---|
| Resolución | 480 × 832 | 720 × 1280 |
| Frames | 17–33 | 33–81 |
| Steps | 25–30 | 30–40 |
| CFG | 6.0 | 7.0 |
| Offloading | Activado | Opcional |
Para activar el offloading en GPUs de 8 GB, en el nodo WanVideoModelLoader activa la opción enable_sequential_cpu_offload. El modelo se mueve entre CPU y GPU fotograma a fotograma — más lento, pero posible.
📡 Optimización para 8 GB VRAM
Con 8 GB puedes generar vídeo, pero necesitas ajustar varios parámetros:
1. Reduce la resolución base. AnimateDiff funciona bien a 512×512 o 512×768. Wan 2.2 5B a 480×832.
2. Genera pocos fotogramas primero. 16-24 frames para probar ajustes antes de lanzar una generación larga.
3. Cierra todo lo que use GPU. Navegadores con aceleración hardware, Discord, juegos. Cada proceso que usa VRAM es VRAM que no tienes para el vídeo.
4. Usa --lowvram al iniciar ComfyUI. Para AnimateDiff en SD 1.5 con 8 GB:
python main.py --lowvram
5. Activa el offloading en Wan. El modelo se carga por partes — tardará más pero no fallará por falta de memoria.
6. No uses batch_size > 1. En generación de vídeo, batch_size multiplica el uso de VRAM exponencialmente. Genera un vídeo a la vez.
📡 Tiempos de generación orientativos
Los tiempos varían mucho según GPU, resolución y steps:
| GPU | AnimateDiff 24f@512px | Wan 2.2 5B 33f@480p |
|---|---|---|
| RTX 3060 12 GB | ~2-3 min | ~8-12 min |
| RTX 3090 24 GB | ~40-60 seg | ~3-5 min |
| RTX 4090 24 GB | ~20-30 seg | ~1-2 min |
La generación de vídeo es entre 5 y 20 veces más lenta que la generación de imágenes equivalente.
Si aún no tienes clara la base de generación de imágenes, empieza por cómo generar imágenes con ComfyUI antes de saltar a vídeo. Para entender en profundidad los nodos que usa este workflow, consulta los 10 nodos esenciales de ComfyUI.
Los creadores avanzados utilizan modelos sin censura como LTX-Video. Si te interesa el modelo de vídeo open source más avanzado, la guía de LTX 2.3 en ComfyUI explica cómo instalarlo con 8GB de VRAM. Para proyectos multimedia completos, combínalo con la guía de generación de audio en ComfyUI.
Preguntas frecuentes
- ¿Cuánta VRAM necesito para generar vídeos con ComfyUI?
- Para AnimateDiff con SD 1.5 necesitas mínimo 8 GB de VRAM. Wan 2.1 1.3B también funciona con 8 GB activando el offloading. Para resultados más fluidos con Wan 2.2 5B se recomiendan 12 GB.
- ¿Puedo generar vídeos con 8 GB de VRAM?
- Sí. Con 8 GB puedes usar AnimateDiff a 512×512 o Wan 2.1 1.3B con offloading. Arranca ComfyUI con --lowvram, cierra aplicaciones con aceleración GPU y empieza con 16-24 fotogramas para las pruebas.
- ¿Cuánto tiempo tarda generar un vídeo con AnimateDiff?
- Con una RTX 3060 de 12 GB, 24 fotogramas a 512px tardan 2-3 minutos (1 segundo de vídeo a 24 fps). Una RTX 3090 lo genera en 40-60 segundos. Wan 2.2 5B tarda entre 8 y 12 minutos para 33 fotogramas.
- ¿Qué diferencia hay entre AnimateDiff y Wan para generar vídeos?
- AnimateDiff anima imágenes SD 1.5 con movimiento sutil y bucles. Es más rápido y tiene ecosistema de LoRAs enorme. Wan es un modelo nativo de vídeo con movimiento más complejo y mayor calidad, pero necesita más VRAM y tiempo de generación.