ComfyLab
Cómo Generar Vídeos con ComfyUI (Guía Completa + Workflows JSON)

Cómo Generar Vídeos con ComfyUI (Guía Completa + Workflows JSON)

8GB VRAM VRAM Intermedio 7 min
Savien

Generar vídeo con ComfyUI es un salto en complejidad respecto a las imágenes, pero el principio es el mismo: nodos conectados que transforman ruido en fotogramas. La diferencia es que ahora tienes que generar entre 16 y 120 fotogramas con coherencia temporal, lo que multiplica el uso de VRAM y el tiempo de generación.

Esta guía cubre las dos herramientas principales: AnimateDiff para animar imágenes existentes con modelos SD 1.5, y Wan 2.1/2.2 para generación de vídeo nativa de alta calidad.

🏗️ Workflow Pro: Wan Video 2.1

🧠 VRAM: 8GB - 24GB 📡 MODEL: Wan 2.1

📡 AnimateDiff vs Wan: cuándo usar cada uno

Antes de descargar nada, elige la herramienta correcta para lo que quieres hacer.

AnimateDiffWan 2.1/2.2
VRAM mínima8 GB (text-to-video)8 GB (modelo 1.3B)
CalidadBuena, estilo SDAlta, nativa de vídeo
VelocidadRápidaLenta (especialmente 14B)
Tipo de movimientoSutil, buclesComplejo, cinético
BaseSD 1.5 / SDXLModelo propio
Ecosistema LoRAEnormeCreciente

Usa AnimateDiff si:

  • Quieres animar imágenes existentes que ya generas con SD 1.5
  • Necesitas resultados rápidos (segundos por fotograma)
  • Tu GPU tiene 8-10 GB de VRAM
  • Quieres bucles de movimiento sutil (pelo, agua, nubes)

Usa Wan si:

  • Buscas vídeo de alta calidad con movimiento complejo
  • Tienes 12 GB+ de VRAM (o usas el modelo 1.3B con 8 GB)
  • Generas vídeo desde texto o desde una imagen de referencia

📡 AnimateDiff en ComfyUI

📡 Instalación

AnimateDiff Evolved es el fork más completo. Instálalo desde ComfyUI Manager buscando ComfyUI-AnimateDiff-Evolved.

También necesitas un motion module — el modelo que define cómo se mueven los fotogramas. Descarga mm_sd_v15_v2.ckpt de Hugging Face (Guoyww/animatediff-motion-adapter-v1-5-2) y colócalo en:

ComfyUI/models/animatediff_models/

📡 Nodos del workflow básico

El workflow de AnimateDiff extiende el workflow de imágenes con cuatro nodos adicionales:

1. ADE_LoadAnimateDiffModel — carga el motion module. Conecta su salida MOTION_MODEL al nodo ADE_UseEvolvedSampling.

2. ADE_UseEvolvedSampling — sustituye al KSampler estándar. Recibe el MOTION_MODEL y añade la dimensión temporal a la generación.

3. ADE_AnimateDiffUniformContextOptions — define cómo se divide la animación en ventanas de fotogramas:

  • context_length: 16 (óptimo — es la limitación del modelo)
  • context_overlap: 4 (superposición entre ventanas para transiciones suaves)
  • Aumentar context_length más allá de 16 degrada la calidad del movimiento

4. VHS_VideoCombine (del pack ComfyUI-VideoHelperSuite) — combina los fotogramas en un vídeo. Instálalo desde Manager.

📡 Flujo de conexiones

CheckpointLoaderSimple (SD 1.5)
  ├─ MODEL ──→ ADE_UseEvolvedSampling
  ├─ CLIP ───→ CLIPTextEncode (+/-)
  └─ VAE ────→ VAEDecode

ADE_LoadAnimateDiffModel ──→ ADE_UseEvolvedSampling (motion_model)
ADE_AnimateDiffUniformContextOptions ──→ ADE_UseEvolvedSampling (context_options)

EmptyLatentImage (batch_size = nº de fotogramas) ──→ ADE_UseEvolvedSampling
ADE_UseEvolvedSampling ──→ VAEDecode ──→ VHS_VideoCombine

Tip sobre batch_size: en EmptyLatentImage, el campo batch_size define cuántos fotogramas generas. A 24 fps, 48 fotogramas = 2 segundos de vídeo. Empieza con 16-24 para pruebas.

📡 Ajustes recomendados del sampler

ParámetroValor para AnimateDiff
steps20–25 (Euler) / 30–35 (otros)
cfg7–8
samplereuler
schedulernormal
denoise1.0 (text-to-video)

El checkpoint base debe ser SD 1.5 — AnimateDiff no funciona bien con SDXL en la mayoría de motion modules. Usa checkpoints como DreamShaper 8 o Realistic Vision V6.

📡 Exportar el vídeo

El nodo VHS_VideoCombine soporta varios formatos:

FormatoCuándo usarlo
image/gifCompartir rápido, sin ffmpeg
video/h264-mp4Máxima compatibilidad
video/h265-mp4Mejor compresión (necesita ffmpeg)
image/webpBucles animados para web

Para formatos de vídeo (MP4, WebM) necesitas ffmpeg instalado y en el PATH de Windows. Descárgalo de ffmpeg.org y añade la carpeta bin/ a las variables de entorno del sistema.


📡 Wan 2.1 y 2.2 en ComfyUI

Wan es un modelo de generación de vídeo nativo de Alibaba. No parte de SD 1.5 — tiene su propia arquitectura y produce movimiento más natural y complejo.

📡 Requisitos por modelo

ModeloVRAM necesariaCalidad
Wan 2.1 1.3B~8 GBBuena para resoluciones bajas
Wan 2.2 5B~8 GB (con offloading)Muy buena
Wan 2.1 14B FP8~16 GBExcelente
Wan 2.1 14B completo40–80 GBMáxima

Para GPUs de 8 GB, el punto de entrada práctico es Wan 2.2 5B o Wan 2.1 1.3B.

📡 Instalación

El soporte nativo de Wan llega a través del paquete ComfyUI-WanVideoWrapper. Instálalo desde ComfyUI Manager.

Descarga los modelos desde Hugging Face (Wan-AI/Wan2.1-T2V-1.3B o Wan-AI/Wan2.2-T2V-5B) y colócalos en:

ComfyUI/models/diffusion_models/

También necesitas los encoders de texto de Wan:

ComfyUI/models/clip/
  ├── umt5-xxl-enc-bf16.safetensors   ← encoder de texto
ComfyUI/models/vae/
  └── wan_2.1_vae.safetensors          ← VAE

📡 Nodos del workflow Wan

El workflow de Wan usa nodos propios del wrapper:

  • WanVideoModelLoader — carga el modelo Wan
  • WanVideoTextEncode — codifica el prompt de texto (usa el encoder T5 de Wan)
  • WanVideoSampler — equivalente al KSampler, específico para Wan
  • WanVideoVAEDecode — decodifica a fotogramas
  • VHS_VideoCombine — combina y exporta

📡 Ajustes recomendados para Wan

Parámetro8 GB VRAM12-16 GB VRAM
Resolución480 × 832720 × 1280
Frames17–3333–81
Steps25–3030–40
CFG6.07.0
OffloadingActivadoOpcional

Para activar el offloading en GPUs de 8 GB, en el nodo WanVideoModelLoader activa la opción enable_sequential_cpu_offload. El modelo se mueve entre CPU y GPU fotograma a fotograma — más lento, pero posible.


📡 Optimización para 8 GB VRAM

Con 8 GB puedes generar vídeo, pero necesitas ajustar varios parámetros:

1. Reduce la resolución base. AnimateDiff funciona bien a 512×512 o 512×768. Wan 2.2 5B a 480×832.

2. Genera pocos fotogramas primero. 16-24 frames para probar ajustes antes de lanzar una generación larga.

3. Cierra todo lo que use GPU. Navegadores con aceleración hardware, Discord, juegos. Cada proceso que usa VRAM es VRAM que no tienes para el vídeo.

4. Usa --lowvram al iniciar ComfyUI. Para AnimateDiff en SD 1.5 con 8 GB:

python main.py --lowvram

5. Activa el offloading en Wan. El modelo se carga por partes — tardará más pero no fallará por falta de memoria.

6. No uses batch_size > 1. En generación de vídeo, batch_size multiplica el uso de VRAM exponencialmente. Genera un vídeo a la vez.


📡 Tiempos de generación orientativos

Los tiempos varían mucho según GPU, resolución y steps:

GPUAnimateDiff 24f@512pxWan 2.2 5B 33f@480p
RTX 3060 12 GB~2-3 min~8-12 min
RTX 3090 24 GB~40-60 seg~3-5 min
RTX 4090 24 GB~20-30 seg~1-2 min

La generación de vídeo es entre 5 y 20 veces más lenta que la generación de imágenes equivalente.


Si aún no tienes clara la base de generación de imágenes, empieza por cómo generar imágenes con ComfyUI antes de saltar a vídeo. Para entender en profundidad los nodos que usa este workflow, consulta los 10 nodos esenciales de ComfyUI.

Los creadores avanzados utilizan modelos sin censura como LTX-Video. Si te interesa el modelo de vídeo open source más avanzado, la guía de LTX 2.3 en ComfyUI explica cómo instalarlo con 8GB de VRAM. Para proyectos multimedia completos, combínalo con la guía de generación de audio en ComfyUI.

Preguntas frecuentes

¿Cuánta VRAM necesito para generar vídeos con ComfyUI?
Para AnimateDiff con SD 1.5 necesitas mínimo 8 GB de VRAM. Wan 2.1 1.3B también funciona con 8 GB activando el offloading. Para resultados más fluidos con Wan 2.2 5B se recomiendan 12 GB.
¿Puedo generar vídeos con 8 GB de VRAM?
Sí. Con 8 GB puedes usar AnimateDiff a 512×512 o Wan 2.1 1.3B con offloading. Arranca ComfyUI con --lowvram, cierra aplicaciones con aceleración GPU y empieza con 16-24 fotogramas para las pruebas.
¿Cuánto tiempo tarda generar un vídeo con AnimateDiff?
Con una RTX 3060 de 12 GB, 24 fotogramas a 512px tardan 2-3 minutos (1 segundo de vídeo a 24 fps). Una RTX 3090 lo genera en 40-60 segundos. Wan 2.2 5B tarda entre 8 y 12 minutos para 33 fotogramas.
¿Qué diferencia hay entre AnimateDiff y Wan para generar vídeos?
AnimateDiff anima imágenes SD 1.5 con movimiento sutil y bucles. Es más rápido y tiene ecosistema de LoRAs enorme. Wan es un modelo nativo de vídeo con movimiento más complejo y mayor calidad, pero necesita más VRAM y tiempo de generación.
Compartir X LinkedIn

También te puede interesar