¿Cuánta VRAM necesito para generar vídeos con ComfyUI?

Para AnimateDiff con SD 1.5 necesitas mínimo 8 GB de VRAM. Wan 2.1 1.3B también funciona con 8 GB activando el offloading. Para resultados más fluidos con Wan 2.2 5B se recomiendan 12 GB.

¿Puedo generar vídeos con 8 GB de VRAM?

Sí. Con 8 GB puedes usar AnimateDiff a 512×512 o Wan 2.1 1.3B con offloading. Arranca ComfyUI con --lowvram, cierra aplicaciones con aceleración GPU y empieza con 16-24 fotogramas para las pruebas.

¿Cuánto tiempo tarda generar un vídeo con AnimateDiff?

Con una RTX 3060 de 12 GB, 24 fotogramas a 512px tardan 2-3 minutos (1 segundo de vídeo a 24 fps). Una RTX 3090 lo genera en 40-60 segundos. Wan 2.2 5B tarda entre 8 y 12 minutos para 33 fotogramas.

¿Qué diferencia hay entre AnimateDiff y Wan para generar vídeos?

AnimateDiff anima imágenes SD 1.5 con movimiento sutil y bucles. Es más rápido y tiene ecosistema de LoRAs enorme. Wan es un modelo nativo de vídeo con movimiento más complejo y mayor calidad, pero necesita más VRAM y tiempo de generación.

Cómo Generar Vídeos con ComfyUI (Guía Completa + Workflows JSON)

Generar vídeo con ComfyUI es un salto en complejidad respecto a las imágenes, pero el principio es el mismo: nodos conectados que transforman ruido en fotogramas. La diferencia es que ahora tienes que generar entre 16 y 120 fotogramas con coherencia temporal, lo que multiplica el uso de VRAM y el tiempo de generación.

Esta guía cubre las dos herramientas principales: AnimateDiff para animar imágenes existentes con modelos SD 1.5, y Wan 2.1/2.2 para generación de vídeo nativa de alta calidad.

🏗️ Workflow Pro: Wan Video 2.1

🧠 VRAM: 8GB - 24GB 📡 MODEL: Wan 2.1

Descarga Directa Ver en GitHub

📡 AnimateDiff vs Wan: cuándo usar cada uno

Antes de descargar nada, elige la herramienta correcta para lo que quieres hacer.

	AnimateDiff	Wan 2.1/2.2
VRAM mínima	8 GB (text-to-video)	8 GB (modelo 1.3B)
Calidad	Buena, estilo SD	Alta, nativa de vídeo
Velocidad	Rápida	Lenta (especialmente 14B)
Tipo de movimiento	Sutil, bucles	Complejo, cinético
Base	SD 1.5 / SDXL	Modelo propio
Ecosistema LoRA	Enorme	Creciente

Usa AnimateDiff si:

Quieres animar imágenes existentes que ya generas con SD 1.5
Necesitas resultados rápidos (segundos por fotograma)
Tu GPU tiene 8-10 GB de VRAM
Quieres bucles de movimiento sutil (pelo, agua, nubes)

Usa Wan si:

Buscas vídeo de alta calidad con movimiento complejo
Tienes 12 GB+ de VRAM (o usas el modelo 1.3B con 8 GB)
Generas vídeo desde texto o desde una imagen de referencia

📡 AnimateDiff en ComfyUI

📡 Instalación

AnimateDiff Evolved es el fork más completo. Instálalo desde ComfyUI Manager buscando ComfyUI-AnimateDiff-Evolved.

También necesitas un motion module — el modelo que define cómo se mueven los fotogramas. Descarga mm_sd_v15_v2.ckpt de Hugging Face (Guoyww/animatediff-motion-adapter-v1-5-2) y colócalo en:

ComfyUI/models/animatediff_models/

📡 Nodos del workflow básico

El workflow de AnimateDiff extiende el workflow de imágenes con cuatro nodos adicionales:

1. ADE_LoadAnimateDiffModel — carga el motion module. Conecta su salida MOTION_MODEL al nodo ADE_UseEvolvedSampling.

2. ADE_UseEvolvedSampling — sustituye al KSampler estándar. Recibe el MOTION_MODEL y añade la dimensión temporal a la generación.

3. ADE_AnimateDiffUniformContextOptions — define cómo se divide la animación en ventanas de fotogramas:

context_length: 16 (óptimo — es la limitación del modelo)
context_overlap: 4 (superposición entre ventanas para transiciones suaves)
Aumentar context_length más allá de 16 degrada la calidad del movimiento

4. VHS_VideoCombine (del pack ComfyUI-VideoHelperSuite) — combina los fotogramas en un vídeo. Instálalo desde Manager.

📡 Flujo de conexiones

CheckpointLoaderSimple (SD 1.5)
  ├─ MODEL ──→ ADE_UseEvolvedSampling
  ├─ CLIP ───→ CLIPTextEncode (+/-)
  └─ VAE ────→ VAEDecode

ADE_LoadAnimateDiffModel ──→ ADE_UseEvolvedSampling (motion_model)
ADE_AnimateDiffUniformContextOptions ──→ ADE_UseEvolvedSampling (context_options)

EmptyLatentImage (batch_size = nº de fotogramas) ──→ ADE_UseEvolvedSampling
ADE_UseEvolvedSampling ──→ VAEDecode ──→ VHS_VideoCombine

Tip sobre batch_size: en EmptyLatentImage, el campo batch_size define cuántos fotogramas generas. A 24 fps, 48 fotogramas = 2 segundos de vídeo. Empieza con 16-24 para pruebas.

📡 Ajustes recomendados del sampler

Parámetro	Valor para AnimateDiff
`steps`	20–25 (Euler) / 30–35 (otros)
`cfg`	7–8
`sampler`	`euler`
`scheduler`	`normal`
`denoise`	1.0 (text-to-video)

El checkpoint base debe ser SD 1.5 — AnimateDiff no funciona bien con SDXL en la mayoría de motion modules. Usa checkpoints como DreamShaper 8 o Realistic Vision V6.

📡 Exportar el vídeo

El nodo VHS_VideoCombine soporta varios formatos:

Formato	Cuándo usarlo
`image/gif`	Compartir rápido, sin ffmpeg
`video/h264-mp4`	Máxima compatibilidad
`video/h265-mp4`	Mejor compresión (necesita ffmpeg)
`image/webp`	Bucles animados para web

Para formatos de vídeo (MP4, WebM) necesitas ffmpeg instalado y en el PATH de Windows. Descárgalo de ffmpeg.org y añade la carpeta bin/ a las variables de entorno del sistema.

📡 Wan 2.1 y 2.2 en ComfyUI

Wan es un modelo de generación de vídeo nativo de Alibaba. No parte de SD 1.5 — tiene su propia arquitectura y produce movimiento más natural y complejo.

📡 Requisitos por modelo

Modelo	VRAM necesaria	Calidad
Wan 2.1 1.3B	~8 GB	Buena para resoluciones bajas
Wan 2.2 5B	~8 GB (con offloading)	Muy buena
Wan 2.1 14B FP8	~16 GB	Excelente
Wan 2.1 14B completo	40–80 GB	Máxima

Para GPUs de 8 GB, el punto de entrada práctico es Wan 2.2 5B o Wan 2.1 1.3B.

📡 Instalación

El soporte nativo de Wan llega a través del paquete ComfyUI-WanVideoWrapper. Instálalo desde ComfyUI Manager.

Descarga los modelos desde Hugging Face (Wan-AI/Wan2.1-T2V-1.3B o Wan-AI/Wan2.2-T2V-5B) y colócalos en:

ComfyUI/models/diffusion_models/

También necesitas los encoders de texto de Wan:

ComfyUI/models/clip/
  ├── umt5-xxl-enc-bf16.safetensors   ← encoder de texto
ComfyUI/models/vae/
  └── wan_2.1_vae.safetensors          ← VAE

📡 Nodos del workflow Wan

El workflow de Wan usa nodos propios del wrapper:

WanVideoModelLoader — carga el modelo Wan
WanVideoTextEncode — codifica el prompt de texto (usa el encoder T5 de Wan)
WanVideoSampler — equivalente al KSampler, específico para Wan
WanVideoVAEDecode — decodifica a fotogramas
VHS_VideoCombine — combina y exporta

📡 Ajustes recomendados para Wan

Parámetro	8 GB VRAM	12-16 GB VRAM
Resolución	480 × 832	720 × 1280
Frames	17–33	33–81
Steps	25–30	30–40
CFG	6.0	7.0
Offloading	Activado	Opcional

Para activar el offloading en GPUs de 8 GB, en el nodo WanVideoModelLoader activa la opción enable_sequential_cpu_offload. El modelo se mueve entre CPU y GPU fotograma a fotograma — más lento, pero posible.

📡 Optimización para 8 GB VRAM

Con 8 GB puedes generar vídeo, pero necesitas ajustar varios parámetros:

1. Reduce la resolución base. AnimateDiff funciona bien a 512×512 o 512×768. Wan 2.2 5B a 480×832.

2. Genera pocos fotogramas primero. 16-24 frames para probar ajustes antes de lanzar una generación larga.

3. Cierra todo lo que use GPU. Navegadores con aceleración hardware, Discord, juegos. Cada proceso que usa VRAM es VRAM que no tienes para el vídeo.

4. Usa --lowvram al iniciar ComfyUI. Para AnimateDiff en SD 1.5 con 8 GB:

python main.py --lowvram

5. Activa el offloading en Wan. El modelo se carga por partes — tardará más pero no fallará por falta de memoria.

6. No uses batch_size > 1. En generación de vídeo, batch_size multiplica el uso de VRAM exponencialmente. Genera un vídeo a la vez.

📡 Tiempos de generación orientativos

Los tiempos varían mucho según GPU, resolución y steps:

GPU	AnimateDiff 24f@512px	Wan 2.2 5B 33f@480p
RTX 3060 12 GB	~2-3 min	~8-12 min
RTX 3090 24 GB	~40-60 seg	~3-5 min
RTX 4090 24 GB	~20-30 seg	~1-2 min

La generación de vídeo es entre 5 y 20 veces más lenta que la generación de imágenes equivalente.

Si aún no tienes clara la base de generación de imágenes, empieza por cómo generar imágenes con ComfyUI antes de saltar a vídeo. Para entender en profundidad los nodos que usa este workflow, consulta los 10 nodos esenciales de ComfyUI.

Los creadores avanzados utilizan modelos sin censura como LTX-Video. Si te interesa el modelo de vídeo open source más avanzado, la guía de LTX 2.3 en ComfyUI explica cómo instalarlo con 8GB de VRAM. Para proyectos multimedia completos, combínalo con la guía de generación de audio en ComfyUI.

Siguientes pasos en ComfyUI

Primeros pasos

Resolver problemas

Preguntas frecuentes

¿Cuánta VRAM necesito para generar vídeos con ComfyUI?: Para AnimateDiff con SD 1.5 necesitas mínimo 8 GB de VRAM. Wan 2.1 1.3B también funciona con 8 GB activando el offloading. Para resultados más fluidos con Wan 2.2 5B se recomiendan 12 GB.
¿Puedo generar vídeos con 8 GB de VRAM?: Sí. Con 8 GB puedes usar AnimateDiff a 512×512 o Wan 2.1 1.3B con offloading. Arranca ComfyUI con --lowvram, cierra aplicaciones con aceleración GPU y empieza con 16-24 fotogramas para las pruebas.
¿Cuánto tiempo tarda generar un vídeo con AnimateDiff?: Con una RTX 3060 de 12 GB, 24 fotogramas a 512px tardan 2-3 minutos (1 segundo de vídeo a 24 fps). Una RTX 3090 lo genera en 40-60 segundos. Wan 2.2 5B tarda entre 8 y 12 minutos para 33 fotogramas.
¿Qué diferencia hay entre AnimateDiff y Wan para generar vídeos?: AnimateDiff anima imágenes SD 1.5 con movimiento sutil y bucles. Es más rápido y tiene ecosistema de LoRAs enorme. Wan es un modelo nativo de vídeo con movimiento más complejo y mayor calidad, pero necesita más VRAM y tiempo de generación.

Cómo Generar Vídeos con ComfyUI (Guía Completa + Workflows JSON)

🏗️ Workflow Pro: Wan Video 2.1

📡 AnimateDiff vs Wan: cuándo usar cada uno

📡 AnimateDiff en ComfyUI

📡 Instalación

📡 Nodos del workflow básico

📡 Flujo de conexiones

📡 Ajustes recomendados del sampler

📡 Exportar el vídeo

📡 Wan 2.1 y 2.2 en ComfyUI

📡 Requisitos por modelo

📡 Instalación

📡 Nodos del workflow Wan

📡 Ajustes recomendados para Wan

📡 Optimización para 8 GB VRAM

📡 Tiempos de generación orientativos

Siguientes pasos en ComfyUI

Primeros pasos

Resolver problemas

Preguntas frecuentes

También te puede interesar

COMFYCLAW en ComfyUI: Probamos el Agente que Construye y Repara Workflows Solo

HunyuanVideo 1.5 en ComfyUI: Guía de Instalación y Prueba (RTX 3090)

Transferencia de Movimiento de Cámara: IC-LoRA Cameraman v2 + LTX 2.3