ComfyLab
Instalar Flux.1 en ComfyUI con poca VRAM (8GB): Guía GGUF

Instalar Flux.1 en ComfyUI con poca VRAM (8GB): Guía GGUF

8GB VRAM VRAM Intermedio 10 min
Savien

Artículo Desactualizado

Este artículo tiene más de 90 días y el software de IA evoluciona rápido. Algunos pasos podrían haber cambiado.

La llegada de Flux.1 ha marcado un antes y un después en el ecosistema de la inteligencia artificial generativa de código abierto. Desarrollado por Black Forest Labs —el equipo de mentes brillantes detrás de los hitos originales de Stable Diffusion—, este modelo de 12 mil millones de parámetros (12B) ha logrado lo que muchos consideraban imposible: superar el fotorrealismo y la adherencia textual de soluciones propietarias como Midjourney v6 y DALL-E 3.

Sin embargo, este salto cualitativo viene acompañado de una demanda de hardware sin precedentes. De forma nativa, Flux.1 en su precisión original (FP16) requiere más de 24GB de VRAM, lo que dejaría fuera al 90% de los usuarios domésticos. Pero gracias a la ingeniería de la comunidad y a formatos como GGUF, hoy podemos ejecutar esta bestia tecnológica en GPUs de gama media con solo 8GB de VRAM.

Esta guía técnica detallada te enseñará cómo configurar Flux.1 en ComfyUI optimizando cada byte de tu GPU, permitiéndote generar imágenes de 1 megapíxel en tiempos competitivos sin sacrificar la asombrosa calidad que define a este modelo. Si eres nuevo en este mundo, te recomendamos empezar por nuestra guía de instalación base de ComfyUI.


🧠 El Salto Arquitectónico: ¿Por qué Flux.1 es diferente?

Para entender por qué necesitamos optimizar tanto, primero debemos comprender qué hace a Flux tan especial. A diferencia de los modelos U-Net de Stable Diffusion 1.5 o SDXL, Flux implementa una arquitectura de Diffusion Transformer (DiT) combinada con Flow Matching.

🧠 Bloques de Atención Doble (Double Attention Blocks)

Flux no procesa el texto y la imagen de forma separada para luego unirlos mediante cross-attention. En su lugar, utiliza bloques que permiten que la información visual y la textual interactúen simétricamente desde el primer paso de difusión. Esto explica por qué Flux entiende tan bien los prompts complejos donde el orden de las palabras y las relaciones espaciales (“un gato sobre una caja roja que está dentro de una piscina azul”) son críticas.

🧠 Flow Matching vs. Diffusion Tradicional

Mientras que la difusión tradicional añade ruido y luego intenta predecir cómo quitarlo, el Flow Matching aprende a trazar una línea recta (un flujo) entre el ruido puro y la imagen final. Esto reduce drásticamente la cantidad de pasos necesarios para obtener una imagen nítida y permite que el modelo sea mucho más robusto frente a diferentes resoluciones y relaciones de aspecto.


🧠 Flux.1 Dev vs. Flux.1 Schnell: El Dilema del Usuario de 8GB

Antes de descargar gigabytes de datos, es vital elegir la versión correcta según tu flujo de trabajo y paciencia.

🧠 Flux.1 Dev (Development)

Es el modelo de mayor calidad, diseñado para uso no comercial (inicialmente).

  • Puntos Fuertes: Micro-detalles en piel, texturas complejas y una composición artística superior.
  • Requerimientos: Necesita el nodo FluxGuidance (recomendado en 3.5).
  • Velocidad: En una GPU de 8GB, tarda entre 1.5 y 2.5 minutos para una imagen de 1024x1024 a 20 pasos.

🧠 Flux.1 Schnell (Fast)

Una versión destilada que sacrifica un mínimo de fidelidad a cambio de una velocidad vertiginosa.

  • Puntos Fuertes: Se puede ejecutar en solo 1 a 4 pasos.
  • Requerimientos: No usa FluxGuidance (guidance 1.0) y utiliza un sampler específico (Euler con Simple scheduler).
  • Velocidad: Entre 15 y 30 segundos en 8GB VRAM. Es perfecto para iteraciones rápidas antes de pasar al modelo Dev para la pieza final.
Importante

Ambos modelos comparten la misma base arquitectónica, por lo que puedes intercambiarlos fácilmente en tu workflow de ComfyUI siempre que ajustes los pasos y el guidance.


🧠 GGUF: La Salvación del Hardware Doméstico

GGUF (GPT-Generated Unified Format) es un formato de archivo diseñado para la inferencia eficiente de modelos de lenguaje masivos, popularizado por la comunidad de Llama.cpp. Su gran ventaja es que permite la cuantización de los pesos del modelo con una pérdida de precisión mínima.

🧠 Niveles de Cuantización Recomendados

Al elegir un archivo GGUF de Flux, verás diferentes sufijos. Aquí está el desglose para un usuario de 8GB VRAM:

  1. Q8_0 (8 bits): Casi indistinguible del original. Sin embargo, en Flux Dev, el modelo resultante pesa unos 12GB. En una GPU de 8GB, esto causará mucho “swapping” a la RAM del sistema, ralentizando la generación.
  2. Q5_K_M (5 bits): El equilibrio perfecto. La calidad sigue siendo extremadamente alta y el peso baja a unos 8-9GB. Es la mejor opción si tienes 32GB o más de RAM de sistema.
  3. Q4_K_M (4 bits): La opción recomendada para 8GB VRAM. El modelo ocupa unos 7GB, permitiendo que quepa casi por completo en la memoria de video, dejando espacio para el VAE y los cálculos de atención. La pérdida de detalle solo es visible con un zoom del 400%.
  4. Q2_K / Q3_K: Solo recomendados para GPUs de 4GB o 6GB. Aquí sí empezarás a notar artefactos visuales y una comprensión del prompt algo degradada.

🧠 Guía Paso a Paso: Instalación y Configuración

Sigue estos pasos en orden para asegurar que tu sistema no colapse durante la primera ejecución.

🧠 1. Instalación del Soporte GGUF

ComfyUI no lee GGUF de forma nativa. Necesitas el nodo de la comunidad.

  1. Abre tu ComfyUI Manager.
  2. Pulsa en Install Custom Nodes.
  3. Busca ComfyUI-GGUF (el autor es city96).
  4. Instala y reinicia completamente ComfyUI.

🧠 2. Descarga de los Componentes

Necesitarás tres tipos de archivos:

  • El Modelo (UNET): Ve al repositorio de city96 en HuggingFace y descarga el archivo flux1-dev-Q4_K_M.gguf. Guárdalo en ComfyUI/models/unet/.
  • Los Encoders de Texto (CLIP): Flux utiliza dos encoders.
    • clip_l.safetensors (modelo ligero).
    • t5xxl_fp8_e4m3fn.safetensors (modelo pesado de Google).
    • Guárdalos en ComfyUI/models/clip/.
  • El VAE: Descarga ae.safetensors (el VAE oficial de Flux) y colócalo en ComfyUI/models/vae/.
💡 Consejo

Si tu PC va justo de RAM (16GB), descarga también una versión GGUF del encoder T5. Esto evitará que tu PC se congele mientras carga los encoders de texto.


🧠 Configuración Maestra de Nodos

Para que Flux funcione en 8GB, no basta con cargar el modelo; hay que configurar el workflow para ser “amigable” con la memoria.

🧠 Nodo Unet Loader (GGUF)

Este nodo reemplaza al cargador estándar.

  • unet_name: Selecciona el archivo Q4_K_M que descargaste.
  • weight_type: Déjalo en default o selecciona fp16 si tu GPU es serie 3000/4000.

🧠 El Combo DualCLIPLoader

Flux requiere que ambos encoders (CLIP-L y T5) funcionen en paralelo.

  • Usa el nodo DualCLIPLoader.
  • Asigna clip_l al primer slot y t5xxl al segundo.
  • type: Selecciona flux. Esto es crítico para que el tokenizador sepa cómo procesar el texto.

🧠 El Secreto del FluxGuidance

A diferencia de Stable Diffusion donde usas el CFG en el KSampler, en Flux Dev el CFG se deja en 1.0 y la “fuerza” del prompt se controla con el nodo FluxGuidance.

  • Conecta la salida CONDITIONING de tu prompt positivo al nodo FluxGuidance.
  • Configura guidance a 3.5. Valores más altos saturan la imagen; valores más bajos la dejan lavada.

🧠 KSampler: La Configuración de Precisión

  1. Steps: 20 para Dev, 4 para Schnell.
  2. CFG: Siempre 1.0 (el guidance ya hace el trabajo).
  3. Sampler: euler es el más estable. ipndm puede dar resultados más nítidos pero es más propenso a artefactos.
  4. Scheduler: simple para Schnell, beta o simple para Dev.

🧠 Optimizando el Sistema: Evitando el “Out of Memory” (OOM)

Incluso con GGUF, puedes encontrarte con errores. Aquí te explicamos cómo blindar tu sistema.

🧠 Parámetros de Lanzamiento

Modifica tu archivo de inicio (run_nvidia_gpu.bat) para incluir flags de gestión de memoria:

python main.py --lowvram --preview-method auto --use-split-cross-attention

El flag --lowvram es tu mejor amigo. Le dice a ComfyUI que mueva el modelo de la VRAM a la RAM después de cada paso si es necesario, liberando espacio para el VAE (que es muy pesado en Flux).

🧠 Gestión de la RAM de Sistema

Cuando la VRAM de 8GB se llena, Windows intenta usar el “archivo de paginación” en el SSD. Esto es increíblemente lento.

  • Asegúrate de tener al menos 40GB de archivo de paginación configurado en Windows (System > Advanced System Settings > Performance > Virtual Memory).
  • Cierra navegadores como Chrome o Edge. Cada pestaña abierta puede estar robando megabytes preciosos de VRAM mediante la aceleración por hardware.

🧠 Peso de los Encoders

El encoder T5 en FP8 ocupa unos 5GB. Si sumamos los 7GB del modelo GGUF, ya hemos superado los 8GB de VRAM.

📝 Nota

ComfyUI es inteligente y cargará el T5 en la RAM, lo usará para procesar tu prompt, y luego lo descargará para subir el modelo UNET a la GPU. Este proceso se llama “offloading” y es la razón por la que Flux funciona en 8GB, aunque requiere paciencia durante los primeros segundos de carga.


🧠 Comparativa de Samplers: Euler vs. IPNDM vs. Heun

En Flux, la elección del sampler afecta no solo a la calidad, sino también a la estabilidad de la memoria.

  • Euler: Es el más rápido y eficiente en memoria. Genera imágenes consistentes y es el estándar para Flux Schnell.
  • IPNDM (Improved Pseudo Numerical Methods): Introducido recientemente, este sampler suele requerir menos pasos (15 en lugar de 20) para alcanzar la misma convergencia que Euler, pero puede ser ligeramente más exigente con la VRAM.
  • Heun: Ofrece la mejor precisión matemática, pero duplica el tiempo de generación ya que realiza dos cálculos por cada paso. Solo recomendado si buscas la perfección absoluta y tienes tiempo de sobra.

🧠 Solución de Problemas Comunes (Troubleshooting)

🧠 La imagen sale gris o con ruido multicolor

Esto suele ser un problema con el VAE. Asegúrate de estar usando el VAE específico de Flux (ae.safetensors) y no uno de SDXL. Además, verifica que el nodo VAE Decode esté recibiendo la salida del KSampler correctamente.

🧠 ComfyUI se cierra sin aviso (Crash to Desktop)

Casi siempre es falta de RAM de sistema. Flux en modo Low VRAM puede llegar a usar 24-28GB de RAM mientras hace el intercambio de modelos. Si tienes solo 16GB, necesitas ampliar tu archivo de paginación en el SSD obligatoriamente.

🧠 Tiempos de generación superiores a 5 minutos

Esto indica que tu sistema está haciendo “VRAM Swapping” pesado. Revisa si tienes otros programas usando la GPU. Un truco es desactivar la “Programación de GPU acelerada por hardware” en los ajustes de Windows, aunque para algunos usuarios esto tiene el efecto contrario; deberás probar en tu caso específico.


🧠 Conclusión: El Nuevo Estándar del Arte Local

Flux.1 ha demostrado que el código abierto no solo puede competir con las grandes corporaciones, sino liderar el camino en innovación arquitectónica. Gracias a la cuantización GGUF y a la flexibilidad de ComfyUI, la barrera de entrada ha caído.

Ejecutar Flux en una GPU de 8GB no es solo un compromiso técnico; es un testimonio de la optimización comunitaria. Aunque los tiempos de generación sean más largos que en una RTX 4090, la calidad final es idéntica. Estás produciendo imágenes que hace apenas un año habrían requerido un cluster de servidores.

A medida que avances, te recomendamos explorar cómo combinar Flux con ControlNet para un control total sobre la composición, o sumergirte en el Prompt Engineering avanzado para exprimir cada parámetro de este modelo revolucionario.

La era de Flux.1 acaba de empezar. ¡Es hora de crear!


[¿Te ha resultado útil esta guía? Si quieres seguir optimizando tu flujo de trabajo, echa un vistazo a nuestra guía de nodos esenciales para ComfyUI y descubre cómo automatizar tus creaciones.]

Preguntas frecuentes

¿Es posible correr Flux.1 con solo 8GB de VRAM?
Sí, es perfectamente posible utilizando versiones cuantizadas en formato GGUF (específicamente Q4_K_M o Q5_K_M). Esto reduce el peso del modelo de los 24GB originales a unos 6-8GB, permitiendo que quepa en la memoria de video de una RTX 3060 o 4060 sin crasheos.
¿Qué diferencia hay entre Flux.1 Dev y Schnell?
Flux.1 Dev es el modelo de alta fidelidad que requiere guidance (escala 3.5) y entre 20-30 pasos para resultados óptimos. Schnell es una versión destilada diseñada para velocidad, que funciona en solo 1-4 pasos y no requiere guidance, siendo ideal para prototipado rápido.
¿Por qué usar GGUF en lugar de versiones FP8?
GGUF ofrece una cuantización más granular y eficiente que el FP8 estándar. Mientras que FP8 reduce la precisión de forma uniforme, GGUF permite elegir diferentes niveles de compresión (bits), optimizando mejor el equilibrio entre calidad visual y consumo de VRAM según tu hardware específico.
¿Necesito mucha memoria RAM si tengo poca VRAM?
Sí, para Flux.1 en sistemas de 8GB VRAM, se recomienda tener al menos 32GB de RAM de sistema. ComfyUI realizará 'offloading', moviendo partes del modelo (como el pesado encoder T5) a la RAM cuando no se estén usando en la GPU, evitando errores de Out of Memory.
Compartir X LinkedIn

También te puede interesar