ComfyLab
Cómo Generar Audio con ComfyUI (Guía Completa + Workflows JSON)

Cómo Generar Audio con ComfyUI (Guía Completa + Workflows JSON)

6GB VRAM VRAM Intermedio 7 min
Savien

ComfyUI no es solo imágenes y vídeo. Con los nodos correctos puedes generar música, efectos de sonido y ambientes sonoros directamente desde un prompt de texto — sin salir de la interfaz y sin subir nada a la nube.

🏗️ Workflow: Stable Audio Open

🧠 VRAM: 6GB - 12GB 📡 MODEL: Stable Audio

Hay dos modelos principales: Stable Audio Open (difusión latente, más control sobre la estructura) y MusicGen (autoregresivo, más creativo y menos predecible). Y un tercero emergente, ACE-Step, que en 2025 empezó a superar a ambos en calidad.


📡 Stable Audio vs MusicGen vs ACE-Step

Stable Audio OpenMusicGenACE-Step
TipoDifusión latenteAutoregresivoDifusión + flujo
VRAM mínima6–8 GB4 GB (small)8 GB
Duración máx.~90 segundos30 segundosIlimitada
CalidadMuy buenaBuenaExcelente
Control rítmicoAltoMedioAlto
InstalaciónNativa en ComfyUICustom nodeCustom node

Usa Stable Audio si quieres control sobre estructura musical, duración y coherencia tonal. Es el más parecido al pipeline de imagen de ComfyUI — usa un sampler con steps y CFG.

Usa MusicGen si tienes VRAM limitada o quieres generación rápida de fragmentos cortos. El modelo small funciona con 4-6 GB.

Usa ACE-Step si buscas la mayor calidad posible. Soporta Mac, AMD e Intel además de CUDA.


📡 Stable Audio Open en ComfyUI

📡 Modelos necesarios

Stable Audio Open usa dos archivos que van en carpetas distintas:

ComfyUI/models/
├── checkpoints/
│   └── stable_audio_open_1.0.safetensors    ← modelo principal (~3.4 GB)
└── text_encoders/
    └── t5_base.safetensors                   ← encoder de texto T5

Descarga el modelo principal desde Hugging Face (stabilityai/stable-audio-open-1.0). El encoder T5 también está en Hugging Face como parte del mismo repositorio.

Buenas noticias: Stable Audio Open es soporte nativo de ComfyUI desde la versión de 2024. No necesitas instalar ningún custom node — los nodos están incluidos.

📡 Nodos del workflow

El pipeline de Stable Audio sigue la misma lógica que el de imágenes, con variantes de audio:

1. CheckpointLoaderSimple — carga stable_audio_open_1.0.safetensors. Produce MODEL, CLIP y VAE (todos de audio).

2. CLIPTextEncode — codifica tu prompt de texto. Para Stable Audio, el CLIP conectado es el encoder T5. Usa dos: positivo y negativo.

3. EmptyLatentAudio — el equivalente a EmptyLatentImage. Define la duración del audio:

  • seconds: duración en segundos (máx. ~90)
  • batch_size: cuántas variaciones generar a la vez

4. KSampler — igual que en imágenes, con parámetros propios para audio.

5. VAEDecode — decodifica el latente de audio a forma de onda.

6. SaveAudio — guarda el resultado en ComfyUI/output/ en formato FLAC o WAV.

📡 Ajustes del KSampler para Stable Audio

ParámetroValor recomendado
steps100–200
cfg7–12
samplerdpmpp_3m_sde
schedulerexponential
denoise1.0

Los steps para audio son más altos que para imágenes — Stable Audio necesita más iteraciones para construir coherencia temporal. Con menos de 100 steps el resultado suena a ruido con estructura.

📡 VRAM y tiempos

VRAMDuraciónTiempo aprox.
6 GB30 seg2–4 min
8 GB60 seg4–7 min
12 GB+90 seg6–10 min

Con 6 GB puedes generar fragmentos de 30 segundos. Para pistas completas de 60-90 segundos necesitas 8 GB o más.


📡 MusicGen en ComfyUI

MusicGen es el modelo de generación de música de Meta (Facebook Research). No es nativo de ComfyUI — necesitas instalar un custom node.

📡 Instalación

Busca comfyui-sound-lab en ComfyUI Manager e instálalo. Este paquete incluye el nodo Musicgen_ y soporte para varios modelos de Audiocraft.

Los modelos se descargan automáticamente la primera vez que ejecutas el workflow (desde Hugging Face), o puedes descargarlos manualmente y colocarlos en ComfyUI/models/musicgen/.

📡 Modelos disponibles

ModeloParámetrosVRAM necesariaCalidad
musicgen-small300M~4 GBBásica, rápida
musicgen-medium1.5B~8 GBBuena
musicgen-large3.3B~16 GBMejor
musicgen-stereo-small300M~4 GBBásica en estéreo
musicgen-stereo-medium1.5B~8 GBBuena en estéreo

Para la mayoría de GPUs de 6-8 GB, musicgen-medium o musicgen-stereo-small son el punto de entrada práctico.

📡 Nodos y parámetros

El nodo Musicgen_ es todo en uno — a diferencia de Stable Audio, no necesitas conectar múltiples nodos:

Entradas:

  • prompt: descripción textual de la música
  • model: nombre del modelo a usar
  • duration: duración en segundos (máx. 30)

Parámetros de generación:

ParámetroRangoEfecto
temperature0.5–2.0Aleatoriedad. Bajo = conservador, alto = creativo/caótico
cfg_coef1.0–10.0Adherencia al prompt. Alto = más fiel, menos variación
top_k50–500Limita el vocabulario de tokens. Bajo = más predecible
top_p0.0–1.0Muestreo por núcleo. Bajo = más determinista

Configuración de partida:

  • temperature: 1.0
  • cfg_coef: 3.0
  • top_k: 250
  • top_p: 0.0 (desactivado por defecto)

Salida: AUDIO → conecta directamente a un nodo SaveAudio o PreviewAudio.

📡 Limitación clave

MusicGen está entrenado para generar máximo 30 segundos por llamada. Para pistas más largas, puedes encadenar varias generaciones con el modo de continuación (usando audio previo como entrada), pero el resultado suele tener saltos de coherencia.


📡 ACE-Step: la alternativa más potente de 2025

ACE-Step 1.5 es el modelo más reciente y potente para generación de música local. Supera a Stable Audio y MusicGen en calidad y no tiene límite de duración.

Instálalo buscando ACE-Step en ComfyUI Manager, o desde el repositorio oficial en GitHub (ace-step/ACE-Step-1.5). El modelo principal pesa ~3.5 GB y necesita ~8 GB de VRAM para funcionar.

A diferencia de MusicGen (máx. 30 seg) o Stable Audio (máx. ~90 seg), ACE-Step puede generar pistas de duración arbitraria manteniendo coherencia musical.


📡 Prompts que funcionan para audio

El prompting para audio es diferente al de imágenes. Los modelos entienden mejor descripciones musicales concretas:

Estructura recomendada:

[género/estilo], [tempo/ritmo], [instrumentos], [mood/ambiente], [tempo BPM]

Ejemplos que funcionan:

# Música ambiental
ambient electronic music, slow tempo, synthesizer pads,
piano melody, calm and meditative, 80 BPM

# Lo-fi para trabajar
lo-fi hip hop, relaxed drums, vinyl crackle, jazz piano chords,
mellow saxophone, 75 BPM

# Banda sonora épica
orchestral film score, epic and dramatic, full orchestra,
brass fanfare, rising tension, 120 BPM

# Efectos de sonido
forest ambience, birds chirping, wind through leaves,
distant stream, peaceful nature soundscape

Lo que no funciona bien:

  • Nombres de artistas (“al estilo de X”) — los modelos abiertos no están entrenados con artistas específicos con copyright
  • Prompts muy abstractos (“algo bonito”) — sé específico con instrumentos y mood
  • Descripciones de letra — estos modelos generan música instrumental, no canciones con voz

📡 Exportar y usar el audio

El nodo SaveAudio guarda en ComfyUI/output/ por defecto. Los formatos más comunes:

FormatoCuándo usarlo
FLACMáxima calidad, sin pérdida — para edición posterior
WAVSin pérdida, compatible con todo
MP3Compartir o publicar — menor tamaño, algo de pérdida

ComfyUI guarda en FLAC por defecto. Si necesitas MP3 para publicar, convierte con ffmpeg:

ffmpeg -i ComfyUI_00001_.flac -b:a 320k output.mp3

Una característica útil: ComfyUI puede incrustar el workflow completo dentro del archivo FLAC. Descarga el FLAC y arrástralo de vuelta a la interfaz — se carga el workflow exacto que generó ese audio, con todos los parámetros.


La generación de audio cierra el ciclo creativo en ComfyUI: imágenes, vídeo y ahora música, todo desde la misma interfaz. Si quieres combinar vídeo generado con una banda sonora generada, el flujo natural es generar primero el vídeo con AnimateDiff o Wan y después sincronizar el audio con un editor externo como DaVinci Resolve (gratuito).

Preguntas frecuentes

¿Qué VRAM necesito para generar música con ComfyUI?
Depende del modelo: MusicGen Small funciona con 4 GB, Stable Audio Open necesita 6-8 GB y ACE-Step requiere al menos 8 GB. MusicGen es la opción más accesible para GPUs con poca VRAM.
¿Puedo generar canciones completas con ComfyUI?
Con Stable Audio puedes generar hasta 90 segundos por generación. MusicGen está limitado a 30 segundos. ACE-Step no tiene límite de duración y mantiene coherencia musical en pistas largas — es el mejor para canciones completas.
¿Los modelos de audio de ComfyUI generan voz o letra?
No. Stable Audio, MusicGen y ACE-Step generan música instrumental. Para voz o canto necesitas modelos especializados como RVC o so-vits-svc, que son workflows separados no cubiertos en esta guía.
¿Cómo escribo buenos prompts para generación de audio?
Usa una estructura clara: género, tempo, instrumentos, mood y BPM. Ejemplo: 'lo-fi hip hop, relaxed drums, jazz piano chords, mellow, 75 BPM'. Evita nombres de artistas con copyright — los modelos abiertos no están entrenados con ellos.
Compartir X LinkedIn

También te puede interesar