ComfyUI no es solo imágenes y vídeo. Con los nodos correctos puedes generar música, efectos de sonido y ambientes sonoros directamente desde un prompt de texto — sin salir de la interfaz y sin subir nada a la nube.
🏗️ Workflow: Stable Audio Open
Hay dos modelos principales: Stable Audio Open (difusión latente, más control sobre la estructura) y MusicGen (autoregresivo, más creativo y menos predecible). Y un tercero emergente, ACE-Step, que en 2025 empezó a superar a ambos en calidad.
📡 Stable Audio vs MusicGen vs ACE-Step
| Stable Audio Open | MusicGen | ACE-Step | |
|---|---|---|---|
| Tipo | Difusión latente | Autoregresivo | Difusión + flujo |
| VRAM mínima | 6–8 GB | 4 GB (small) | 8 GB |
| Duración máx. | ~90 segundos | 30 segundos | Ilimitada |
| Calidad | Muy buena | Buena | Excelente |
| Control rítmico | Alto | Medio | Alto |
| Instalación | Nativa en ComfyUI | Custom node | Custom node |
Usa Stable Audio si quieres control sobre estructura musical, duración y coherencia tonal. Es el más parecido al pipeline de imagen de ComfyUI — usa un sampler con steps y CFG.
Usa MusicGen si tienes VRAM limitada o quieres generación rápida de fragmentos cortos. El modelo small funciona con 4-6 GB.
Usa ACE-Step si buscas la mayor calidad posible. Soporta Mac, AMD e Intel además de CUDA.
📡 Stable Audio Open en ComfyUI
📡 Modelos necesarios
Stable Audio Open usa dos archivos que van en carpetas distintas:
ComfyUI/models/
├── checkpoints/
│ └── stable_audio_open_1.0.safetensors ← modelo principal (~3.4 GB)
└── text_encoders/
└── t5_base.safetensors ← encoder de texto T5
Descarga el modelo principal desde Hugging Face (stabilityai/stable-audio-open-1.0). El encoder T5 también está en Hugging Face como parte del mismo repositorio.
Buenas noticias: Stable Audio Open es soporte nativo de ComfyUI desde la versión de 2024. No necesitas instalar ningún custom node — los nodos están incluidos.
📡 Nodos del workflow
El pipeline de Stable Audio sigue la misma lógica que el de imágenes, con variantes de audio:
1. CheckpointLoaderSimple — carga stable_audio_open_1.0.safetensors. Produce MODEL, CLIP y VAE (todos de audio).
2. CLIPTextEncode — codifica tu prompt de texto. Para Stable Audio, el CLIP conectado es el encoder T5. Usa dos: positivo y negativo.
3. EmptyLatentAudio — el equivalente a EmptyLatentImage. Define la duración del audio:
seconds: duración en segundos (máx. ~90)batch_size: cuántas variaciones generar a la vez
4. KSampler — igual que en imágenes, con parámetros propios para audio.
5. VAEDecode — decodifica el latente de audio a forma de onda.
6. SaveAudio — guarda el resultado en ComfyUI/output/ en formato FLAC o WAV.
📡 Ajustes del KSampler para Stable Audio
| Parámetro | Valor recomendado |
|---|---|
steps | 100–200 |
cfg | 7–12 |
sampler | dpmpp_3m_sde |
scheduler | exponential |
denoise | 1.0 |
Los steps para audio son más altos que para imágenes — Stable Audio necesita más iteraciones para construir coherencia temporal. Con menos de 100 steps el resultado suena a ruido con estructura.
📡 VRAM y tiempos
| VRAM | Duración | Tiempo aprox. |
|---|---|---|
| 6 GB | 30 seg | 2–4 min |
| 8 GB | 60 seg | 4–7 min |
| 12 GB+ | 90 seg | 6–10 min |
Con 6 GB puedes generar fragmentos de 30 segundos. Para pistas completas de 60-90 segundos necesitas 8 GB o más.
📡 MusicGen en ComfyUI
MusicGen es el modelo de generación de música de Meta (Facebook Research). No es nativo de ComfyUI — necesitas instalar un custom node.
📡 Instalación
Busca comfyui-sound-lab en ComfyUI Manager e instálalo. Este paquete incluye el nodo Musicgen_ y soporte para varios modelos de Audiocraft.
Los modelos se descargan automáticamente la primera vez que ejecutas el workflow (desde Hugging Face), o puedes descargarlos manualmente y colocarlos en ComfyUI/models/musicgen/.
📡 Modelos disponibles
| Modelo | Parámetros | VRAM necesaria | Calidad |
|---|---|---|---|
musicgen-small | 300M | ~4 GB | Básica, rápida |
musicgen-medium | 1.5B | ~8 GB | Buena |
musicgen-large | 3.3B | ~16 GB | Mejor |
musicgen-stereo-small | 300M | ~4 GB | Básica en estéreo |
musicgen-stereo-medium | 1.5B | ~8 GB | Buena en estéreo |
Para la mayoría de GPUs de 6-8 GB, musicgen-medium o musicgen-stereo-small son el punto de entrada práctico.
📡 Nodos y parámetros
El nodo Musicgen_ es todo en uno — a diferencia de Stable Audio, no necesitas conectar múltiples nodos:
Entradas:
prompt: descripción textual de la músicamodel: nombre del modelo a usarduration: duración en segundos (máx. 30)
Parámetros de generación:
| Parámetro | Rango | Efecto |
|---|---|---|
temperature | 0.5–2.0 | Aleatoriedad. Bajo = conservador, alto = creativo/caótico |
cfg_coef | 1.0–10.0 | Adherencia al prompt. Alto = más fiel, menos variación |
top_k | 50–500 | Limita el vocabulario de tokens. Bajo = más predecible |
top_p | 0.0–1.0 | Muestreo por núcleo. Bajo = más determinista |
Configuración de partida:
temperature: 1.0cfg_coef: 3.0top_k: 250top_p: 0.0 (desactivado por defecto)
Salida: AUDIO → conecta directamente a un nodo SaveAudio o PreviewAudio.
📡 Limitación clave
MusicGen está entrenado para generar máximo 30 segundos por llamada. Para pistas más largas, puedes encadenar varias generaciones con el modo de continuación (usando audio previo como entrada), pero el resultado suele tener saltos de coherencia.
📡 ACE-Step: la alternativa más potente de 2025
ACE-Step 1.5 es el modelo más reciente y potente para generación de música local. Supera a Stable Audio y MusicGen en calidad y no tiene límite de duración.
Instálalo buscando ACE-Step en ComfyUI Manager, o desde el repositorio oficial en GitHub (ace-step/ACE-Step-1.5). El modelo principal pesa ~3.5 GB y necesita ~8 GB de VRAM para funcionar.
A diferencia de MusicGen (máx. 30 seg) o Stable Audio (máx. ~90 seg), ACE-Step puede generar pistas de duración arbitraria manteniendo coherencia musical.
📡 Prompts que funcionan para audio
El prompting para audio es diferente al de imágenes. Los modelos entienden mejor descripciones musicales concretas:
Estructura recomendada:
[género/estilo], [tempo/ritmo], [instrumentos], [mood/ambiente], [tempo BPM]
Ejemplos que funcionan:
# Música ambiental
ambient electronic music, slow tempo, synthesizer pads,
piano melody, calm and meditative, 80 BPM
# Lo-fi para trabajar
lo-fi hip hop, relaxed drums, vinyl crackle, jazz piano chords,
mellow saxophone, 75 BPM
# Banda sonora épica
orchestral film score, epic and dramatic, full orchestra,
brass fanfare, rising tension, 120 BPM
# Efectos de sonido
forest ambience, birds chirping, wind through leaves,
distant stream, peaceful nature soundscape
Lo que no funciona bien:
- Nombres de artistas (“al estilo de X”) — los modelos abiertos no están entrenados con artistas específicos con copyright
- Prompts muy abstractos (“algo bonito”) — sé específico con instrumentos y mood
- Descripciones de letra — estos modelos generan música instrumental, no canciones con voz
📡 Exportar y usar el audio
El nodo SaveAudio guarda en ComfyUI/output/ por defecto. Los formatos más comunes:
| Formato | Cuándo usarlo |
|---|---|
| FLAC | Máxima calidad, sin pérdida — para edición posterior |
| WAV | Sin pérdida, compatible con todo |
| MP3 | Compartir o publicar — menor tamaño, algo de pérdida |
ComfyUI guarda en FLAC por defecto. Si necesitas MP3 para publicar, convierte con ffmpeg:
ffmpeg -i ComfyUI_00001_.flac -b:a 320k output.mp3
Una característica útil: ComfyUI puede incrustar el workflow completo dentro del archivo FLAC. Descarga el FLAC y arrástralo de vuelta a la interfaz — se carga el workflow exacto que generó ese audio, con todos los parámetros.
La generación de audio cierra el ciclo creativo en ComfyUI: imágenes, vídeo y ahora música, todo desde la misma interfaz. Si quieres combinar vídeo generado con una banda sonora generada, el flujo natural es generar primero el vídeo con AnimateDiff o Wan y después sincronizar el audio con un editor externo como DaVinci Resolve (gratuito).
Preguntas frecuentes
- ¿Qué VRAM necesito para generar música con ComfyUI?
- Depende del modelo: MusicGen Small funciona con 4 GB, Stable Audio Open necesita 6-8 GB y ACE-Step requiere al menos 8 GB. MusicGen es la opción más accesible para GPUs con poca VRAM.
- ¿Puedo generar canciones completas con ComfyUI?
- Con Stable Audio puedes generar hasta 90 segundos por generación. MusicGen está limitado a 30 segundos. ACE-Step no tiene límite de duración y mantiene coherencia musical en pistas largas — es el mejor para canciones completas.
- ¿Los modelos de audio de ComfyUI generan voz o letra?
- No. Stable Audio, MusicGen y ACE-Step generan música instrumental. Para voz o canto necesitas modelos especializados como RVC o so-vits-svc, que son workflows separados no cubiertos en esta guía.
- ¿Cómo escribo buenos prompts para generación de audio?
- Usa una estructura clara: género, tempo, instrumentos, mood y BPM. Ejemplo: 'lo-fi hip hop, relaxed drums, jazz piano chords, mellow, 75 BPM'. Evita nombres de artistas con copyright — los modelos abiertos no están entrenados con ellos.