¿Qué VRAM necesito para generar música con ComfyUI?

Depende del modelo: MusicGen Small funciona con 4 GB, Stable Audio Open necesita 6-8 GB y ACE-Step requiere al menos 8 GB. MusicGen es la opción más accesible para GPUs con poca VRAM.

¿Puedo generar canciones completas con ComfyUI?

Con Stable Audio puedes generar hasta 90 segundos por generación. MusicGen está limitado a 30 segundos. ACE-Step no tiene límite de duración y mantiene coherencia musical en pistas largas — es el mejor para canciones completas.

¿Los modelos de audio de ComfyUI generan voz o letra?

No. Stable Audio, MusicGen y ACE-Step generan música instrumental. Para voz o canto necesitas modelos especializados como RVC o so-vits-svc, que son workflows separados no cubiertos en esta guía.

¿Cómo escribo buenos prompts para generación de audio?

Usa una estructura clara: género, tempo, instrumentos, mood y BPM. Ejemplo: 'lo-fi hip hop, relaxed drums, jazz piano chords, mellow, 75 BPM'. Evita nombres de artistas con copyright — los modelos abiertos no están entrenados con ellos.

Cómo Generar Audio con ComfyUI (Guía Completa + Workflows JSON)

ComfyUI no es solo imágenes y vídeo. Con los nodos correctos puedes generar música, efectos de sonido y ambientes sonoros directamente desde un prompt de texto — sin salir de la interfaz y sin subir nada a la nube.

🏗️ Workflow: Stable Audio Open

🧠 VRAM: 6GB - 12GB 📡 MODEL: Stable Audio

Descarga Directa Ver en GitHub

Hay dos modelos principales: Stable Audio Open (difusión latente, más control sobre la estructura) y MusicGen (autoregresivo, más creativo y menos predecible), de Meta AI Research. Y un tercero emergente, ACE-Step, que en 2025 empezó a superar a ambos en calidad.

📡 Stable Audio vs MusicGen vs ACE-Step

	Stable Audio Open	MusicGen	ACE-Step
Tipo	Difusión latente	Autoregresivo	Difusión + flujo
VRAM mínima	6–8 GB	4 GB (small)	8 GB
Duración máx.	~90 segundos	30 segundos	Ilimitada
Calidad	Muy buena	Buena	Excelente
Control rítmico	Alto	Medio	Alto
Instalación	Nativa en ComfyUI	Custom node	Custom node

Usa Stable Audio si quieres control sobre estructura musical, duración y coherencia tonal. Es el más parecido al pipeline de imagen de ComfyUI — usa un sampler con steps y CFG.

Usa MusicGen si tienes VRAM limitada o quieres generación rápida de fragmentos cortos. El modelo small funciona con 4-6 GB.

Usa ACE-Step si buscas la mayor calidad posible. Soporta Mac, AMD e Intel además de CUDA.

📡 Stable Audio Open en ComfyUI

📡 Modelos necesarios

Stable Audio Open usa dos archivos que van en carpetas distintas:

ComfyUI/models/
├── checkpoints/
│   └── stable_audio_open_1.0.safetensors    ← modelo principal (~3.4 GB)
└── text_encoders/
    └── t5_base.safetensors                   ← encoder de texto T5

Descarga el modelo principal desde Hugging Face (stabilityai/stable-audio-open-1.0). El encoder T5 también está en Hugging Face como parte del mismo repositorio.

Buenas noticias: Stable Audio Open es soporte nativo de ComfyUI desde la versión de 2024. No necesitas instalar ningún custom node — los nodos están incluidos.

📡 Nodos del workflow

El pipeline de Stable Audio sigue la misma lógica que el de imágenes, con variantes de audio:

1. CheckpointLoaderSimple — carga stable_audio_open_1.0.safetensors. Produce MODEL, CLIP y VAE (todos de audio).

2. CLIPTextEncode — codifica tu prompt de texto. Para Stable Audio, el CLIP conectado es el encoder T5. Usa dos: positivo y negativo.

3. EmptyLatentAudio — el equivalente a EmptyLatentImage. Define la duración del audio:

seconds: duración en segundos (máx. ~90)
batch_size: cuántas variaciones generar a la vez

4. KSampler — igual que en imágenes, con parámetros propios para audio.

5. VAEDecode — decodifica el latente de audio a forma de onda.

6. SaveAudio — guarda el resultado en ComfyUI/output/ en formato FLAC o WAV.

📡 Ajustes del KSampler para Stable Audio

Parámetro	Valor recomendado
`steps`	100–200
`cfg`	7–12
`sampler`	`dpmpp_3m_sde`
`scheduler`	`exponential`
`denoise`	1.0

Los steps para audio son más altos que para imágenes — Stable Audio necesita más iteraciones para construir coherencia temporal. Con menos de 100 steps el resultado suena a ruido con estructura.

📡 VRAM y tiempos

VRAM	Duración	Tiempo aprox.
6 GB	30 seg	2–4 min
8 GB	60 seg	4–7 min
12 GB+	90 seg	6–10 min

Con 6 GB puedes generar fragmentos de 30 segundos. Para pistas completas de 60-90 segundos necesitas 8 GB o más.

📡 MusicGen en ComfyUI

MusicGen es el modelo de generación de música de Meta (Facebook Research). No es nativo de ComfyUI — necesitas instalar un custom node.

📡 Instalación

Busca comfyui-sound-lab en ComfyUI Manager e instálalo. Este paquete incluye el nodo Musicgen_ y soporte para varios modelos de Audiocraft.

Los modelos se descargan automáticamente la primera vez que ejecutas el workflow (desde Hugging Face), o puedes descargarlos manualmente y colocarlos en ComfyUI/models/musicgen/.

📡 Modelos disponibles

Modelo	Parámetros	VRAM necesaria	Calidad
`musicgen-small`	300M	~4 GB	Básica, rápida
`musicgen-medium`	1.5B	~8 GB	Buena
`musicgen-large`	3.3B	~16 GB	Mejor
`musicgen-stereo-small`	300M	~4 GB	Básica en estéreo
`musicgen-stereo-medium`	1.5B	~8 GB	Buena en estéreo

Para la mayoría de GPUs de 6-8 GB, musicgen-medium o musicgen-stereo-small son el punto de entrada práctico.

📡 Nodos y parámetros

El nodo Musicgen_ es todo en uno — a diferencia de Stable Audio, no necesitas conectar múltiples nodos:

Entradas:

prompt: descripción textual de la música
model: nombre del modelo a usar
duration: duración en segundos (máx. 30)

Parámetros de generación:

Parámetro	Rango	Efecto
`temperature`	0.5–2.0	Aleatoriedad. Bajo = conservador, alto = creativo/caótico
`cfg_coef`	1.0–10.0	Adherencia al prompt. Alto = más fiel, menos variación
`top_k`	50–500	Limita el vocabulario de tokens. Bajo = más predecible
`top_p`	0.0–1.0	Muestreo por núcleo. Bajo = más determinista

Configuración de partida:

temperature: 1.0
cfg_coef: 3.0
top_k: 250
top_p: 0.0 (desactivado por defecto)

Salida: AUDIO → conecta directamente a un nodo SaveAudio o PreviewAudio.

📡 Limitación clave

MusicGen está entrenado para generar máximo 30 segundos por llamada. Para pistas más largas, puedes encadenar varias generaciones con el modo de continuación (usando audio previo como entrada), pero el resultado suele tener saltos de coherencia.

📡 ACE-Step: la alternativa más potente de 2025

ACE-Step 1.5 es el modelo más reciente y potente para generación de música local. Supera a Stable Audio y MusicGen en calidad y no tiene límite de duración.

Instálalo buscando ACE-Step en ComfyUI Manager, o desde el repositorio oficial en GitHub (ace-step/ACE-Step-1.5). El modelo principal pesa ~3.5 GB y necesita ~8 GB de VRAM para funcionar.

A diferencia de MusicGen (máx. 30 seg) o Stable Audio (máx. ~90 seg), ACE-Step puede generar pistas de duración arbitraria manteniendo coherencia musical.

📡 Prompts que funcionan para audio

El prompting para audio es diferente al de imágenes. Los modelos entienden mejor descripciones musicales concretas:

Estructura recomendada:

[género/estilo], [tempo/ritmo], [instrumentos], [mood/ambiente], [tempo BPM]

Ejemplos que funcionan:

# Música ambiental
ambient electronic music, slow tempo, synthesizer pads,
piano melody, calm and meditative, 80 BPM

# Lo-fi para trabajar
lo-fi hip hop, relaxed drums, vinyl crackle, jazz piano chords,
mellow saxophone, 75 BPM

# Banda sonora épica
orchestral film score, epic and dramatic, full orchestra,
brass fanfare, rising tension, 120 BPM

# Efectos de sonido
forest ambience, birds chirping, wind through leaves,
distant stream, peaceful nature soundscape

Lo que no funciona bien:

Nombres de artistas (“al estilo de X”) — los modelos abiertos no están entrenados con artistas específicos con copyright
Prompts muy abstractos (“algo bonito”) — sé específico con instrumentos y mood
Descripciones de letra — estos modelos generan música instrumental, no canciones con voz

📡 Exportar y usar el audio

El nodo SaveAudio guarda en ComfyUI/output/ por defecto. Los formatos más comunes:

Formato	Cuándo usarlo
FLAC	Máxima calidad, sin pérdida — para edición posterior
WAV	Sin pérdida, compatible con todo
MP3	Compartir o publicar — menor tamaño, algo de pérdida

ComfyUI guarda en FLAC por defecto. Si necesitas MP3 para publicar, convierte con ffmpeg:

ffmpeg -i ComfyUI_00001_.flac -b:a 320k output.mp3

Una característica útil: ComfyUI puede incrustar el workflow completo dentro del archivo FLAC. Descarga el FLAC y arrástralo de vuelta a la interfaz — se carga el workflow exacto que generó ese audio, con todos los parámetros.

La generación de audio cierra el ciclo creativo en ComfyUI: imágenes, vídeo y ahora música, todo desde la misma interfaz. Si quieres combinar vídeo generado con una banda sonora generada, el flujo natural es generar primero el vídeo con AnimateDiff o Wan y después sincronizar el audio con un editor externo como DaVinci Resolve (gratuito).

Siguientes pasos en ComfyUI

Primeros pasos

Resolver problemas

Preguntas frecuentes

¿Qué VRAM necesito para generar música con ComfyUI?: Depende del modelo: MusicGen Small funciona con 4 GB, Stable Audio Open necesita 6-8 GB y ACE-Step requiere al menos 8 GB. MusicGen es la opción más accesible para GPUs con poca VRAM.
¿Puedo generar canciones completas con ComfyUI?: Con Stable Audio puedes generar hasta 90 segundos por generación. MusicGen está limitado a 30 segundos. ACE-Step no tiene límite de duración y mantiene coherencia musical en pistas largas — es el mejor para canciones completas.
¿Los modelos de audio de ComfyUI generan voz o letra?: No. Stable Audio, MusicGen y ACE-Step generan música instrumental. Para voz o canto necesitas modelos especializados como RVC o so-vits-svc, que son workflows separados no cubiertos en esta guía.
¿Cómo escribo buenos prompts para generación de audio?: Usa una estructura clara: género, tempo, instrumentos, mood y BPM. Ejemplo: 'lo-fi hip hop, relaxed drums, jazz piano chords, mellow, 75 BPM'. Evita nombres de artistas con copyright — los modelos abiertos no están entrenados con ellos.