ComfyLab
Prompts en ComfyUI: Guía de Ponderación y CFG

Prompts en ComfyUI: Guía de Ponderación y CFG

4GB VRAM VRAM Principiante 10 min
Savien

El mismo modelo puede generar una foto realista o un desastre borroso según cómo escribas el prompt. Con SD 1.5 y un CFG de 7, la diferencia entre portrait of a woman y portrait of a woman, soft natural lighting, sharp focus, (skin detail:1.2) es visible a simple vista. Este artículo te enseña exactamente por qué — y cómo controlarlo.

Si aún no tienes ComfyUI instalado o no sabes cómo funciona el workflow básico de generación de imágenes, empieza por Cómo generar imágenes con ComfyUI antes de continuar aquí.


📡 Estructura de un prompt efectivo

Un prompt bien construido tiene cuatro capas. No todas son obligatorias en todos los casos, pero conocerlas te permite diagnosticar por qué una imagen no sale como esperabas.

CapaQué describeEjemplo
SujetoQuién o qué apareceportrait of a young woman
EstiloLook artístico o referenciaoil painting, Rembrandt style
CalidadTérminos que orientan la nitidezsharp focus, high detail, 8k
TécnicoParámetros de cámara o iluminaciónf/1.8 aperture, golden hour, rim light

El orden importa — CLIP procesa el texto de izquierda a derecha y da más peso a los primeros tokens. Pon el sujeto principal al principio, no al final.

Un prompt completo para una fotografía de retrato podría ser:

portrait of a young woman, soft natural lighting, shallow depth of field,
sharp focus, photorealistic, high detail, f/1.8 aperture,
professional photography, 8k resolution

Ese prompt funciona bien tal cual. La ponderación entra cuando quieres ajustar el peso de elementos específicos sin reescribir todo.


📡 Sintaxis de ponderación: cómo funciona (palabra:1.2)

ComfyUI usa la sintaxis de ponderación de CLIP de forma nativa. La estructura es simple:

(término:peso)

Donde peso es un número decimal. Los rangos habituales:

PesoEfectoCuándo usarlo
0.6 – 0.8Reduce la influencia del términoElementos de fondo, texturas secundarias
1.0Neutro (igual que no usar paréntesis)Referencia base
1.1Ligero énfasis — equivale a (término)Ajustes sutiles
1.2 – 1.4Énfasis moderadoElementos principales que se pierden
1.5 – 2.0Énfasis fuerteUsar con cuidado, puede distorsionar

Un paréntesis sin número es siempre 1.1:

(sharp focus)        ← equivale a (sharp focus:1.1)
(sharp focus:1.2)    ← 20% más énfasis que neutro
(sharp focus:0.8)    ← 20% menos énfasis que neutro

Nota importante: la sintaxis correcta en ComfyUI es paréntesis curvos (), no corchetes []. Los corchetes son la sintaxis antigua de A1111 que ComfyUI no interpreta igual.

📡 Ejemplos prácticos de ponderación

Para un retrato donde los ojos se pierden con poca iluminación:

portrait of a woman, (detailed eyes:1.3), (iris detail:1.2),
soft lighting, photorealistic

Para reducir el peso de un elemento que domina demasiado:

forest landscape, (fog:0.7), ancient ruins in the background,
golden hour lighting, cinematic

Para empujar un estilo artístico específico sin que aplaste el sujeto:

samurai warrior, (ukiyo-e style:1.3), (woodblock print:1.2),
dynamic pose, (photorealism:0.6)

📡 Atajo de teclado para añadir pesos

No necesitas escribir la sintaxis a mano cada vez. En el nodo CLIPTextEncode de ComfyUI:

  1. Selecciona una palabra o frase con el cursor de texto
  2. Pulsa Ctrl+Arriba para aumentar el peso en 0.1 (añade paréntesis automáticamente)
  3. Pulsa Ctrl+Abajo para reducir el peso en 0.1

Si el término no tiene paréntesis, el primer Ctrl+Arriba lo convierte a (término:1.1). Cada pulsación adicional suma o resta 0.1. Es la forma más rápida de ajustar prompts existentes.


📡 Negative prompts: qué poner y cuándo importan

El negative prompt es el texto del segundo nodo CLIPTextEncode — el que se conecta a la entrada negative del KSampler. Le dice al modelo qué evitar durante la generación.

📡 Negative prompt base para SD 1.5

Este bloque cubre los problemas más comunes con SD 1.5 y modelos derivados:

blurry, low quality, low resolution, worst quality, bad anatomy,
bad hands, extra fingers, missing fingers, deformed, ugly,
watermark, text, signature, jpeg artifacts, grainy, oversaturated

📡 Negative prompt base para SDXL

SDXL maneja mejor la anatomía por defecto, así que el negative puede ser más corto:

blurry, low quality, watermark, text, signature,
oversaturated, cartoon, 3d render

📡 Cuándo el negative prompt tiene impacto real

Los negative prompts tienen más efecto cuando:

  • El modelo tiende a generar artefactos específicos de forma repetida (manos mal formadas, texto incoherente)
  • Quieres cambiar el estilo por defecto del modelo (evitar que se vea “cartoon” cuando buscas realismo)
  • El positive prompt es ambiguo y el modelo interpreta en direcciones no deseadas

Los negative prompts tienen menos impacto cuando:

  • El positive prompt ya describe el resultado con suficiente detalle
  • Usas un modelo fine-tuned específico que ya tiene esos problemas corregidos
  • Estás trabajando con Flux (ver sección siguiente)

📡 CFG Scale: el parámetro que más afecta al resultado

CFG Scale (también llamado guidance_scale en el nodo KSampler) controla cuánto sigue el modelo el prompt versus cuánta libertad creativa tiene.

CFG ScaleEfectoCuándo usarlo
1 – 4El modelo ignora partes del prompt, más variedadExploración libre, arte abstracto
5 – 6Equilibrio suelto, cierta libertadIlustración con estilo propio
7 – 8Equilibrio óptimo para la mayoría de casosUso general, portraits, landscapes
9 – 11Sigue el prompt más estrictamentePrompts muy descriptivos y específicos
12 – 15Sobreajuste: colores saturados, artefactosRaramente recomendable
>15Distorsión visual significativaNo recomendable

El rango 7–8 es el punto de partida correcto para SD 1.5 y SDXL. Ajusta desde ahí.

Si la imagen sale con colores muy saturados o demasiado “plásticos”, baja el CFG. Si el modelo ignora partes importantes del prompt, súbelo un punto.

Para Flux, los valores son más bajos: entre 1 y 3.5 funcionan bien. La arquitectura de Flux sigue el prompt de forma diferente al proceso de difusión clásico.


📡 CLIPTextEncode positive y negative: cómo están conectados

En el workflow básico de ComfyUI, el nodo CLIPTextEncode aparece dos veces — no porque sean nodos diferentes, sino porque se usan con propósitos distintos.

La conexión es:

CheckpointLoaderSimple → CLIP output

CLIPTextEncode (positive) → conditioning → KSampler (positive input)
CLIPTextEncode (negative) → conditioning → KSampler (negative input)

El nodo KSampler y el resto de nodos esenciales están documentados en detalle en la guía de nodos — aquí lo que importa saber sobre el texto:

  • Ambos nodos usan el mismo encoder CLIP del modelo cargado
  • El encoder convierte el texto en vectores de 768 dimensiones (SD 1.5) o 1024 (SDXL)
  • El modelo usa esos vectores en direcciones opuestas durante cada paso de denoising

Cambiar el texto en cualquiera de los dos nodos no requiere recargar el modelo. ComfyUI recalcula solo la codificación del texto al hacer Queue Prompt.


📡 Prompts según el modelo: SD 1.5, SDXL y Flux

Los tres modelos principales responden de forma diferente al mismo prompt. Conocer las diferencias evita frustración.

📡 SD 1.5

  • Responde bien a listas de términos separados por comas
  • Necesita términos de calidad explícitos: masterpiece, best quality, highly detailed
  • La ponderación (término:1.2) tiene efecto visible y predecible
  • Los negative prompts son importantes — bad anatomy, bad hands hace diferencia real
  • CFG óptimo: 7–8
masterpiece, best quality, portrait of a young woman,
(detailed eyes:1.2), soft lighting, photorealistic,
sharp focus, high detail

Negative:

blurry, low quality, worst quality, bad anatomy, bad hands,
extra fingers, deformed, watermark

📡 SDXL

  • Entiende mejor el lenguaje natural — frases completas funcionan, no solo listas
  • Los términos de calidad como masterpiece tienen menos impacto que en SD 1.5
  • La anatomía es mejor por defecto, el negative puede ser más simple
  • Soporta dos text encoders: CLIP-L y CLIP-G (el segundo procesa el texto completo)
  • CFG óptimo: 7–9
A portrait of a young woman in a sunlit forest clearing,
soft natural lighting filtering through leaves,
sharp focus, photorealistic photography, 85mm lens

Negative:

blurry, watermark, text, oversaturated, cartoon

📡 Flux

  • Usa CLIP + T5 como encoder de texto — T5 entiende instrucciones largas y detalladas
  • Funciona mejor con descripciones en prosa, no listas de términos
  • Los negative prompts no tienen efecto efectivo — la arquitectura de rectified flow no los procesa igual
  • No incluir términos de calidad del estilo SD 1.5 (masterpiece no aporta nada)
  • CFG óptimo: 1 – 3.5
A portrait photograph of a young woman standing in a forest clearing.
Soft morning light filters through the tree canopy, creating gentle shadows.
The image is sharp and photorealistic, with natural skin tones and clear detail.

Negative: dejar vacío o ignorar — no tiene impacto real en Flux.


📡 Plantillas de prompts reutilizables

Estas plantillas cubren los casos de uso más comunes. Ajusta los elementos entre corchetes y los pesos según tus resultados.

📡 Retrato realista (SD 1.5 / SDXL)

portrait of [descripción del sujeto], [tipo de iluminación],
(detailed eyes:1.2), (skin texture:1.1), sharp focus,
photorealistic, professional photography, [focal length]

📡 Paisaje cinematográfico (SDXL)

[tipo de paisaje] during [hora del día], cinematic composition,
volumetric lighting, (atmospheric fog:0.9), epic scale,
photorealistic, shot on [cámara], [tiempo atmosférico]

📡 Arte conceptual / ilustración (SD 1.5 / SDXL)

[sujeto], (concept art:1.2), (digital painting:1.1),
detailed environment, dramatic lighting, [artista o estilo de referencia],
trending on artstation, (high detail:1.3)

📡 Producto / fotografía comercial (SDXL / Flux)

[producto] on a clean white surface, studio lighting,
professional product photography, sharp focus throughout,
(clean background:1.2), commercial quality

📡 Qué hacer cuando el prompt no funciona

Antes de cambiar el modelo o instalar plugins, revisa estos puntos en orden:

1. El sujeto está al final del prompt CLIP pondera más los primeros tokens. Si el elemento más importante aparece al final, muévelo al principio.

2. CFG demasiado alto o bajo Colores saturados o “plásticos” → baja CFG a 6–7. Modelo ignora partes del prompt → sube a 8–9.

3. Términos contradictorios photorealistic y cartoon style en el mismo prompt confunden al modelo. Elige uno.

4. Negative prompt demasiado agresivo Si el negative incluye términos que también describe el positive, el modelo lucha contra sí mismo. Simplifica el negative.

5. El modelo no es el adecuado para el estilo SD 1.5 base no genera el mismo realismo que un modelo fine-tuned como Realistic Vision. El prompt hace mucho, pero el checkpoint también importa.


Con la ponderación y el CFG bien ajustados, el mismo workflow base da resultados consistentes. El siguiente paso natural es combinar estos prompts con LoRAs para añadir estilos específicos sin cambiar el modelo — la guía de LoRAs en ComfyUI explica cómo conectar el nodo LoraLoader y cuánto peso darle a cada LoRA para que no aplaste el prompt. Si quieres entender mejor el KSampler y el resto de nodos que procesan el texto antes de generar la imagen, la guía de nodos esenciales es el punto de partida.

Preguntas frecuentes

¿Qué significa (palabra:1.2) en un prompt de ComfyUI?
Es la sintaxis de ponderación de CLIP. El número indica el peso relativo del término: 1.0 es el valor neutro, 1.2 amplifica su influencia un 20% y 0.8 la reduce un 20%. Un paréntesis sin número — (palabra) — equivale automáticamente a (palabra:1.1). Se aplica en el nodo CLIPTextEncode.
¿Qué CFG Scale debo usar en ComfyUI?
Para la mayoría de modelos SD 1.5 y SDXL, usa entre 7 y 8. Con valores por encima de 12 la imagen se sobreajusta al prompt y aparecen colores saturados o artefactos. Por debajo de 5 el modelo ignora partes del prompt. Flux funciona bien entre 1 y 3,5 por su arquitectura de flujo.
¿Los negative prompts funcionan con Flux?
No de forma efectiva. Flux usa una arquitectura de rectified flow diferente a la difusión latente clásica de SD 1.5 y SDXL. El nodo CLIPTextEncode negativo existe en el workflow de Flux, pero el modelo no lo procesa de la misma manera. Para Flux, ajusta el prompt positivo en lugar de depender del negativo.
¿Cuál es la diferencia entre CLIPTextEncode positive y negative en ComfyUI?
Son dos nodos CLIPTextEncode separados que se conectan a las entradas 'positive' y 'negative' del KSampler. El positive describe lo que quieres generar; el negative, lo que quieres evitar. Ambos pasan por el mismo encoder CLIP, pero el modelo los usa en direcciones opuestas durante el proceso de difusión.
Compartir X LinkedIn

También te puede interesar