ComfyLab
Guía de Prompt Engineering para ComfyUI (Pro)

Guía de Prompt Engineering para ComfyUI (Pro)

8GB VRAM VRAM Avanzado 6 min
Savien

Escribir un prompt en ComfyUI no es como hablar con ChatGPT. No estamos pidiendo un favor a una IA; estamos navegando por un espacio latente de miles de millones de dimensiones. En ComfyUI, el Prompt Engineering es una disciplina técnica que combina lingüística, matemáticas y lógica de nodos.

Si quieres dejar de “tirar los dados” y empezar a “esculpir” tus imágenes, esta guía de nivel profesional es para ti.


🧠 Teoría del Lenguaje en Difusión: El Viaje del Token

Cuando escribes “un gato azul”, el codificador de texto (CLIP) no ve esas palabras. Las deconstruye en tokens. Cada token es un número que apunta a un lugar específico en el mapa del conocimiento del modelo.

🧠 ¿Qué es el CLIP?

CLIP (Contrastive Language-Image Pre-training) es el cerebro que conecta el texto con la imagen.

  • En Stable Diffusion 1.5, usamos un solo CLIP (OpenAI CLIP-L/14).
  • En Stable Diffusion XL (SDXL), usamos dos: CLIP-L (para detalles) y CLIP-G (para el concepto global). ComfyUI nos permite enviar prompts diferentes a cada uno mediante el nodo CLIP Text Encode (SDXL).
  • En FLUX.1, la arquitectura cambia hacia un modelo T5, que entiende mucho mejor las frases naturales y las relaciones espaciales complejas.

🧠 Sintaxis de Precisión: ComfyUI vs. Automatic1111

Esta es la primera barrera para los que migran. Si usas la sintaxis equivocada, el modelo ignorará tus órdenes.

ConceptoSintaxis Automatic1111Sintaxis ComfyUI (Standard)
Énfasis (1.1x)(palabra)(palabra:1.1)
Mucho énfasis (1.21x)((palabra))(palabra:1.21)
Atenuación (0.9x)[palabra](palabra:0.9)
Peso exacto(palabra:1.5)(palabra:1.5)

🧠 La Regla del Paréntesis en ComfyUI

En ComfyUI, siempre que quieras dar peso, debes usar el formato (palabra:valor). Si solo pones (palabra), ComfyUI lo interpretará con un peso de 1.1 por defecto. Es mejor ser explícito para mantener la consistencia en tus resultados.


🧠 Embeddings (Textual Inversion): El Poder de la Síntesis

Los embeddings son “atajos semánticos”. En lugar de escribir 50 palabras para describir un estilo artístico complejo, usas un archivo que condensa todo eso en un solo concepto.

🧠 Cómo usarlos correctamente

En ComfyUI, para activar un embedding que tienes en tu carpeta models/embeddings, debes escribirlo así: embedding:nombre_del_archivo

💡 Uso en Prompts Negativos

El uso más potente de los embeddings es en el nodo de prompt negativo. Embeddings como EasyNegative o BadDream ayudan a eliminar artefactos, manos deformes o estilos borrosos sin llenar tu prompt de “trash words”.


🧠 LoRAs: Más allá del Texto

A diferencia de A1111, donde pones <lora:nombre:1> en el texto, en ComfyUI el LoRA es un nodo físico.

🧠 El Flujo de Trabajo Profesional con LoRAs

  1. Cargas el LoRA con un nodo LoraLoader.
  2. El nodo recibe el Modelo y el CLIP.
  3. El nodo “inyecta” el conocimiento del LoRA en el CLIP.
  4. Conectas el CLIP de salida al nodo CLIP Text Encode.

Esto permite que el modelo entienda los conceptos del LoRA (como un personaje específico o un estilo de dibujo) de forma mucho más orgánica. Si el LoRA tiene una trigger word, escríbela en el prompt para “activar” esa zona de la memoria del modelo.


🧠 Técnicas Maestras: Prompting por Capas

Esta es la razón por la que usamos ComfyUI. No estamos limitados a una sola caja de texto.

🧠 1. Condicionamiento Combinado (Conditioning Combine)

Puedes escribir tres prompts diferentes:

  • “Un bosque encantado por la noche”
  • “Luciérnagas brillantes flotando”
  • “Niebla misteriosa en el suelo”

Luego los combinas con nodos Conditioning(Combine). Esto es mucho más potente que escribirlo todo junto, porque le das al modelo tres conceptos claros y distintos para procesar.

🧠 2. Control Espacial (Conditioning Set Area)

¿Quieres un cielo de fuego arriba y un mar de cristal abajo? Usando el nodo ConditioningSetArea, puedes definir coordenadas (X, Y) y dimensiones (Ancho, Alto).

  • Prompt A -> Set Area (0, 0, 1024, 512) -> Cielo.
  • Prompt B -> Set Area (0, 512, 1024, 512) -> Mar. El modelo generará ambos conceptos en sus áreas respectivas sin mezclarlos.

🧠 Prompt Scheduling: El factor tiempo

ComfyUI permite que el prompt cambie paso a paso. Imagínate que quieres que una estatua de piedra se convierta lentamente en una persona de carne y hueso.

  • Del paso 0 al 10: “Estatua de mármol frío”.
  • Del paso 11 al 20: “Estatua de mármol convirtiéndose en piel”.
  • Del paso 21 al 30: “Persona real, piel cálida”.

Esto se logra con nodos como ConditioningSetTimestepRange. Es la técnica fundamental para crear morphings y transiciones en vídeo.


🧠 Guía de Estilos y Tokens Recomendados

Para el Prompt Engineering profesional, evita los “adjetivos vacíos” (como beautiful o stunning) y usa tokens descriptivos:

  • Iluminación: rim lighting, cinematic lighting, volumetric fog, golden hour.
  • Cámara: macro lens, wide angle, low angle shot, 85mm portrait.
  • Textura: subsurface scattering (para piel), highly detailed, intricate patterns.
  • Arte: chiaroscuro, minimalism, baroque style, concept art by [Artist Name].

🧠 FAQ de Prompting Avanzado

🧠 ¿Cuántos tokens puedo usar?

CLIP tiene un límite nativo de 75 tokens. ComfyUI puede concatenar múltiples bloques de 75, pero recuerda que el modelo suele ignorar lo que escribas después del token 150-200. Mantén tus prompts quirúrgicos y directos.

🧠 ¿Cómo influye el Negative Prompt en el tiempo de generación?

No influye. El proceso de difusión siempre calcula dos versiones de la imagen en cada paso (una guiada por el prompt y otra por el negativo) para restarlas. Tener un prompt negativo largo no hace la generación más lenta.

🧠 ¿Cuál es la diferencia entre el prompt CLIP-L y CLIP-G en SDXL?

  • CLIP-G: Es el “gran cuadro”. Pon aquí el sujeto y la escena general.
  • CLIP-L: Es el “detalle”. Pon aquí las texturas, la luz y los pequeños detalles técnicos.

🧠 Conclusión

El Prompt Engineering en ComfyUI es un lenguaje de programación creativo. No se trata de qué pides, sino de cómo estructuras esa petición en el flujo de datos. Si dominas la combinación de capas, áreas y pesos, dejarás de ser un usuario que “prueba suerte” para convertirte en un verdadero artista digital de la era de la IA.

Para ver estas técnicas aplicadas a la creación de vídeos, no te pierdas nuestra guía avanzada de generación de vídeo en ComfyUI. Si quieres profundizar en cómo los LoRAs modifican el comportamiento del modelo a nivel de prompt, la guía completa de LoRAs en ComfyUI es el siguiente paso natural.

Preguntas frecuentes

¿Por qué la sintaxis de pesos en ComfyUI es diferente a A1111?
ComfyUI utiliza el formato estándar de la librería Diffusers `(palabra:1.2)`. A1111 usa paréntesis anidados `((palabra))`. El sistema de ComfyUI es matemáticamente más preciso y predecible para el modelo CLIP.
¿Cómo afectan los LoRAs al prompt en ComfyUI?
En ComfyUI, los LoRAs no suelen inyectarse mediante texto (`<lora:name:1>`), sino mediante nodos físicos que modifican el modelo y el CLIP antes de llegar al codificador de texto. Esto ofrece un control mucho más limpio sobre la fuerza del efecto.
¿Qué es el 'Conditioning Set Area'?
Es una técnica avanzada de ComfyUI que permite asignar diferentes partes de un prompt a áreas específicas de la imagen (por ejemplo, 'cielo rojo' arriba y 'césped azul' abajo) sin que los colores se mezclen.
¿Puedo usar variables en mis prompts?
Sí, utilizando nodos de la WAS Node Suite o similares, puedes crear estructuras de texto dinámicas que inserten palabras aleatorias o secuenciales en cada generación.
Compartir X LinkedIn

También te puede interesar