Principales modelos de IA


Realismo puro = Midjurney Seedream = controlar la semilla para mantener consistencia de la IA

Chat GPT
Deepseek
Copilot
Midjurney
Comfy ui
Nano banana
Stable Diffusion
Flux

Flux + ComfyUI + LoRA


Los principales modelos de generación de “Difusion” y “Transformer”, los de Difusion aprenden a reconstruir imágenes en base a ruido, para saber que tiene que reconstruir se combinan con los Transformer, que realizan asociaciones entre las imágenes y textos con los que ha sido entrenado el modelo.

Tipos de modelos:

Algunos de los modelos de generación de imágenes más conocidos son Midjurney, Chat GPT con Dall-E, sin embargo, estos no permiten modificar la configuración si no que únicamente reciben un promt y generan la salida.

Modelos como Stable diffusion y Flux permiten configurar parámetros como el modelo, el funcionamiento de este, influencia del promt permitiendo un control absoluto de la imagen.

Interfaz:

Flux puede utilizarse junto ComfyUI, un software que proporciona una interfaz basada en nodos para trabajar con modelos de difusion.

Funcionamiento:

Los modelos de pago deben limitar el uso de GPU para reducir costes por el tiempo de procesado mientras que en los gratuitos al ejecutarse en local consume los recursos del ordenador y no hay limitación de tiempo

Instalación:

primero hay que instalar ComfyUI (Pinokio.computer),

después hay que instalar el modelo de generación (“Civitai.com”), cada version requiere diferentes especificaciones como Vram o licencias de uso, non-/comercial…

Workflow:

  • Prompt: El resultado del modelo depende enormemente de la calidad del prompt, Chat GPT puede ser utilizado para generar buenos prompts para ello hay que ir a Explorar GPTs y seleccionar un generador de prompts del modelo, el prompt ha de ser escrito en el idioma en el que el haya sido entrenado el modelo.

  • Imagen latente/to image:  Existe la posibilidad de crear una imagen de cero seleccionando su resolución y ajustes o también se puede partir de otra imagen prexistente y lo que haría seria cambiar elementos.

  • Re-escalado: Generar una imagen de una resolución muy alta como 4K tarda muchísimo por lo que se puede generar una imagen a una resolución baja y postprocesarla con módulos “upscalers” para escalarla a 4K, generar imágenes pequeñas permite generar muchas rápido y luego elegir y rescalar la deseada.

  • LORAs: entrenar un modelo desde cero extremadamente complejo, por ello están los LORAs que permiten modificar el resultado generado por el modelo, pudiendo entrenar el modelo nuevamente con caras, objetos, estilos… tanto en local (tarda más) como en la nube (rápido pero costoso).

  • Guiedance: modulo que permite ajustar la influencia del prompt en el resultado.

  • Variatonal autoencoder: traduce la información vectorial del modelo a pixeles.

  • VAE Decode: Modulo final que traduce la información vectorial a una imagen real.

  • Generacion y replicación: aunque los resultados son inesperados no dejan de ser operaciones matemáticas por lo que, si se replican los mismos ajustes, en concreto la seed se conseguirá el mismo resultado, por otro lado, existe la posibilidad de generar multitud de imágenes variando únicamente la seed para conseguir resultados similares y elegir entre ellas.