Encontrar el mejor estímulo para crear una imagen perfecta es un desafío particular. La investigación sobre métodos para hacerlo no está tan desarrollada como la de la creación de textos. Esto puede deberse a los desafíos inherentes en la creación de objetos que son fundamentalmente subjetivos y a menudo carecen de métricas de precisión. Sin embargo, no temáis, ya que la comunidad de creación de imágenes con estímulos ha hecho grandes descubrimientos sobre cómo estimular varios modelos de imágenes.
Esta guía cubre técnicas básicas de estimulación de imágenes, y recomendamos encarecidamente que consultéis los recursos excelentes al final del capítulo. Además, proporcionamos un ejemplo del proceso de estimulación de extremo a extremo de la imagen a continuación.
Aquí voy a mostrar un ejemplo de cómo creé las imágenes para la página principal de este curso. Había estado experimentando con el estilo de baja poli para un proyecto de campo de radiación neuronal de refuerzo profundo. Me gustó el estilo de baja poli y quería usarlo para las imágenes de este curso.
Quería un astronauta, un cohete y una computadora para las imágenes de la página principal.
Investigué mucho sobre cómo crear imágenes de baja poli en r/StableDiffusion y otros sitios, pero no encontré nada muy útil.
Decidí empezar con DALLE y el estímulo Cohete blanco y azul Low poly disparando a la luna delante de un prado verde disperso
y ver qué pasaba.
Pensé que estos resultados eran bastante decentes para un primer intento; especialmente me gustó el cohete de la parte inferior izquierda.
A continuación, quería una computadora en el mismo estilo: Computadora blanca y azul de baja poli sentada en un prado verde disperso
Finalmente, necesitaba un astronauta! Astronauta de baja poligonización en blanco y azul sentado en un prado verde escaso con montañas de baja poligonización en el fondo
pareció funcionar.
Pensé que el segundo era decente.
Ahora tenía un astronauta, un cohete y una computadora. Estaba contento con ellos, así que los puse en la página principal. Después de unos días y con la opinión de mis amigos, me di cuenta de que el estilo simplemente no era consistente 😔.
Investigué un poco más en r/StableDiffusion y encontré personas que usaban la palabra isométrico. Decidí probarlo, usando Stable Diffusion en lugar de DALLE.
También me di cuenta de que necesitaba agregar más modificadores a mi prompt
para limitar el estilo. Intenté con este prompt:
Un mundo de baja poligonización, con un astronauta con traje blanco y visor azul sentado en una pradera verde escasa con montañas de baja poligonización en el fondo. Altamente detallado, isométrico, 4K
Estos no eran geniales, así que decidí empezar con el cohete en su lugar.
Un mundo de baja poligonización, con un cohete blanco y azul despegando desde una pradera verde escasa con montañas de baja poligonización en el fondo. Altamente detallado, isométrico, 4K
Estos no son particularmente buenos, pero después de un poco de iteración, terminé con esto:
Ahora necesitaba una mejor laptop.
Un mundo de baja poligonización, con una laptop blanca y azul sentada en una pradera verde escasa con montañas de baja poligonización en el fondo. La pantalla es completamente azul. Altamente detallado, isométrico, 4K
Obtuve algunos resultados inconsistentes; Me gustó el de la esquina inferior derecha, pero decidí ir en una dirección diferente.
Un mundo de baja poligonización, con una gema blanca y azul que brilla sentada en una pradera verde escasa con montañas de baja poligonización en el fondo. Altamente detallado, isométrico, 4K
Esto no estaba del todo bien. Intentemos algo mágico y brillante.
Un mundo de baja poligonización, con una gema blanca y azul brillante que flota mágicamente en el centro de la pantalla sobre una pradera verde escasa con montañas de baja poligonización en el fondo. Altamente detallado, isométrico, 4K
Me gustaron estas imágenes, pero quería que la piedra estuviera en el centro de la pantalla.
Un mundo de baja poligonización, con una piedra preciosa de color azul brillante flotando mágicamente en el centro de la pantalla sobre una pradera verde escasa con montañas de baja poligonización en el fondo. Altamente detallado, isométrico, 4K
En algún lugar por aquí, utilicé la capacidad de SD para que una imagen anterior influyera en imágenes futuras. Y así llegué a:
Finalmente, necesitaba un astronauta.
Un mundo de baja poligonización, con un astronauta con traje blanco y visor azul sentado en una pradera verde escasa con montañas de baja poligonización en el fondo. Altamente detallado, isométrico, 4K
En este punto, estaba lo suficientemente satisfecho con la consistencia de estilo entre mis tres imágenes como para usarlas en el sitio web. Lo más importante para mí fue que este fue un proceso muy iterativo y que requirió mucha investigación, y tuve que modificar mis expectativas e ideas mientras experimentaba con diferentes consignas y modelos.
Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.
Parsons, G. (2022). The DALLE 2 Prompt Book. https://dallery.gallery/the-dalle-2-prompt-book/ ↩
Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2021). High-Resolution Image Synthesis with Latent Diffusion Models. ↩
Ramesh, A., Dhariwal, P., Nichol, A., Chu, C., & Chen, M. (2022). Hierarchical Text-Conditional Image Generation with CLIP Latents. ↩