S15-10 09

Democratización de herramientas generativas de obras de arte visuales basadas en modelos personalizados de inteligencia artificial (IA)

Compartir en TWITTER/FACEBOOK/LINKEDIN

Deja tu comentario

Participa en esta ponencia enviádole tu pregunta o comentario a los autores

Añadir comentario

Firmantes

profile avatar
David Polo SerranoCentro Universitario San Isidoro, adscrito a la Universidad Pablo de Olavide, de Sevilla
profile avatar
Juan Pablo Micaletto BeldaCentro Universitario San Isidoro
profile avatar
Pablo Martín RamallalCentro Universitario San Isidoro, adscrito a la Universidad Pablo e Olavide

Enfoque

Introducción: La democratización de las herramientas de IA generativa, centradas en el mundo visual, tuvo su expansión en 2022, con la salida de Dall-E 2, Stable Diffusion 2 y el desarrollo avanzado de Midjourney. Mediante un prompt de búsqueda le indicábamos al algoritmo nuestro deseo, y ese deseo se hacía realidad… en parte. La salida de nuevas aplicaciones que combinan lo mejor de diferentes sistemas ha conseguido que surjan modelos de inteligencia artificial más personalizables, lo que genera aún más interés en el mundo del arte y de la tecnología. De esta forma, si bien se estaba demostrando la capacidad de crear arte generativo y visualmente atractivo por parte de estas IA, aún existía una barrera para que los artistas pudieran utilizar estas herramientas de forma más cercana a la plenitud, ya que se necesita de un conocimiento avanzado en el funcionamiento de los prompts, que aunque utilizan el Procesamiento del Lenguaje Natural, muchas veces no es ‘tan natural’.

Objetivos: El objetivo de este estudio es explorar la posibilidad de ofrecer nuevos inputs a la IA, no solo basados en lenguaje expresado en el prompt, sino también en la forma de bocetos, poses, áreas, colores, sombras y demás condiciones adicionales que se puedan controlar mediante la estructura de red neuronal llamada Controlnet. El objetivo principal sería así, conocer y dar a conocer estas posibilidades expansionistas en el uso de herramientas generativas de obras de arte visuales basadas en modelos personalizados de IA.

Metodología: Se utilizó la IA visual Stable Diffusion para en un primer momento, evaluar su rendimiento con unos prompts de búsqueda generales y específicos, variando el número de palabras clave (keywords) y de palabras vacías (stopwords). La temática giró en torno a los objetos, excluyendo a los sujetos del mismo, con el fin de poder medir la capacidad de representación de diferentes composiciones con los mismos elementos. Finalmente se comparan los resultados con los obtenidos con la combinación de los mismos prompts pero esta vez utilizando el complemento de Controlnet.

Resultados: Los resultados indicaron que la utilización de la estructura de red neuronal Controlnet mejora significativamente la capacidad del modelo de difusión pre-entrenado para ofrecer resultados más personalizados. Además, esta combinación permite a los usuarios crear arte generativo más fácilmente y sobre todo con más detalle, sin necesidad de tener conocimientos avanzados en programación o ciencias de datos. Las pruebas de concepto también demostraron que la inclusión de entradas adicionales permiten una mayor creatividad y control sobre el resultado final.

Conclusiones: La democratización de las herramientas generativas de obras de arte visuales basadas en modelos personalizados de IA es posible mediante el uso de nuevas estructuras de red neuronal, como actualmente es Controlnet. Esto permitirá a los artistas utilizar herramientas de IA de manera más accesible y crear arte generativo personalizado que expanda su potencial humano.

Preguntas y comentarios al autor/es

Hay 09 comentarios en esta ponencia

    • profile avatar

      Ana Tomás Miralles

      Comentó el 13/04/2023 a las 17:10:49

      Muy buena información y muy acertada la ponencia. Enhorabuena, ¿podría decirme si algunos de los IAs tratados en vuestra ponencia se acercaría al tema medioambiental o con un enfoque a los ODSs?. Gracias

      • profile avatar

        David Polo Serrano

        Comentó el 14/04/2023 a las 09:02:53

        Hola, Ana. Las IA que se puede utilizar pensando en ODS serían todas ellas y ninguna a la vez, ya que si queremos tener en cuenta el objetivo 8, el 11, el 13, el 14 y el 15 (LINK) bien vale Perplexity, ChatGPT (con GPT-4 y plugins), Dall-E para crear contenido, o Stable Diffusion con Controlnet. La creatividad, la solidaridad, el encariñamiento por los brindis al sol... está dentro de nosotros, no en tecnologías que a la vez contaminan (como todos nosotros con nuestro vehículo o dejando las heces de los perretes en el suelo) y a la vez hacen un mundo más eficiente (y controlado, asumámoslo pronto). Conclusión: todas, pero depende de uno, de saber buscar, que no todo va a ser darle a un botón. Saludos.

    • profile avatar

      Alfonso Berroya Elosua

      Comentó el 12/04/2023 a las 10:10:14

      Buenas
      Me parece muy interesante el enfoque de la ponencia, y tengo muchas ganas de ver el paper completo. Lo cierto es que como artista digital con experiencia en la industria del entretenimiento, la llegada de las IAs está cambiando todos los paradigmas, y no estoy todavía lo suficientemente puesto en la materia. Pero me parece que es muy necesario, sobre todo, para poder orientar al alumnado que quiera formar parte de las industrias creativas sobre cómo adaptar sus perfiles e implementar estas herramientas en sus sistemas de trabajo.
      ¡Muchas gracias por la aportación!

    • profile avatar

      José Miguel Chico López

      Comentó el 12/04/2023 a las 00:26:29

      Enhorabuena a todos los autores de la ponencia.
      Me parece interesante la experiencia comparativa que han realizado con las diferentes herramientas generativas. Me gustaría probar Controlnet pero desconozco el lenguaje expresado en el prompt ¿podría indicarme donde puedo encontrar al información para utilizarlo con mis creaciones geométricas?

      Por otro lado, pienso que es genial que las herramientas digitales evolucionen y agilicen la creación artística, esta acción se pondría al mismo nivel que la superada post conceptualización del arte. Aunque también es cierto que, desconfío de la democratización de las herramientas digitales como paradigma de la IA, donde cada vez impera más lo comercial que la calidad artística.

      Un saludo.

      José Miguel Chico López

    • profile avatar

      Jose-Antonio Soriano-Colchero

      Comentó el 11/04/2023 a las 13:56:41

      Buenas tardes. Enhorabuena a los autores y agradecer al Dr. Polo Serrano por su ponencia. Ha sido muy interesante conocer la metodología que se ha seguido en la elaboración de imágenes empleando la IA. Conocía herramintas como Dall-e, y las he empleado, pero desconocía Stable Diffusion 1.5 y Controlnet. ¿Estas tienen uso ilimitado o al igual que Dall-e, el uso gratuito de las mismas está restringido a un número limitado de intentos?
      Gracias de nuevo y saludos cordiales.

      • profile avatar

        David Polo Serrano

        Comentó el 11/04/2023 a las 18:41:16

        Hola, José Antonio. Agradezco su comentario. Controlnet está disponible aquí. Yo utilizo los modos "scribble" y sobre todo "normal map" y "pose", si bien para este trabajo hemos excluido este modo por querer centrarnos en objetos, pero ya le puedo decir que "pose" es muy interesante para trabajar con personas que queremos que tengan una posición determinada. Con Posemaker2 puedes crear esos esqueletos que luego subir a Controlnet. Cuando se combine con SD2 o superior... ¡boom! Bueno, nos vamos a divertir mucho estos meses con tanto boom que lo de hoy parecerá nada. Ojo a los plugins de ChatGPT, que serían como si a una mente prodigiosa le dieras ojos, oídos... Saludos.

      • profile avatar

        David Polo Serrano

        Comentó el 11/04/2023 a las 18:43:54

        Se me olvidaba, el límite de imágenes no existe. En el modelo disponible en internet puedes generar 4 imágenes a la vez, y 1 en controlnet. La lentitud depende de la "queue", por lo que las horas en las que pedir es muy importante para no tardar 2 minutos en tener un resultado, pero vamos, estamos hablando de entre 5-100 segundos lo que se tarda en ver lo que SD nos ofrece.


Deja tu comentario

Lo siento, debes estar conectado para publicar un comentario.

Organiza

Colabora