El miércoles, OpenAI anunció DALL-E 3, la última versión de su modelo de síntesis de imágenes IA que cuenta con una integración total con ChatGPT. DALL-E 3 genera imágenes siguiendo de cerca descripciones complejas y maneja la generación de texto dentro de la imagen (como etiquetas y señales), lo cual representaba un desafío para los modelos anteriores. Actualmente en vista previa de investigación, estará disponible para los clientes de ChatGPT Plus y Enterprise a principios de octubre.
Al igual que su predecesor, DALL-E 3 es un generador de texto a imagen que crea imágenes novedosas basadas en descripciones escritas llamadas indicaciones. Aunque OpenAI no ha publicado detalles técnicos sobre DALL-E 3, el modelo de IA en el centro de las versiones anteriores de DALL-E fue entrenado con millones de imágenes creadas por artistas y fotógrafos humanos, algunas de ellas licenciadas de sitios web de stock como Shutterstock. Es probable que DALL-E 3 siga esta misma fórmula, pero con nuevas técnicas de entrenamiento y más tiempo de entrenamiento computacional.
A juzgar por las muestras proporcionadas por OpenAI en su blog promocional, DALL-E 3 parece ser un modelo de síntesis de imágenes mucho más capaz que cualquier otra cosa disponible en términos de seguir indicaciones. Aunque los ejemplos de OpenAI han sido seleccionados cuidadosamente por su eficacia, parecen seguir las instrucciones del indicador fielmente y renderizar objetos con mínimas deformaciones. Comparado con DALL-E 2, OpenAI dice que DALL-E 3 refina pequeños detalles como las manos de manera más efectiva, creando imágenes atractivas por defecto sin «trucos ni ingeniería de indicadores requerida».
En comparación, Midjourney, un modelo de síntesis de imágenes de IA competidor de otro vendedor, renderiza detalles fotorrealistas bien, pero todavía requiere mucho jogo con indicaciones contra-intuitivas para ganar algún control sobre la salida de la imagen.
DALL-E 3 también parece manejar el texto dentro de las imágenes de una manera que su predecesor no pudo (algunos modelos competidores como Stable Diffusion XL y DeepFloyd están mejorando en ello). Por ejemplo, una indicación que incluía las palabras, «Una ilustración de un aguacate sentado en la silla de un terapeuta, diciendo ‘Me siento tan vacío por dentro’ con un agujero del tamaño de un hueso en su centro», creó un aguacate de dibujos animados con la cita del personaje perfectamente encapsulada en un bocadillo de texto.
Destacablemente, OpenAI dice que DALL-E 3 ha sido «construido nativamente» en ChatGPT y llegará como una característica integrada de ChatGPT Plus, permitiendo refinamientos conversacionales a las imágenes de una manera que utilizará al asistente de IA como un compañero de brainstorming. También significa que ChatGPT podrá generar imágenes basadas en el contexto de la conversación actual, lo cual podría generar nuevas capacidades novedosas. El asistente AI de chat de Bing de Microsoft, también construido con tecnología de OpenAI, ha podido generar imágenes en conversación desde marzo.
La tetera que creó una tempestad
La versión original de DALL-E surgió en enero de 2021, y OpenAI presentó su secuela mucho más capaz en abril de 2022, lanzando una nueva era de imágenes generadas por IA con un golpe impresionante que cautivó a sus primeros testadores de la beta cerrada. Los modelos DALL-E utilizan una técnica llamada difusión latente que refina el ruido en imágenes que «reconoce» a partir de la información que obtuvo entrenándose en un conjunto de datos y la orientación de un indicador. La misma tecnología permitió la aparición del modelo de peso abierto Stable Diffusion en agosto del año pasado.
Debido a cómo DALL-E aprendió conceptos sobre imágenes en la capacitación rascando un enorme conjunto de datos de obras de arte producidas por humanos, la tecnología de generación de imágenes de IA ha sido enormemente controvertida desde su introducción en el mainstream el año pasado. La tecnología ha provocado protestas de artistas que temen que los reemplace o que reproduzca de manera no ética sus estilos, demandas por infracción de derechos de autor basadas en imágenes raspadas utilizadas como datos de entrenamiento sin consultar a los titulares de derechos de autor, y nuevas decisiones sobre derechos de autor de la Oficina de Derechos de Autor de los Estados Unidos y un juez de distrito de los Estados Unidos.
Como guiño a estas controversias, OpenAI dice que DALL-E 3 está diseñada para rechazar solicitudes que pidan una imagen con el estilo de un artista vivo. OpenAI también proporciona un formulario donde los creadores pueden optar por no tener sus imágenes utilizadas para entrenar futuros modelos. Parece poco probable que estas medidas satisfagan a los artistos que generalmente piensan que el entrenamiento de IA debería ser solo optativo en lugar de estar incluido en los conjuntos de datos de imágenes por defecto.
Actualmente, la política de derechos de autor de EE. UU. asevera que las obras de arte generadas puramente por inteligencia artificial no pueden recibir protección de derechos de autor, por lo que técnicamente cualquier imagen creada con DALL-E 3 caerá dentro del dominio público. Si bien OpenAI no lo reconoce explícitamente, sí dice que «las imágenes que creas con DALL-E 3 son tuyas para usar y no necesitas nuestro permiso para reimprimirlas, venderlas o utilizarlas para merchandising». Esto es un cambio notable respecto al año pasado, cuando OpenAI restringió el uso de imágenes DALLE-2 basándose en una licencia que decía que OpenAI «posee todas las generaciones».
En cuanto a la seguridad, OpenAI dice que, al igual que DALL-E 2, ha implementado filtros de detección de palabras clave e imágenes en DALL-E 3 para limitar su capacidad de producir contenido violento, sexual o de odio. El sistema también está programado para rechazar solicitudes que generen imágenes de figuras públicas por su nombre, lo cual ha causado problemas con el generador de imágenes de IA competidor Midjourney cuando generó imágenes falsas de la detención de Donald Trump.
OpenAI dice que ha trabajado con expertos conocidos como «red teamers» para identificar y mitigar riesgos potenciales, como sesgos perjudiciales o la generación de propaganda y desinformación. OpenAI no ha dado ninguna palabra sobre el potencial de su herramienta para alterar el registro histórico con fabricaciones convincentes, aunque dice que está experimentando con una herramienta de «clasificador de procedencia» que puede ayudar a identificar si una imagen fue generada por DALL-E 3 o no.
Por el momento, no tenemos acceso a DALL-E 3 para probarlo, pero OpenAI dice que el generador de imágenes de IA está actualmente en pruebas cerradas. Planea ponerlo a disposición de los clientes de ChatGPT Plus y Enterprise «en octubre a través de la API y en Labs a finales de este otoño».