Noticia

Stanford (HAI/Engineering) integra herramientas generativas en proyectos de storytelling y diseño

Maneesh Agrawala  es un informático que desarrolla herramientas de IA para la creación y edición de audio y vídeo. Como director del  Instituto Brown para la Innovación en Medios  y profesor Forest Baskett de la Facultad de Ingeniería de Stanford, le apasiona apoyar y evolucionar la forma en que contamos historias. Sus proyectos incluyen el uso de IA para editar vídeo mediante transcripciones y el desarrollo de herramientas que permiten a los creativos ajustar imágenes de IA.

Las historias son fundamentales para la cultura humana, y a menudo usamos imágenes y videos para comunicar ideas, información, sentimientos y emociones a través de medios visuales. Creo que las herramientas que facilitan la creación de este tipo de medios pueden ser muy beneficiosas para la cultura humana —dijo Agrawala—. Cuanto más podamos expresarnos y contar nuestras historias a otras personas, mejor nos irá.

Agrawala se sentó con  Stanford Report  para hablar sobre la inspiración detrás de su trabajo, algunos proyectos actuales y la perspectiva de un investigador sobre los aspectos buenos y malos de los medios modificados por IA.

¿Qué le inspiró a entrar en este campo de investigación?

Fundamentalmente, valoro la idea de facilitar la expresión de las personas. Eso es fundamental en casi todo lo que hacemos en mi grupo de investigación. Me ha interesado la comunicación visual y cómo creamos arte visual desde hace mucho tiempo.

He trabajado con computadoras desde la primaria. Cuando aprendí sobre gráficos por computadora en la universidad de Stanford, me interesé mucho en cómo usar una computadora para crear imágenes, y esa fue la puerta de entrada al trabajo que hago ahora. Me centro en esto porque comunicamos muchas cosas a través del contenido visual y auditivo. Así es como contamos historias.

¿Cuáles son algunas aplicaciones de las herramientas de imagen y vídeo que usted y otros investigadores como usted están creando?

La principal aplicación de las herramientas que estamos desarrollando es facilitar la creación de historias visuales. Las herramientas de manipulación de imágenes y vídeos pueden ayudar a personas de todos los niveles a crear y contar sus historias.

Es realmente tedioso plasmar ideas en la mente y convertirlas en algo visual; en algún momento, hay que convertirlas en píxeles. Esa transición se ve facilitada por las herramientas que creamos. Empresas como Adobe, Pixar, Google y YouTube adoptan parte de nuestro trabajo para ayudar a artistas y usuarios finales a crear lo que desean.

Estas herramientas se pueden usar para apoyar el juego; por ejemplo, al incorporar filtros de realidad aumentada en redes sociales. Este trabajo también se observa en herramientas digitales para iluminar mejor a las personas, independientemente del tono de piel o las condiciones de iluminación reales. Muchas personas experimentan esta investigación en sus propias vidas al desenfocar o cambiar el fondo en videollamadas. Otra herramienta que hemos desarrollado es «ControlNet», que permite a los creadores colocar elementos espacialmente con mayor precisión en contenido generado por IA con conversión de texto a imagen. Además, hemos mejorado la edición de video y audio mediante una transcripción de texto subyacente, que resulta más efectiva y accesible para algunas personas.

¿Cómo se ve afectado tu trabajo por los deepfakes?

La definición de deepfakes varía mucho. Este término no se ha definido con suficiente precisión para el público general. Creo que suele significar «audio o vídeo que presenta información que no ocurrió en la vida real, con el propósito de engañar al espectador o al oyente».

Hay muchas razones por las que podríamos querer alterar audio o video. Diría que la mayoría de los videos que consumimos están alterados, ya que han sido editados y cuidadosamente diseñados. Pero el término «deepfake» tiene una connotación negativa, lo que lo convierte en una palabra incorrecta para describir todo el contenido producido mediante herramientas que permiten la manipulación audiovisual.

Todos deberíamos preocuparnos por los deepfakes. Nuestro equipo siempre está pensando en posibles usos indebidos de nuestras herramientas, y es importante preocuparse por la desinformación. Pero creo que, en general, este es un problema humano más que técnico. Se trata de mentiras. Los humanos podemos usar la tecnología para crear mentiras o podemos usarla con fines positivos.

Tendremos que trabajar en diversas estrategias para abordar este problema de desinformación. Uno de esos frentes es la detección tecnológica. Mi equipo y otros investigadores están trabajando en ello, pero no será infalible. Contamos con estrategias que detectan problemas, como el «equipo rojo», donde intentamos obtener respuestas problemáticas y luego podemos eliminar las vías que conducen a ellas.

Se requerirá el trabajo de personas de diversos ámbitos para abordar realmente el problema. Esto podría incluir soluciones como mejorar la alfabetización mediática y crear legislación que frene la difusión de todo tipo de desinformación y uso indebido. El engaño es una consecuencia de estas herramientas, porque en realidad no se trata de las herramientas, sino de quienes las usan. En última instancia, quienes las usan tendrán que asumir la responsabilidad de las imágenes que generan con ellas.

¿Hacia dónde cree que se dirigirán estas herramientas en el futuro?

Actualmente, existe un gran interés en los generadores de texto a imagen, tanto para imágenes como para vídeo. Este es un área de trabajo fascinante, ya que permite generar una gran variedad de imágenes fácilmente añadiendo texto. Por otro lado, si tienes una imagen en mente, es difícil describirla en texto y reproducirla, ya que los controles son muy imprecisos.

Una de las principales iniciativas que hemos estado implementando es la creación de mejores controles. Estos permitirán usar no solo texto, sino también otras imágenes para guiar los modelos de IA generativa y producir algo sobre lo que el usuario tenga mucho más control. Intentamos comprender cómo los expertos en un campo crean algo, porque al comprender su proceso, podemos proporcionar interfaces que faciliten el uso de las herramientas subyacentes. El contenido creado con estas herramientas, e incluso las propias herramientas, es muy interesante y experimental, y se prevén muchos avances interesantes en el futuro.

Agrawala también es profesor afiliado del  Instituto Stanford de Inteligencia Artificial Centrada en el Ser Humano (HAI) .