Mentiras cada vez más peligrosamente realistas

Personas que dicen cosas que nunca dijeron. Imágenes que jamás existieron tal y como las vemos. Distinguir qué es real y qué no lo es se está convirtiendo en algo cada vez más difícil y la preocupación aumenta, a medida en que las tecnologías de Inteligencia Artificial (IA) no paran de evolucionar. No por la IA en sí misma, sino por ciertos usos que se les está dando y que ahora permiten la creación automatizada de videos y de audio falsos. Son las deep-fakes (algo así como “falsedades profundas") que cada vez más son lanzadas a internet y viralizadas en redes sociales. Los primeros usos que se les dio fueron dentro de la industria del porno online, pero pronto la ola se extendió hacia empresarios y políticos.

Las técnicas que culminan en los actuales deep-fakes comenzaron a ser un problema a partir de las elecciones que se llevarán a cabo en los Estados Unidos en el año 2016. Barack Obama, ex presidente de los Estados Unidos, fue protagonista en abril del 2018 de un video en el que (aparentemente) decía “El presidente Trump es una total y completa mierda”. Hasta que se comprobó que se trataba de una falsedad creada por un director de cine, hizo temblar la política interna estadounidense. Fue la primera gran víctima.

(Te puede interesar: Por qué los ancianos corren más riesgo con las fake news )

La mayoría de los videos deep-fake son creados a partir de la utilización de un algoritmo de computación que toma varias imágenes de una persona para, a partir de ellas, crear nuevas imágenes del rostro. A esto, los diseñadores le suman una voz sintetizada de manera tal que ambos lucen y suenan como si determinada persona hubiera dicho algo nuevo. El resultado es un video que puede llegar a ser tan realista como para despistar hasta al más suspicaz y eso es los convierte en una seria amenaza para aquello de que lo que uno ve, es la realidad. Creer lo que miramos y escuchamos está perdiendo entidad. La duda empieza a estar siempre con nosotros.

Más allá de las consecuencias filosóficas y psicológicas, especialistas de campos tan diversos como las ciencias de la computación, las ciencias políticas y la sociología están muy preocupados por la difusión de la información de manera viral y a través de las redes sociales: las deep-fakes pueden tener profundos efectos tanto en el discurso público como en la estabilidad política y hasta en la sustentabilidad de la democracia misma.

Las investigaciones sugieren que los videos falsos pueden ser especialmente efectivos en lo que a incentivar el miedo dentro de la población se refiere porque apelan mucho la emoción. Además, se erosiona la confianza de la población. ¿Qué es real? ¿Cuándo no lo es? ¿A quién creerle?

Por eso es que se reproducen las investigaciones que buscan diseñar herramientas de detección, también basadas en IA, con el objetivo de marcar aquellos videos que sean falsos antes de que sean difundidos.

Evolución

Los primeros pasos en la realización de videos falsos se dieron en la década de los ´60 cuando por primera vez se diseñaron imágenes por computadora. Para los años ´80 los efectos especiales se convirtieron en tendencia. Apenas un par de décadas más tarde, en 1994, el cine permitía ver al actor Tom Hanks (en la piel del inolvidable Forrest Gump) aparecer en pantalla dándole la mano a John Fitzgerald Kennedy. Las cosas no quedaron ahí y expertos en ciencias de la computación comenzaron a pensar en los gráficos de una manera distinta: ¿por qué no ayudar a las computadoras a crear las imágenes a partir de datos? Fue así como en 1997 un grupo que trabajaba en Palo Alto (California) desarrolló un video en el cual se ve a JFK diciendo “Yo nunca me reuní con Forrest Gump”.

El salto más importante en esta evolución se dio en el año 2012, a partir de un tipo de Inteligencia Artificial a la que se denomina Deep Learning (aprendizaje profundo). En este caso, lo que se emplea para alimentar a los equipos son fórmulas matemáticas simples denominadas redes neurales, que aprenden y mejoran a medida que realizan tareas a lo largo del tiempo. Un grupo de investigadores en ciencias de la computación, por ejemplo, logró enseñar a computadoras herramientas de Deep Learning para que fueran capaces de reconocer caras humanas a partir de alimentar a los equipos con cientos de miles de fotografías. Llegado un punto, si el algoritmo encuentra a una nueva persona puede reconocer los patrones que la convierten en humana, y determina que lo que está viendo es un rostro.

Las investigaciones continuaron y las habilidades de los algoritmos evolucionaron hasta lograr diseñar caras inventadas que luzcan como las de personas reales. En estos casos lo que se usan son herramientas de tip learning, conocidas como redes generativas: luego de ser entrenada con miles de imágenes, lo que hace la red es seguir el patrón que surge de los ejemplos para diseñar una cara nueva. Algunas empresas ya están usando esa misma aproximación con el audio. El año pasado, Google dio a conocer un asistente alimentado con AI, capaz de hacer llamadas telefónicas y sonidos como si fuera una persona real, con tics verbales como por ejemplo “esteee”, “eh”, y pausas muertas.

(Te puede interesar: Inteligencia artificial: Cada vez más y más humanos

En estos momentos, la IA está siendo capacitada para entrenarse a sí misma. En 2014, investigadores de la Universidad de Montreal, en Canadá, colocaron a dos redes neurales a conversar. Una de ella, llamada generadora, fabricaba imágenes falsas; la segunda, la discriminadora, debía aprender a distinguir entre lo real y lo inventado, con poca o ninguna supervisión humana. ¿El método? La competencia traccionada por una recompensa. La máquina discriminadora le da toques a la generadora, con el objetivo de fabricar fakes cada vez más realistas, mientras que la generadora trata de engañarla.

Este sistema, en el que dos algoritmos de Inteligencia Artificial trabajan juntos es lo que técnicamente se conoce como "red generativa de confrontación", o GAN. Tales sistemas tienen usos "provechosos", como podría ser la mejora de filtros de spam o correo no deseado, o la creación de moléculas químicas virtuales para imprimir velocidad a los descubrimientos de medicamentos: es factible crear nuevas moléculas y hacer simulaciones para analizar cómo se comportarían.

Detectores inmediatos

El problema es que las GAN son las que alimentan a los videos deep-fake, gracias a la gran calidad que permiten lograr en las imágenes. Esos videos trabajan (por ahora al menos) con retratos en los que una persona mira a la cámara, de manera que si el actor se mueve mucho el video resultante tiene fallas, rastros digitales como por caso píxeles esfumados alrededor del rostro. Desde el Departamento de Ciencias de la Computación de la Universidad de Albany (Nueva York, Estados Unidos) se había propuesto hace apenas un año detectar videos de deep-fake mediante el rastreo de la cantidad de pestañeos que aparecían en la imagen. Pero las últimas generaciones de videos falsos se adaptaron a eso. Y los mismos investigadores desarrollaron una forma activa para proteger a las personas de convertirse en víctimas de deep-fakes.

Los videos falsos aún tienen errores que no han podido ser solucionados, como que la imagen no siempre sigue la posición exacta de la cabeza de la persona, o de las condiciones de luz, o de distancia hacia la cámara para hacer que las caras falsas en se integran bien con su entorno. Los algoritmos aún no están listos para fabricar rostros en tres dimensiones. Lo que hacen, en cambio es generar una imagen del rostro en dos dimensiones y después tratar de rotarlo, redimensionarlo y distorsionar la imagen de manera tal que quepa bien en el entorno.

“Nosotros diseñamos un algoritmo que calcula en qué dirección está apuntando la nariz de la persona en una imagen”, explica Siwei Lyu, en un paper. Y describe: “Hemos hallado una manera de agregar una nariz especialmente diseñada a las fotografías digitales o a los videos, que no es visible a los ojos humanos, pero que puede volver locos a los algoritmos de detección”. Los investigadores esperan poder apalicar esta herramienta a cualquier tipo de imagen que cualquier persona suba a las redes sociales o a otros sitios de internet. Tal vez se les podría preguntar “¿Quieren proteger las caras de este video o imagen contra el riesgo de ser utilizados en la creación de deep-fakes?”. Si un usuario dice que sí, el algoritmo podría agregar esa nariz digital similar a una marca de agua invisible para el cibernauta. De ese modo, las personas verán la cara, que estará escondiendo algoritmos para “defenderse” de aquellos que están buscando convertirlas en imágenes impersonales y falsas.

Tema de Estado

Tan preocupante es la viralización de videos deep-fake, que hasta el mismo Departamento de Defensa de los Estados Unidos produjo herramientas para detectarlos. La técnica más común para generar videos falsos implica el uso de Machine Learning (o aprendizaje automático) para intercambiar la cara de una persona con la de otra. Pero como los errores existen, la Agencia de Proyectos de Investigación Avanzada (DARPA), desarrolló una herramienta denominada forénsica de medios, para detectar las trazas que deja la manipulación digital como, por ejemplo, el pestañeo.

"A la par del aumento en la producción de imágenes digitales está la capacidad de, incluso para usuarios relativamente poco calificados, de manipular y distorsionar el mensaje de los medios visuales. Si bien muchas manipulaciones son benignas, se realizan por diversión o por valor artístico, otras tienen fines adversos, como propaganda o campañas de desinformación", advierten en Media Forensic.

Los deep fakes evolucionaron tanto que van corrigiendo dichos errores y la herramienta que el Departamento de Defensa había dado a conocer hace apenas un año ya quedó, en una gran cantidad de casos, obsoleta.