¿Qué relación tienen los algoritmos y Borges?

¿Qué tienen que ver los datos y los algoritmos con la obra de Borges? Pregunta más que relevante en tiempos de “big data”, fenómeno entendido como la irrupción de datos masivos producto de interactuar con celulares, redes sociales, sensores y otros objetos interconectados que dejan “huellas digitales” por doquier y en tiempo real.

A simple vista, nada. Pero Borges toca un nervio fundamental cuando dice: “No trataré de reproducir sus palabras… Prefiero resumir con veracidad las muchas cosas que me dijo Ireneo” en “Funes el Memorioso”. Porque “resumir con veracidad” es, tal vez, la descripción más certera que se pueda dar de la tarea de la estadística y, tal vez, de la ciencia empírica. Ireneo Funes es un muchacho que puede (y quiere) recordarlo todo, para quien “pensar es olvidar diferencias, es generalizar, abstraer”, exactamente lo contrario de lo que pretende una encuesta que mide la pobreza, o un experimento que afanosamente busca la efectividad de la vacuna del coronavirus en unas pocas personas, cuidadosamente elegidas, para que la parte hable verazmente sobre el todo.

En una línea similar, los cartógrafos de “Del Rigor en la Ciencia” (otro de los relatos icónicos de Borges), puestos a construir un mapa de un imperio, sin demasiada guía, terminan construyendo un mapa… ¡del mismo tamaño que el imperio! Finalmente, “Generaciones Siguientes entendieron que ese dilatado Mapa era Inútil y no sin Impiedad lo entregaron a las Inclemencias del Sol y los Inviernos” (las mayúsculas son del original). La palabra clave es “inútil”: el mapa no es descartado por malo sino por inservible. Y justamente ese es el propósito de una estadística bien hecha, de pretender ser útil aun cuando mala, en el sentido en que cualquier encuesta quiere abarcar el todo sin apelar a toda la población. Una encuesta que mide la pobreza con unos pocos miles de hogares es “mala” en comparación a un censo (la versión estadística del mapa escala uno-en-uno de Borges), tarea que conlleva un descomunal esfuerzo institucional, que obliga a parar un país por un día entero, amén de una costosísima preparación. Lo único que pretende una encuesta es ser “útil” para asistir a la toma de decisiones, sin imponer un costo excesivo como el de un censo. El partido de la estadística no es de “bueno versus malo” sino de “útil versus inútil”, como en “Del Rigor en La Ciencia”, como en el “duelo” entre Funes y Borges.

Algoritmos

Los datos

Estas discusiones de encuestas y censos, de la parte y el todo, parecen condenadas a una temprana obsolescencia a la luz del creciente fenómeno de “big data”, en donde la interacción con dispositivos interconectados (reales, como los teléfonos celulares, sensores o tarjetas de crédito, o virtuales, como las redes sociales) genera un descomunal volumen de datos de modo que, a decir de muchos optimistas, tal vez no estemos muy lejos de tener todos los datos. Big data parece ofrecer una suerte de censo en tiempo real que torna innecesario apelar a muestras y otros artificios de antaño.

“Big data es Funes sin estadística”, retrucó Stephen Stigler, el más prestigioso historiador de la disciplina. Lo que Stigler quiere significar, socarronamente, es que, sin preguntas concretas, sin intentar separar la señal del ruido, el volumen de big data es inconducente como Funes negándose a abstraer, o inútil como el mapa de los cartógrafos de “Del Rigor en la Ciencia”. La posibilidad de contar con datos masivos es ciertamente una oportunidad única, de observar aspectos del comportamiento hasta ahora impensados. Pero hacerlo inocentemente, pensando que big data es más de lo mismo, es peligroso.

Interesantemente, en “El Jardín de Senderos que se Bifurcan” está la pista de por qué, contra lo que muchos creen, big data no es ni será jamás todos los datos, más allá de su avasallante crecimiento. En “El Jardin”, Borges plantea un laberinto temporal, en donde coexisten los que somos y los que pudimos haber sido. Como si pudiesen encontrarse a tomar un café una persona que estudio abogacía y la mismísima persona que se decidió por la carrera de contador público. “En todas las ficciones, cada vez que un hombre se enfrenta con distintas alternativas, opta por una y elimina las otras; en la del casi inextrincable Ts’ui Pen (creador del laberinto) opta simultáneamente por todas”, explica Borges en su relato. Y cuando en el clímax del cuento dice: “El tiempo se bifurca perpetuamente hacia innumerables futuros. En uno de ellos soy su enemigo”, sugiere que los miles de millones de datos de big data son meras muestras del laberinto de posibilidades que ofrece la vida.

Lejos de ser un juguete intelectual, lo anterior muestra que la visión de big data es necesariamente parcial. A modo de ejemplo, con sensores, cámaras e imágenes satelitales es posible construir un perfil muy preciso de los usuarios de una autopista, lo cual posiblemente sea útil para predecir la cantidad de vehículos que la usan un martes de lluvia a las 11:35 de la mañana. Ahora, si el objetivo es evaluar si vale la pena construir un carril adicional, es menester evaluar la cantidad de autos que la usarían, lo cual demanda información sobre quienes actualmente no lo hacen porque les parece cara, insegura o errática. Big data dice muchísimo acerca de los que usan la autopista y nada acerca de quiénes no. La toma de decisiones y su posterior evaluación requieren información “contrafáctica”, un ejercicio sutil y complejo para el que big data puede ayudar a proveer una solución, pero no observarla directamente, porque no existimos en las ramas del laberinto de Borges que no le mostramos a los sensores.

Otro problema con big data es que, sin preguntas concretas, el analista inescrupuloso tiende a usar los datos para confirmar cualquier prejuicio. El gran problema del “maridaje” sospechoso entre datos y conjeturas es que, en el océano de big data, el que busca encuentra, como quien reportó una sugerente relación entre el gasto público argentino y la audiencia de la serie “The Big Bang Theory”. Cualquier analista honesto ve una mera casualidad, pero los conspirativos de siempre querrán justificar controlar las emisiones de la hilarante serie a fines de combatir la inflación.

En “La Biblioteca de Babel” Borges advierte claramente acerca de la doble sensación de “extravagante felicidad” y de “depresión excesiva” de quien se enfrenta a la masividad, pero no sabe bien cómo ni qué buscar. En este cuento Borges describe una biblioteca total, que contiene todos los libros, los que se han escrito, los que se están escribiendo y los que se escribirán. En dicha biblioteca, en un sentido trivial, el que busca encuentra. Y algo parecido ocurre en el mundo de big data, lo que provoca esa doble sensación a la que refiere Borges, de quien encuentra miles de recetas para hacer una tarta de manzanas, y a la vez sigue sin saber cuánto va a valer el dólar la semana que viene, quien ganara el próximo mundial de futbol o cuando terminará la pandemia de coronavirus.

Como en una buena película de aventuras, si alguien dice tres veces “infinito”, el espíritu de Borges se da por aludido. Y la estadística y los algoritmos viven de la esperanza de que infinitos datos permitan aprender algo acerca de una realidad esquiva. Mientras tanto, el universo borgeano contiene reseñas claras de nuestra ya larga experiencia en lidiar con la realidad y sus representaciones, sus posibilidades y limitaciones. Se trata de buscar en su extensa y relevante obra, con respeto pero jamás con miedo.

¿Qué tienen que ver que ver los datos y los algoritmos con la obra de Borges? Tal vez todo.

Borges, big data y yo