No items found.
No items found.
No items found.
No items found.

Angelus: el algoritmo que escarba en la Guerra Sucia

Angelus: el algoritmo que escarba en la Guerra Sucia

Texto de
Fotografía de
Realización de
Ilustración de
Traducción de
11
.
10
.
22
AAAA
Tiempo de Lectura: 00 min

Está en desarrollo un proyecto tecnológico del Centro de Investigación en Matemáticas y la Comisión Nacional de Búsqueda, integrado por inteligencia artificial, que podrá indagar en uno de los periodos históricos más duros de nuestro país, para localizar a personas desaparecidas, proveer puntos de búsqueda y detectar patrones. Y tiene un nombre: Angelus.

Esta interpretación del Angelus Novus es una de las cosas que marcaron a Javier Yankelevich en su formación como historiador en la UNAM. Walter Benjamin se había obsesionado con el cuadro de Paul Klee de 1920, en el que un ángel mira hacia atrás, con los ojos y la boca abiertos; notaba cómo un huracán se enredaba en sus alas, y, aunque lo empujaba hacia adelante, su mirada insistía en abrazar el pasado y los hechos que lo precedieron. Es el Ángel de la Historia. Esta acuarela no solo acompañó al filósofo alemán hasta su muerte en 1940, sino que también lo inspiró a escribir Tesis sobre la filosofía de la historia, obra en la que explora una visión pesimista de esta disciplina. “Donde a nosotros se nos manifiesta una cadena de datos, él ve una catástrofe única que amontona incansablemente ruina sobre ruina, arrojándolas a sus pies. Bien quisiera detenerse, despertar a los muertos y recomponer lo despedazado”, Benjamin apuntó.

La tragedia de la desaparición de los 43 normalistas de Ayotzinapa despertó el interés de Yankelevich por este fenómeno cuando estudiaba la maestría en Ciencias Sociales, pero también confiesa que en su familia “el tema de la desaparición ha estado presente”. Con el paso de los años centró su investigación académica en la desaparición forzada y conoció a Karla Quintana Osuna, quien se postulaba para dirigir la Comisión Nacional de Búsqueda (CNB) y lo invitó a trabajar ahí. Desde entonces cruza bases de datos y compara “listas de personas que estamos buscando con cualquier otra lista”. Gracias a eso, en años recientes han dado con las osamentas de personas desaparecidas. Cuando relata esto, su voz grave y profunda suena, además, cansada y apesadumbrada: él también debe notificar a las familias y todo lo que eso implica.

Como era “impresionante lo que revelaban los cruces de bases de datos”, en 2019, Yankelevich comenzó a gestar el Angelus, un sistema computacional para escarbar en terabytes de información y realizar vínculos complejísimos —que escapan a la capacidad humana— sobre hechos relacionados con la desaparición forzada durante el periodo conocido como la Guerra Sucia o contrainsurgencia, entre los años sesenta y ochenta. El equipo que Yankelevich lidera lo ha desarrollado a través de una red neuronal de algoritmos, machine learning e inteligencia artificial (IA), que podrá conformar una herramienta tecnológica para encontrar personas con vida, proveer puntos de búsqueda y detectar patrones matemáticos sobre detenciones y desapariciones, y así comprender mejor uno de los más duros episodios de nuestra historia, del que hoy se reconoce la desaparición de 798 personas, según el Registro Nacional de Personas Desaparecidas y No Localizadas.

Tres años antes de que el Gobierno federal creara una comisión para esclarecer los delitos y las graves violaciones a los derechos humanos de aquellos años, el sistema Angelus se diseñó para ofrecer la esperanza de detectar un patrón lógico entre la detención y la desaparición a partir de los datos contenidos en un mar de miles de archivos de instituciones, como la extinta Dirección Federal de Seguridad (DFS) —una fuerza de inteligencia encargada de espiar, detener y desaparecer forzadamente a grupos disidentes—o la Dirección General de Investigaciones Políticas y Sociales (DGIPS). Hasta 2020, el Archivo General de la Nación resguardaba 9 559 cajas con documentos de la Guerra Sucia, únicamente de estas dos instituciones. Si una persona quisiera exponer las relaciones entre los eventos relatados en estos archivos, como nombres de personas, fechas, organizaciones y más, sería una tarea que requeriría años, con el riesgo de olvidar algo en el camino. Pero, clic, clic, clic, si el Angelus tuviera acceso a toda esa información, podría hacerlo en segundos.

{linea}

Este Ángel de la Historia nació como una hoja de cálculo de Excel. Javier Yankelevich se refiere a esta versión como el “Angelus 1.0”. Eran columnas con parámetros que indicaban “nombre”, “número de expediente”, “víctima”, “testigo” o “perpetrador”, entre otros datos. El proyecto surgía desde la Dirección de Operaciones de Búsqueda, dentro de la CNB. Pero entre las principales limitaciones que encontraban estaban que su llenado difícilmente podía ser colaborativo, que no en todas las entradas de datos tenían un documento listo para visualizarse y que no podían establecerse relaciones, a pesar de que notaban conexiones o la repetición de elementos.

Entonces, cuando Yankelevich cocinaba la idea, Mariana Martínez, de 34 años, doctora en Biomedicina, llegó al equipo técnico del Angelus: un grupo de cuatro personas que se apoya de un equipo extendido de voluntarios, conformado por tesistas, estudiantes que realizan su servicio social, becarios y científicos sociales vinculados a la CNB, así como al Centro de Investigación en Matemáticas (Cimat). “Quizá mi perfil es el más raro de todos”, asegura Martínez. “Todo el mundo dice que [los biólogos] somos ‘cuentapatas’, pero una cosa es contar las patas de una hormiga y otra contar las patas de todas las hormigas en un bosque”. Así que como la programación y otros procesos computacionales fueron parte de su formación, rápidamente notó las limitaciones de aquel Excel y ofreció una solución. Junto con Víctor Mireles, maestro en Ciencias de la Computación, dio con el término que buscaban: un grafo del conocimiento, una figura con información, como nombres de personas u organizaciones, lugares, fechas y eventos, conectada a partir de contexto y razonamiento. “Se dice fácil, pero a las computadoras esto no les entra. Hubo que empezar a decidir qué datos te interesan, qué relaciones te interesan y qué significan. Fueron muchas pláticas”, recuerda.

El Angelus puede generar un grafo alrededor del nombre de una persona detenida. El primer dato aparece en un recuadro, y a partir de ese nodo (un punto de intersección) se abren conexiones: cuándo se hizo una detención, dónde ocurrió o qué institución la perpetró. Poco a poco se pueden sumar datos, como relaciones familiares, si otras personas fueron detenidas en ese mismo evento o si pertenecían a la misma organización disidente. La información acaba por formar un rizoma, una red interconectada en la que no hay jerarquías y que sugiere una telaraña compleja de relaciones al alcance de unos cuantos clics.

Pero para establecer estas relaciones, el algoritmo necesita un repositorio —donde se almacena la información digital— y un sistema de anotación del que toma los datos. Para eso se digitalizan archivos, testimonios y otras fuentes documentales. De ahí, una persona (anotador) o un sistema de reconocimiento óptico de caracteres extrae datos específicos, organizándolos en clases (persona, organización, evento u otros), que a su vez se subdividen en nuevas categorías. Tal información permite crear los grafos desde una pantalla o visualizador. “Esa red de relaciones es la verdadera fortaleza del Angelus”, explica Martínez. “¿Qué cosas hay en común y qué cosas no? Por ejemplo, sobre una detención en Ciudad Juárez puedes agregar a todas las personas detenidas. Y cuando te das cuenta, tienes una serie de cuestiones superconectadas y aparece una cantidad de relaciones”.

Para quienes conforman el equipo, este sistema es una herramienta que funciona como extensión de la mente humana. Y de eso va la IA: de imitar el funcionamiento de las neuronas para resolver problemas relacionados con el comportamiento humano —como el lenguaje— a partir de matemáticas y lógica. Yankelevich cree que lo que hace el Angelus no es IA, porque el sistema todavía no es capaz de pensar por sí mismo: “Es un sistema que organiza documentos y datos en un gráfico de conocimiento, y por ahora quienes meten los documentos son humanos”. Pero el resto del equipo sí lo califica como IA, pues el objetivo no es que desarrolle conciencia, sino que entienda, clasifique y relacione información, algo que ya realiza.

La IA, en realidad, está presente en más cosas cotidianas de las que podemos pensar —y no son precisamente las más inteligentes—: desde la cámara del celular que mejora la iluminación de las fotos, los filtros de las redes sociales o el anuncio que salta cuando vemos un video en YouTube o Pinpoint hasta el sistema de Google que usé para transcribir automáticamente ocho horas de entrevistas en menos de cuarenta minutos. La ciencia de datos, que incluye áreas como la IA, es una disciplina muy demandada en la actualidad por las compañías interesadas en analizar grandes volúmenes de información para, por ejemplo, vendernos productos. “Estas cosas que están de moda, como la ciencia de datos y big data, la mayoría de los jóvenes se meten a estudiarlas porque tienen una muy buena perspectiva laboral en la industria. Muy pocos se van hacia la investigación”, opina Víctor Muñiz, de 48 años, investigador del Cimat de Monterrey.

El trabajo de Muñiz es programar módulos con IA para permitirle al algoritmo detectar patrones de manera automática entre la gran cantidad de información que existe en el sistema. En el Cimat están los servidores, cerebros computacionales, CPU sin teclados o pantallas, dentro de un gran cuarto refrigerado, donde habita físicamente el Angelus y hasta donde los integrantes del equipo se conectan remotamente. Optimista sobre el uso de la tecnología, el científico de datos lo ve como “un auxiliar a ciertas actividades que muy probablemente vas a hacer mal”. Fanático de la ciencia ficción, cree que todavía están lejanos los días en los que esta inteligencia desarrolle conciencia, como la reciente noticia de un sistema de IA de Google que afirmaba que tenía sentimientos. Por eso Muñiz cree que el Angelus, lejos de ensalzar el uso de la ciencia de datos, lo que hace es “desmitificar esto de la tecnología de la IA”.

En contraparte al cerebro de algoritmos, el Angelus tiene corazón humano. Al final, la decisión de qué es verdad y dónde buscar siempre será tomada por una persona, porque en todos los procesos hay quien revisa el sistema. “Creo que en estos proyectos es muy fácil perder esta idea de que hay personas detrás. El Angelus organiza los documentos, pero no es una máquina de la verdad; simplemente da a las personas que deciden las mejores herramientas”, afirma Muñiz.

Angelus, el algoritmo de la Guerra Sucia
Angelus, el algoritmo que escarba en la Guerra Sucia

{linea}

Héctor Bravo es un historiador de 34 años que se ha especializado en el estudio de grupos guerrilleros y procesos democráticos del siglo XX mexicano. Como encargado de buscar documentos y testimonios que alimenten al Angelus, sigue la máxima del equipo científico: todo lo que ingrese al sistema debe respaldarse por documentos, incluidos las contradicciones, las mentiras y los datos inciertos o incompletos de los archivos mismos.

Su primer desafío ha sido lidiar con y acceder a una cantidad monumental de información. De las más de nueve mil cajas que aloja el Archivo General de la Nación sobre la DFS y la DGIPS, Bravo refiere que apenas han tenido acceso a una decena (296 expedientes), pero lograron dar con otros acervos, por ejemplo, dieciocho mil fichas del acervo público Archivos de la Represión (realizado por Article 19), y unas doscientas cajas de la desaparecida Fiscalía Especial para Movimientos Sociales y Políticos del Pasado (Femospp). El repositorio también se ha alimentado con lo encontrado en los archivos de la Comisión Nacional de los Derechos Humanos, el Instituto de Administración y Avalúos de Bienes Nacionales, la Comisión Verdad y Justicia o Amnistía Internacional.

A Bravo le ha tocado ir a buscar los documentos a estas bodegas; a veces, vestirse con un mono blanco de perito que lo cubre de pies a cabeza, y pasar largas horas escaneando a una resolución de cuatrocientos puntos por pulgada. Suena fácil, pero no lo es. Los telegramas sueltan un polvillo que atasca el escáner. Los recortes de periódico se atoran. Hay hojas de papel mantequilla que pueden rasgarse a la menor manipulación. Los archivos no siempre están bien conservados. Hay hongos y óxido; grapas y broches que retirar y volver a colocar. Además, son muchas las horas que implica escanear o tomar fotografías a los expedientes, mientras el sol se cuela por la ventana de una triste bodega del Instituto de Ciencias Forenses.

Los grafos del conocimiento, como los que genera el Angelus, son posibles solo gracias al volumen de información que el mismo Estado generó sobre la Guerra Sucia. Y es que hay una cantidad apabullante de informes. Tan solo de la Femospp, el Angelus ha procesado once mil archivos, traducidos a más de cuatrocientos gigabytes de información, con los que casi ha llenado un disco duro de cuatro terabytes de capacidad.

Pero más allá del volumen, los archivos dicen mucho, cuenta Bravo. Algo que ha notado, pues resulta imposible no verlo entre tanta información que pasa frente a sus ojos, es que hay informes más crudos, dictados por teléfono, que las secretarias reconvertían en reportes. Informes que, dice, contenían frases con eufemismos para referirse a personas o al acto de la tortura: “Detuvimos un paquete y tuvimos una sesión intensiva de interrogatorio”, recuerda un caso. “Eso es brutal. Este primer informe venía ya tachado. Y venía más abajo otro informe que era el que sí se pasaba, con hojas membretadas y todo bonito”.

En uno de los grafos, Mariana Martínez dio con otra cosa terrible: la DFS había elaborado una ficha sobre una niña por ser hija de un guerrillero. “¿Por qué la DFS tendría que fichar a una niña?”, preguntan Martínez y Bravo. Esas son las cosas que emocionalmente no afectan a una computadora. Punto para la IA.

{linea}

Ante el volumen enorme de documentos que había que capturar —dieciocho mil ficheros del repositorio Archivos de la Represión, por ejemplo—, el equipo experimentó con un sistema de reconocimiento de caracteres, una forma de IA que le permite a una computadora leer un texto. Algunos teléfonos celulares ya son capaces de detectar palabras en imágenes. La situación se complica cuando hay errores ortográficos, sellos, recuadros; cuando los tipos de la máquina de escribir están disparejos o las letras en el papel, borrosas. Entonces hay que enseñarle a la máquina.

Juan Carlos González, científico de datos de veintisiete años, egresado de Matemáticas en la UNAM y que está por comenzar una maestría en Suecia, desarrolló la tecnología para automatizar la lectura de fichas como parte de su trabajo de tesis. “Hay toneladas de documentos. Alguien puede ir y leer cualquiera de ellos, el problema [es que] no es humanamente posible que una persona lea todos los documentos”, explica. Pero las computadoras también pueden aprender. Más bien, son entrenadas. Como un perro que recibe premios hasta que aprende a dar la pata, González entrenó a su sistema con un paquete de dos mil fichas para que aprendiera a leer correctamente los datos. “Haces ese proceso muchas veces hasta que la red comienza a intuir mediante fórmulas matemáticas, de tal forma que cuando le damos una imagen, la red sea capaz de decirnos: ‘Ah, esto sí es un fichero’”.

Pero el machine learning ni ofrece resultados pronto ni es barato. Y el sistema tampoco es perfecto. A nivel computacional se necesitan máquinas con poderosas placas de video como las que usan los jugadores profesionales de videojuegos o las de los equipos que minan criptomonedas. “Yo me acuerdo de que mi computadora se calentaba”, dice González, quien dejaba su máquina entrenando varios días, a veces para descubrir que había hecho algo mal y que el sistema “no aprendió lo que tenía que aprender”.

Ante más variedad de información, al sistema hay que enseñarle cosas nuevas. Y aunque aprenda a realizar una buena lectura, una computadora no puede —hasta que se le entrene— hacer inferencias, como reconocer que dos nombres distintos pueden ser la misma persona, algo fundamental cuando el uso de alias era una práctica habitual de los disidentes en la Guerra Sucia. Por eso, el toque humano es importante. Y aquí es donde interviene Donají Valencia, una latinoamericanista de veintisiete años a quien le apasiona José Revueltas. Su conocimiento histórico de la Guerra Fría y de los hechos de la contrainsurgencia resultaron fundamentales al momento de capturar y revisar lo que se le provee al algoritmo. Punto para el ser humano.

{linea}

La consigna principal es que a las personas desaparecidas se les busca en vida. Por eso el Angelus se rige bajo cuatro principios: que las personas merecen ser encontradas, que las familias merecen saber qué pasó con sus familiares, que la sociedad merece justicia y que la tecnología de hoy es una herramienta para la búsqueda. Javier Yankelevich, la mente detrás de esta red neuronal, sabe claramente qué espera del sistema: “Si tú no tienes una arquitectura de información que responda a esta complejidad, vas a terminar mirando los árboles y no el bosque”, dice. El procesamiento masivo del Angelus y su capacidad de interconectar pueden además arrojar luz a esos patrones de represión: qué sucedió, en qué lugares y dónde no se ha buscado. Ese es el bosque que se quiere ver.

Aunados a esta capacidad analítica, Yankelevich enumera otros propósitos: que el conocimiento de todos los archivos revisados perdure a pesar de los cambios de personal en la CNB; ofrecer a las familias, en tiempo real, el mismo nivel de información que tiene el equipo; dar con puntos reales para buscar personas, y que el repositorio funcione como un espacio de memoria. Actualmente, el visualizador del sistema es de acceso restringido, solo para los desarrolladores, pero se espera que eventualmente haya una interfaz de consulta pública.

Pero es Mariana Martínez quien ofrece otra posibilidad en el país de las más de cien mil personas desaparecidas. “Si se ajusta el diseño, puede funcionar para otras desapariciones”. Y aunque será difícil, porque las desapariciones contemporáneas no tienen tanta documentación oficial, ella insiste en el poder de análisis de la IA para detectar vínculos que a simple vista no somos capaces de encontrar. Por eso el equipo ha insistido en que todo su desarrollo de algoritmos sea abierto y de uso compartido.

El Angelus vuela a contrarreloj y la indignación es su mayor motor. Cuando Juan Carlos Mendoza, hijo de Juan Carlos Mendoza Galoz, normalista disidente desaparecido el 30 de diciembre de 1981, durante la Guerra Sucia, habla sobre el desarrollo de este sistema, admite que la idea le emociona, pero escapa de su entendimiento: “Es una cosa de ciencia ficción”.

A diferencia del Angelus Novus, el de la Guerra Sucia se resiste a replegar las alas; regresa a hurgar en el pasado y se zambulle en él. Mitad máquina y mitad humanidad, este Ángel de la Historia se dispone a enfrentar el huracán con ojos y mente dedicados a la búsqueda de respuestas. Porque aspira a despertar a los que se llevaron. A no olvidar la catástrofe. A recomponer lo despedazado.

{linea}

Esta historia se publicó en la edición dedicada a "La revolución tecnológica".

Newsletter
¡Gracias!
Oops! Something went wrong while submitting the form.

Angelus: el algoritmo que escarba en la Guerra Sucia

Angelus: el algoritmo que escarba en la Guerra Sucia

Texto de
Fotografía de
Realización de
Ilustración de
Traducción de
11
.
10
.
22
AAAA
Tiempo de Lectura: 00 min

Está en desarrollo un proyecto tecnológico del Centro de Investigación en Matemáticas y la Comisión Nacional de Búsqueda, integrado por inteligencia artificial, que podrá indagar en uno de los periodos históricos más duros de nuestro país, para localizar a personas desaparecidas, proveer puntos de búsqueda y detectar patrones. Y tiene un nombre: Angelus.

Esta interpretación del Angelus Novus es una de las cosas que marcaron a Javier Yankelevich en su formación como historiador en la UNAM. Walter Benjamin se había obsesionado con el cuadro de Paul Klee de 1920, en el que un ángel mira hacia atrás, con los ojos y la boca abiertos; notaba cómo un huracán se enredaba en sus alas, y, aunque lo empujaba hacia adelante, su mirada insistía en abrazar el pasado y los hechos que lo precedieron. Es el Ángel de la Historia. Esta acuarela no solo acompañó al filósofo alemán hasta su muerte en 1940, sino que también lo inspiró a escribir Tesis sobre la filosofía de la historia, obra en la que explora una visión pesimista de esta disciplina. “Donde a nosotros se nos manifiesta una cadena de datos, él ve una catástrofe única que amontona incansablemente ruina sobre ruina, arrojándolas a sus pies. Bien quisiera detenerse, despertar a los muertos y recomponer lo despedazado”, Benjamin apuntó.

La tragedia de la desaparición de los 43 normalistas de Ayotzinapa despertó el interés de Yankelevich por este fenómeno cuando estudiaba la maestría en Ciencias Sociales, pero también confiesa que en su familia “el tema de la desaparición ha estado presente”. Con el paso de los años centró su investigación académica en la desaparición forzada y conoció a Karla Quintana Osuna, quien se postulaba para dirigir la Comisión Nacional de Búsqueda (CNB) y lo invitó a trabajar ahí. Desde entonces cruza bases de datos y compara “listas de personas que estamos buscando con cualquier otra lista”. Gracias a eso, en años recientes han dado con las osamentas de personas desaparecidas. Cuando relata esto, su voz grave y profunda suena, además, cansada y apesadumbrada: él también debe notificar a las familias y todo lo que eso implica.

Como era “impresionante lo que revelaban los cruces de bases de datos”, en 2019, Yankelevich comenzó a gestar el Angelus, un sistema computacional para escarbar en terabytes de información y realizar vínculos complejísimos —que escapan a la capacidad humana— sobre hechos relacionados con la desaparición forzada durante el periodo conocido como la Guerra Sucia o contrainsurgencia, entre los años sesenta y ochenta. El equipo que Yankelevich lidera lo ha desarrollado a través de una red neuronal de algoritmos, machine learning e inteligencia artificial (IA), que podrá conformar una herramienta tecnológica para encontrar personas con vida, proveer puntos de búsqueda y detectar patrones matemáticos sobre detenciones y desapariciones, y así comprender mejor uno de los más duros episodios de nuestra historia, del que hoy se reconoce la desaparición de 798 personas, según el Registro Nacional de Personas Desaparecidas y No Localizadas.

Tres años antes de que el Gobierno federal creara una comisión para esclarecer los delitos y las graves violaciones a los derechos humanos de aquellos años, el sistema Angelus se diseñó para ofrecer la esperanza de detectar un patrón lógico entre la detención y la desaparición a partir de los datos contenidos en un mar de miles de archivos de instituciones, como la extinta Dirección Federal de Seguridad (DFS) —una fuerza de inteligencia encargada de espiar, detener y desaparecer forzadamente a grupos disidentes—o la Dirección General de Investigaciones Políticas y Sociales (DGIPS). Hasta 2020, el Archivo General de la Nación resguardaba 9 559 cajas con documentos de la Guerra Sucia, únicamente de estas dos instituciones. Si una persona quisiera exponer las relaciones entre los eventos relatados en estos archivos, como nombres de personas, fechas, organizaciones y más, sería una tarea que requeriría años, con el riesgo de olvidar algo en el camino. Pero, clic, clic, clic, si el Angelus tuviera acceso a toda esa información, podría hacerlo en segundos.

{linea}

Este Ángel de la Historia nació como una hoja de cálculo de Excel. Javier Yankelevich se refiere a esta versión como el “Angelus 1.0”. Eran columnas con parámetros que indicaban “nombre”, “número de expediente”, “víctima”, “testigo” o “perpetrador”, entre otros datos. El proyecto surgía desde la Dirección de Operaciones de Búsqueda, dentro de la CNB. Pero entre las principales limitaciones que encontraban estaban que su llenado difícilmente podía ser colaborativo, que no en todas las entradas de datos tenían un documento listo para visualizarse y que no podían establecerse relaciones, a pesar de que notaban conexiones o la repetición de elementos.

Entonces, cuando Yankelevich cocinaba la idea, Mariana Martínez, de 34 años, doctora en Biomedicina, llegó al equipo técnico del Angelus: un grupo de cuatro personas que se apoya de un equipo extendido de voluntarios, conformado por tesistas, estudiantes que realizan su servicio social, becarios y científicos sociales vinculados a la CNB, así como al Centro de Investigación en Matemáticas (Cimat). “Quizá mi perfil es el más raro de todos”, asegura Martínez. “Todo el mundo dice que [los biólogos] somos ‘cuentapatas’, pero una cosa es contar las patas de una hormiga y otra contar las patas de todas las hormigas en un bosque”. Así que como la programación y otros procesos computacionales fueron parte de su formación, rápidamente notó las limitaciones de aquel Excel y ofreció una solución. Junto con Víctor Mireles, maestro en Ciencias de la Computación, dio con el término que buscaban: un grafo del conocimiento, una figura con información, como nombres de personas u organizaciones, lugares, fechas y eventos, conectada a partir de contexto y razonamiento. “Se dice fácil, pero a las computadoras esto no les entra. Hubo que empezar a decidir qué datos te interesan, qué relaciones te interesan y qué significan. Fueron muchas pláticas”, recuerda.

El Angelus puede generar un grafo alrededor del nombre de una persona detenida. El primer dato aparece en un recuadro, y a partir de ese nodo (un punto de intersección) se abren conexiones: cuándo se hizo una detención, dónde ocurrió o qué institución la perpetró. Poco a poco se pueden sumar datos, como relaciones familiares, si otras personas fueron detenidas en ese mismo evento o si pertenecían a la misma organización disidente. La información acaba por formar un rizoma, una red interconectada en la que no hay jerarquías y que sugiere una telaraña compleja de relaciones al alcance de unos cuantos clics.

Pero para establecer estas relaciones, el algoritmo necesita un repositorio —donde se almacena la información digital— y un sistema de anotación del que toma los datos. Para eso se digitalizan archivos, testimonios y otras fuentes documentales. De ahí, una persona (anotador) o un sistema de reconocimiento óptico de caracteres extrae datos específicos, organizándolos en clases (persona, organización, evento u otros), que a su vez se subdividen en nuevas categorías. Tal información permite crear los grafos desde una pantalla o visualizador. “Esa red de relaciones es la verdadera fortaleza del Angelus”, explica Martínez. “¿Qué cosas hay en común y qué cosas no? Por ejemplo, sobre una detención en Ciudad Juárez puedes agregar a todas las personas detenidas. Y cuando te das cuenta, tienes una serie de cuestiones superconectadas y aparece una cantidad de relaciones”.

Para quienes conforman el equipo, este sistema es una herramienta que funciona como extensión de la mente humana. Y de eso va la IA: de imitar el funcionamiento de las neuronas para resolver problemas relacionados con el comportamiento humano —como el lenguaje— a partir de matemáticas y lógica. Yankelevich cree que lo que hace el Angelus no es IA, porque el sistema todavía no es capaz de pensar por sí mismo: “Es un sistema que organiza documentos y datos en un gráfico de conocimiento, y por ahora quienes meten los documentos son humanos”. Pero el resto del equipo sí lo califica como IA, pues el objetivo no es que desarrolle conciencia, sino que entienda, clasifique y relacione información, algo que ya realiza.

La IA, en realidad, está presente en más cosas cotidianas de las que podemos pensar —y no son precisamente las más inteligentes—: desde la cámara del celular que mejora la iluminación de las fotos, los filtros de las redes sociales o el anuncio que salta cuando vemos un video en YouTube o Pinpoint hasta el sistema de Google que usé para transcribir automáticamente ocho horas de entrevistas en menos de cuarenta minutos. La ciencia de datos, que incluye áreas como la IA, es una disciplina muy demandada en la actualidad por las compañías interesadas en analizar grandes volúmenes de información para, por ejemplo, vendernos productos. “Estas cosas que están de moda, como la ciencia de datos y big data, la mayoría de los jóvenes se meten a estudiarlas porque tienen una muy buena perspectiva laboral en la industria. Muy pocos se van hacia la investigación”, opina Víctor Muñiz, de 48 años, investigador del Cimat de Monterrey.

El trabajo de Muñiz es programar módulos con IA para permitirle al algoritmo detectar patrones de manera automática entre la gran cantidad de información que existe en el sistema. En el Cimat están los servidores, cerebros computacionales, CPU sin teclados o pantallas, dentro de un gran cuarto refrigerado, donde habita físicamente el Angelus y hasta donde los integrantes del equipo se conectan remotamente. Optimista sobre el uso de la tecnología, el científico de datos lo ve como “un auxiliar a ciertas actividades que muy probablemente vas a hacer mal”. Fanático de la ciencia ficción, cree que todavía están lejanos los días en los que esta inteligencia desarrolle conciencia, como la reciente noticia de un sistema de IA de Google que afirmaba que tenía sentimientos. Por eso Muñiz cree que el Angelus, lejos de ensalzar el uso de la ciencia de datos, lo que hace es “desmitificar esto de la tecnología de la IA”.

En contraparte al cerebro de algoritmos, el Angelus tiene corazón humano. Al final, la decisión de qué es verdad y dónde buscar siempre será tomada por una persona, porque en todos los procesos hay quien revisa el sistema. “Creo que en estos proyectos es muy fácil perder esta idea de que hay personas detrás. El Angelus organiza los documentos, pero no es una máquina de la verdad; simplemente da a las personas que deciden las mejores herramientas”, afirma Muñiz.

Angelus, el algoritmo de la Guerra Sucia
Angelus, el algoritmo que escarba en la Guerra Sucia

{linea}

Héctor Bravo es un historiador de 34 años que se ha especializado en el estudio de grupos guerrilleros y procesos democráticos del siglo XX mexicano. Como encargado de buscar documentos y testimonios que alimenten al Angelus, sigue la máxima del equipo científico: todo lo que ingrese al sistema debe respaldarse por documentos, incluidos las contradicciones, las mentiras y los datos inciertos o incompletos de los archivos mismos.

Su primer desafío ha sido lidiar con y acceder a una cantidad monumental de información. De las más de nueve mil cajas que aloja el Archivo General de la Nación sobre la DFS y la DGIPS, Bravo refiere que apenas han tenido acceso a una decena (296 expedientes), pero lograron dar con otros acervos, por ejemplo, dieciocho mil fichas del acervo público Archivos de la Represión (realizado por Article 19), y unas doscientas cajas de la desaparecida Fiscalía Especial para Movimientos Sociales y Políticos del Pasado (Femospp). El repositorio también se ha alimentado con lo encontrado en los archivos de la Comisión Nacional de los Derechos Humanos, el Instituto de Administración y Avalúos de Bienes Nacionales, la Comisión Verdad y Justicia o Amnistía Internacional.

A Bravo le ha tocado ir a buscar los documentos a estas bodegas; a veces, vestirse con un mono blanco de perito que lo cubre de pies a cabeza, y pasar largas horas escaneando a una resolución de cuatrocientos puntos por pulgada. Suena fácil, pero no lo es. Los telegramas sueltan un polvillo que atasca el escáner. Los recortes de periódico se atoran. Hay hojas de papel mantequilla que pueden rasgarse a la menor manipulación. Los archivos no siempre están bien conservados. Hay hongos y óxido; grapas y broches que retirar y volver a colocar. Además, son muchas las horas que implica escanear o tomar fotografías a los expedientes, mientras el sol se cuela por la ventana de una triste bodega del Instituto de Ciencias Forenses.

Los grafos del conocimiento, como los que genera el Angelus, son posibles solo gracias al volumen de información que el mismo Estado generó sobre la Guerra Sucia. Y es que hay una cantidad apabullante de informes. Tan solo de la Femospp, el Angelus ha procesado once mil archivos, traducidos a más de cuatrocientos gigabytes de información, con los que casi ha llenado un disco duro de cuatro terabytes de capacidad.

Pero más allá del volumen, los archivos dicen mucho, cuenta Bravo. Algo que ha notado, pues resulta imposible no verlo entre tanta información que pasa frente a sus ojos, es que hay informes más crudos, dictados por teléfono, que las secretarias reconvertían en reportes. Informes que, dice, contenían frases con eufemismos para referirse a personas o al acto de la tortura: “Detuvimos un paquete y tuvimos una sesión intensiva de interrogatorio”, recuerda un caso. “Eso es brutal. Este primer informe venía ya tachado. Y venía más abajo otro informe que era el que sí se pasaba, con hojas membretadas y todo bonito”.

En uno de los grafos, Mariana Martínez dio con otra cosa terrible: la DFS había elaborado una ficha sobre una niña por ser hija de un guerrillero. “¿Por qué la DFS tendría que fichar a una niña?”, preguntan Martínez y Bravo. Esas son las cosas que emocionalmente no afectan a una computadora. Punto para la IA.

{linea}

Ante el volumen enorme de documentos que había que capturar —dieciocho mil ficheros del repositorio Archivos de la Represión, por ejemplo—, el equipo experimentó con un sistema de reconocimiento de caracteres, una forma de IA que le permite a una computadora leer un texto. Algunos teléfonos celulares ya son capaces de detectar palabras en imágenes. La situación se complica cuando hay errores ortográficos, sellos, recuadros; cuando los tipos de la máquina de escribir están disparejos o las letras en el papel, borrosas. Entonces hay que enseñarle a la máquina.

Juan Carlos González, científico de datos de veintisiete años, egresado de Matemáticas en la UNAM y que está por comenzar una maestría en Suecia, desarrolló la tecnología para automatizar la lectura de fichas como parte de su trabajo de tesis. “Hay toneladas de documentos. Alguien puede ir y leer cualquiera de ellos, el problema [es que] no es humanamente posible que una persona lea todos los documentos”, explica. Pero las computadoras también pueden aprender. Más bien, son entrenadas. Como un perro que recibe premios hasta que aprende a dar la pata, González entrenó a su sistema con un paquete de dos mil fichas para que aprendiera a leer correctamente los datos. “Haces ese proceso muchas veces hasta que la red comienza a intuir mediante fórmulas matemáticas, de tal forma que cuando le damos una imagen, la red sea capaz de decirnos: ‘Ah, esto sí es un fichero’”.

Pero el machine learning ni ofrece resultados pronto ni es barato. Y el sistema tampoco es perfecto. A nivel computacional se necesitan máquinas con poderosas placas de video como las que usan los jugadores profesionales de videojuegos o las de los equipos que minan criptomonedas. “Yo me acuerdo de que mi computadora se calentaba”, dice González, quien dejaba su máquina entrenando varios días, a veces para descubrir que había hecho algo mal y que el sistema “no aprendió lo que tenía que aprender”.

Ante más variedad de información, al sistema hay que enseñarle cosas nuevas. Y aunque aprenda a realizar una buena lectura, una computadora no puede —hasta que se le entrene— hacer inferencias, como reconocer que dos nombres distintos pueden ser la misma persona, algo fundamental cuando el uso de alias era una práctica habitual de los disidentes en la Guerra Sucia. Por eso, el toque humano es importante. Y aquí es donde interviene Donají Valencia, una latinoamericanista de veintisiete años a quien le apasiona José Revueltas. Su conocimiento histórico de la Guerra Fría y de los hechos de la contrainsurgencia resultaron fundamentales al momento de capturar y revisar lo que se le provee al algoritmo. Punto para el ser humano.

{linea}

La consigna principal es que a las personas desaparecidas se les busca en vida. Por eso el Angelus se rige bajo cuatro principios: que las personas merecen ser encontradas, que las familias merecen saber qué pasó con sus familiares, que la sociedad merece justicia y que la tecnología de hoy es una herramienta para la búsqueda. Javier Yankelevich, la mente detrás de esta red neuronal, sabe claramente qué espera del sistema: “Si tú no tienes una arquitectura de información que responda a esta complejidad, vas a terminar mirando los árboles y no el bosque”, dice. El procesamiento masivo del Angelus y su capacidad de interconectar pueden además arrojar luz a esos patrones de represión: qué sucedió, en qué lugares y dónde no se ha buscado. Ese es el bosque que se quiere ver.

Aunados a esta capacidad analítica, Yankelevich enumera otros propósitos: que el conocimiento de todos los archivos revisados perdure a pesar de los cambios de personal en la CNB; ofrecer a las familias, en tiempo real, el mismo nivel de información que tiene el equipo; dar con puntos reales para buscar personas, y que el repositorio funcione como un espacio de memoria. Actualmente, el visualizador del sistema es de acceso restringido, solo para los desarrolladores, pero se espera que eventualmente haya una interfaz de consulta pública.

Pero es Mariana Martínez quien ofrece otra posibilidad en el país de las más de cien mil personas desaparecidas. “Si se ajusta el diseño, puede funcionar para otras desapariciones”. Y aunque será difícil, porque las desapariciones contemporáneas no tienen tanta documentación oficial, ella insiste en el poder de análisis de la IA para detectar vínculos que a simple vista no somos capaces de encontrar. Por eso el equipo ha insistido en que todo su desarrollo de algoritmos sea abierto y de uso compartido.

El Angelus vuela a contrarreloj y la indignación es su mayor motor. Cuando Juan Carlos Mendoza, hijo de Juan Carlos Mendoza Galoz, normalista disidente desaparecido el 30 de diciembre de 1981, durante la Guerra Sucia, habla sobre el desarrollo de este sistema, admite que la idea le emociona, pero escapa de su entendimiento: “Es una cosa de ciencia ficción”.

A diferencia del Angelus Novus, el de la Guerra Sucia se resiste a replegar las alas; regresa a hurgar en el pasado y se zambulle en él. Mitad máquina y mitad humanidad, este Ángel de la Historia se dispone a enfrentar el huracán con ojos y mente dedicados a la búsqueda de respuestas. Porque aspira a despertar a los que se llevaron. A no olvidar la catástrofe. A recomponer lo despedazado.

{linea}

Esta historia se publicó en la edición dedicada a "La revolución tecnológica".

Newsletter
¡Gracias!
Oops! Something went wrong while submitting the form.

Angelus: el algoritmo que escarba en la Guerra Sucia

Angelus: el algoritmo que escarba en la Guerra Sucia

Texto de
Fotografía de
Realización de
Ilustración de
Traducción de
11
.
10
.
22
AAAA
Tiempo de Lectura: 00 min

Está en desarrollo un proyecto tecnológico del Centro de Investigación en Matemáticas y la Comisión Nacional de Búsqueda, integrado por inteligencia artificial, que podrá indagar en uno de los periodos históricos más duros de nuestro país, para localizar a personas desaparecidas, proveer puntos de búsqueda y detectar patrones. Y tiene un nombre: Angelus.

Esta interpretación del Angelus Novus es una de las cosas que marcaron a Javier Yankelevich en su formación como historiador en la UNAM. Walter Benjamin se había obsesionado con el cuadro de Paul Klee de 1920, en el que un ángel mira hacia atrás, con los ojos y la boca abiertos; notaba cómo un huracán se enredaba en sus alas, y, aunque lo empujaba hacia adelante, su mirada insistía en abrazar el pasado y los hechos que lo precedieron. Es el Ángel de la Historia. Esta acuarela no solo acompañó al filósofo alemán hasta su muerte en 1940, sino que también lo inspiró a escribir Tesis sobre la filosofía de la historia, obra en la que explora una visión pesimista de esta disciplina. “Donde a nosotros se nos manifiesta una cadena de datos, él ve una catástrofe única que amontona incansablemente ruina sobre ruina, arrojándolas a sus pies. Bien quisiera detenerse, despertar a los muertos y recomponer lo despedazado”, Benjamin apuntó.

La tragedia de la desaparición de los 43 normalistas de Ayotzinapa despertó el interés de Yankelevich por este fenómeno cuando estudiaba la maestría en Ciencias Sociales, pero también confiesa que en su familia “el tema de la desaparición ha estado presente”. Con el paso de los años centró su investigación académica en la desaparición forzada y conoció a Karla Quintana Osuna, quien se postulaba para dirigir la Comisión Nacional de Búsqueda (CNB) y lo invitó a trabajar ahí. Desde entonces cruza bases de datos y compara “listas de personas que estamos buscando con cualquier otra lista”. Gracias a eso, en años recientes han dado con las osamentas de personas desaparecidas. Cuando relata esto, su voz grave y profunda suena, además, cansada y apesadumbrada: él también debe notificar a las familias y todo lo que eso implica.

Como era “impresionante lo que revelaban los cruces de bases de datos”, en 2019, Yankelevich comenzó a gestar el Angelus, un sistema computacional para escarbar en terabytes de información y realizar vínculos complejísimos —que escapan a la capacidad humana— sobre hechos relacionados con la desaparición forzada durante el periodo conocido como la Guerra Sucia o contrainsurgencia, entre los años sesenta y ochenta. El equipo que Yankelevich lidera lo ha desarrollado a través de una red neuronal de algoritmos, machine learning e inteligencia artificial (IA), que podrá conformar una herramienta tecnológica para encontrar personas con vida, proveer puntos de búsqueda y detectar patrones matemáticos sobre detenciones y desapariciones, y así comprender mejor uno de los más duros episodios de nuestra historia, del que hoy se reconoce la desaparición de 798 personas, según el Registro Nacional de Personas Desaparecidas y No Localizadas.

Tres años antes de que el Gobierno federal creara una comisión para esclarecer los delitos y las graves violaciones a los derechos humanos de aquellos años, el sistema Angelus se diseñó para ofrecer la esperanza de detectar un patrón lógico entre la detención y la desaparición a partir de los datos contenidos en un mar de miles de archivos de instituciones, como la extinta Dirección Federal de Seguridad (DFS) —una fuerza de inteligencia encargada de espiar, detener y desaparecer forzadamente a grupos disidentes—o la Dirección General de Investigaciones Políticas y Sociales (DGIPS). Hasta 2020, el Archivo General de la Nación resguardaba 9 559 cajas con documentos de la Guerra Sucia, únicamente de estas dos instituciones. Si una persona quisiera exponer las relaciones entre los eventos relatados en estos archivos, como nombres de personas, fechas, organizaciones y más, sería una tarea que requeriría años, con el riesgo de olvidar algo en el camino. Pero, clic, clic, clic, si el Angelus tuviera acceso a toda esa información, podría hacerlo en segundos.

{linea}

Este Ángel de la Historia nació como una hoja de cálculo de Excel. Javier Yankelevich se refiere a esta versión como el “Angelus 1.0”. Eran columnas con parámetros que indicaban “nombre”, “número de expediente”, “víctima”, “testigo” o “perpetrador”, entre otros datos. El proyecto surgía desde la Dirección de Operaciones de Búsqueda, dentro de la CNB. Pero entre las principales limitaciones que encontraban estaban que su llenado difícilmente podía ser colaborativo, que no en todas las entradas de datos tenían un documento listo para visualizarse y que no podían establecerse relaciones, a pesar de que notaban conexiones o la repetición de elementos.

Entonces, cuando Yankelevich cocinaba la idea, Mariana Martínez, de 34 años, doctora en Biomedicina, llegó al equipo técnico del Angelus: un grupo de cuatro personas que se apoya de un equipo extendido de voluntarios, conformado por tesistas, estudiantes que realizan su servicio social, becarios y científicos sociales vinculados a la CNB, así como al Centro de Investigación en Matemáticas (Cimat). “Quizá mi perfil es el más raro de todos”, asegura Martínez. “Todo el mundo dice que [los biólogos] somos ‘cuentapatas’, pero una cosa es contar las patas de una hormiga y otra contar las patas de todas las hormigas en un bosque”. Así que como la programación y otros procesos computacionales fueron parte de su formación, rápidamente notó las limitaciones de aquel Excel y ofreció una solución. Junto con Víctor Mireles, maestro en Ciencias de la Computación, dio con el término que buscaban: un grafo del conocimiento, una figura con información, como nombres de personas u organizaciones, lugares, fechas y eventos, conectada a partir de contexto y razonamiento. “Se dice fácil, pero a las computadoras esto no les entra. Hubo que empezar a decidir qué datos te interesan, qué relaciones te interesan y qué significan. Fueron muchas pláticas”, recuerda.

El Angelus puede generar un grafo alrededor del nombre de una persona detenida. El primer dato aparece en un recuadro, y a partir de ese nodo (un punto de intersección) se abren conexiones: cuándo se hizo una detención, dónde ocurrió o qué institución la perpetró. Poco a poco se pueden sumar datos, como relaciones familiares, si otras personas fueron detenidas en ese mismo evento o si pertenecían a la misma organización disidente. La información acaba por formar un rizoma, una red interconectada en la que no hay jerarquías y que sugiere una telaraña compleja de relaciones al alcance de unos cuantos clics.

Pero para establecer estas relaciones, el algoritmo necesita un repositorio —donde se almacena la información digital— y un sistema de anotación del que toma los datos. Para eso se digitalizan archivos, testimonios y otras fuentes documentales. De ahí, una persona (anotador) o un sistema de reconocimiento óptico de caracteres extrae datos específicos, organizándolos en clases (persona, organización, evento u otros), que a su vez se subdividen en nuevas categorías. Tal información permite crear los grafos desde una pantalla o visualizador. “Esa red de relaciones es la verdadera fortaleza del Angelus”, explica Martínez. “¿Qué cosas hay en común y qué cosas no? Por ejemplo, sobre una detención en Ciudad Juárez puedes agregar a todas las personas detenidas. Y cuando te das cuenta, tienes una serie de cuestiones superconectadas y aparece una cantidad de relaciones”.

Para quienes conforman el equipo, este sistema es una herramienta que funciona como extensión de la mente humana. Y de eso va la IA: de imitar el funcionamiento de las neuronas para resolver problemas relacionados con el comportamiento humano —como el lenguaje— a partir de matemáticas y lógica. Yankelevich cree que lo que hace el Angelus no es IA, porque el sistema todavía no es capaz de pensar por sí mismo: “Es un sistema que organiza documentos y datos en un gráfico de conocimiento, y por ahora quienes meten los documentos son humanos”. Pero el resto del equipo sí lo califica como IA, pues el objetivo no es que desarrolle conciencia, sino que entienda, clasifique y relacione información, algo que ya realiza.

La IA, en realidad, está presente en más cosas cotidianas de las que podemos pensar —y no son precisamente las más inteligentes—: desde la cámara del celular que mejora la iluminación de las fotos, los filtros de las redes sociales o el anuncio que salta cuando vemos un video en YouTube o Pinpoint hasta el sistema de Google que usé para transcribir automáticamente ocho horas de entrevistas en menos de cuarenta minutos. La ciencia de datos, que incluye áreas como la IA, es una disciplina muy demandada en la actualidad por las compañías interesadas en analizar grandes volúmenes de información para, por ejemplo, vendernos productos. “Estas cosas que están de moda, como la ciencia de datos y big data, la mayoría de los jóvenes se meten a estudiarlas porque tienen una muy buena perspectiva laboral en la industria. Muy pocos se van hacia la investigación”, opina Víctor Muñiz, de 48 años, investigador del Cimat de Monterrey.

El trabajo de Muñiz es programar módulos con IA para permitirle al algoritmo detectar patrones de manera automática entre la gran cantidad de información que existe en el sistema. En el Cimat están los servidores, cerebros computacionales, CPU sin teclados o pantallas, dentro de un gran cuarto refrigerado, donde habita físicamente el Angelus y hasta donde los integrantes del equipo se conectan remotamente. Optimista sobre el uso de la tecnología, el científico de datos lo ve como “un auxiliar a ciertas actividades que muy probablemente vas a hacer mal”. Fanático de la ciencia ficción, cree que todavía están lejanos los días en los que esta inteligencia desarrolle conciencia, como la reciente noticia de un sistema de IA de Google que afirmaba que tenía sentimientos. Por eso Muñiz cree que el Angelus, lejos de ensalzar el uso de la ciencia de datos, lo que hace es “desmitificar esto de la tecnología de la IA”.

En contraparte al cerebro de algoritmos, el Angelus tiene corazón humano. Al final, la decisión de qué es verdad y dónde buscar siempre será tomada por una persona, porque en todos los procesos hay quien revisa el sistema. “Creo que en estos proyectos es muy fácil perder esta idea de que hay personas detrás. El Angelus organiza los documentos, pero no es una máquina de la verdad; simplemente da a las personas que deciden las mejores herramientas”, afirma Muñiz.

Angelus, el algoritmo de la Guerra Sucia
Angelus, el algoritmo que escarba en la Guerra Sucia

{linea}

Héctor Bravo es un historiador de 34 años que se ha especializado en el estudio de grupos guerrilleros y procesos democráticos del siglo XX mexicano. Como encargado de buscar documentos y testimonios que alimenten al Angelus, sigue la máxima del equipo científico: todo lo que ingrese al sistema debe respaldarse por documentos, incluidos las contradicciones, las mentiras y los datos inciertos o incompletos de los archivos mismos.

Su primer desafío ha sido lidiar con y acceder a una cantidad monumental de información. De las más de nueve mil cajas que aloja el Archivo General de la Nación sobre la DFS y la DGIPS, Bravo refiere que apenas han tenido acceso a una decena (296 expedientes), pero lograron dar con otros acervos, por ejemplo, dieciocho mil fichas del acervo público Archivos de la Represión (realizado por Article 19), y unas doscientas cajas de la desaparecida Fiscalía Especial para Movimientos Sociales y Políticos del Pasado (Femospp). El repositorio también se ha alimentado con lo encontrado en los archivos de la Comisión Nacional de los Derechos Humanos, el Instituto de Administración y Avalúos de Bienes Nacionales, la Comisión Verdad y Justicia o Amnistía Internacional.

A Bravo le ha tocado ir a buscar los documentos a estas bodegas; a veces, vestirse con un mono blanco de perito que lo cubre de pies a cabeza, y pasar largas horas escaneando a una resolución de cuatrocientos puntos por pulgada. Suena fácil, pero no lo es. Los telegramas sueltan un polvillo que atasca el escáner. Los recortes de periódico se atoran. Hay hojas de papel mantequilla que pueden rasgarse a la menor manipulación. Los archivos no siempre están bien conservados. Hay hongos y óxido; grapas y broches que retirar y volver a colocar. Además, son muchas las horas que implica escanear o tomar fotografías a los expedientes, mientras el sol se cuela por la ventana de una triste bodega del Instituto de Ciencias Forenses.

Los grafos del conocimiento, como los que genera el Angelus, son posibles solo gracias al volumen de información que el mismo Estado generó sobre la Guerra Sucia. Y es que hay una cantidad apabullante de informes. Tan solo de la Femospp, el Angelus ha procesado once mil archivos, traducidos a más de cuatrocientos gigabytes de información, con los que casi ha llenado un disco duro de cuatro terabytes de capacidad.

Pero más allá del volumen, los archivos dicen mucho, cuenta Bravo. Algo que ha notado, pues resulta imposible no verlo entre tanta información que pasa frente a sus ojos, es que hay informes más crudos, dictados por teléfono, que las secretarias reconvertían en reportes. Informes que, dice, contenían frases con eufemismos para referirse a personas o al acto de la tortura: “Detuvimos un paquete y tuvimos una sesión intensiva de interrogatorio”, recuerda un caso. “Eso es brutal. Este primer informe venía ya tachado. Y venía más abajo otro informe que era el que sí se pasaba, con hojas membretadas y todo bonito”.

En uno de los grafos, Mariana Martínez dio con otra cosa terrible: la DFS había elaborado una ficha sobre una niña por ser hija de un guerrillero. “¿Por qué la DFS tendría que fichar a una niña?”, preguntan Martínez y Bravo. Esas son las cosas que emocionalmente no afectan a una computadora. Punto para la IA.

{linea}

Ante el volumen enorme de documentos que había que capturar —dieciocho mil ficheros del repositorio Archivos de la Represión, por ejemplo—, el equipo experimentó con un sistema de reconocimiento de caracteres, una forma de IA que le permite a una computadora leer un texto. Algunos teléfonos celulares ya son capaces de detectar palabras en imágenes. La situación se complica cuando hay errores ortográficos, sellos, recuadros; cuando los tipos de la máquina de escribir están disparejos o las letras en el papel, borrosas. Entonces hay que enseñarle a la máquina.

Juan Carlos González, científico de datos de veintisiete años, egresado de Matemáticas en la UNAM y que está por comenzar una maestría en Suecia, desarrolló la tecnología para automatizar la lectura de fichas como parte de su trabajo de tesis. “Hay toneladas de documentos. Alguien puede ir y leer cualquiera de ellos, el problema [es que] no es humanamente posible que una persona lea todos los documentos”, explica. Pero las computadoras también pueden aprender. Más bien, son entrenadas. Como un perro que recibe premios hasta que aprende a dar la pata, González entrenó a su sistema con un paquete de dos mil fichas para que aprendiera a leer correctamente los datos. “Haces ese proceso muchas veces hasta que la red comienza a intuir mediante fórmulas matemáticas, de tal forma que cuando le damos una imagen, la red sea capaz de decirnos: ‘Ah, esto sí es un fichero’”.

Pero el machine learning ni ofrece resultados pronto ni es barato. Y el sistema tampoco es perfecto. A nivel computacional se necesitan máquinas con poderosas placas de video como las que usan los jugadores profesionales de videojuegos o las de los equipos que minan criptomonedas. “Yo me acuerdo de que mi computadora se calentaba”, dice González, quien dejaba su máquina entrenando varios días, a veces para descubrir que había hecho algo mal y que el sistema “no aprendió lo que tenía que aprender”.

Ante más variedad de información, al sistema hay que enseñarle cosas nuevas. Y aunque aprenda a realizar una buena lectura, una computadora no puede —hasta que se le entrene— hacer inferencias, como reconocer que dos nombres distintos pueden ser la misma persona, algo fundamental cuando el uso de alias era una práctica habitual de los disidentes en la Guerra Sucia. Por eso, el toque humano es importante. Y aquí es donde interviene Donají Valencia, una latinoamericanista de veintisiete años a quien le apasiona José Revueltas. Su conocimiento histórico de la Guerra Fría y de los hechos de la contrainsurgencia resultaron fundamentales al momento de capturar y revisar lo que se le provee al algoritmo. Punto para el ser humano.

{linea}

La consigna principal es que a las personas desaparecidas se les busca en vida. Por eso el Angelus se rige bajo cuatro principios: que las personas merecen ser encontradas, que las familias merecen saber qué pasó con sus familiares, que la sociedad merece justicia y que la tecnología de hoy es una herramienta para la búsqueda. Javier Yankelevich, la mente detrás de esta red neuronal, sabe claramente qué espera del sistema: “Si tú no tienes una arquitectura de información que responda a esta complejidad, vas a terminar mirando los árboles y no el bosque”, dice. El procesamiento masivo del Angelus y su capacidad de interconectar pueden además arrojar luz a esos patrones de represión: qué sucedió, en qué lugares y dónde no se ha buscado. Ese es el bosque que se quiere ver.

Aunados a esta capacidad analítica, Yankelevich enumera otros propósitos: que el conocimiento de todos los archivos revisados perdure a pesar de los cambios de personal en la CNB; ofrecer a las familias, en tiempo real, el mismo nivel de información que tiene el equipo; dar con puntos reales para buscar personas, y que el repositorio funcione como un espacio de memoria. Actualmente, el visualizador del sistema es de acceso restringido, solo para los desarrolladores, pero se espera que eventualmente haya una interfaz de consulta pública.

Pero es Mariana Martínez quien ofrece otra posibilidad en el país de las más de cien mil personas desaparecidas. “Si se ajusta el diseño, puede funcionar para otras desapariciones”. Y aunque será difícil, porque las desapariciones contemporáneas no tienen tanta documentación oficial, ella insiste en el poder de análisis de la IA para detectar vínculos que a simple vista no somos capaces de encontrar. Por eso el equipo ha insistido en que todo su desarrollo de algoritmos sea abierto y de uso compartido.

El Angelus vuela a contrarreloj y la indignación es su mayor motor. Cuando Juan Carlos Mendoza, hijo de Juan Carlos Mendoza Galoz, normalista disidente desaparecido el 30 de diciembre de 1981, durante la Guerra Sucia, habla sobre el desarrollo de este sistema, admite que la idea le emociona, pero escapa de su entendimiento: “Es una cosa de ciencia ficción”.

A diferencia del Angelus Novus, el de la Guerra Sucia se resiste a replegar las alas; regresa a hurgar en el pasado y se zambulle en él. Mitad máquina y mitad humanidad, este Ángel de la Historia se dispone a enfrentar el huracán con ojos y mente dedicados a la búsqueda de respuestas. Porque aspira a despertar a los que se llevaron. A no olvidar la catástrofe. A recomponer lo despedazado.

{linea}

Esta historia se publicó en la edición dedicada a "La revolución tecnológica".

Newsletter
¡Gracias!
Oops! Something went wrong while submitting the form.

Angelus: el algoritmo que escarba en la Guerra Sucia

Angelus: el algoritmo que escarba en la Guerra Sucia

11
.
10
.
22
2022
Texto de
Fotografía de
Realización de
Ilustración de
Traducción de
Ver Videos

Está en desarrollo un proyecto tecnológico del Centro de Investigación en Matemáticas y la Comisión Nacional de Búsqueda, integrado por inteligencia artificial, que podrá indagar en uno de los periodos históricos más duros de nuestro país, para localizar a personas desaparecidas, proveer puntos de búsqueda y detectar patrones. Y tiene un nombre: Angelus.

Esta interpretación del Angelus Novus es una de las cosas que marcaron a Javier Yankelevich en su formación como historiador en la UNAM. Walter Benjamin se había obsesionado con el cuadro de Paul Klee de 1920, en el que un ángel mira hacia atrás, con los ojos y la boca abiertos; notaba cómo un huracán se enredaba en sus alas, y, aunque lo empujaba hacia adelante, su mirada insistía en abrazar el pasado y los hechos que lo precedieron. Es el Ángel de la Historia. Esta acuarela no solo acompañó al filósofo alemán hasta su muerte en 1940, sino que también lo inspiró a escribir Tesis sobre la filosofía de la historia, obra en la que explora una visión pesimista de esta disciplina. “Donde a nosotros se nos manifiesta una cadena de datos, él ve una catástrofe única que amontona incansablemente ruina sobre ruina, arrojándolas a sus pies. Bien quisiera detenerse, despertar a los muertos y recomponer lo despedazado”, Benjamin apuntó.

La tragedia de la desaparición de los 43 normalistas de Ayotzinapa despertó el interés de Yankelevich por este fenómeno cuando estudiaba la maestría en Ciencias Sociales, pero también confiesa que en su familia “el tema de la desaparición ha estado presente”. Con el paso de los años centró su investigación académica en la desaparición forzada y conoció a Karla Quintana Osuna, quien se postulaba para dirigir la Comisión Nacional de Búsqueda (CNB) y lo invitó a trabajar ahí. Desde entonces cruza bases de datos y compara “listas de personas que estamos buscando con cualquier otra lista”. Gracias a eso, en años recientes han dado con las osamentas de personas desaparecidas. Cuando relata esto, su voz grave y profunda suena, además, cansada y apesadumbrada: él también debe notificar a las familias y todo lo que eso implica.

Como era “impresionante lo que revelaban los cruces de bases de datos”, en 2019, Yankelevich comenzó a gestar el Angelus, un sistema computacional para escarbar en terabytes de información y realizar vínculos complejísimos —que escapan a la capacidad humana— sobre hechos relacionados con la desaparición forzada durante el periodo conocido como la Guerra Sucia o contrainsurgencia, entre los años sesenta y ochenta. El equipo que Yankelevich lidera lo ha desarrollado a través de una red neuronal de algoritmos, machine learning e inteligencia artificial (IA), que podrá conformar una herramienta tecnológica para encontrar personas con vida, proveer puntos de búsqueda y detectar patrones matemáticos sobre detenciones y desapariciones, y así comprender mejor uno de los más duros episodios de nuestra historia, del que hoy se reconoce la desaparición de 798 personas, según el Registro Nacional de Personas Desaparecidas y No Localizadas.

Tres años antes de que el Gobierno federal creara una comisión para esclarecer los delitos y las graves violaciones a los derechos humanos de aquellos años, el sistema Angelus se diseñó para ofrecer la esperanza de detectar un patrón lógico entre la detención y la desaparición a partir de los datos contenidos en un mar de miles de archivos de instituciones, como la extinta Dirección Federal de Seguridad (DFS) —una fuerza de inteligencia encargada de espiar, detener y desaparecer forzadamente a grupos disidentes—o la Dirección General de Investigaciones Políticas y Sociales (DGIPS). Hasta 2020, el Archivo General de la Nación resguardaba 9 559 cajas con documentos de la Guerra Sucia, únicamente de estas dos instituciones. Si una persona quisiera exponer las relaciones entre los eventos relatados en estos archivos, como nombres de personas, fechas, organizaciones y más, sería una tarea que requeriría años, con el riesgo de olvidar algo en el camino. Pero, clic, clic, clic, si el Angelus tuviera acceso a toda esa información, podría hacerlo en segundos.

{linea}

Este Ángel de la Historia nació como una hoja de cálculo de Excel. Javier Yankelevich se refiere a esta versión como el “Angelus 1.0”. Eran columnas con parámetros que indicaban “nombre”, “número de expediente”, “víctima”, “testigo” o “perpetrador”, entre otros datos. El proyecto surgía desde la Dirección de Operaciones de Búsqueda, dentro de la CNB. Pero entre las principales limitaciones que encontraban estaban que su llenado difícilmente podía ser colaborativo, que no en todas las entradas de datos tenían un documento listo para visualizarse y que no podían establecerse relaciones, a pesar de que notaban conexiones o la repetición de elementos.

Entonces, cuando Yankelevich cocinaba la idea, Mariana Martínez, de 34 años, doctora en Biomedicina, llegó al equipo técnico del Angelus: un grupo de cuatro personas que se apoya de un equipo extendido de voluntarios, conformado por tesistas, estudiantes que realizan su servicio social, becarios y científicos sociales vinculados a la CNB, así como al Centro de Investigación en Matemáticas (Cimat). “Quizá mi perfil es el más raro de todos”, asegura Martínez. “Todo el mundo dice que [los biólogos] somos ‘cuentapatas’, pero una cosa es contar las patas de una hormiga y otra contar las patas de todas las hormigas en un bosque”. Así que como la programación y otros procesos computacionales fueron parte de su formación, rápidamente notó las limitaciones de aquel Excel y ofreció una solución. Junto con Víctor Mireles, maestro en Ciencias de la Computación, dio con el término que buscaban: un grafo del conocimiento, una figura con información, como nombres de personas u organizaciones, lugares, fechas y eventos, conectada a partir de contexto y razonamiento. “Se dice fácil, pero a las computadoras esto no les entra. Hubo que empezar a decidir qué datos te interesan, qué relaciones te interesan y qué significan. Fueron muchas pláticas”, recuerda.

El Angelus puede generar un grafo alrededor del nombre de una persona detenida. El primer dato aparece en un recuadro, y a partir de ese nodo (un punto de intersección) se abren conexiones: cuándo se hizo una detención, dónde ocurrió o qué institución la perpetró. Poco a poco se pueden sumar datos, como relaciones familiares, si otras personas fueron detenidas en ese mismo evento o si pertenecían a la misma organización disidente. La información acaba por formar un rizoma, una red interconectada en la que no hay jerarquías y que sugiere una telaraña compleja de relaciones al alcance de unos cuantos clics.

Pero para establecer estas relaciones, el algoritmo necesita un repositorio —donde se almacena la información digital— y un sistema de anotación del que toma los datos. Para eso se digitalizan archivos, testimonios y otras fuentes documentales. De ahí, una persona (anotador) o un sistema de reconocimiento óptico de caracteres extrae datos específicos, organizándolos en clases (persona, organización, evento u otros), que a su vez se subdividen en nuevas categorías. Tal información permite crear los grafos desde una pantalla o visualizador. “Esa red de relaciones es la verdadera fortaleza del Angelus”, explica Martínez. “¿Qué cosas hay en común y qué cosas no? Por ejemplo, sobre una detención en Ciudad Juárez puedes agregar a todas las personas detenidas. Y cuando te das cuenta, tienes una serie de cuestiones superconectadas y aparece una cantidad de relaciones”.

Para quienes conforman el equipo, este sistema es una herramienta que funciona como extensión de la mente humana. Y de eso va la IA: de imitar el funcionamiento de las neuronas para resolver problemas relacionados con el comportamiento humano —como el lenguaje— a partir de matemáticas y lógica. Yankelevich cree que lo que hace el Angelus no es IA, porque el sistema todavía no es capaz de pensar por sí mismo: “Es un sistema que organiza documentos y datos en un gráfico de conocimiento, y por ahora quienes meten los documentos son humanos”. Pero el resto del equipo sí lo califica como IA, pues el objetivo no es que desarrolle conciencia, sino que entienda, clasifique y relacione información, algo que ya realiza.

La IA, en realidad, está presente en más cosas cotidianas de las que podemos pensar —y no son precisamente las más inteligentes—: desde la cámara del celular que mejora la iluminación de las fotos, los filtros de las redes sociales o el anuncio que salta cuando vemos un video en YouTube o Pinpoint hasta el sistema de Google que usé para transcribir automáticamente ocho horas de entrevistas en menos de cuarenta minutos. La ciencia de datos, que incluye áreas como la IA, es una disciplina muy demandada en la actualidad por las compañías interesadas en analizar grandes volúmenes de información para, por ejemplo, vendernos productos. “Estas cosas que están de moda, como la ciencia de datos y big data, la mayoría de los jóvenes se meten a estudiarlas porque tienen una muy buena perspectiva laboral en la industria. Muy pocos se van hacia la investigación”, opina Víctor Muñiz, de 48 años, investigador del Cimat de Monterrey.

El trabajo de Muñiz es programar módulos con IA para permitirle al algoritmo detectar patrones de manera automática entre la gran cantidad de información que existe en el sistema. En el Cimat están los servidores, cerebros computacionales, CPU sin teclados o pantallas, dentro de un gran cuarto refrigerado, donde habita físicamente el Angelus y hasta donde los integrantes del equipo se conectan remotamente. Optimista sobre el uso de la tecnología, el científico de datos lo ve como “un auxiliar a ciertas actividades que muy probablemente vas a hacer mal”. Fanático de la ciencia ficción, cree que todavía están lejanos los días en los que esta inteligencia desarrolle conciencia, como la reciente noticia de un sistema de IA de Google que afirmaba que tenía sentimientos. Por eso Muñiz cree que el Angelus, lejos de ensalzar el uso de la ciencia de datos, lo que hace es “desmitificar esto de la tecnología de la IA”.

En contraparte al cerebro de algoritmos, el Angelus tiene corazón humano. Al final, la decisión de qué es verdad y dónde buscar siempre será tomada por una persona, porque en todos los procesos hay quien revisa el sistema. “Creo que en estos proyectos es muy fácil perder esta idea de que hay personas detrás. El Angelus organiza los documentos, pero no es una máquina de la verdad; simplemente da a las personas que deciden las mejores herramientas”, afirma Muñiz.

Angelus, el algoritmo de la Guerra Sucia
Angelus, el algoritmo que escarba en la Guerra Sucia

{linea}

Héctor Bravo es un historiador de 34 años que se ha especializado en el estudio de grupos guerrilleros y procesos democráticos del siglo XX mexicano. Como encargado de buscar documentos y testimonios que alimenten al Angelus, sigue la máxima del equipo científico: todo lo que ingrese al sistema debe respaldarse por documentos, incluidos las contradicciones, las mentiras y los datos inciertos o incompletos de los archivos mismos.

Su primer desafío ha sido lidiar con y acceder a una cantidad monumental de información. De las más de nueve mil cajas que aloja el Archivo General de la Nación sobre la DFS y la DGIPS, Bravo refiere que apenas han tenido acceso a una decena (296 expedientes), pero lograron dar con otros acervos, por ejemplo, dieciocho mil fichas del acervo público Archivos de la Represión (realizado por Article 19), y unas doscientas cajas de la desaparecida Fiscalía Especial para Movimientos Sociales y Políticos del Pasado (Femospp). El repositorio también se ha alimentado con lo encontrado en los archivos de la Comisión Nacional de los Derechos Humanos, el Instituto de Administración y Avalúos de Bienes Nacionales, la Comisión Verdad y Justicia o Amnistía Internacional.

A Bravo le ha tocado ir a buscar los documentos a estas bodegas; a veces, vestirse con un mono blanco de perito que lo cubre de pies a cabeza, y pasar largas horas escaneando a una resolución de cuatrocientos puntos por pulgada. Suena fácil, pero no lo es. Los telegramas sueltan un polvillo que atasca el escáner. Los recortes de periódico se atoran. Hay hojas de papel mantequilla que pueden rasgarse a la menor manipulación. Los archivos no siempre están bien conservados. Hay hongos y óxido; grapas y broches que retirar y volver a colocar. Además, son muchas las horas que implica escanear o tomar fotografías a los expedientes, mientras el sol se cuela por la ventana de una triste bodega del Instituto de Ciencias Forenses.

Los grafos del conocimiento, como los que genera el Angelus, son posibles solo gracias al volumen de información que el mismo Estado generó sobre la Guerra Sucia. Y es que hay una cantidad apabullante de informes. Tan solo de la Femospp, el Angelus ha procesado once mil archivos, traducidos a más de cuatrocientos gigabytes de información, con los que casi ha llenado un disco duro de cuatro terabytes de capacidad.

Pero más allá del volumen, los archivos dicen mucho, cuenta Bravo. Algo que ha notado, pues resulta imposible no verlo entre tanta información que pasa frente a sus ojos, es que hay informes más crudos, dictados por teléfono, que las secretarias reconvertían en reportes. Informes que, dice, contenían frases con eufemismos para referirse a personas o al acto de la tortura: “Detuvimos un paquete y tuvimos una sesión intensiva de interrogatorio”, recuerda un caso. “Eso es brutal. Este primer informe venía ya tachado. Y venía más abajo otro informe que era el que sí se pasaba, con hojas membretadas y todo bonito”.

En uno de los grafos, Mariana Martínez dio con otra cosa terrible: la DFS había elaborado una ficha sobre una niña por ser hija de un guerrillero. “¿Por qué la DFS tendría que fichar a una niña?”, preguntan Martínez y Bravo. Esas son las cosas que emocionalmente no afectan a una computadora. Punto para la IA.

{linea}

Ante el volumen enorme de documentos que había que capturar —dieciocho mil ficheros del repositorio Archivos de la Represión, por ejemplo—, el equipo experimentó con un sistema de reconocimiento de caracteres, una forma de IA que le permite a una computadora leer un texto. Algunos teléfonos celulares ya son capaces de detectar palabras en imágenes. La situación se complica cuando hay errores ortográficos, sellos, recuadros; cuando los tipos de la máquina de escribir están disparejos o las letras en el papel, borrosas. Entonces hay que enseñarle a la máquina.

Juan Carlos González, científico de datos de veintisiete años, egresado de Matemáticas en la UNAM y que está por comenzar una maestría en Suecia, desarrolló la tecnología para automatizar la lectura de fichas como parte de su trabajo de tesis. “Hay toneladas de documentos. Alguien puede ir y leer cualquiera de ellos, el problema [es que] no es humanamente posible que una persona lea todos los documentos”, explica. Pero las computadoras también pueden aprender. Más bien, son entrenadas. Como un perro que recibe premios hasta que aprende a dar la pata, González entrenó a su sistema con un paquete de dos mil fichas para que aprendiera a leer correctamente los datos. “Haces ese proceso muchas veces hasta que la red comienza a intuir mediante fórmulas matemáticas, de tal forma que cuando le damos una imagen, la red sea capaz de decirnos: ‘Ah, esto sí es un fichero’”.

Pero el machine learning ni ofrece resultados pronto ni es barato. Y el sistema tampoco es perfecto. A nivel computacional se necesitan máquinas con poderosas placas de video como las que usan los jugadores profesionales de videojuegos o las de los equipos que minan criptomonedas. “Yo me acuerdo de que mi computadora se calentaba”, dice González, quien dejaba su máquina entrenando varios días, a veces para descubrir que había hecho algo mal y que el sistema “no aprendió lo que tenía que aprender”.

Ante más variedad de información, al sistema hay que enseñarle cosas nuevas. Y aunque aprenda a realizar una buena lectura, una computadora no puede —hasta que se le entrene— hacer inferencias, como reconocer que dos nombres distintos pueden ser la misma persona, algo fundamental cuando el uso de alias era una práctica habitual de los disidentes en la Guerra Sucia. Por eso, el toque humano es importante. Y aquí es donde interviene Donají Valencia, una latinoamericanista de veintisiete años a quien le apasiona José Revueltas. Su conocimiento histórico de la Guerra Fría y de los hechos de la contrainsurgencia resultaron fundamentales al momento de capturar y revisar lo que se le provee al algoritmo. Punto para el ser humano.

{linea}

La consigna principal es que a las personas desaparecidas se les busca en vida. Por eso el Angelus se rige bajo cuatro principios: que las personas merecen ser encontradas, que las familias merecen saber qué pasó con sus familiares, que la sociedad merece justicia y que la tecnología de hoy es una herramienta para la búsqueda. Javier Yankelevich, la mente detrás de esta red neuronal, sabe claramente qué espera del sistema: “Si tú no tienes una arquitectura de información que responda a esta complejidad, vas a terminar mirando los árboles y no el bosque”, dice. El procesamiento masivo del Angelus y su capacidad de interconectar pueden además arrojar luz a esos patrones de represión: qué sucedió, en qué lugares y dónde no se ha buscado. Ese es el bosque que se quiere ver.

Aunados a esta capacidad analítica, Yankelevich enumera otros propósitos: que el conocimiento de todos los archivos revisados perdure a pesar de los cambios de personal en la CNB; ofrecer a las familias, en tiempo real, el mismo nivel de información que tiene el equipo; dar con puntos reales para buscar personas, y que el repositorio funcione como un espacio de memoria. Actualmente, el visualizador del sistema es de acceso restringido, solo para los desarrolladores, pero se espera que eventualmente haya una interfaz de consulta pública.

Pero es Mariana Martínez quien ofrece otra posibilidad en el país de las más de cien mil personas desaparecidas. “Si se ajusta el diseño, puede funcionar para otras desapariciones”. Y aunque será difícil, porque las desapariciones contemporáneas no tienen tanta documentación oficial, ella insiste en el poder de análisis de la IA para detectar vínculos que a simple vista no somos capaces de encontrar. Por eso el equipo ha insistido en que todo su desarrollo de algoritmos sea abierto y de uso compartido.

El Angelus vuela a contrarreloj y la indignación es su mayor motor. Cuando Juan Carlos Mendoza, hijo de Juan Carlos Mendoza Galoz, normalista disidente desaparecido el 30 de diciembre de 1981, durante la Guerra Sucia, habla sobre el desarrollo de este sistema, admite que la idea le emociona, pero escapa de su entendimiento: “Es una cosa de ciencia ficción”.

A diferencia del Angelus Novus, el de la Guerra Sucia se resiste a replegar las alas; regresa a hurgar en el pasado y se zambulle en él. Mitad máquina y mitad humanidad, este Ángel de la Historia se dispone a enfrentar el huracán con ojos y mente dedicados a la búsqueda de respuestas. Porque aspira a despertar a los que se llevaron. A no olvidar la catástrofe. A recomponer lo despedazado.

{linea}

Esta historia se publicó en la edición dedicada a "La revolución tecnológica".

Newsletter
¡Gracias!
Oops! Something went wrong while submitting the form.

Angelus: el algoritmo que escarba en la Guerra Sucia

Angelus: el algoritmo que escarba en la Guerra Sucia

11
.
10
.
22
AAAA
Tiempo de Lectura: 00 min

Está en desarrollo un proyecto tecnológico del Centro de Investigación en Matemáticas y la Comisión Nacional de Búsqueda, integrado por inteligencia artificial, que podrá indagar en uno de los periodos históricos más duros de nuestro país, para localizar a personas desaparecidas, proveer puntos de búsqueda y detectar patrones. Y tiene un nombre: Angelus.

Texto de
Fotografía de
Realización de
Ilustración de
Traducción de

Esta interpretación del Angelus Novus es una de las cosas que marcaron a Javier Yankelevich en su formación como historiador en la UNAM. Walter Benjamin se había obsesionado con el cuadro de Paul Klee de 1920, en el que un ángel mira hacia atrás, con los ojos y la boca abiertos; notaba cómo un huracán se enredaba en sus alas, y, aunque lo empujaba hacia adelante, su mirada insistía en abrazar el pasado y los hechos que lo precedieron. Es el Ángel de la Historia. Esta acuarela no solo acompañó al filósofo alemán hasta su muerte en 1940, sino que también lo inspiró a escribir Tesis sobre la filosofía de la historia, obra en la que explora una visión pesimista de esta disciplina. “Donde a nosotros se nos manifiesta una cadena de datos, él ve una catástrofe única que amontona incansablemente ruina sobre ruina, arrojándolas a sus pies. Bien quisiera detenerse, despertar a los muertos y recomponer lo despedazado”, Benjamin apuntó.

La tragedia de la desaparición de los 43 normalistas de Ayotzinapa despertó el interés de Yankelevich por este fenómeno cuando estudiaba la maestría en Ciencias Sociales, pero también confiesa que en su familia “el tema de la desaparición ha estado presente”. Con el paso de los años centró su investigación académica en la desaparición forzada y conoció a Karla Quintana Osuna, quien se postulaba para dirigir la Comisión Nacional de Búsqueda (CNB) y lo invitó a trabajar ahí. Desde entonces cruza bases de datos y compara “listas de personas que estamos buscando con cualquier otra lista”. Gracias a eso, en años recientes han dado con las osamentas de personas desaparecidas. Cuando relata esto, su voz grave y profunda suena, además, cansada y apesadumbrada: él también debe notificar a las familias y todo lo que eso implica.

Como era “impresionante lo que revelaban los cruces de bases de datos”, en 2019, Yankelevich comenzó a gestar el Angelus, un sistema computacional para escarbar en terabytes de información y realizar vínculos complejísimos —que escapan a la capacidad humana— sobre hechos relacionados con la desaparición forzada durante el periodo conocido como la Guerra Sucia o contrainsurgencia, entre los años sesenta y ochenta. El equipo que Yankelevich lidera lo ha desarrollado a través de una red neuronal de algoritmos, machine learning e inteligencia artificial (IA), que podrá conformar una herramienta tecnológica para encontrar personas con vida, proveer puntos de búsqueda y detectar patrones matemáticos sobre detenciones y desapariciones, y así comprender mejor uno de los más duros episodios de nuestra historia, del que hoy se reconoce la desaparición de 798 personas, según el Registro Nacional de Personas Desaparecidas y No Localizadas.

Tres años antes de que el Gobierno federal creara una comisión para esclarecer los delitos y las graves violaciones a los derechos humanos de aquellos años, el sistema Angelus se diseñó para ofrecer la esperanza de detectar un patrón lógico entre la detención y la desaparición a partir de los datos contenidos en un mar de miles de archivos de instituciones, como la extinta Dirección Federal de Seguridad (DFS) —una fuerza de inteligencia encargada de espiar, detener y desaparecer forzadamente a grupos disidentes—o la Dirección General de Investigaciones Políticas y Sociales (DGIPS). Hasta 2020, el Archivo General de la Nación resguardaba 9 559 cajas con documentos de la Guerra Sucia, únicamente de estas dos instituciones. Si una persona quisiera exponer las relaciones entre los eventos relatados en estos archivos, como nombres de personas, fechas, organizaciones y más, sería una tarea que requeriría años, con el riesgo de olvidar algo en el camino. Pero, clic, clic, clic, si el Angelus tuviera acceso a toda esa información, podría hacerlo en segundos.

{linea}

Este Ángel de la Historia nació como una hoja de cálculo de Excel. Javier Yankelevich se refiere a esta versión como el “Angelus 1.0”. Eran columnas con parámetros que indicaban “nombre”, “número de expediente”, “víctima”, “testigo” o “perpetrador”, entre otros datos. El proyecto surgía desde la Dirección de Operaciones de Búsqueda, dentro de la CNB. Pero entre las principales limitaciones que encontraban estaban que su llenado difícilmente podía ser colaborativo, que no en todas las entradas de datos tenían un documento listo para visualizarse y que no podían establecerse relaciones, a pesar de que notaban conexiones o la repetición de elementos.

Entonces, cuando Yankelevich cocinaba la idea, Mariana Martínez, de 34 años, doctora en Biomedicina, llegó al equipo técnico del Angelus: un grupo de cuatro personas que se apoya de un equipo extendido de voluntarios, conformado por tesistas, estudiantes que realizan su servicio social, becarios y científicos sociales vinculados a la CNB, así como al Centro de Investigación en Matemáticas (Cimat). “Quizá mi perfil es el más raro de todos”, asegura Martínez. “Todo el mundo dice que [los biólogos] somos ‘cuentapatas’, pero una cosa es contar las patas de una hormiga y otra contar las patas de todas las hormigas en un bosque”. Así que como la programación y otros procesos computacionales fueron parte de su formación, rápidamente notó las limitaciones de aquel Excel y ofreció una solución. Junto con Víctor Mireles, maestro en Ciencias de la Computación, dio con el término que buscaban: un grafo del conocimiento, una figura con información, como nombres de personas u organizaciones, lugares, fechas y eventos, conectada a partir de contexto y razonamiento. “Se dice fácil, pero a las computadoras esto no les entra. Hubo que empezar a decidir qué datos te interesan, qué relaciones te interesan y qué significan. Fueron muchas pláticas”, recuerda.

El Angelus puede generar un grafo alrededor del nombre de una persona detenida. El primer dato aparece en un recuadro, y a partir de ese nodo (un punto de intersección) se abren conexiones: cuándo se hizo una detención, dónde ocurrió o qué institución la perpetró. Poco a poco se pueden sumar datos, como relaciones familiares, si otras personas fueron detenidas en ese mismo evento o si pertenecían a la misma organización disidente. La información acaba por formar un rizoma, una red interconectada en la que no hay jerarquías y que sugiere una telaraña compleja de relaciones al alcance de unos cuantos clics.

Pero para establecer estas relaciones, el algoritmo necesita un repositorio —donde se almacena la información digital— y un sistema de anotación del que toma los datos. Para eso se digitalizan archivos, testimonios y otras fuentes documentales. De ahí, una persona (anotador) o un sistema de reconocimiento óptico de caracteres extrae datos específicos, organizándolos en clases (persona, organización, evento u otros), que a su vez se subdividen en nuevas categorías. Tal información permite crear los grafos desde una pantalla o visualizador. “Esa red de relaciones es la verdadera fortaleza del Angelus”, explica Martínez. “¿Qué cosas hay en común y qué cosas no? Por ejemplo, sobre una detención en Ciudad Juárez puedes agregar a todas las personas detenidas. Y cuando te das cuenta, tienes una serie de cuestiones superconectadas y aparece una cantidad de relaciones”.

Para quienes conforman el equipo, este sistema es una herramienta que funciona como extensión de la mente humana. Y de eso va la IA: de imitar el funcionamiento de las neuronas para resolver problemas relacionados con el comportamiento humano —como el lenguaje— a partir de matemáticas y lógica. Yankelevich cree que lo que hace el Angelus no es IA, porque el sistema todavía no es capaz de pensar por sí mismo: “Es un sistema que organiza documentos y datos en un gráfico de conocimiento, y por ahora quienes meten los documentos son humanos”. Pero el resto del equipo sí lo califica como IA, pues el objetivo no es que desarrolle conciencia, sino que entienda, clasifique y relacione información, algo que ya realiza.

La IA, en realidad, está presente en más cosas cotidianas de las que podemos pensar —y no son precisamente las más inteligentes—: desde la cámara del celular que mejora la iluminación de las fotos, los filtros de las redes sociales o el anuncio que salta cuando vemos un video en YouTube o Pinpoint hasta el sistema de Google que usé para transcribir automáticamente ocho horas de entrevistas en menos de cuarenta minutos. La ciencia de datos, que incluye áreas como la IA, es una disciplina muy demandada en la actualidad por las compañías interesadas en analizar grandes volúmenes de información para, por ejemplo, vendernos productos. “Estas cosas que están de moda, como la ciencia de datos y big data, la mayoría de los jóvenes se meten a estudiarlas porque tienen una muy buena perspectiva laboral en la industria. Muy pocos se van hacia la investigación”, opina Víctor Muñiz, de 48 años, investigador del Cimat de Monterrey.

El trabajo de Muñiz es programar módulos con IA para permitirle al algoritmo detectar patrones de manera automática entre la gran cantidad de información que existe en el sistema. En el Cimat están los servidores, cerebros computacionales, CPU sin teclados o pantallas, dentro de un gran cuarto refrigerado, donde habita físicamente el Angelus y hasta donde los integrantes del equipo se conectan remotamente. Optimista sobre el uso de la tecnología, el científico de datos lo ve como “un auxiliar a ciertas actividades que muy probablemente vas a hacer mal”. Fanático de la ciencia ficción, cree que todavía están lejanos los días en los que esta inteligencia desarrolle conciencia, como la reciente noticia de un sistema de IA de Google que afirmaba que tenía sentimientos. Por eso Muñiz cree que el Angelus, lejos de ensalzar el uso de la ciencia de datos, lo que hace es “desmitificar esto de la tecnología de la IA”.

En contraparte al cerebro de algoritmos, el Angelus tiene corazón humano. Al final, la decisión de qué es verdad y dónde buscar siempre será tomada por una persona, porque en todos los procesos hay quien revisa el sistema. “Creo que en estos proyectos es muy fácil perder esta idea de que hay personas detrás. El Angelus organiza los documentos, pero no es una máquina de la verdad; simplemente da a las personas que deciden las mejores herramientas”, afirma Muñiz.

Angelus, el algoritmo de la Guerra Sucia
Angelus, el algoritmo que escarba en la Guerra Sucia

{linea}

Héctor Bravo es un historiador de 34 años que se ha especializado en el estudio de grupos guerrilleros y procesos democráticos del siglo XX mexicano. Como encargado de buscar documentos y testimonios que alimenten al Angelus, sigue la máxima del equipo científico: todo lo que ingrese al sistema debe respaldarse por documentos, incluidos las contradicciones, las mentiras y los datos inciertos o incompletos de los archivos mismos.

Su primer desafío ha sido lidiar con y acceder a una cantidad monumental de información. De las más de nueve mil cajas que aloja el Archivo General de la Nación sobre la DFS y la DGIPS, Bravo refiere que apenas han tenido acceso a una decena (296 expedientes), pero lograron dar con otros acervos, por ejemplo, dieciocho mil fichas del acervo público Archivos de la Represión (realizado por Article 19), y unas doscientas cajas de la desaparecida Fiscalía Especial para Movimientos Sociales y Políticos del Pasado (Femospp). El repositorio también se ha alimentado con lo encontrado en los archivos de la Comisión Nacional de los Derechos Humanos, el Instituto de Administración y Avalúos de Bienes Nacionales, la Comisión Verdad y Justicia o Amnistía Internacional.

A Bravo le ha tocado ir a buscar los documentos a estas bodegas; a veces, vestirse con un mono blanco de perito que lo cubre de pies a cabeza, y pasar largas horas escaneando a una resolución de cuatrocientos puntos por pulgada. Suena fácil, pero no lo es. Los telegramas sueltan un polvillo que atasca el escáner. Los recortes de periódico se atoran. Hay hojas de papel mantequilla que pueden rasgarse a la menor manipulación. Los archivos no siempre están bien conservados. Hay hongos y óxido; grapas y broches que retirar y volver a colocar. Además, son muchas las horas que implica escanear o tomar fotografías a los expedientes, mientras el sol se cuela por la ventana de una triste bodega del Instituto de Ciencias Forenses.

Los grafos del conocimiento, como los que genera el Angelus, son posibles solo gracias al volumen de información que el mismo Estado generó sobre la Guerra Sucia. Y es que hay una cantidad apabullante de informes. Tan solo de la Femospp, el Angelus ha procesado once mil archivos, traducidos a más de cuatrocientos gigabytes de información, con los que casi ha llenado un disco duro de cuatro terabytes de capacidad.

Pero más allá del volumen, los archivos dicen mucho, cuenta Bravo. Algo que ha notado, pues resulta imposible no verlo entre tanta información que pasa frente a sus ojos, es que hay informes más crudos, dictados por teléfono, que las secretarias reconvertían en reportes. Informes que, dice, contenían frases con eufemismos para referirse a personas o al acto de la tortura: “Detuvimos un paquete y tuvimos una sesión intensiva de interrogatorio”, recuerda un caso. “Eso es brutal. Este primer informe venía ya tachado. Y venía más abajo otro informe que era el que sí se pasaba, con hojas membretadas y todo bonito”.

En uno de los grafos, Mariana Martínez dio con otra cosa terrible: la DFS había elaborado una ficha sobre una niña por ser hija de un guerrillero. “¿Por qué la DFS tendría que fichar a una niña?”, preguntan Martínez y Bravo. Esas son las cosas que emocionalmente no afectan a una computadora. Punto para la IA.

{linea}

Ante el volumen enorme de documentos que había que capturar —dieciocho mil ficheros del repositorio Archivos de la Represión, por ejemplo—, el equipo experimentó con un sistema de reconocimiento de caracteres, una forma de IA que le permite a una computadora leer un texto. Algunos teléfonos celulares ya son capaces de detectar palabras en imágenes. La situación se complica cuando hay errores ortográficos, sellos, recuadros; cuando los tipos de la máquina de escribir están disparejos o las letras en el papel, borrosas. Entonces hay que enseñarle a la máquina.

Juan Carlos González, científico de datos de veintisiete años, egresado de Matemáticas en la UNAM y que está por comenzar una maestría en Suecia, desarrolló la tecnología para automatizar la lectura de fichas como parte de su trabajo de tesis. “Hay toneladas de documentos. Alguien puede ir y leer cualquiera de ellos, el problema [es que] no es humanamente posible que una persona lea todos los documentos”, explica. Pero las computadoras también pueden aprender. Más bien, son entrenadas. Como un perro que recibe premios hasta que aprende a dar la pata, González entrenó a su sistema con un paquete de dos mil fichas para que aprendiera a leer correctamente los datos. “Haces ese proceso muchas veces hasta que la red comienza a intuir mediante fórmulas matemáticas, de tal forma que cuando le damos una imagen, la red sea capaz de decirnos: ‘Ah, esto sí es un fichero’”.

Pero el machine learning ni ofrece resultados pronto ni es barato. Y el sistema tampoco es perfecto. A nivel computacional se necesitan máquinas con poderosas placas de video como las que usan los jugadores profesionales de videojuegos o las de los equipos que minan criptomonedas. “Yo me acuerdo de que mi computadora se calentaba”, dice González, quien dejaba su máquina entrenando varios días, a veces para descubrir que había hecho algo mal y que el sistema “no aprendió lo que tenía que aprender”.

Ante más variedad de información, al sistema hay que enseñarle cosas nuevas. Y aunque aprenda a realizar una buena lectura, una computadora no puede —hasta que se le entrene— hacer inferencias, como reconocer que dos nombres distintos pueden ser la misma persona, algo fundamental cuando el uso de alias era una práctica habitual de los disidentes en la Guerra Sucia. Por eso, el toque humano es importante. Y aquí es donde interviene Donají Valencia, una latinoamericanista de veintisiete años a quien le apasiona José Revueltas. Su conocimiento histórico de la Guerra Fría y de los hechos de la contrainsurgencia resultaron fundamentales al momento de capturar y revisar lo que se le provee al algoritmo. Punto para el ser humano.

{linea}

La consigna principal es que a las personas desaparecidas se les busca en vida. Por eso el Angelus se rige bajo cuatro principios: que las personas merecen ser encontradas, que las familias merecen saber qué pasó con sus familiares, que la sociedad merece justicia y que la tecnología de hoy es una herramienta para la búsqueda. Javier Yankelevich, la mente detrás de esta red neuronal, sabe claramente qué espera del sistema: “Si tú no tienes una arquitectura de información que responda a esta complejidad, vas a terminar mirando los árboles y no el bosque”, dice. El procesamiento masivo del Angelus y su capacidad de interconectar pueden además arrojar luz a esos patrones de represión: qué sucedió, en qué lugares y dónde no se ha buscado. Ese es el bosque que se quiere ver.

Aunados a esta capacidad analítica, Yankelevich enumera otros propósitos: que el conocimiento de todos los archivos revisados perdure a pesar de los cambios de personal en la CNB; ofrecer a las familias, en tiempo real, el mismo nivel de información que tiene el equipo; dar con puntos reales para buscar personas, y que el repositorio funcione como un espacio de memoria. Actualmente, el visualizador del sistema es de acceso restringido, solo para los desarrolladores, pero se espera que eventualmente haya una interfaz de consulta pública.

Pero es Mariana Martínez quien ofrece otra posibilidad en el país de las más de cien mil personas desaparecidas. “Si se ajusta el diseño, puede funcionar para otras desapariciones”. Y aunque será difícil, porque las desapariciones contemporáneas no tienen tanta documentación oficial, ella insiste en el poder de análisis de la IA para detectar vínculos que a simple vista no somos capaces de encontrar. Por eso el equipo ha insistido en que todo su desarrollo de algoritmos sea abierto y de uso compartido.

El Angelus vuela a contrarreloj y la indignación es su mayor motor. Cuando Juan Carlos Mendoza, hijo de Juan Carlos Mendoza Galoz, normalista disidente desaparecido el 30 de diciembre de 1981, durante la Guerra Sucia, habla sobre el desarrollo de este sistema, admite que la idea le emociona, pero escapa de su entendimiento: “Es una cosa de ciencia ficción”.

A diferencia del Angelus Novus, el de la Guerra Sucia se resiste a replegar las alas; regresa a hurgar en el pasado y se zambulle en él. Mitad máquina y mitad humanidad, este Ángel de la Historia se dispone a enfrentar el huracán con ojos y mente dedicados a la búsqueda de respuestas. Porque aspira a despertar a los que se llevaron. A no olvidar la catástrofe. A recomponer lo despedazado.

{linea}

Esta historia se publicó en la edición dedicada a "La revolución tecnológica".

Newsletter
¡Gracias!
Oops! Something went wrong while submitting the form.
No items found.

Suscríbete a nuestro Newsletter

¡Bienvenido! Ya eres parte de nuestra comunidad.
Hay un error, por favor intenta nuevamente.