texas-moody

Redacciones de América Latina y Estados Unidos buscan democratizar el uso de la inteligencia artificial para analizar grandes cantidades de documentos públicos

La mayoría de los países de América Latina cuentan con leyes de transparencia y acceso a la información pública. Inclusive, algunas de estas leyes, como la ley mexicana y la brasileña, están consideradas entre las mejores del mundo, de acuerdo con un informe de la UNESCO publicado en 2017.

Estas legislaciones buscan garantizar que periodistas y ciudadanos en general tengan acceso a documentos con información relevante sobre el actuar de dependencias y funcionarios públicos y establecen que el Estado está obligado a entregar esta información en formatos digitales abiertos.

Sin embargo, en la práctica, el acceso a la información pública en América Latina no es tan sencillo. Frecuentemente, los periodistas que solicitan datos públicos se topan con que las dependencias entregan la información en formatos no estructurados, como PDFs, archivos de texto o escaneos, en los que los datos están desorganizados, por lo que su análisis se vuelve una tarea muy compleja.

Screenshot of the YouTube livestream about the DockIns project

Mago Torres, del Knight Lab de la Northwestern University, moderó la presentación de DockIns vía streaming, en la que participaron Delfina Arambillet, de La Nación; y Michael Morisy, de MuckRock. (Foto: Captura de pantalla de transmisión en YouTube).

 

 

“En Latinoamérica, la mayoría de los datos públicos están en grandes volúmenes de  documentos no estructurados. No es que se pueda apretar un botón y descargar un [archivo en formato] CSV y tener todo estructurado, hermoso y analizar a ver si hay corrupción o conocer qué compra el estado”, dijo a LatAm Journalism Review (LJR) Delfina Arambillet, periodista de datos e innovación del periódico La Nación, de Argentina.

Varias organizaciones de noticias y de tecnología en el mundo han desarrollado herramientas digitales para facilitar el análisis de documentos no estructurados, la mayoría de ellos basados en inteligencia artificial. Sin embargo, para la mayoría de los medios pequeños e independientes en América Latina, sigue siendo difícil acceder a esas tecnologías y usarlas en sus investigaciones.

Con ese problema en mente, Arambillet y un equipo de periodistas de distintas redacciones del continente americano se unieron para crear una herramienta que busca democratizar el uso de la inteligencia artificial para el análisis de grandes cantidades de documentos para medios que no precisamente cuentan con expertos técnicos en sus equipos.

Se trata de DockIns, una herramienta que, mediante técnicas de aprendizaje automático y procesamiento de lenguaje natural (NLP, por sus siglas en inglés), analiza y clasifica documentos con contenido no estructurado, extrae información de estos documentos e identifica temáticas y entidades, es decir, las piezas de información más relevantes de un texto.

La herramienta fue desarrollada en 2021 como parte de los Collab Challenges, la iniciativa global de JournalismAI y Google News Initiative que reúne a medios de múltiples países para desarrollar innovaciones en periodismo mediante inteligencia artificial. Arambillet y sus compañeros de La Nación Momi Peralta y Martín Pascua formaron equipo con Claudia Chávez, Gianco Huamán y Gianfranco Rossi, de Ojo Público (Perú); Rigo Carvajal, de CLIP (Costa Rica); y Mitchell Kotler y Michael Morisy, de MuckRock (Estados Unidos).

“Coincidimos que teníamos en común que acceder a los datos de compras en nuestros países es difícil y que la mayoría [de estos datos] se encontraban en estos documentos des-estructurados, en distintos sitios, en medio de un caos”, dijo Arambillet. “Queríamos buscar la forma de desarrollar una herramienta, un método que pudiera ayudar al periodista a encontrar insights de manera rápida y un poco más fácil, y sin requerir tanto del trabajo de programadores”.

Ojo Público es una de las pocas redacciones latinoamericanas con experiencia en el uso de inteligencia artificial para el análisis de grandes cantidades de documentos. En 2019, el medio nativo digital peruano, especializado en periodismo de investigación, desarrolló Funes, un algoritmo que facilita el análisis de documentos y encuentra indicadores de riesgo para detectar posibles rastros de corrupción en contrataciones públicas.

Por su parte, MuckRock cuenta con DocumentCloud, su plataforma de código abierto para el alojamiento y análisis de documentos, además de haber desarrollado SideKick, una herramienta de aprendizaje automático integrada a DocumentCloud, diseñada para clasificar documentos de acuerdo con etiquetas definidas por el propio usuario.

El equipo detrás de DockIns tomó parte del trabajo que MuckRock había desarrollado y le agregó capas de programación para que fuera capaz de trabajar con documentos en español, además de que optimizaron su capacidad de etiquetado y clasificación.

“[DockIns] Permite a un periodista subir grandes volúmenes de documentos y, a partir de esos documentos, encontrar entidades, por ejemplo calles, nombres de personas, nombres de empresas, montos en países, etcétera, y encontrar conexiones entre esos documentos y, a su vez, hacer una clasificación de esos documentos”, explicó Arambillet.

Para reconocer esas entidades, la herramienta utiliza NER (reconocimiento de entidades nombradas, por sus siglas en inglés), una tecnología de procesamiento de lenguaje natural que identifica elementos clave en un texto, lo que ayuda a clasificar información no estructurada y detectar información relevante.

“Una vez que se pasa por este procedimiento de reconocimiento de entidades, lo que se hace es clasificar por temas los documentos. La herramienta lo que hace es, a partir de un algoritmo, encontrar de qué tópico pueden estar hablando. Por ejemplo, si es una compra, un llamado a licitación, una compra de alimentos, una compra de armas…”, explicó la periodista. “Uno puede ir customizando la herramienta para ir ‘entrenando’ el algoritmo para que vaya reconociendo distintos tópicos”.

En un siguiente paso, la herramienta permite encontrar relaciones entre documentos a partir de las entidades extraídas.

La ventaja de DockIns es que no se requiere de escribir código o programar para entrenar el algoritmo, sino que a partir de los resultados que arroja, el usuario puede calificar su desempeño y eso va refinando la calidad de los resultados de acuerdo con necesidades específicas.

“Constantemente la inteligencia del sistema se va retroalimentando de lo que uno va haciendo, en el sentido de que si hoy clasificaste 10 documentos y los clasificaste por temas, eso queda asignado a ese proyecto, entonces después asignas otros diez documentos y se te va generando un historial de esa educación”, dijo a LJR Martín Pascua, desarrollador de La Nación, quien formó parte del equipo creador de DockIns. “Cuando vuelves a agarrar este proyecto, ya tienes la clasificación previa y lo vuelves a entrenar, entonces es un reentrenamiento constante”.

Durante los seis meses que duró el Collab Challenge, el equipo de DockIns pasó mucho tiempo probando distintos modelos de NER, investigando sobre distintas herramientas y realizando procedimientos de prueba-error para optimizar la plataforma lo mejor posible. Al final de la iniciativa, el equipo logró completar un prototipo de la herramienta y un flujo de trabajo para que cualquier periodista pueda realizar el procedimiento.

“La creación base del workflow era que, con todas las herramientas que hay, de qué manera podemos unirlas y facilitarle la tarea en sí al periodista”, dijo Pascua. “Una parte fue sumarle ciertas capas de desarrollo a DocumentCloud y otro poco fue documentar el workflow para que lo puedan usar”.

La mayoría de los integrantes del equipo siguen en comunicación con la intención de construir una herramienta que combine todos los elementos desarrollados en una interfaz de usuario final.

“La idea es lograr crear una interfaz que te junte todo ese workflow resumido en un interfaz. Imagínate un input donde el periodista puede subir documentos, procesarlos y visualizar los resultados”, agregó Arambillet.

Una vez concretada, la herramienta podrá no solo agilizar las investigaciones basadas en datos públicos y ahorrar a los periodistas horas de trabajo leyendo y clasificando documentos, descifrando su contenido y encontrando entidades relevantes, sino que también ayudará a analizar cualquier tipo de documentos no estructurados para casi todo tipo de investigaciones basadas en dato

“La herramienta fue concebida para poder investigar documentos públicos que están hechos de esa forma para que no se puedan investigar, o también por costumbre del Estado de que no se digitalizan. Pero también puede llegar a tener otros otros usos: si uno tiene un montón de PDFs y quiere ver de qué tratan, qué cosas tienen, etcétera, esto se puede utilizar tranquilamente para para encontrar insights rápidamente”, dijo Arambillet.

Poniendo la inteligencia artificial al alcance de todos

Aunque DockIns aún está en la fase de prototipo, sus creadores creen que su uso abierto en las redacciones de América Latina contribuirá a democratizar el uso de la inteligencia artificial para procesar información contenida en grandes cantidades de documentos no estructurados.

“Yo creo que la innovación está en la facilitación, en poder dar herramientas y permitir que personas que no saben código lo puedan ejecutar y puedan correr estos análisis”, dijo Arambillet. “Es muy difícil ponerse a leer documentos y encontrar insights, es casi una pesadilla, así que yo creo que esa es la innovación: facilitar en todo sentido al periodista el poder acceder a estos análisis y también de poder facilitar la información que de otra manera no se podría analizar”.

El equipo comprobó que las diferentes aplicaciones de aprendizaje automático y procesamiento de lenguaje natural que probaron durante el desarrollo DockIns tuvieron  un desempeño óptimo con documentos en inglés, pero no así con archivos en español.

Screenshot of the YouTube livestream about the DockIns project

La herramienta permite subir grandes volúmenes de documentos y encontrar en ellos entidades y conexiones. (Foto: Captura de pantalla de transmisión en YouTube).

 

 

Los miembros de habla hispana del equipo trabajaron en ajustar la herramienta para que tuviera un similar desempeño con documentos en ambos idiomas, de modo que resulte eficiente en las redacciones de gran parte de América Latina.

“Todo lo que estaba armado estaba sobre todo en inglés. Lo que se hizo también fue un trabajo que sirve para los valores del idioma español”, explicó Pascua. “Los algoritmos están preparados en inglés, entonces también este entrenamiento y estas capas que se tuvieron que armar fueron para que funcionen en nuestra lengua”.

Con su trabajo colaborativo durante el Collab Challenge, los integrantes del equipo de DockIns comprobaron la importancia de la mancuerna entre periodistas y desarrolladores en las salas de redacción. En La Nación, la colaboración cercana entre profesionales del área editorial y del área técnica es algo común desde hace varios años, sobre todo en La Nación Data, el área de periodismo de datos del diario argentino.

Por ello, este año los organizadores de los Collab Challenges seleccionarán a dos participantes de cada medio, uno del área editorial y otro de algún área técnica, para su nueva iniciativa colaborativa, denominada AI Fellowship Programme. La idea es formar cinco equipos que integren a reporteros, editores e investigadores con desarrolladores, diseñadores web y programadores de las organizaciones de noticias.

“La experiencia personal de vincularme con el periodista también suma mucho”, dijo Pascua. “En lo personal, me suma muchísimo porque como que se transforma la parte técnica en algo humano, en algo tangible, en entender la problemática real de por qué la herramienta, por qué usarla o cómo se puede mejorar, y eso se da en esa sinergia. [...] Y el Collab Challenge potenció todo eso porque también pudimos vincularnos con otras redacciones, y ver cómo piensan en otro país”.

Aunque Arambillet reconoce que el desarrollo de herramientas de inteligencia artificial todavía es algo que requiere inversiones económicas significativas que la mayoría de los medios en la región no pueden permitirse. De ahí la importancia del trabajo colaborativo y de herramientas como DockIns, que buscan hacer esas tecnologías más accesibles.

“La tecnología en sí siempre puede realizar un montón de cosas que nosotros no podemos. Y es una gran oportunidad darse el espacio para aprender cómo en el largo plazo va a ser mucho más redituable o mucho más beneficioso para el medio poder aplicar estas tecnologías”, dijo la periodista.