Una de las quejas más comunes de los periodistas que trabajan analizando datos es que las tablas que reciben de entidades u organizaciones vienen “sucias” o en formatos no adecuados. El equipo de la fundación Open Knowledge, una red global sin fines de lucro que promueve el contenido y los datos abiertos, escuchó estos problemas y creó una solución: Open Data Editor (ODE), una herramienta gratuita y de código abierto diseñada para detectar errores en conjuntos de datos.
“Cuando me sumo al equipo, una de las cosas que decidimos fue no escribir una línea de código hasta no hablar con la gente que trabaja con datos: activistas, periodistas, organizaciones no gubernamentales”, dijo a LatAm Journalism Review (LJR) Romina Colman, product owner de ODE. “La gente repetía una y otra vez que pasaban mucho tiempo mirando las tablas porque ninguno de los datos venían limpios. O sea, perdían tiempo explorando los datos para poder detectar los errores, luego limpiar y finalmente contar historias”.
Para usar ODE, los interesados deben descargar la aplicación en sus dispositivos, ya sea MacOS, Windows o Ubuntu.
Una vez descargado, la app da la opción de cargar tablas en Excel, CSV (archivos separados por coma) o a través de un link (Google Sheets). Después de cargados los datos, ODE automáticamente realiza un reporte de los errores que consigue.
“ODE le dice al usuario qué problemas tienen las tablas. Pueden ser nombres duplicados en las columnas, filas completamente vacías de datos o problemas en los formatos. Por ejemplo, que en una columna con fechas haya una celda con link”, dijo Colman.
ODE está disponible en inglés, español, francés y portugués.
La aplicación permite a los usuarios cargar tablas en formato Excel, CSV o a través de un enlace. Una vez cargados los datos, ODE genera automáticamente un informe con los errores que encuentra. (Foto: captura de pantalla).
Para Colman, uno de los valores principales del ODE es que el usuario no necesita comprender el lenguaje técnico para poder usarla. Además, desde el lanzamiento de su primer piloto en octubre de 2024, han ido perfeccionando la herramienta gracias a la retroalimentación de organizaciones, medios y periodistas que han estado integrando ODE a sus procesos de trabajo.
Uno de esos medios es Data Crítica en México, quienes investigan temas de género, crisis climática y luchas anticoloniales en Latinoamérica.
Según dijo a LJR su fundador y director, Gibran Mena, han estado probando ODE para limpiar sus bases de datos y actualizar investigaciones sobre el uso del suelo y derechos ambientales.
“La herramienta tiene mucho potencial particularmente en su componente de inteligencia artificial para convertirse en un buen asistente en la limpieza de datos para periodistas”, dijo Mena. “ODE hace muy bien lo de colorear en rojo los espacios donde hay valores faltantes y va guiando a los periodistas en el proceso de limpiar sus propias bases de datos”.
También organizaciones latinoamericanas como la Asociación Civil por la Igualdad y la Justicia (ACIJ), quienes trabajan en la defensa de los derechos y el fortalecimiento de la democracia en Argentina y mantiene una relación muy activa con los medios de comunicación de ese país, han usado ODE en sus procesos.
“Decidimos usar ODE porque encontramos una herramienta simple, liviana y muy potente que nos ayuda a trabajar mejor con datos complejos y a producir información confiable para el debate público”, dijo a LJR Eduardo Ferreyra, codirector de ACIJ. “ODE nos dio exactamente eso: una forma ágil de detectar errores, navegar bases y estandarizar procesos, ahorrando tiempo y mejorando la calidad de nuestros análisis”.
Según Ferreyra, un ejemplo claro del impacto de ODE en sus procesos fue la Encuesta Permanente de Hogares (EPH), que reúne más de dos décadas de datos trimestrales con más de 200 columnas y variables que cambian de nombre según el año.
Antes de ODE, procesar esa información implicaba semanas de trabajo manual y alto riesgo de errores para el equipo.
Open Data Editor se apoya en el Frictionless Framework, un conjunto de normas y utilidades que buscan hacer más sencillo el manejo de datos en formato uniforme de tabla. Gracias a esta base, la aplicación puede revisar la estructura de los archivos, señalar errores comunes y facilitar su corrección sin que el usuario tenga que programar, explicó a LJR Lucas Petri, director de comunicaciones de Open Knowledge.
La fundación Open Knowledge ha creado una propuesta educativa alrededor del ODE. En alianza con la organización Escuela de Datos han publicado cursos que están disponibles en español e inglés. (Foto: Open Knowledge)
Al ser una herramienta de código abierto, su desarrollo no depende únicamente de un equipo cerrado, sino que puede enriquecerse con aportes de una comunidad internacional de desarrolladores. Esto permite que evolucione de manera colaborativa.
La herramienta también tiene un botón que permite a los usuarios usar la inteligencia artificial en el procesamiento de datos.
“Por ejemplo, la IA te puede sugerir mejores nombres para tus tablas o tus columnas”, dijo Colman.
Pero, no es una integración con ChatGPT. ODE emplea modelos de IA locales por lo que los datos no se envían a servicios externos y se protege la privacidad de los usuarios.
“El hecho de que ODE funcione de manera local, sin depender de conexión permanente a internet ni de servicios en la nube, nos da garantías adicionales de privacidad y seguridad para trabajar con datos sensibles, algo clave para una organización que maneja información de carácter social y legal”, dijo Ferreyra.
La fundación Open Knowledge ha creado una propuesta educativa alrededor del ODE. En alianza con la organización Escuela de Datos han publicado cursos que están disponibles en inglés y español.
También han realizado talleres presenciales dirigidos no solo a periodistas, sino a activistas y funcionarios. Omar Luna, líder de comunicación de Escuela de Datos LATAM, ha impartido estos talleres en México y Bolivia.
“Es sumamente importante ver de qué manera se pueden canalizar esfuerzos entre la sociedad civil, periodistas, investigadores, así como aquellas personas que trabajamos en datos y tecnología cívica para concienciar al funcionariado público en poder fortalecer los procesos de calidad de datos”, dijo Luna a LJR.
Mena, quien es parte del grupo de innovadores que están probando ODE, también ha dado a conocer la herramienta en talleres sobre periodismo de datos impartidos en Alemania y Argentina. En Buenos Aires contó con un grupo de más de 45 periodistas de medios como La Nación, El Diario AR, Agencia Télam, Salta 12, TV Pública, BigBang, El Destape, Radio Nacional, Diario Castellanos, Diario Digital, Diario Huarpe, Diario de Cuyo y Futurock.
Además, Open Knowledge ha desarrollado un programa de “formación de formadores”, cuyo objetivo es preparar a personas para que puedan enseñar el contenido en sus propias comunidades y contextos locales. Como parte de esta iniciativa, se han puesto en marcha proyectos piloto en distintos sectores, orientados sobre todo a facilitar el acceso a conocimientos básicos de análisis de datos de calidad, evitando que limitaciones económicas o tecnológicas sean un obstáculo.