Uma das reclamações mais comuns de jornalistas que trabalham analisando dados é que as tabelas que recebem de entidades ou organizações vêm "sujas" ou em formatos inadequados. A equipe da fundação Open Knowledge, uma rede global sem fins lucrativos que promove o conteúdo e os dados abertos, ouviu esses problemas e criou uma solução: Open Data Editor (ODE), uma ferramenta gratuita e de código aberto projetada para detectar erros em conjuntos de dados.
"Quando entrei para a equipe, uma das coisas que decidimos foi não escrever uma linha de código antes de falar com as pessoas que trabalham com dados: ativistas, jornalistas, organizações não governamentais", disse Romina Colman, product owner do ODE, à LatAm Journalism Review (LJR). "As pessoas diziam repetidamente que passavam muito tempo olhando as tabelas porque nenhum dos dados vinha limpo. Ou seja, perdiam tempo explorando os dados para poder detectar os erros, depois limpar e finalmente contar histórias".
Para usar o ODE, os interessados devem baixar o aplicativo em seus dispositivos, seja MacOS, Windows ou Ubuntu.
Uma vez baixado, o app dá a opção de carregar tabelas em Excel, CSV (arquivos separados por vírgula) ou através de um link (Google Sheets). Depois de carregados os dados, o ODE automaticamente realiza um relatório dos erros que encontra.
"O ODE informa ao usuário quais problemas as tabelas têm. Podem ser nomes duplicados nas colunas, linhas completamente vazias de dados ou problemas nos formatos. Por exemplo, que em uma coluna com datas haja uma célula com link", disse Colman.
O ODE está disponível em inglês, espanhol, francês e português.
O aplicativo permite que os usuários carreguem tabelas em Excel, CSV ou por meio de um link. Após o upload dos dados, o ODE gera automaticamente um relatório com os erros encontrados. (Foto: Captura de tela).
Para Colman, um dos valores principais do ODE é que o usuário não precisa compreender a linguagem técnica para poder usá-lo. Além disso, desde o lançamento de seu primeiro piloto em outubro de 2024, vêm aperfeiçoando a ferramenta graças ao feedback de organizações, meios de comunicação e jornalistas que têm integrado o ODE aos seus processos de trabalho.
Um desses veículos é o Data Crítica no México, que investiga temas de gênero, crise climática e lutas anticoloniais na América Latina.
De acordo com seu fundador e diretor, Gibran Mena, que falou com a LJR, eles estão testando o ODE para limpar suas bases de dados e atualizar investigações sobre o uso do solo e direitos ambientais.
"A ferramenta tem muito potencial, particularmente em seu componente de inteligência artificial, para se tornar um bom assistente na limpeza de dados para jornalistas", disse Mena. "O ODE faz muito bem o trabalho de colorir em vermelho os espaços onde há valores faltantes e vai guiando os jornalistas no processo de limpar suas próprias bases de dados".
Organizações latino-americanas como a Associação Civil pela Igualdade e a Justiça (ACIJ), que trabalha na defesa dos direitos e no fortalecimento da democracia na Argentina e mantêm uma relação muito ativa com os meios de comunicação do país, têm usado o ODE em seus processos.
"Decidimos usar o ODE porque encontramos uma ferramenta simples, leve e muito potente que nos ajuda a trabalhar melhor com dados complexos e a produzir informação confiável para o debate público", disse Eduardo Ferreyra, codiretor da ACIJ, à LJR. "O ODE nos deu exatamente isso: uma forma ágil de detectar erros, navegar bases e padronizar processos, economizando tempo e melhorando a qualidade de nossas análises".
Segundo Ferreyra, um exemplo claro do impacto do ODE em seus processos foi a Pesquisa Permanente de Domicílios (EPH), que reúne mais de duas décadas de dados trimestrais com mais de 200 colunas e variáveis que mudam de nome segundo o ano. Antes do ODE, processar essas informações implicava semanas de trabalho manual e alto risco de erros para a equipe.
O Open Data Editor se apoia no Frictionless Framework, um conjunto de normas e utilitários que buscam tornar mais simples o manejo de dados em formato de tabela uniforme. Graças a essa base, a aplicação pode revisar a estrutura dos arquivos, apontar erros comuns e facilitar sua correção sem que o usuário tenha que programar, explicou à LJR Lucas Petri, diretor de comunicações da Open Knowledge.
A Open Knowledge Foundation criou um programa educacional em torno da Educação a Distância (EAD). Em parceria com a organização School of Data, publicou cursos disponíveis em inglês e espanhol. (Foto: Open Knowledge)
Por ser uma ferramenta de código aberto, seu desenvolvimento não depende unicamente de uma equipe fechada, mas pode ser enriqueceda com aportes de uma comunidade internacional de desenvolvedores. Isso permite que evolua de maneira colaborativa.
A ferramenta também tem um botão que permite aos usuários usar a inteligência artificial no processamento de dados.
"Por exemplo, a IA pode sugerir melhores nomes para suas tabelas ou suas colunas", disse Colman.
Mas não é uma integração com o ChatGPT. O ODE emprega modelos de IA locais, portanto os dados não são enviados a serviços externos e a privacidade dos usuários é protegida.
"O fato de o ODE funcionar de maneira local, sem depender de conexão permanente à internet nem de serviços na nuvem, nos dá garantias adicionais de privacidade e segurança para trabalhar com dados sensíveis, algo fundamental para uma organização que maneja informação de caráter social e legal", disse Ferreyra.
A fundação Open Knowledge criou uma proposta educativa em torno do ODE. Em parceria com a organização School of Data publicaram cursos que estão disponíveis em inglês e espanhol.
Eles também realizaram workshops presenciais dirigidos não só a jornalistas, mas a ativistas e funcionários públicos. Omar Luna, líder de comunicação da School of Data LATAM, ministrou esses workshops no México e na Bolívia.
"É extremamente importante ver de que maneira se podem canalizar esforços entre a sociedade civil, jornalistas, pesquisadores, assim como aqueles de nós que trabalham com dados e tecnologia cívica para conscientizar o funcionalismo público em poder fortalecer os processos de qualidade de dados", disse Luna à LJR.
Mena, que faz parte do grupo de inovadores que estão testando o ODE, também introduziu a ferramenta em workshops sobre jornalismo de dados ministrados na Alemanha e na Argentina. Em Buenos Aires contou com um grupo de mais de 45 jornalistas de veículos como La Nación, El Diario AR, Agencia Télam, Salta 12, TV Pública, BigBang, El Destape, Radio Nacional, Diario Castellanos, Diario Digital, Diario Huarpe, Diario de Cuyo e Futurock.
Além disso, a Open Knowledge desenvolveu um programa de "formação de formadores", cujo objetivo é preparar pessoas para que possam ensinar o conteúdo em suas próprias comunidades e contextos locais. Como parte dessa iniciativa, foram lançados projetos piloto em distintos setores, visando principalmente facilitar o acesso a conhecimentos básicos de análise de dados de qualidade, evitando que limitações econômicas ou tecnológicas sejam um obstáculo.