texas-moody

Redações de América Latina e Estados Unidos buscam democratizar uso da inteligência artificial para analisar grandes quantidades de documentos públicos

A maioria dos países latino-americanos possui leis sobre transparência e acesso à informação pública. Inclusive algumas dessas leis, como a mexicana e a brasileira, estão entre as melhores do mundo, segundo relatório da UNESCO publicado em 2017 .

Essas leis buscam garantir que jornalistas e cidadãos em geral tenham acesso a documentos com informações relevantes sobre a atuação de órgãos e funcionários públicos e estabelecem que o Estado é obrigado a entregar essas informações em formatos digitais abertos.

No entanto, na prática, o acesso à informação pública na América Latina não é tão simples. Frequentemente, os jornalistas que solicitam dados públicos constatam que as agências entregam as informações em formatos não estruturados, como PDFs, arquivos de texto ou scans, nos quais os dados estão desorganizados, tornando sua análise uma tarefa muito complexa.

Captura de tela da transmissão ao vivo do YouTube sobre o projeto DockIns

Mago Torres, do Knight Lab da Northwestern University, moderou a apresentação do DockIns via streaming, com a participação de Delfina Arambillet, do La Nación; e Michael Morisy, do MuckRock. (Foto: Captura de tela de transmissão no YouTube).

 

 

“Na América Latina, a maioria dos dados públicos está em grandes volumes de documentos não estruturados. Não é que você pode apertar um botão e baixar um CSV [formato de arquivo] e ter tudo estruturado, bonito e analisar para ver se há corrupção ou para saber o que o Estado compra”, disse à LatAm Journalism Review (LJR) Delfina Arambillet, jornalista de dados e inovação do La Nación, da Argentina.

Diversas organizações de notícias e tecnologia ao redor do mundo desenvolveram ferramentas digitais para facilitar a análise de documentos não estruturados, a maioria delas baseada em inteligência artificial. No entanto, para a maioria dos meios de comunicação pequenos e independentes da América Latina, ainda é difícil acessar e usar essas tecnologias em suas investigações.

Com esse problema em mente, Arambillet e uma equipe de jornalistas de diferentes redações do continente americano se uniram para criar uma ferramenta que busca democratizar o uso da inteligência artificial para a análise de grandes quantidades de documentos para veículos que não possuem especialistas em suas equipes.

Trata-se do DockIns, uma ferramenta que, por meio de técnicas de aprendizagem automática e processamento de linguagem natural (NLP, na sigla em inglês), analisa e classifica documentos com conteúdo não estruturado, extrai informações deles e identifica tópicos e entidades, ou seja, as informações mais relevantes em um texto.

A ferramenta foi desenvolvida em 2021 como parte do Collab Challenges, iniciativa global do JournalismAI e da Google News Initiative que reúne veículos de vários países para desenvolver inovações no jornalismo por meio da inteligência artificial. Arambillet e seus colegas do La Nación Momi Peralta e Martín Pascua formaram uma equipe com Claudia Chávez, Gianco Huamán e Gianfranco Rossi, do Ojo Público (Peru); Rigo Carvajal, do CLIP (Costa Rica); e Mitchell Kotler e Michael Morisy, do MuckRock (Estados Unidos).

“Concordamos que tínhamos em comum que o acesso a dados de compras em nossos países é difícil e que a maioria [desses dados] foi encontrada nesses documentos não estruturados, em lugares diferentes, em meio ao caos”, disse Arambillet. "Queríamos encontrar uma maneira de desenvolver uma ferramenta, um método que pudesse ajudar os jornalistas a encontrar insights de forma rápida e um pouco mais fácil, e sem exigir tanto trabalho dos programadores."

Ojo Público é uma das poucas redações latino-americanas com experiência no uso de inteligência artificial para analisar grandes quantidades de documentos. Em 2019, a mídia nativa digital peruana, especializada em jornalismo investigativo, desenvolveu o Funes, um algoritmo que facilita a análise de documentos e encontra indicadores de risco para detectar possíveis indícios de corrupção em contratos públicos.

Por sua vez, o MuckRock conta com a DocumentCloud, sua plataforma de código aberto para hospedagem e análise de documentos, além de ter desenvolvido o SideKick, uma ferramenta de aprendizagem automática integrada à DocumentCloud, projetada para classificar documentos de acordo com rótulos definidos pelo usuário.

A equipe por trás do DockIns pegou parte do trabalho que o MuckRock havia feito e adicionou camadas de programação para torná-lo capaz de trabalhar com documentos em espanhol, além de otimizar seus recursos de marcação e classificação.

“[DockIns] permite que um jornalista carregue grandes volumes de documentos e, a partir desses documentos, encontre entidades, por exemplo, ruas, nomes de pessoas, nomes de empresas, valores em países, etc., e conexões entre esses documentos, além de fazer uma classificação desses documentos”, explicou Arambilet.

Para reconhecer essas entidades, a ferramenta utiliza o NER (reconhecimento de entidades nomeadas, na sigla em inglês), uma tecnologia de processamento de linguagem natural que identifica elementos-chave em um texto, ajudando a classificar informações não estruturadas e detectar informações relevantes.

“Depois de passar por esse procedimento de reconhecimento de entidade, o que você faz é classificar os documentos por assunto. O que a ferramenta faz é, com base em um algoritmo, encontrar de qual tópico eles podem estar falando. Por exemplo, se for uma compra, uma licitação, uma compra de alimentos, uma compra de armas…”, explicou o jornalista. “Pode-se customizar a ferramenta para 'treinar' o algoritmo para que ele reconheça diferentes tópicos”.

Em um próximo passo, a ferramenta permite encontrar relações entre documentos das entidades extraídas.

A vantagem do DockIns é que não é necessário escrever código ou programa para treinar o algoritmo, mas com base nos resultados que ele retorna, o usuário pode qualificar seu desempenho e isso refina a qualidade dos resultados de acordo com necessidades específicas.

“A inteligência do sistema retroalimenta constantemente o que se está fazendo, no sentido de que se hoje você classificou 10 documentos e classificou por assunto, que é atribuído a esse projeto, depois você atribui outros dez documentos e é gerado para você um histórico desse aprendizado”, disse à LJR Martín Pascua, desenvolvedor do La Nación, que fazia parte da equipe criativa do DockIns. “Quando você retoma esse projeto, já tem a classificação anterior e treina de novo, então é um retreinamento constante.”

Durante os seis meses que durou o Collab Challenge, a equipe do DockIns passou muito tempo testando diferentes modelos de NER, pesquisando diferentes ferramentas e realizando procedimentos de tentativa e erro para otimizar a plataforma da melhor maneira possível. Ao final da iniciativa, a equipe conseguiu concluir um protótipo da ferramenta e um fluxo de trabalho para que qualquer jornalista possa realizar o procedimento.

“A criação básica do fluxo de trabalho foi, com todas as ferramentas que existem, como podemos uni-las e facilitar a tarefa em si para o jornalista”, disse Pascua. "Uma parte estava adicionando certas camadas de desenvolvimento ao DocumentCloud e outra parte estava documentando o fluxo de trabalho para que eles pudessem usá-lo."

A maioria dos membros da equipe ainda está em comunicação com a intenção de construir uma ferramenta que combine todos os elementos desenvolvidos em uma interface de usuário final.

“A ideia é conseguir criar uma interface que reúna todo esse fluxo de trabalho resumido em uma interface. Imagine um input onde o jornalista possa fazer upload de documentos, processá-los e visualizar os resultados”, acrescentou Arambilet.

Uma vez finalizada, a ferramenta não só poderá agilizar investigações com base em dados públicos e economizar horas de trabalho dos jornalistas lendo e classificando documentos, decifrando seu conteúdo e encontrando entidades relevantes, mas também ajudará a analisar qualquer tipo de documento não estruturado para quase todos os tipos de pesquisa orientada por dados.

“A ferramenta foi concebida para poder investigar documentos públicos que são feitos dessa forma para que não possam ser investigados, ou também pelo costume do Estado de não serem digitalizados. Mas também pode ter outros usos: se você tem muitos PDFs e quer ver do que se trata, o que eles têm, etc., pode facilmente usar isso para encontrar insights rapidamente ”, disse Arambillet.

Colocando a inteligência artificial ao alcance de todos

Embora o DockIns ainda esteja em fase de protótipo, seus criadores acreditam que seu uso aberto nas redações latino-americanas ajudará a democratizar o uso da inteligência artificial para processar informações contidas em grandes quantidades de documentos não estruturados.

"Acredito que a inovação está na facilitação, em poder fornecer ferramentas e permitir que pessoas que não conhecem o código executem e rodem essas análises", disse Arambillet. “É muito difícil ler documentos e encontrar insights, é quase um pesadelo, então acho que essa é a inovação: facilitar o acesso do jornalista a essas análises em todos os sentidos e também poder fornecer informações que, caso contrário, não poderiam ser analisadas.

A equipe descobriu que os diferentes aplicativos de aprendizagem automática e processamento de linguagem natural testados durante o desenvolvimento do DockIns tiveram um desempenho ideal com documentos em inglês, mas não com arquivos em espanhol.

Captura de tela da transmissão ao vivo do YouTube sobre o projeto DockIns

A ferramenta permite fazer upload de grandes volumes de documentos e encontrar entidades e conexões neles. (Foto: Captura de tela de transmissão no YouTube).

 

 

Os membros da equipe que falam espanhol trabalharam no ajuste fino da ferramenta para ter um desempenho semelhante com documentos nos dois idiomas, tornando-a eficiente para redações em grande parte da América Latina.

“Tudo o que foi montado foi principalmente em inglês. O que foi feito também foi um trabalho que atende aos valores da língua espanhola”, explicou Pascua. “Os algoritmos são preparados em inglês, então esse treinamento e essas camadas que tiveram que ser montadas também foram para fazê-los funcionar em nosso idioma”.

Com seu trabalho colaborativo durante o Collab Challenge, os membros da equipe do DockIns verificaram a importância da parceria entre jornalistas e desenvolvedores nas redações. No La Nación, a estreita colaboração entre profissionais das áreas editorial e técnica é comum há vários anos, especialmente no La Nación Data, a área de jornalismo de dados do jornal argentino.

Por isso, este ano os organizadores dos Collab Challenges vão selecionar dois participantes de cada meio, um da área editorial e outro da área técnica, para sua nova iniciativa colaborativa, denominada AI Fellowship Program. A ideia é formar cinco equipes que integrem repórteres, editores e pesquisadores com desenvolvedores, web designers e programadores de organizações jornalísticas.

“A experiência pessoal de vínculo com o jornalista também agrega muito”, disse Pascua. “Pessoalmente, agrega muito para mim porque a parte técnica se transforma em algo humano, em algo tangível, em entender o real problema de por que a ferramenta, por que usar ou como ela pode ser aprimorada, e isso ocorre nessa sinergia [...] E o Collab Challenge aprimorou tudo isso porque também conseguimos nos conectar com outras redações e ver como elas pensam em outro país”.

Arabillet, porém, reconhece que o desenvolvimento de ferramentas de inteligência artificial ainda é algo que exige investimentos econômicos significativos que a maioria dos veículos da região não pode pagar. Daí a importância do trabalho colaborativo e de ferramentas como DockIns, que buscam tornar essas tecnologias mais acessíveis.

“A própria tecnologia sempre pode fazer muitas coisas que nós não podemos. E é uma grande oportunidade de se dar o espaço para aprender como, a longo prazo, será muito mais lucrativo ou muito mais benéfico para o meio ambiente poder aplicar essas tecnologias”, disse a jornalista.

Mais artigos