texas-moody

Ferramenta brasileira monitora desinformação nas redes e no WhatsApp, uma caixa-preta de notícias falsas

Milhões de brasileiros vão votar em mais de 5.500 municípios nas eleições neste domingo, 15 de novembro, e escolher seus futuros prefeitos e vereadores. Para decidir seus candidatos, eles precisam navegar por um mar de notícias falsas, principalmente no WhatsApp, apontado por especialistas como uma caixa-preta de conteúdo enganoso. Por isso, como parte do esforço para cobrir as eleições e desmascarar boatos, o site de fact-checking Aos Fatos passou a monitorar grupos do WhatsApp, por meio da sua ferramenta Radar.

O Radar é um sistema automatizado que rastreia em tempo real sites e redes sociais no Brasil em busca de conteúdo potencialmente enganoso. Inicialmente, a ferramenta seria lançada para as eleições municipais, mas, com a pandemia, a equipe antecipou o planejamento para acompanhar os boatos sobre o coronavírus. A plataforma, que estreou em uma versão beta em agosto, foi gradativamente abarcando mais canais, como sites, Twitter e YouTube, até incluir o WhatsApp em meados de outubro. A previsão é adicionar o Facebook e o Instagram até o fim do ano.

Ferramenta Radar, do Aos Fatos

Ferramenta Radar, do Aos Fatos. Imagem: Divulgação

Para fazer o monitoramento no WhatsApp, o Aos Fatos contratou uma empresa de data science, a Twist Systems. Com essa parceria, eles acompanham 270 grupos de discussão política, que são públicos – isso significa que esses grupos disponibilizaram um link de acesso na Internet para que qualquer um pudesse entrar. Atualmente, mais de um milhão de mensagens do WhatsApp são coletadas e analisadas semanalmente pela ferramenta.

A diretora de inovação do Aos Fatos e líder de produto do Radar, Carol Cavaleiro, explicou à LatAm Journalism Review (LJR) que o contrato com a Twist Systems foi importante porque a empresa já tinha experiência, desde outras eleições, com monitoramento no WhatsApp. "Eles já tinham um banco de dados desses grupos. E toda vez que aparece um grupo novo, eles avaliam”, afirma Cavaleiro.

Para o editor do Radar, o jornalista Bruno Fávero, o monitoramento do WhatsApp tem atraído atenção. "É algo que pouquíssima gente faz e ninguém faz como nós. É uma ferramenta super difícil de obter dados e que estava no centro das discussões sobre desinformação nas eleições brasileiras de 2018", disse Fávero à LJR.

Outra vantagem do projeto é mapear os boatos e conteúdos enganosos em diversas plataformas, o que permite entender e analisar como as ondas de desinformação surgem, crescem e se disseminam por várias redes.

"O Radar surgiu da necessidade de ter uma visão mais ampla do sistema de desinformação brasileiro. É muito comum [as pessoas] focarem em uma só rede. Muita gente estuda desinformação no Twitter, outras pessoas estudam no YouTube. O que a gente tenta fazer com o Radar é cruzar todas essas plataformas", afirma Cavaleiro.

Assim, quando a equipe analisa conteúdo do WhatsApp, também está avaliando e coletando links que circulam ali e podem levar a sites com conteúdo falso, por exemplo. "Toda vez que a gente recebe uma matéria de um site novo e ele cai nesse filtro da possibilidade de desinformação, a gente já procura se tem um canal no Facebook, um perfil no Twitter. Analisamos como essas contas e diversas plataformas se integram", diz Cavaleiro.

Para dar conta desse trabalho, o Radar tem dez profissionais, quase todos em dedicação integral. Além de Cavaleiro e Fávero, a equipe tem três desenvolvedores, duas linguistas, dois repórteres e um cientista de dados. "O Radar não é só o monitor, que é a face mais pública do projeto. É um núcleo que produz dados e reportagens sobre desinformação nas redes", conta Fávero.

O Radar foi idealizado pela diretora executiva do Aos Fatos, Tai Nalon, e começou a ser planejado em 2019. A plataforma foi vencedora do Google Innovation Challenge, recebeu apoio da Google News Initiative e, com isso, pôde sair do papel.

Segundo Cavaleiro, o aporte inicial para o Radar está no final, e agora a plataforma busca ser autossustentável. As consultorias privadas, para empresas que buscam ter análises de risco e dados sobre opinião pública, já estão em andamento e são uma aposta de fonte de receita.

Ao mesmo tempo, com o material gerado pelo Radar, a equipe produz reportagens e uma newsletter, que chega a cerca de 600 assinantes. Atualmente, todo o material é aberto e gratuito, porque está em fase de "degustação", mas o plano é estabelecer um paywall para as matérias e cobrar uma assinatura pela newsletter, que inclui uma análise semanal e a íntegra dos dados coletados pela ferramenta. O público-alvo são redações de jornalismo, universidades, think tanks, centros de pesquisa, além de empresas privadas.

Como o monitor funciona?

O período de cerca de um ano de planejamento do Radar foi crucial para botar de pé o monitor, que tem um funcionamento bastante complexo – a metodologia da ferramenta está publicada, de forma detalhada e transparente, no site.

O primeiro passo para usar a ferramenta é definir os temas que vão ser monitorados. Atualmente, além da pandemia, o Radar foca nas eleições municipais no Brasil e nas duas maiores cidades, São Paulo e Rio de Janeiro. A equipe do Radar então monta buscas automatizadas nas APIs (Interface de Programação de Aplicações) gratuitas de cada rede social, para a coleta de dados sobre esses assuntos.

Os termos inseridos pela equipe nessa busca precisam ser amplos, como coronavírus, pandemia, gripe, COVID-19, para captar o máximo de informação sobre o tema. "A ferramenta que a gente construiu sempre depende das API's públicas [das próprias redes sociais]. Então, por mais que a gente colete termos amplos, a gente nunca pega a totalidade do Twitter, por exemplo, porque a API pública limita pelo volume de coleta, o número de requisições, etc", explica Cavaleiro.

Para monitorar sites, a primeira etapa é similar, só que, ao invés de uma API pública, eles trabalham com o Trendolizer. Essa ferramenta, conta Cavaleiro, monta um banco de dados a partir de links externos. Assim, o Trendolizer inclui no banco não apenas o endereço do site selecionado, mas todos aqueles cujos links aparecem na página. Ou seja, o banco de dados dos sites monitorados aumenta progressivamente, de forma automática.

Nesse ponto pesou a experiência de checagem do Aos Fatos, que já tem cinco anos. A organização tinha uma extensa base de sites, cujo conteúdo eles já tinham verificado, e isso foi usado para alimentar a ferramenta no primeiro momento.

Após essa coleta ampla de dados, o Radar faz automaticamente uma organização e limpeza, para eliminar publicações muito curtas, sem informação suficiente, ou duplicadas. Em seguida, o Radar passa esses conteúdos por um sistema de pontuação automatizado, que ajuda a identificar se uma publicação tem potencial para ser desinformativa. O sistema de pontuação é composto por uma série de métricas, desenhadas especificamente para cada plataforma. Há, portanto, cerca de 40 critérios considerados na análise de publicações do Twitter, 23 no WhatsApp, 30 no YouTube, e 36 nos sites.

A diretora de inovação do Aos Fatos e líder de produto do Radar, Carol Cavaleiro

A diretora de inovação do Aos Fatos e líder de produto do Radar, Carol Cavaleiro. Foto: Arquivo Pessoal

No YouTube, por exemplo, são considerados os textos de descrição e título, bem como características do canal publicador e dos comentários feitos por outros usuários – os vídeos em si não podem ser todos transcritos e, por isso, não entram na avaliação. Já no caso dos sites, a classificação considera, entre outras coisas, data e hora da publicação, autor, estrutura textual do título e do texto completo. Alguns fatores que são avaliados para vários canais são a presença excessiva de caixa alta, emojis ou erros ortográficos. "Se a publicação tem caracteres especiais, por exemplo, se tem Covid com zero e 1 [C0ViD], aí pontua", diz Cavaleiro.

Muitos dos critérios partem de palavras comumente usadas em notícias falsas ou estilos de escrita, estudados e mapeados pelas linguistas a partir do histórico de checagem do Aos Fatos. Ao analisar as campanhas de desinformação, elas procuram padrões linguísticos e traduzem isso para regras aplicáveis pelo sistema.

"Se tem um termo alarmista, como 'atenção', 'cuidado', ou uma construção exagerada, como 'todas as pessoas do mundo', vai pontuar. E o sistema vai fazendo essa combinação de termos. Se um tweet tem só a palavra Covid, tem poucas chances de ser desinformativo. Mas se ele tem Covid, mais um termo alarmista, outro generalizante e um insulto, já tem mais chances", explica Cavaleiro.

Além disso, com o conhecimento dos checadores do Aos Fatos, a equipe acrescenta expressões que são frequentes em conteúdo enganoso, como "vachina", usada para descrever negativamente a vacina testada no Brasil em parceria com uma empresa chinesa.

"Dentro do nosso banco de dados, aplicamos esses recortes, como 'vachina', ou a soma de construções, como 'vachina', mais uma hashtag problemática, mais 'urgente' e 'compartilhem'. Essa é uma construção bem recorrente, principalmente em teorias da conspiração. Sempre é muito alarmista e tem uma chamada para ação [call to action] no final", diz Cavaleiro.

Fávero ressalta que essas regras não são aleatórias, mas fruto de muita pesquisa. Como não há uma espécie de tutorial ou glossário de termos problemáticos, isso precisa ser criado do zero para cada assunto que o Radar vai monitorar e, em seguida, constantemente atualizado. "É dinâmico, porque o vocabulário e a forma como as pessoas conversam muda ao longo do tempo, então tem um processo contínuo de aprimoramento das regras", conta.

Pontuação e limitações

No final do processo, cada conteúdo ganha uma nota de 1 a 10. Apenas publicações com pontuação inferior a 5, consideradas de baixa qualidade, são exibidas no Radar. Quanto menor a nota, maior as chances do conteúdo ser desinformativo ou conter erro.

Fávero destaca que o Radar não elimina a necessidade da checagem humana, porque as regras automatizadas apenas detectam indícios de que uma publicação é potencialmente enganosa. Ou seja, não dá para afirmar que tudo que aparece no Radar é desinformação, até porque a ferramenta não é infalível.

Cavaleiro lembra que o sistema não é capaz de diferenciar uma piada ou ironia de um conteúdo sério. "É importante ressaltar que ele tenta mapear o ecossistema desinformativo, ele vê o todo". Se uma publicação cai no Radar, mas parece ser verídica, provavelmente a construção linguística, as palavras, a forma como que está escrita, são comuns em materiais enganosos. "Significa que aquilo tem ecos em algum conteúdo possivelmente desinformativo e, então, também faz parte desse ecossistema. É assim que usuário se perde", conta.

Ela explica que, atualmente, mesmo sites conhecidos por publicarem desinformação se "profissionalizaram" e misturam conteúdo falso com matérias republicadas de veículos tradicionais. São páginas que passaram a usar alguns artifícios, como ter um expediente, para parecerem confiáveis. "Não existe mais aquele site que você bate o olho e fala: lógico que é desinformação. Esse é o ecossistema desinformativo que a gente lida hoje", diz Cavaleiro.

Bruno Favero jornalista

Bruno Fávero, editor do Radar Aos Fatos. Foto: Arquivo Pessoal

Como editor do projeto, Fávero ressalta como a ferramenta ajuda o Aos Fatos na produção de reportagens e checagens. Também é um bom termômetro para decidir se um boato deve ou não ser verificado – o Aos Fatos só checa uma desinformação se ela estiver viralizando, com impacto considerável fora da bolha de origem. Caso contrário, acabaria apenas contribuindo para a popularização daquele conteúdo enganoso.

O Radar serve ainda para identificar pautas, porque prepara, automaticamente uma nuvem de palavras com base em todo material de baixa qualidade coletado. Ali, quando aparece um termo que não era esperado, pode ser indicativo de um novo boato em crescimento.

Por fim, a ferramenta torna mais fácil descobrir os impulsionadores. "Raramente os repórteres têm tempo de investigar quem foram os maiores disseminadores daquela desinformação, diz Fávero. "Às vezes está muito na cara, mas tem vezes que não. E o Radar ajuda muito nisso".