texas-moody

Grupo de cientistas de dados trabalha no primeiro robô-jornalista do Brasil para reportar sobre projetos de leis na Câmara

A tramitação de projetos de lei na Câmara dos Deputados vai passar a ser acompanhada de perto por um novo setorista: um robô produtor de notícias, o primeiro do tipo no Brasil.

O bot vai produzir automaticamente pequenos textos objetivos com informações do  Medidor de Poder, uma base de dados que reune informações sobre leis, políticos e candidatos. Desde 2016, a Operação Serenata de Amor, grupo por trás do projeto, utiliza inteligência artificial para monitorar gastos de deputados federais. O lançamento do robô produtor de notícias está previsto para o segundo semestre deste ano, em tempo para as eleições de outubro.

Segundo a diretora da Operação Serenata de Amor, Yaso Cordova, fellow da Digital Kennedy School, a ideia é que o bot produza textos informativos e objetivos de forma ágil e automática.

“Queremos fazer com muito cuidado para dar relevância ao que queremos escrever e não atribuir qualquer tipo de valor aos projetos de lei nas matérias”, disse ao Centro Knight. “Não queremos atribuir valores que não são transparentes para o eleitor. Opinião é só para os humanos. A ideia é deixar que as pessoas tirem suas próprias conclusões, que é o que já fazemos com a Rosie”, concluiu, se referindo à bot da Operação Serenata de Amor que notifica gastos suspeitos na Câmara dos Deputados por meio do Twitter.

Como já foi dito, o robô-jornalista será capaz de escrever pequenos artigos sobre a tramitação de projetos de lei na Câmara dos Deputados. A equipe da Serenata de Amor quer reunir informações como o patrimônio dos políticos, as doações recebidas pelas campanhas, os projetos de lei já propostos, e também os gastos com cotas e emendas parlamentares.

Além de prover informações sobre deputados já eleitos, a base que está sendo construída com dados públicos disponibilizados pelo Tribunal Superior Eleitoral (TSE) deve também agregar informações sobre candidatos a outros cargos. Nas eleições de outubro, serão disputadas vagas para deputado estadual, federal, senador, governador e presidente.

Para coletar e padronizar todos os dados necessários, a Serenata de Amor vai contar com organizações parceiras, como o projeto Congresso em Números. “Estruturar todos esses dados de uma mesma forma é muitas vezes o que emperra o trabalho do jornalista”, comentou Cordova. “Temos muitos dados disponíveis, só precisamos juntar tudo”.

A ideia é que essa base de dados seja uma ferramenta útil para outros jornalistas encontrarem pautas e estabelecerem relações entre candidatos ou representantes já eleitos. “Seria trabalho dos jornalistas navegar pela base de dados e descobrir relações. É muito parecido com a ideia do Panama Papers”, explicou ao Centro Knight o cientista de dados Irio Musskopf, criador da Operação Serenata de Amor.

Desafios em português

Talvez o maior desafio para o desenvolvimento do robô-jornalista seja a falta de tecnologia disponível em português. Grande parte do conhecimento nesse campo é em inglês –os bots que escrevem artigos já são bem utilizados por veículos como o The Washington Post, que utiliza uma ferramenta chamada Heliograf.

Transpor essa dificuldade é o trabalho da cientista de dados Ana Schwendler, especialista em processamento de linguagem natural. Ela também trabalha em outro projeto pioneiro no Brasil, a robô conversacional de checagem de fatos Fátima, desenvolvida pelo site Aos Fatos em parceria com o Facebook.

“O processamento de linguagem natural é uma forma de fazer máquinas entenderem o que humanos escrevem”, explicou Schwendler ao Centro Knight. “Precisamos coletar mais informação de avaliação como é a estrutura [textual] em português e como fazer uma produção textual de qualidade dentro das regras de português, algo que não existe ainda”.

A expectativa é que o robô vá aprendendo a fazer textos cada vez melhores com o tempo, por meio da aplicação de estratégias de aprendizagem de máquina (machine learning) e, mais especificamente, aprendizagem profunda (deep learning). Schwendler explica que, em deep learning, redes neurais artificiais inspiradas pela estrutura do cérebro humano usam algoritmos para adquirir conhecimento através da experiência. O robô é treinado a partir de textos já consolidados feitos por humanos.

“Temos exemplos de textos que queremos e a partir disso ele vai aprender”, ensina Schwendler. “Com o passar do tempo, melhor ele vai ficando, ele vai aprendendo o que é bom e pode aprender a partir da resposta dos usuários. ... Queremos sempre o feedback de pessoas de fora”.

Institucionalização e outros projetos

A Operação Serenata de Amor começou em 2016, apoiada por uma campanha de financiamento coletivo. O nome, tirado de uma marca de bombom, é inspirado pelo Caso Toblerone, em que uma política sueca teve que desistir de disputar o cargo de primeiro-ministro por ter comprado um chocolate com o cartão corporativo. O grupo afirma que quer “encontrar corrupção em pequenos gastos, mas em volume grande”. Além disso, o nome do site é uma brincadeira com os nomes das operações realizadas pela Polícia Federal brasileira contra a corrupção.

No projeto, Rosie, uma inteligência artificial com nome inspirado pela robô do desenho animado Os Jetsons, monitora os reembolsos pagos a deputados federais por meio da Cota para Exercício de Atividade Parlamentar, fundo que custeia alimentação, hospedagem e outros gastos. Já foram identificados mais de 9 mil reembolsos suspeitos.

Até então, o grupo esteve ligado à empresa de dados Data Science Brigade, mas neste ano a Operação Serenata de Amor vai se tornar uma ONG sob o guarda-chuva da Open Knowledge Brasil. “Para nós, vai ser muito importante ter uma instituição nos apoiando a ter novas parcerias”, comentou Yaso Cordova.

Neste ano de eleições, a equipe da Serenata trabalha em três projetos novos, contando com o Medidor de Poder e o robô. Um deles é o desenvolvimento de uma nova interface para facilitar a verificação os reembolsos suspeitos levantados por Rosie. “Dessa forma, cumpriríamos nossa promessa de facilitar a participação cidadã nos gastos públicos”, afirmou Irio Musskopf.

O outro projeto em desenvolvimento buscar adereçar um problema muito discutido no ano eleitoral brasileiro: a proliferação de notícias falsas na internet. O grupo quer desenvolver uma extensão para browser para identificar conteúdo mentiroso online. O público-alvo é composto por adolescentes e idosos, que geralmente têm menos experiência em mídia, segundo Musskopf.

Nota do editor: Essa história foi publicada originalmente no blog de jornalismo nas Américas do Centro Knight, o predecessor do LatAm Journalism Review.