texas-moody

Cuestión Pública, da Colômbia, cria ferramenta de IA para incrementar cobertura diária com jornalismo investigativo

O veículo independente Cuestión Pública se especializou em fazer jornalismo investigativo que lança luz sobre casos de abuso de poder na Colômbia. Desde a sua fundação, em 2018, ele já publicou diversas reportagens e produtos especiais que tiveram impactos significativos na agenda pública do país.

No entanto, como muitos meios de pequeno porte de jornalismo investigativo, para a Cuestión Pública – cuja equipe editorial consiste em pouco mais de dez pessoas – tem sido difícil cobrir os acontecimentos do dia a dia.

"O desafio como meio de jornalismo investigativo é que você não está tão presente na agenda midiática, porque as investigações levam muito tempo. (...) Você vai perdendo relevância, quanto mais lenta a investigação fica", disse Claudia Báez, diretora geral e cofundadora da Cuestión Pública, à LatAm Journalism Review (LJR). "Cobrir a atualidade confere relevância ao meio, o posiciona na agenda midiática e retém o público".

Após experimentar com ferramentas de inteligência artificial generativa para agilizar processos de design, no final de 2022, Báez apostou em usar a tecnologia para fornecer aos seus leitores cobertura das atualidades enriquecida com jornalismo investigativo. Para isso, aproveitou a capacidade já instalada do meio, principalmente as suas extensas bases de dados construídas previamente para grandes projetos de jornalismo de dados, como os produtos gamificados "Sabemos lo que hiciste la legislatura passada” (“Sabemos o que você fez na legislatura passada") e “Juego de Votos” ("Jogo de Votos").

Illustration of the AI tool Odin Project, developed by Colombian media outlet Cuestión Pública.

O Projeto Odin é uma ferramenta que utiliza inteligência artificial para enriquecer notícias do cotidiano com contexto advindo de investigações jornalísticas prévias (Foto: Captura de tela do YouTube)

Foi assim que surgiu o Projeto Odin, uma ferramenta que utiliza a inteligência artificial para otimizar a criação de conteúdo atualizado, enriquecendo-o com contexto do jornalismo investigativo. O Odin opera sob o conceito de "resíduo zero", que busca aproveitar ao máximo os dados que o meio investigou ao longo dos anos e permitir que estes ganhem relevância por meio de eventos da atualidade.

O Odin funciona por meio de uma interface na qual o jornalista insere o título de algum tema da atualidade. Em seguida, o sistema busca informações relacionadas a esse tema nas bases de dados estruturadas da Cuestión Pública e as avalia de acordo com sua relevância. Posteriormente, a ferramenta gera o esboço de um fio para a rede social X com o estilo do meio, fio este que é em seguida editado pelo jornalista para posterior publicação.

"O Odin reduz os tempos de produção de um fio de três horas para 15 minutos. E ele tem o tom da Cuestión Pública, como falamos em nossas redes, porque o treinamos para isso", disse Báez. "Quando um jornalista está fazendo uma investigação, conectando todos os pontos, e precisa cobrir algo da atualidade, se distrai. Assim [com Odin], o jornalista de investigação que estava fazendo outra coisa chega, edita e sai em 15 minutos".

O Odin, cujo nome faz referência às siglas de Optimized Data Integration Network (rede de integração de dados otimizada), foi desenvolvido a partir da participação da Cuestión Pública no Artificial Intelligence Journalism Challenge (AIJC), uma competição global desenvolvida pela Open Society Foundation que oferece formação, mentoria e financiamento a redações selecionadas para desenvolver formas inovadoras de aplicar inteligência artificial no jornalismo.

A Cuestión Pública foi um dos dois únicos meios da América Latina entre as 12 redações selecionadas para a edição 2023 do AIJC. O outro foi a Agência Pública, do Brasil. A redação vencedora foi a Rappler, das Filipinas, enquanto a Cuestión Pública recebeu uma Menção Honrosa pelo Odin.

"Havia três juízes que julgaram a fase final e destacaram o Projeto Odin por ser especialmente inovador", disse à LJR David Caswell, pesquisador e consultor sobre inteligência artificial em jornalismo. "Os juízes ficaram tão impressionados com o Odin que concederam essa menção honrosa. Eles queriam reconhecê-lo, embora apenas um vencedor pudesse ser escolhido".

De acordo com Caswell, parte do que motivou o júri a conceder a menção honrosa é o fato de o Odin combinar o contexto cheio de rigor jornalístico das bases de dados da Cuestión Pública com a fluidez e a velocidade das notícias diárias, em um conteúdo de fácil consumo nas redes sociais.

"Isso representa algo novo, essa capacidade de pegar algo que acabou de acontecer e depois enriquecer com um corpo de informação bem investigado, bem mantido, verificado, e depois apresentar essas notícias contextualizadas de uma forma acessível", disse o consultor, que também atuou como mentor dos participantes do AIJC no desenvolvimento de seus projetos.

"Antigamente, nos meios de comunicação colombianos, haveria alguém que (...) faz jornalismo há muito tempo e acumulou esse conhecimento em sua cabeça. E então surge uma nova notícia e instantaneamente ele conhece todos esses fatos, essas conexões, e pode escrever sobre elas".

Além da mentoria, o programa incluiu uma bolsa de 5 mil libras esterlinas (cerca de R$ 32 mil) para cada uma das 12 redações selecionadas para o desenvolvimento de seus projetos. A Cuestión Pública usou esse apoio para contratar uma agência desenvolvedora de tecnologia na Colômbia para a criação do Odin.

Técnicas de ponta

Báez e Caswell concordaram que uma das principais inovações que o Odin traz ao jornalismo é a possibilidade de otimizar os resultados da inteligência artificial generativa com informações específicas, diferentes das que foram usadas para seu treinamento, sem a necessidade de modificar o modelo em si.

Colombian journalist Claudia Báez.

Claudia Báez recebeu a menção honrosa concedida ao Odin como parte do AIJC no festival Splice Beta Journalism, em Chiang Mai, Tailândia, em novembro de 2023. (Foto: Twitter de Claudia Báez)

Isso é alcançado por meio de uma metodologia chamada RAG (Retrieval-Augmented Generation, ou Geração Aumentada por Recuperação), que permite que grandes modelos de linguagem (LLM) aproveitem dados das organizações para que eles forneçam respostas mais relevantes e com o contexto adequado.

"Um modelo [de linguagem natural] está treinado com certas informações, mas não conhece as informações que eu tenho, então eu injeto essas informações externas para ver como ele se comporta com essas informações com as quais não foi treinado, mas que podem ser fornecidas", disse à LJR Esteban Ponce de León, pesquisador do Laboratório de Pesquisa Forense Digital (DFRLab) do Atlantic Council na Colômbia. "[A RAG] é atualmente o modo como podemos conectar melhor modelos de linguagem com nossos próprios dados".

Para aplicar a tecnologia RAG ao Odin, foi necessário primeiro submeter as bases de dados da Cuestión Pública a um processo de vetorização. Ou seja, transformar as informações em um formato numérico. Dessa forma, quando um jornalista insere um prompt no sistema, ele também é vetorizado, e o Odin compara os valores numéricos do prompt e das bases de dados, e gera os que são mais similares entre si.

"Se você perguntar sobre um congressista específico, provavelmente esses resultados semelhantes vão conter informações relacionadas a esse congressista. Mas, se você também adicionar uma atualidade política, por exemplo, um tema ligado à aposentadoria ou protestos, então os resultados que o Odin vai trazer serão os do congressista, mais essa atualidade política que você incluiu em seu prompt", disse Ponce de Léon, que também foi um dos cientistas de dados que participou do desenvolvimento do Odin.

Parte da importância da tecnologia RAG no jornalismo é que ela permite que os LLM recorram a informações de qualidade e atualizadas em vez de usar as informações com as quais foram treinados, que às vezes podem ser obsoletas ou imprecisas. Isso também evita que esses modelos gerem "alucinações", que poderiam ter consequências graves no jornalismo.

No Odin, isso é alcançado fornecendo ao sistema um "prompt de sistema", que é um tipo de comando introduzido a um modelo de inteligência artificial generativa antes do início de cada sessão, e que determina seu comportamento, tarefas e limites.

"O prompt de sistema é o que vai definir o papel do modelo, literalmente com frases como 'não use seu conhecimento prévio e concentre-se apenas neste contexto que está sendo dado para gerar seu resultado'", explicou Ponce de León. "Não é uma configuração programática, é simplesmente dar-lhe uma instrução em linguagem natural para que se concentre nesse papel de maneira específica sobre o que deve responder no prompt seguinte, que já vem do usuário".

Para os processos de vetorização, o Odin usa o modelo BERT, do Google, enquanto suas funções generativas são possíveis graças aos modelos GPT 3.5 e GPT 4 da OpenAI, a organização que desenvolveu o ChatGPT, explicou Ponce de León.

De acordo com Caswell, muito poucos meios de notícias estão usando a metodologia RAG em suas aplicações de inteligência artificial generativa. A maioria dos que o fazem, disse ele, são grandes redações que usam dados de seus arquivos ou conjuntos pequenos de documentos, como documentos judiciais ou legislativos, para contextualizar o conteúdo gerado.

"É um tema muito quente, uma espécie de vanguarda na aplicação da inteligência artificial no jornalismo", disse Caswell. "Mas acho que a Cuestión Pública está bastante à frente nessa demonstração muito avançada – e, portanto, com grande impacto – do que é possível com isso".

Graphic of the gamified data journalism project Sabemos lo que hiciste la legislatura pasada, by Colombian independent media outlet Cuestión Pública

A ferramenta aproveita as extensas bases de dados que a Cuestión Pública construiu para projetos de jornalismo de dados, como os produtos gamificados "Sabemos o que você fez na legislatura passada" e "Jogo de Votos". (Foto: Cortesia da Cuestión Pública)

Paralelamente ao fornecimento de contexto informativo ao Odin, também é fornecido contexto de forma para que o resultado gerado tenha a estrutura e o formato que a Cuestión Pública usa para seu conteúdo nas redes sociais. Isso é alcançado fornecendo ao modelo uma série de exemplos de fios de X criados por jornalistas do meio para que o Odin replique seu tom e estilo.

Essa técnica de aprendizado automático é chamada de "few-shot training" e consiste em treinar um LLM para executar um conjunto de tarefas a partir de um certo número de amostras, para que aprenda a reconhecer padrões nessas amostras e a utilizá-los em suas respostas futuras.

No entanto, atualmente, a equipe desenvolvedora do Odin está planejando obter esses mesmos resultados personalizando diretamente o modelo do GPT por meio da API da OpenAI, o que é possível desde a versão GPT 3.5. Esse processo é conhecido como "fine tuning".

"O que você faz é usar esse modelo GPT 3.5 e personalizá-lo muito mais com esses exemplos que já possui, e não é mais através de prompts, mas é um processo especial de 'fine tuning' que a OpenAI tem aberto para que os resultados que você espera da geração de textos sigam esses exemplos com os quais você o treinou. É como se fosse uma nova fase de treinamento", explicou Ponce de León.

O trabalho do jornalista permanece

Embora o Odin participe em grande parte da criação dos fios de X sobre notícias da atualidade, Báez é firme ao garantir que esses fios não sejam conteúdo gerado por inteligência artificial. O que a ferramenta faz, disse, é reduzir o tempo que um jornalista leva para localizar e avaliar as informações das bases de dados do meio para relacioná-las ao tema da atualidade.

Báez também disse que o Odin não vem para substituir nenhum jornalista de sua equipe, mas para otimizar seus tempos para que possam dedicá-lo a investigações em profundidade.

"Na prática ,o que Odin te dá é um rascunho (...) para reduzir, otimizar os tempos dos meus jornalistas, que são muito valiosos", disse a jornalista. "O Odin já avaliou as informações para mim, já me deu as descobertas jornalísticas, mas há uma adição consciente do meu jornalista. O output é um rascunho, mas há um trabalho de edição árdua do humano".

Báez disse que, para um meio pequeno e independente, a expansão dos recursos humanos é difícil, então tecnologias como inteligência artificial aplicadas ao jornalismo são de grande ajuda para potencializar o trabalho. Mas, por outro lado, ela também é consciente de que aplicativos como o Odin implicam em custos que muitos meios pequenos não são capazes de suportar.

Na opinião de Ponce de León, criar e manter uma ferramenta como o Odin não é impossível para um meio pequeno ou médio da América Latina, mas requer pelo menos uma pessoa na equipe com conhecimentos técnicos em programação e ciência de dados.

"Realmente não é tão complicado quanto possa parecer. Há uma parte técnica que é importante, que é o conhecimento de alguma linguagem de programação, conhecimento de APIs para poder se conectar com esses modelos, interagir com eles a partir de uma parte programática, mas acho que uma pessoa dentro de uma equipe pequena que tenha essas habilidades pode fazer isso", disse.

Embora os LLM da OpenAI não sejam gratuitos, estão surgindo cada vez mais modelos de código aberto com funções semelhantes às dos modelos GPT, como o LLaMA, da Meta; ou os modelos da empresa francesa de inteligência artificial Mistral AI, disse Ponce de León.

Mas, embora existam essas ferramentas de código aberto ou com custos acessíveis, também é preciso ter em mente que sistemas como o Odin também exigem custos de hospedagem de grandes quantidades de dados, acrescentou o pesquisador. No entanto, Ponce de León acredita que tarde ou cedo os meios de notícias se verão na necessidade de integrar algum tipo de inteligência artificial em seus processos.

"Há custos da nuvem que precisam ser considerados. Talvez aí seja onde se torna um pouco caro, mas acho que os meios de comunicação têm que caminhar para esse tipo de tecnologias, e no processo há custos envolvidos", disse. "Eu realmente encorajaria os meios a começarem a pensar em como integrar esse tipo de tecnologias sem o medo de pensar que são muito complexas de adicionar".

A Cuestión Pública já planeja aumentar sua aposta no Odin para, em uma próxima etapa, aumentar as capacidades da ferramenta e buscar formas de monetizá-la. Por enquanto, o meio trabalha para encontrar uma maneira de vincular o Odin ao monitoramento de tendências nas redes sociais para que a geração de conteúdo contextualizado sobre eventos da atualidade ocorra de forma automatizada.

Embora não descarte usar a ferramenta para gerar conteúdo em outros formatos, Báez disse que o que a Cuestión Pública busca com o Odin não é publicar conteúdo todos os dias, mas tirar o máximo proveito do jornalismo investigativo e levar as informações a outras audiências, além dos leitores assíduos de longas reportagens.

"Para um meio como a Cuestión Pública, não interessa criar artigos para preencher páginas, eu prefiro realmente transformar minhas descobertas, que são tão profundas, para democratizar a informação e chegar a audiências menos sofisticadas, que a informação possa ser entendida mais pela base. É aí onde nós estamos evoluindo", disse.

Traduzido por André Duchiade
Regras para republicação