texas-moody

Medio colombiano Cuestión Pública crea herramienta de IA para optimizar cobertura diaria con periodismo de investigación

El medio independiente Cuestión Pública se ha especializado en hacer periodismo de investigación que busca poner luz en casos de abuso de poder en Colombia. Desde su fundación, en 2018, ha publicado múltiples reportajes y productos especiales que han tenido significativos impactos en la agenda pública de ese país.

Sin embargo, como a muchos medios pequeños de periodismo de investigación, a Cuestión Pública -cuyo equipo editorial consiste de poco más de diez personas- se le ha dificultado cubrir los hechos del día a día.

“El desafío como medio periodismo de investigación es que tú no estás tan presente en la agenda mediática porque la investigación toma mucho tiempo. [...] Vas perdiendo relevancia entre más lenta se hace la investigación”, dijo Claudia Báez, directora general y cofundadora de Cuestión Pública, a LatAm Journalism Review (LJR). “Lo que hace [cubrir] la coyuntura es darle al medio relevancia, posicionamiento de la agenda mediática y retentiva con la audiencia”.

Illustration of the AI tool Odin Project, developed by Colombian media outlet Cuestión Pública.

Odin es una herramienta que utiliza inteligencia artificial para optimizar la creación de contenido sobre noticias de actualidad enriquecido con contexto de periodismo de investigación. (Foto: Captura de pantalla de YouTube)

 

 

Luego de experimentar con herramientas de inteligencia artificial generativa para agilizar procesos de diseño, a finales de 2022, Báez tuvo la visión de encontrar una forma de usar dicha tecnología para proveer a sus lectores cobertura de coyuntura, pero enriquecida con periodismo de investigación. Esto, aprovechando la capacidad instalada del medio, sobre todo las extensas bases de datos que han construido para grandes proyectos de periodismo de datos, como los productos gamificados  “Sabemos lo que hiciste la legislatura pasada” y “Juego de Votos”.

Fue así como surgió el Proyecto Odin, una herramienta que utiliza inteligencia artificial para optimizar la creación de contenido de actualidad enriquecido con contexto de periodismo de investigación. Odin opera bajo el concepto “residuo cero”, que busca aprovechar al máximo los datos que el medio ha investigado durante años y permitir que éstos tomen relevancia a través de eventos de coyuntura.

Odin funciona mediante una interfaz en la que el periodista introduce el titular de algún tema de actualidad. Luego, el sistema busca información relacionada con ese tema en las bases de datos estructuradas de Cuestión Pública y la pondera según su relevancia. Posteriormente, la herramienta genera el borrador de un hilo de X con el estilo del medio, el cual es editado por el periodista para posteriormente ser publicado.

“Odín reduce los tiempos de producción de un hilo de tres horas a 15 minutos. Y tiene el tono de Cuestión Pública, como habla nuestra voz en redes, porque para eso lo entrenamos”, dijo Báez. “Cuando un periodista está haciendo una investigación, conectando todos los puntos, y tiene que cubrir algo de coyuntura, se desconcentra. Así [con Odín] el periodista de investigación que estaba haciendo otra cosa, llega, lo edita y sale en 15 minutos”.

Odin, cuyo nombre alude a las siglas de Optimized Data Integration Network (red de integración de datos optimizada), fue desarrollado a partir de la participación de Cuestión Pública en el Artificial Intelligence Journalism Challenge (AIJC), una competencia global desarrollada por la Open Society Foundation que ofrece formación, mentoría y financiamiento a redacciones seleccionadas para desarrollar formas innovadoras de aplicar inteligencia artificial en el periodismo.

Cuestión Pública fue uno de los dos únicos medios de América Latina entre las 12 redacciones seleccionadas para la edición 2023 de AIJC. El otro fue Agência Pública, de Brasil. La redacción ganadora fue Rappler, de Filipinas, mientras que Cuestión Pública se hizo acreedor a una Mención de Honor por Odin.

"Había tres jueces que juzgaron la fase final y destacaron el Proyecto Odin por ser especialmente innovador", dijo a LJR David Caswell, investigador y consultor sobre inteligencia artificial en periodismo. "Los jueces quedaron tan impresionados con Odin que le concedieron esta mención honorífica. Querían reconocerlo, aunque solo podía haber un ganador".

De acuerdo con Caswell, parte de lo que motivó al jurado a otorgar la mención de honor es el hecho de que Odin combina el contexto con rigor periodístico de las bases de datos de Cuestión Pública con la fluidez y la actualidad de las noticias de coyuntura, en un contenido de fácil consumo en redes sociales.

“Lo que esto representa es algo nuevo, es esta capacidad de tomar algo que quizás acaba de ocurrir y luego enriquecerlo con un cuerpo de información bien investigado, bien mantenido, verificado, y luego presentar esas noticias contextualizadas de una manera accesible”, dijo el consultor, quien además fungió como mentor de los participantes del AIJC en el desarrollo de sus proyectos.

“Antes, en los medios de comunicación colombianos, habrías tenido a alguien que [...] lleva mucho tiempo haciendo periodismo y ha acumulado estos conocimientos en su cabeza. Y entonces aparece una nueva noticia y al instante conoce todos estos hechos, estas conexiones, y entonces pueden escribir sobre ello".

Además de la mentoría, el programa incluyó una subvención de 5 mil libras esterlinas (cerca de 6 mil 300 dólares estadounidenses) a cada una de las 12 redacciones seleccionadas para el prototipado de sus proyectos. Cuestión Pública usó este apoyo para contratar a una agencia desarrolladora de tecnología en Colombia para la creación de Odin.

Técnicas de vanguardia

Báez y Caswell coincidieron en que una de las principales innovaciones que Odin trae al periodismo es la posibilidad de optimizar los resultados de la inteligencia artificial generativa con información específica, diferente a la que fue usada para su entrenamiento, sin tener que modificar el modelo en sí.

Colombian journalist Claudia Báez.

Claudia Báez recibió la mención de honor otorgada a Odin como parte del AIJC en el festival Splice Beta Journalism, en Chiang Mai, Tailandia, en noviembre de 2023. (Foto: Twitter de Claudia Báez)

Y eso se logra gracias a una metodología denominada RAG (Retrieval-Augmented Generation, o generación aumentada por recuperación), que permite que grandes modelos de lenguaje (LLM, por sus siglas en inglés) aprovechen datos de las organizaciones para que éstos entreguen respuestas más relevantes y con el contexto adecuado.

“Un modelo [de lenguaje natural] está entrenado con cierta información, pero no conoce la información que yo tengo, entonces yo le inyecto esta información externa para ver cómo se comporta con esta información con la que no fue entrenado, pero que se le puede proporcionar”, dijo a LJR Esteban Ponce de León, investigador del Laboratorio de Investigación Forense Digital (DFRLab, por sus siglas en inglés) del Atlantic Council en Colombia. “[RAG] es actualmente el modo en cómo podemos conectar mejor modelos de lenguaje con nuestros propios datos”.

Para aplicar la tecnología RAG a Odin fue necesario primero someter a las bases de datos de Cuestión Pública a un proceso de vectorización. Es decir, transformar la información en un formato numérico. De este modo, cuando un periodista introduce un prompt en el sistema, éste también se vectoriza y Odin compara los valores numéricos del prompt y de las bases de datos, y arroja los que son más similares entre sí.

“Si tú preguntaste sobre un congresista específico, seguramente esos resultados similares van a contener información relacionada con ese congresista, pero si además añadiste una coyuntura política, por ejemplo un tema de pensiones, un tema de protestas, entonces los resultados que te va a traer Odin van a ser los del congresista, más esa coyuntura política que incluiste en tu prompt”, dijo Ponce de Léon, quien además fue uno de los científicos de datos que participó en el desarrollo de Odin.

Parte de la importancia de la tecnología RAG en periodismo es que permite que los LLM recurran a información de calidad y actualizada en lugar de usar la información con la que fueron entrenados, que en ocasiones puede ser obsoleta o inexacta. Esto también evita que estos modelos arrojen “alucinaciones”, que podrían tener consecuencias fatídicas en el periodismo.

En Odin, esto se logra proporcionándole un “prompt de sistema”, que es un tipo de comando que se le introduce a un modelo de inteligencia artificial generativa previo al inicio de cada sesión, y que determina su comportamiento, tareas y límites.

“El prompt de sistema es el que va a definir el rol del modelo, literalmente con frases como ‘no utilices tu conocimiento previo y enfócate únicamente en este contexto que se te está dando para generar tu resultado’”, explicó Ponce de Léon. “No es una configuración programática, es simplemente darle una instrucción en lenguaje natural para que se enfoque en ese rol de manera específica sobre qué es lo que tiene que responder en el siguiente prompt, que ya es el del usuario”.

Para los procesos de vectorización, Odin usa el modelo BERT, de Google, mientras que sus funciones generativas son posibles gracias a los modelos GPT 3.5 y GPT 4 de OpenAI, la organización que desarrolló ChatGPT, explicó Ponce de León.

De acuerdo con Caswell, muy pocos medios de noticias están usando la metodología RAG en sus aplicaciones de inteligencia artificial generativa. La mayoría de los que lo hacen, dijo, son grandes redacciones que usan datos de sus archivos o conjuntos pequeños de documentos, como documentos judiciales o legislativos, para contextualizar el contenido generado.

"Es un tema muy candente, una especie de vanguardia en la aplicación de la inteligencia artificial en periodismo", dijo Caswell. "Pero creo que Cuestión Pública está bastante adelante a la cabeza en esa demostración muy avanzada -y, por tanto, con gran impacto- de lo que es posible con esto".

Paralelamente a proveer a Odin contexto informativo, también se le provee contexto de forma para que el resultado arrojado tenga la estructura y formato que Cuestión Pública usa para su contenido en redes sociales. Esto se logra proporcionándole al modelo una serie de ejemplos de hilos de X creados por periodistas del medio para que Odin replique su tono y estilo.

Esta técnica de aprendizaje automático se denomina “few-shot training”, y consiste en entrenar un LLM para ejecutar un conjunto de tareas a partir de cierto número de muestras, con el fin de que aprenda a reconocer patrones en esas muestras y a utilizarlos en sus respuestas futuras.

Graphic of the gamified data journalism project Sabemos lo que hiciste la legislatura pasada, by Colombian independent media outlet Cuestión Pública

La herramienta aprovecha las extensas bases de datos que Cuestión Pública ha construido para proyectos de periodismo de datos, como los productos gamificados “Sabemos lo que hiciste la legislatura pasada” y “Juego de Votos”. (Foto: Cortesía Cuestión Pública)

No obstante, actualmente el equipo desarrollador de Odin está planeando obtener esos mismos resultados personalizando directamente el modelo GPT a través de la API de OpenAI, lo cual es posible hacer desde la versión GPT 3.5. A este proceso se le conoce como “fine tuning”.

“Lo que haces es utilizar este modelo de GPT 3.5 y lo personalizas mucho más con estos ejemplos que ya tienes, y ya no es a través de prompts, sino que es un proceso especial de ‘fine tuning’ que tiene abierto OpenAI para que los resultados que esperas de generación de textos sigan esos ejemplos con los que lo entraste. Es como si fuera una nueva fase de entrenamiento”, explicó Ponce de León.

Odin no hace el trabajo del periodista

Aunque Odin participa en gran parte de la creación de los hilos de X sobre noticias de actualidad, Báez es firme en asegurar que estos hilos no son contenido generado por inteligencia artificial. Lo que hace la herramienta, dijo, es reducir el tiempo que le toma a un periodista localizar y ponderar la información de las bases de datos del medio para relacionarla con el tema de coyuntura.

También dijo que Odin no viene a reemplazar a ningún periodista de su equipo, sino a optimizar sus tiempos para que éstos puedan dedicarlo a investigaciones de profundidad.

“Prácticamente lo que te saca Odin es un draft [...] para reducir, optimizar los tiempos de mis periodistas, que son valiosísimos”, dijo la periodista. “Odin ya me ponderó la información, ya me dio los hallazgos periodísticos, pero hay una adición consciente de mi periodista. El output es un draft, pero ahí hay un trabajo de edición dura del humano”.

Báez dijo que para un medio pequeño e independiente, crecer en recursos humanos es difícil, por lo que tecnologías como la inteligencia artificial aplicadas al periodismo son de gran ayuda para potenciar el trabajo. Pero, por otro lado, también es consciente de que aplicaciones como Odin implican costos que muchos medios pequeños no son capaces de solventar.

En opinión de Ponce de Léon, crear y mantener una herramienta como Odin no es imposible para un medio pequeño o mediano de América Latina, pero sí requiere al menos de alguna persona en el equipo con conocimientos técnicos en programación y ciencia de datos.

“Realmente no es tan complicado como pudiera parecer. Hay una parte técnica que sí es importante, que es el conocimiento de algún lenguaje de programación, conocimiento de APIs para poder conectarte con estos modelos, interactuar con ellos desde una parte programática, pero creo que una persona dentro un equipo pequeño que tenga esas habilidades lo puede hacer”, dijo.

Aunque los LLM de OpenAI no son gratuitos, cada vez surgen nuevos modelos de código abierto con funciones similares a las de los modelos GPT, como LLaMA, de Meta; o los modelos de la empresa francesa de inteligencia artificial Mistral AI, dijo Ponce de León.

Pero aunque existen estas herramientas de código abierto o con costos accesibles, también se debe tener presente que sistemas como Odin exigen también costos de alojamiento de grandes cantidades de datos, agregó el investigador. No obstante, Ponce de León cree que tarde o temprano los medios de noticias se verán en la necesidad de integrar algún tipo de inteligencia artificial a sus procesos.

“Hay costos de la nube que hay que considerar. Quizá ahí es donde se vuelve un poco costoso, pero creo que los medios tienen que transitar a este tipo de tecnologías y en el proceso hay costos que se involucran”, dijo. “Me animaría mucho que los medios traten de comenzar a pensar cómo integrar ese tipo de tecnologías sin el miedo a pensar de que son muy complejas de añadir”.

Cuestión Pública ya planea aumentar su apuesta en Odin para, en una siguiente etapa, aumentar las capacidades de la herramienta y buscar formas de monetizarla. Por lo pronto, el medio trabaja en encontrar una manera de vincular a Odin con el monitoreo de tendencias en redes sociales para que la generación de contenido contextualizado sobre eventos de coyuntura se dé de forma automatizada.

Aunque no descarta usar la herramienta para generar contenido en otros formatos, Báez dijo que lo que Cuestión Pública busca con Odin no publicar contenido todos los días, sino sacar el mayor provecho al periodismo de investigación y llevar la información a otras audiencias, más allá de los lectores asiduos a leer reportajes de largo aliento.

“A un medio como Cuestión Pública no le interesa crear artículos para llenar páginas, más bien yo sí prefiero convertir mis hallazgos, que son tan profundos, para democratizar la información y que pueda llegar audiencias menos sofisticadas, que pueda ser entendida más por la base. Es ahí donde nosotros estamos evolucionando”, dijo.

Lineamientos para reproducir artículos de LJR

Artículos Recientes