Dos proyectos de IA generativa al servicio de lenguas indígenas en Perú

Por César López Linares
27 febrero, 2024

Con la creciente expansión de la inteligencia artificial (IA) generativa, en los años recientes, muchos medios de noticias en América Latina han desarrollado iniciativas innovadoras que usan esa tecnología para potenciar la capacidad de su periodismo. Pero pocas de estos esfuerzos han ido enfocados a las necesidades informativas de las comunidades indígenas.

En Perú, en el último año han sido desarrollados dos proyectos de inteligencia artificial generativa para la creación de contenido dirigido a la población hablante de tres de las lenguas originarias que existen en ese país.

Además de contribuir a atender las demandas de información para las poblaciones hablantes de lenguas como el quechua, el aymara y el awajún, los creadores de ambos proyectos destacan la contribución de estas iniciativas en la preservación de esas y otras lenguas originarias.

Información verificada en voces ancestrales

El medio digital de periodismo de investigación Ojo Público se ha caracterizado por desarrollar desde su fundación proyectos tecnológicos innovadores para potencializar sus coberturas. Pero en 2023, el medio rompió una barrera más: usó esa experiencia para contribuir a satisfacer la necesidad informativa de un olvidado sector de la población peruana: las comunidades indígenas.

Ojo Público desarrolló Quispe Chequea, una herramienta que utiliza recursos de inteligencia artificial generativa para producir contenido de verificación periodística en texto y audio en lenguas originarias. El medio está usando la herramienta para facilitar la generación de información en redacciones pequeñas de comunidades indígenas en Perú, principalmente emisoras de radio.

“Como parte de la evolución de los proyectos de verificación que impulsa Ojo Público, detectamos que una necesidad era facilitar la generación de contenido para estas comunidades y que los comunicadores regionales pudieran aplicar metodología de verificación, pero también [necesitaban] algún recurso que les permitiera generar contenido rápidamente, de manera más eficiente”, dijo David Hidalgo, director ejecutivo del medio, a LatAm Journalism Review (LJR).

Fue durante la pandemia por COVID-19 que Ojo Público comenzó a colaborar con emisoras comunitarias de al menos ocho regiones de los Andes y la Amazonía peruanos en la generación de material verificado y traducido a lenguas indígenas. El medio se dio cuenta que estas comunidades eran el grupo poblacional más vulnerable a la desinformación en ese momento, al no contar con información en su lengua sobre la enfermedad.

Illustration explaining how the AI-based Quispe Chequea tool works.

Quispe Chequea tiene dos componentes, uno de generación de contenido verificado en texto y otro de generación de audio en lenguas indígenas. (Foto: Captura de pantalla de Ojo Público)

Con el boom de la inteligencia artificial generativa de años recientes, Ojo Público pensó en aplicar esta tecnología para impulsar aún más su colaboración con los medios comunitarios. En 2023, reunió a un equipo multidisciplinario que incluyó periodistas, desarrolladores, científicos de datos y traductores para crear Quispe Chequea, con el apoyo de Google News Initiative.

La herramienta se conforma de dos componentes, uno que tiene que ver con la generación de contenido verificado en texto y otro que corresponde a la generación de audio en lenguas indígenas.

El primer componente funciona a través de un gestor de contenido capaz de generar texto mediante recursos de ChatGPT. El periodista usuario debe ingresar piezas de información previamente verificada bajo la metodología de Ojo Público, así como otros elementos de evidencia necesaria, para que la herramienta redacte un texto.

Una vez generado el texto, un editor debe revisarlo y corregir o agregar información, según considere, hasta que el material cuente con los estándares de verificación del medio.

Hidalgo fue claro en subrayar que Quispe Chequea, cuyo nombre fue tomado del apellido Quispe, uno de los más comunes en quechua y cuyo significado alude a la claridad y la transparencia, no es una herramienta que realice verificación de información, sino que organiza datos introducidos por el usuario en un texto con las características de un chequeo.

“El periodista no solamente se sienta y espera que la máquina le arroje un chequeo, sino que tiene que conocer y dominar el proceso de verificación y todas las pautas que tiene con estándares internacionales”, dijo. “Si uno coloca una fuente o un link equivocado, la plataforma va a generar un contenido con ese dato. No eludimos la responsabilidad del periodista. Lo que hace esta plataforma es proveer una solución para que se genere un texto muy rápidamente”.

La generación del audio viene una vez que el editor aprueba el texto, elige el idioma deseado (actualmente la herramienta es capaz de generar audios en español y en las lenguas indígenas quechua, aymara y awajún) y presiona un botón. La plataforma entonces traduce el contenido y arroja un archivo en formato MP3 que emula la narración de un locutor.

Sin embargo, generar voz no fue la parte más complicada del desarrollo de la herramienta. Actualmente existen múltiples herramientas de tecnología text-to-speech (texto a voz) capaces de recrear la voz humana con inteligencia artificial. Para este proyecto, el equipo usó Tacotron 2, un software desarrollado por investigadores de Google.

La parte compleja, según Hidalgo, fue lograr que Quispe Chequea tradujera los textos a las lenguas originarias, para las cuales los recursos de traducción existentes eran muy limitados. Para ello, el equipo tuvo que desarrollar un traductor como parte de la herramienta. Un grupo de periodistas de OjoBiónico, la unidad de fact-checking de Ojo Público, y tres intérpretes crearon una base de datos por cada lenguaje, con miles de frases comunes de cada uno.

Posteriormente, los intérpretes grabaron cada frase con su voz hasta obtener un banco sonoro de alrededor de cuatro horas por cada idioma. Con ese material, los desarrolladores “entrenaron” al traductor, diseñado con arquitectura de Tacotron 2, lo que permitió a la herramienta convertir los textos en audios en los tres idiomas indígenas. Tras varios ajustes y procesos de entrenamiento, obtuvieron un sistema capaz de crear voces de aspecto natural.

“Ha sido un trabajo bastante arduo, sobre todo para la recolección de la data para entrenar este modelo”, dijo a LJR Gianella Tapullima, editora de fact-checking de Ojo Público. “Eran frases que obtuvimos a partir de un scraping de las verificaciones que nosotros hemos realizado a lo largo de estos años [en esos idiomas]”.

La traducción en awajún, el idioma del segundo pueblo amazónico con más habitantes de Perú- representó un esfuerzo adicional. Para las traducciones en quechua y aymara, los desarrolladores de Quispe Chequea recurrieron a recursos del traductor de Google, que cuenta con ambas lenguas indígenas en su sistema. Pero para awajún, el equipo tuvo que crear un modelo de traducción automática in-house.

Peruvian journalist David Hidalgo, from Ojo Publico digital news outlet, conducts a training to indigenous journalists about a AI tool.

Desde inicios de 2024, Ojo Público lleva a cabo un programa de entrenamiento con 12 emisoras radiofónicas de regiones amazónicas y andinas de Perú sobre el uso de Quispe Chequea. (Foto: Captura de pantalla del canal de YouTube de Ojo Público)

Para ello, se requirió una base de datos de más de 20.000 frases en awajún, una lengua considerada de pocos recursos digitales, es decir, que tiene baja presencia en el universo digital. Por tanto, las frases fueron tomadas de algunas de las pocas fuentes existentes, como una versión de la Biblia en ese idioma, así como cuentos, poemas y documentos de gobierno.

“Hubo una investigación previa del equipo de desarrollo sobre si existía alguna herramienta que se adaptara a las lenguas de pocos recursos”, dijo Hidalgo. “Se encontró que existieron experiencias con el desarrollo de un modelo parecido con el sánscrito. Y entonces a partir de ahí lo desarrollaron y sugirieron utilizar Tacotron 2”.

Quispe Chequea ha sido puesto a prueba ante comunicadores indígenas y estos han aprobado la precisión de los resultados, dijo Tapullima. No obstante, el equipo pretende perfeccionar la calidad del audio, para lo cual se encuentran haciendo pruebas con otros softwares, como FastPitch.

“Era importante para nosotros que el mensaje se entendiera”, dijo. “Hay cosas, por supuesto, aún por mejorar, y eso se hace con generar más datos y ampliar más la cantidad de data”.

Actualmente, Ojo Público está llevando a cabo un programa de entrenamiento con 12 emisoras radiofónicas de regiones amazónicas y andinas de Perú, no solo sobre cómo utilizar Quispe Chequea, sino sobre la metodología de fact-checking del medio.

Una de esas emisoras es Radio Uno, en la ciudad de Tacna, al sur de Perú, la cual llega a varias comunidades remotas de la zona andina del país, en las fronteras con Chile y Bolivia.

La emisora comenzó en 2023 a incluir titulares en aymara en sus resúmenes informativos. Con la ayuda de Quispe Chequea, la estación podría aumentar el contenido en ese idioma y con ello beneficiar a las comunidades indígenas a las que llega.

“Tener esta plataforma con traducción de las notas en íntegro en aymara acercaría aún más la información a esos sectores. De por sí Radio Uno está en diales de las zonas alejadas por AM, no solo por la FM”, dijo a LJR Doris Rosas, redactora del sitio web de la estación. “Qué mejor que poderla escuchar en su idioma natural”.

Rosas y Fernando Rondinel, gerente de Radio Uno, son los miembros del equipo de la emisora que participan en la formación sobre Quispe Chequea. Rosas dijo que sus colegas cuya lengua materna es el aymara han aprobado hasta ahora la calidad y precisión de los mensajes que arroja la herramienta.

Aunque para el desarrollo de la herramienta, Ojo Público contó con apoyo de Google News Initiative, el reto para este año, dijo Hidalgo, es encontrar un modelo de negocio para hacerla sostenible y mejorarla con la inclusión de más idiomas, sin aplicar tarifas de uso a los medios comunitarios.

“Creo que [Quispe Chequea] sienta un precedente importante, tanto en el país como en el mundo. Hay un problema de marginación de los pueblos indígenas en el desarrollo de la inteligencia artificial”, dijo Hidalgo. “Creo que el proyecto ayuda justamente a dar esa diversidad e inclusión de las comunidades, y también de la preservación de las lenguas originarias en nuestro país”.

El avatar que aprendió quechua

Illariy es el nombre de la presentadora del noticiario universitario “Letras TV Willakun”, del canal de la Facultad de Letras y Ciencias Humanas de la Universidad Nacional Mayor de San Marcos (UNMSM), en Lima, Perú. Illariy habla quechua, la lengua indígena más hablada de ese país, y gracias a ello se ha convertido en una celebridad entre la comunidad universitaria que la observa todos los días en las pantallas del sistema televisivo de la institución.

Lo curioso es que Illariy no existe en la vida real. Se trata de un avatar creado con inteligencia artificial que presenta semanalmente noticias de interés para la comunidad universitaria.

Illariy, cuyo nombre significa “amanecer” en quechua, es la presentadora del noticiario “Letras TV Willakun” de la Facultad de Letras de la Universidad Nacional Mayor de San Marcos. (Foto: Captura de pantalla del TikTok de LetrasTV)

“Encontramos en la inteligencia artificial una herramienta para perpetuar la tradición y para perpetuar el idioma, para evitar la extinción de la lengua”, dijo a LJR Carlos Fernández, docente de Comunicación Social de la UNMSM y líder del equipo creador de Illariy.

El avatar fue creado luego que Fernández y su equipo produjeron un spot para promocionar el Posgrado en Letras de la institución elaborado en su totalidad con inteligencia artificial. Para dicho spot se recreó al escritor peruano José María Arguedas a través de herramientas generativas de voz y video.

Ante la buena recepción del spot en la universidad, Fernández pensó en hacer algo similar para la siguiente temporada de “Letras TV Willakun”, el cual desde 2019 presenta noticias en quechua para la comunidad universitaria. Decidieron crear un avatar que apareciera a cuadro narrando las noticias. Para ello usaron Dall-E, la herramienta de inteligencia artificial de OpenAI (la organización creadora de ChatGPT) que genera imágenes a partir de texto.

El equipo pidió a la herramienta generar una mujer de rasgos físicos andinos y con características de la población de la región. Además, le dieron instrucciones precisas sobre el atuendo que debía llevar. Así fue como el 20 de marzo de 2023 nació Illariy, cuyo nombre significa “amanecer” en quechua.

El siguiente paso era hacer que Illariy hablara quechua fluidamente por sí misma. Para ello, el equipo recurrió a D-ID, la plataforma de la empresa israelí del mismo nombre capaz de hacer que imágenes fijas “cobren vida” y hablen a partir de indicaciones de texto.

Sin embargo, se toparon con un problema.

“Todas las plataformas de inteligencia artificial de texto a voz tenían la particularidad de tener únicamente disponibles lenguas modernas. Había castellano, francés, inglés…, pero lo que no existían eran lenguas originarias”, dijo Fernández. “El quechua no está en la ecuación de las grandes transnacionales de la inteligencia artificial”.

El docente y experto en tecnologías emergentes aplicadas al periodismo tuvo una idea innovadora para darle la vuelta al obstáculo. En conjunto con Óscar Huamán, investigador de la Cátedra de Lengua Quechua de la universidad, crearon una plantilla fonética de palabras en quechua pero escritas con vocablos en español.

El equipo introdujo estos vocablos al sistema de D-ID para hacer hablar a Illariy. Luego de varias repeticiones de ensayo y error, notaron que esa serie de vocablos, pronunciados por el avatar en español nicaragüense, sonaban muy similar a un quechua fluido.

“Así comenzamos a buscar una serie de equivalencias para que el avatar sonara [a que estaba hablando] en quechua a pesar de utilizar el español”, contó Fernández. “Tú ponías el texto y por la forma que tienen los nicaragüenses de pronunciar determinadas consonantes, sonaba más a quechua”.

Ya existen varios ejemplos de presentadores de noticias generados con inteligencia artificial en la región. Pero para Fernández, la principal innovación de su proyecto es que, a través de una transcripción fonética, hicieron posible que Illariy narrara las noticias en un idioma originario.

Huamán, cuya lengua nativa es el quechua, es quien recibe las notas en español del equipo del noticiario, las traduce a quechua y las traslada a la plantilla fonética. Luego, los vocablos de la plantilla se introducen en el sistema y se genera una primera versión en audio de las notas.

“En la edición tengo que entrar otra vez y pasar otro filtro, [para verificar que] es coherente o no, tanto el mensaje, como el sonido”, dijo Huamán a LJR.

El lingüista dijo que, hasta el momento, Illariy tiene una precisión de entre el 80 y 90 por ciento en comparación con el quechua humano.

Peruvian linguist and professor Oscar Huaman speaks in a library.

Óscar Huamán, lingüista y profesor de quechua, es el encargado de elaborar la plantilla fonética con la que es posible hacer hablar a Illariy. (Foto: Captura de pantalla del canal de YouTube de RTV San Marcos)

“Por la misma estructura que tiene la lengua, las oraciones tienen una tonalidad. Eso es lo que le falta [a Illariy]”, dijo. “Allí se puede mejorar trabajando con segmentación [de palabras], o ponerlas en mayúsculas, y en algunos casos poner acentos, tildes”.

De forma similar, en experimentos han logrado que el avatar hable aymara y awajún. Aunque hasta el momento, el noticiario semanal que el avatar protagoniza es solo en quechua.

“Lo que nosotros estamos haciendo aquí lo podemos recrear con el awajún, con el aymara y con otros dialectos del quechua y hacer que estas 48 lenguas originarias [que existen en Perú] no se pierdan”, dijo Fernández. “Los idiomas no solamente son los vocablos, sino es la identidad cultural lo que está de por medio”.

En casi un año, Illariy ha pasado de estelarizar el noticiario universitario a la transmedialidad: ahora enseña quechua en TikTok y cuenta con su propia aplicación en la GPT Store, Illariy Willarisunki (Illariy te cuenta), la cual genera historias en quechua a partir de prompts en español.

El equipo planea mejorar la imagen del avatar y la calidad de sus movimientos en 2024, ya que el personaje podría pronto trascender de la audiencia universitaria a un público masivo. Fernández contó que la UNMSM está en conversaciones con algunos medios de comunicación tradicionales para hacer colaboraciones con Illariy.

Pese a que el presupuesto para el proyecto lo cubre la universidad, el docente subrayó que los costos de producción de Illariy son cercanos a cero, salvo por los costos de las versiones premium de algunas herramientas de inteligencia artificial generativa que usaron, que son relativamente accesibles. Algunas otras herramientas, dijo, las usaron con periodos de prueba gratuitos.

Para Fernández, Illariy es también un ejemplo que refuta las creencias de que la inteligencia artificial llegó para reemplazar a los seres humanos en sus empleos. En el caso del avatar de la UNMSM, por el contrario, ha generado más trabajo.

“A la persona que supuestamente le quitó el empleo es a Óscar Huamán, la persona que antes hacía la locución en el noticiario”, dijo. “Pero le terminó dando más chamba [trabajo], porque ahora no sólo tiene que traducir, sino que ahora tiene a su cargo la transcripción fonética”.

Lineamientos para reproducir artículos de LJR

Artículos Recientes

Más Artículos

Proyectos de IA generativa producen noticias en lenguas indígenas en Perú

Información verificada en voces ancestrales

El avatar que aprendió quechua

Artículos Recientes

Artículos Relacionados

¿Pueden los periodistas confiar en la inteligencia artificial para simplificar temas complejos? Este sitio argentino de fact-checking quiere saberlo Leer más >>

Cómo el periódico Gigantes triunfa en Uruguay con un periodismo hecho por y para niños Leer más >>

Cómo periodistas de Bolivia, Colombia y México combaten la opacidad y la desinformación para cubrir crisis del agua Leer más >>

¿Qué piensan los argentinos del uso de la IA generativa en las noticias? Leer más >>

Grupo PRISA usa nueva herramienta de IA para detectar deep fakes de audio y combatir la desinformación en América Latina Leer más >>