Se buscan voces para que la tecnología entienda y hable el catalán
El proyecto Aina quiere recoger millones de voces de varias edades y variantes dialectales para que se puedan desarrollar productos o servicios tecnológicos en catalán
El proyecto Aina, impulsado por el Departamento de la Vicepresidencia y de Políticas Digitales y Territorio en colaboración con la Barcelona Supercomputing Center (BSC) quiere recoger millones de voces de personas hablando en catalán para crear el primer corpus de voz del catalán. El objetivo es generar los recursos digitales y lingüísticos necesarios para facilitar el desarrollo de aplicaciones basadas en la inteligencia artificial y las tecnologías de la lengua, como los asistentes de voz, los traductores automáticos o los agentes conversacionales en catalán.
La campaña, bajo el lema "Nuestra lengua es tu voz", empieza este jueves 17 de febrero y se hará a través de la iniciativa de Common Voice de Mozilla para el catalán. Se trata de una plataforma donde todo el mundo que quiera podrá leer y grabar un número ilimitado de frases, agrupadas de cinco en cinco, para ayudar a las máquinas a aprender cómo hablamos las personas. La grabación se puede hacer de manera totalmente anónima, pero los promotores explican que registrarse previamente y proporcionar los datos de género, edad y variante dialectal facilita mucho el trabajo de clasificar los datos. Actualmente, el perfil de voz mayoritario en la plataforma Common Voice de Mozilla es el de hombres de entre 30 y 50 años parlantes de catalán central, por lo tanto se necesitan voces femeninas y del resto de dialectos catalanes.
Actualmente, el proyecto dispone de un primer corpus textual de 1.770 millones de palabras reunidas en 95 millones de frases que se han obtenido a base de descargar textos de diferentes fuentes digitales en catalán. Ahora se generará una segunda versión mejorada y enriquecida de este corpus que recoja todos los matices de la lengua escrita, tanto de variantes dialectales como del registro lingüístico coloquial, literario o administrativo.
Para este 2022 el proyecto Aina tiene también otros objetivos: crear tres servicios lingüísticos básicos (de anonimització, de clasificación de documentos y de identificación de entidades y conceptos clave) para construir futuras aplicaciones y soluciones para el usuario final, crear modelos de la lengua especializados en un ámbito o una tarea concretos y crear un motor de traducción catalán-castellano para mejorar la calidad de los motores actualmente disponibles. El Departamento de la Vicepresidencia y de Políticas Digitales y Territorio destinará este año 3 millones de euros al proyecto a Aina mediante una subvención directa al BSC, que será el encargado de ejecutarlo.