SEGRE

TECNOLOGÍA PROYECTOS

Enseñar catalán a las máquinas

Responsables del proyecto en la presentación de la campaña ‘La nostra llengua es la teva veu’ en febrero.

Responsables del proyecto en la presentación de la campaña ‘La nostra llengua es la teva veu’ en febrero.GENERALITAT

Publicado por

Creado:

Actualizado:

Enseñar a comprender y hablar el catalán a los dispositivos electrónicos inteligentes es el objetivo que tiene el Projecte Aina, impulsado por el departamento de la Vicepresidencia y de Políticas Digitales y Territorio de la Generalitat con la colaboración del Barcelona Supercomputing Center - Centro Nacional de Supercomputación (BSC-CNS). El proyecto busca crear una base de datos de texto y voz que represente todos los dialectos del idioma para que las máquinas puedan generar un lenguaje digital.

Hasta ahora 30.000 personas han “donado” su voz en la campaña La nostra llengua es la teva, alcanzando el millón de registros en la plataforma Common Voices. Aun así, el director general de Innovación y Economía Digital de la Generalitat, Dani Marco, destaca que hay dos problemas. Por un lado, se han registrado 1.400 horas, de las cuales tan solo 400 han sido verificadas, es decir, hay mil que no se pueden confirmar. Es por ello, que piden que la ciudadanía colabore a través de la plataforma escuchando los audios y confirmando que se entienden y tienen buena calidad.

Otro de los problemas es la falta de diversidad dialectal, de las horas verificadas, el 53% pertenece a la Catalunya Central, seguida del dialecto noroccidental –se habla las comarcas de Lleida (excepto Aran), así como en Priorat, Terra Alta, Baix Ebre, Montsià, Ribagorza, Litera, Bajo Cinca y Matarraña– que representa un 4%. “Hay una infrarepresentatividad del territorio”, asegura Marco. A esto se le suma el hecho de que el perfil mayoritario del donante corresponde a un hombre de mediana edad. Por ello, piden que más mujeres y personas jóvenes y mayores de 50 años colaboren para poder representar el catalán en su totalidad.

El proyecto nació a finales de 2020 con la creación de una base de datos de texto. Ahora el objetivo es conseguir más voces y verificar las que ya tienen. Cabe destacar que ninguna aportación se utilizará para dar voz a ningún asistente virtual.

¿Qué finalidad tiene el Projecte Aina?

La idea es que los sistemas de inteligencia artificial tengan un fondo de voz para poder entrenarse y entender el catalán. Esto serviría para los asistentes de voz o los chat box, entre otros.

¿Por qué es relevante esta iniciativa para el catalán?

Esto que estamos haciendo con el catalán lo deberían hacer todas las lenguas porque de lo contrario las empujamos a la extinción digital. ¿Cómo se puede colaborar? Cualquier persona puede donar su voz a través de la plataforma Common Voices grabando 5 frases. También se puede validar los registros.

Responsables del proyecto en la presentación de la campaña ‘La nostra llengua es la teva veu’ en febrero.

Responsables del proyecto en la presentación de la campaña ‘La nostra llengua es la teva veu’ en febrero.GENERALITAT

tracking