Es busquen veus perquè la tecnologia entengui i parli el català
El projecte Aina vol recollir milions de veus de diverses edats i variants dialectals perquè es puguin desenvolupar productes o serveis tecnològics en català
El projecte Aina, impulsat pel Departament de la Vicepresidència i de Polítiques Digitals i Territori en col·laboració amb el Barcelona Supercomputing Center (BSC) vol recollir milions de veus de persones parlant en català per crear el primer corpus de veu del català. L'objectiu és generar els recursos digitals i lingüístics necessaris per facilitar el desenvolupament d'aplicacions basades en la intel·ligència artificial i les tecnologies de la llengua, com ara els assistents de veu, els traductors automàtics o els agents conversacionals en català.
La campanya, que porta el lema "La nostra llengua és la teva veu", comença aquest dijous 17 de febrer i es farà a través de la iniciativa de Common Voice de Mozilla per al català. Es tracta d'una plataforma on tothom que vulgui podrà llegir i enregistrar un nombre il·limitat de frases, agrupades de cinc en cinc, per ajudar les màquines a aprendre com parlem les persones. L'enregistrament es pot fer de manera totalment anònima, però els promotors expliquen que registrar-se prèviament i proporcionar les dades de gènere, edat i variant dialectal facilita molt la feina de classificar les dades. Actualment, el perfil de veu majoritari a la plataforma Common Voice de Mozilla és el d'homes d'entre 30 i 50 anys parlants de català central, per tant es necessiten veus femenines i de la resta de dialectes catalans.
Actualment, el projecte disposa d'un primer corpus textual de 1.770 milions de paraules reunides en 95 milions de frases que s'han obtingut a base de descarregar textos de diferents fonts digitals en català. Ara es generarà una segona versió millorada i enriquida d'aquest corpus que reculli tots els matisos de la llengua escrita, tant de variants dialectals com del registre lingüístic col·loquial, literari o administratiu.
Per a aquest 2022 el projecte Aina té també altres objectius: crear tres serveis lingüístics bàsics (d'anonimització, de classificació de documents i d'identificació d'entitats i conceptes clau) per construir futures aplicacions i solucions per a l'usuari final, crear models de la llengua especialitzats en un àmbit o una tasca concrets i crear un motor de traducció català-castellà per millorar la qualitat dels motors actualment disponibles. El Departament de la Vicepresidència i de Polítiques Digitals i Territori destinarà aquest any 3 milions d'euros al projecte Aina mitjançant una subvenció directa al BSC, que serà l'encarregat d'executar-lo.