O galego no proxecto ESMAS-ES+: retos e oportunidades para a anotación semántica
Authors/Creators
Description
Motivación: o proxecto ESMAS-ES+ (PID2022-137170OB-I00) ten como obxectivo o desenvolvemento e a validación dun prototipo de etiquetador semántico multilingüe, automático e sostible para alemán, español, francés e galego. Dentro deste marco, o galego ocupa unha posición singular polo seu menor grao de dispoñibilidade de recursos en comparación coas outras linguas do proxecto, o que implica retos metodolóxicos específicos, pero tamén oportunidades derivadas da súa proximidade tipolóxica a linguas coma o español e o portugués. O traballo co galego non só constitúe unha aplicación máis dun modelo xeral, senón tamén un espazo especialmente produtivo para detectar problemas metodolóxicos, afinar categorías de anotación e mellorar procedementos nun contexto multilingüe.
Obxectivos: o póster persegue dous obxectivos principais: (1) presentar o encaixe do galego dentro da arquitectura xeral de ESMAS-ES+ e describir as características que condicionan o deseño do etiquetador semántico en contraste coas outras linguas do proxecto; e (2) mostrar como estas especificidades poden contribuír ao deseño dun etiquetador máis preciso, flexible e sensible á diversidade lingüística.
Método e resultados: o traballo parte dos paquetes léxicos multilingües elaborados no marco de ESMAS-ES+ e do corpus Gold Standard paralelo en construción para a validación das anotacións semántico-ontolóxicas. No caso do galego, non se desenvolveron paquetes específicos independentes, senón que se partiu da hipótese de que a ontoloxía subxacente ao sistema é language-independent e, polo tanto, aplicable tamén á anotación de datos galegos a través das súas rutas semánticas. Neste sentido, o traballo coa lingua galega non supón tanto a creación ex novo dunha base léxica separada como a posta a proba da capacidade de adaptación da arquitectura xeral do proxecto, ao tempo que permite detectar lagoas, desaxustes e necesidades de refinamento nos paquetes xa existentes a partir da análise do corpus que constitúe o Gold Standard.
No proceso de anotación do galego identificáronse, ademais, fenómenos semánticos que requiren tratamento específico e que non sempre atopan equivalencia directa nas outras linguas do proxecto. Entre eles pódese mencionar, por exemplo, o comportamento dos nomes abstractos ou encapsuladores (shell nouns), que aparecen en todas as linguas analizadas pero que diverxen nas súas solucións tradutivas: en determinados contextos, unidades máis concretas noutras linguas poden corresponder no Gold Standard galego a formas máis xerais como asunto ou cousa, o que obriga a extremar a atención no proceso de anotación. Do mesmo xeito, certas estruturas procedentes do alemán, como compostos léxicos que nas linguas románicas se corresponden con combinacións do tipo N. + Adx., suscitan tamén decisións específicas de etiquetaxe, xa que a anotación pode recaer unicamente sobre o núcleo nominal, como en mercado laboral. Estes casos poñen de manifesto que a anotación semántica multilingüe non pode resolverse unicamente por equivalencia formal, senón que require criterios interpretativos sensibles á estrutura e ao funcionamento de cada lingua.
Un caso ilustrativo é o de pobo, cuxa polisemia evidencia a necesidade de aplicar criterios de desambiguación atentos ao contexto sociolingüístico. Neste sentido, estudos recentes apuntan tamén á utilidade dos grandes modelos de linguaxe como apoio no proceso de anotación (Míguez Rego 2026).
En conxunto, o galego aparece ao mesmo tempo como un reto metodolóxico e como un laboratorio privilexiado para validar estratexias de anotación semántica multilingüe: malia a súa condición de lingua con menos recursos, a proximidade formal a linguas veciñas e a dispoñibilidade de recursos lexicográficos consolidados permiten abordar a etiquetaxe con base empírica sólida e achegar evidencia valiosa para o avance dunha ferramenta máis robusta e sensible á diversidade lingüística.
Bibliografía
Domínguez Vázquez, María José (2025). Diseño y metodología de un etiquetador semántico-ontológico multilingüe – ESMAS-ES+. Revista de Investigación Lingüística, 28, 175-192. DOI: https://doi.org/10.6018/ril.662171
Domínguez Vázquez, María José & Simões, Alberto & Bardanca Outeiriño, Daniel & Caíña Hurtado, María & Iglesias Allones, José Luis (2024). Automatic generation of nominal phrases for Portuguese and Galician. Natural Language Processing. 2024:1-25. DOI: https://doi.org/10.1017/nlp.2024.32
Míguez-Rego, V. (2026). Large language models as first-pass filters for corpus annotation: semantic disambiguation of Galician pobo. Open Linguistics, 12(1): 20250078. DOI: https://doi.org/10.1515/opli-2025-0078
Files
Sanmarco Bande_O galego no proxecto ESMAS.pdf
Files
(1.1 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:69cd96848114e2e0fbc16f0e99806dea
|
1.1 MB | Preview Download |