O galego no proxecto ESMAS-ES+: retos e oportunidades para a anotación semántica

Arias Arias, Iván; Míguez-Rego, Vítor; Mosquera Sánchez, Lola; Sanmarco Bande, María Teresa

doi:10.5281/zenodo.20506232

Published May 29, 2026 | Version v1

Poster Open

O galego no proxecto ESMAS-ES+: retos e oportunidades para a anotación semántica

1. Universidade de Santiago de Compostela Facultade de Filoloxía
2. Universidade de Santiago de Compostela

Motivación: o proxecto ESMAS-ES+ (PID2022-137170OB-I00) ten como obxectivo o desenvolvemento e a validación dun prototipo de etiquetador semántico multilingüe, automático e sostible para alemán, español, francés e galego. Dentro deste marco, o galego ocupa unha posición singular polo seu menor grao de dispoñibilidade de recursos en comparación coas outras linguas do proxecto, o que implica retos metodolóxicos específicos, pero tamén oportunidades derivadas da súa proximidade tipolóxica a linguas coma o español e o portugués. O traballo co galego non só constitúe unha aplicación máis dun modelo xeral, senón tamén un espazo especialmente produtivo para detectar problemas metodolóxicos, afinar categorías de anotación e mellorar procedementos nun contexto multilingüe.

Obxectivos: o póster persegue dous obxectivos principais: (1) presentar o encaixe do galego dentro da arquitectura xeral de ESMAS-ES+ e describir as características que condicionan o deseño do etiquetador semántico en contraste coas outras linguas do proxecto; e (2) mostrar como estas especificidades poden contribuír ao deseño dun etiquetador máis preciso, flexible e sensible á diversidade lingüística.

Método e resultados: o traballo parte dos paquetes léxicos multilingües elaborados no marco de ESMAS-ES+ e do corpus Gold Standard paralelo en construción para a validación das anotacións semántico-ontolóxicas. No caso do galego, non se desenvolveron paquetes específicos independentes, senón que se partiu da hipótese de que a ontoloxía subxacente ao sistema é language-independent e, polo tanto, aplicable tamén á anotación de datos galegos a través das súas rutas semánticas. Neste sentido, o traballo coa lingua galega non supón tanto a creación ex novo dunha base léxica separada como a posta a proba da capacidade de adaptación da arquitectura xeral do proxecto, ao tempo que permite detectar lagoas, desaxustes e necesidades de refinamento nos paquetes xa existentes a partir da análise do corpus que constitúe o Gold Standard.

No proceso de anotación do galego identificáronse, ademais, fenómenos semánticos que requiren tratamento específico e que non sempre atopan equivalencia directa nas outras linguas do proxecto. Entre eles pódese mencionar, por exemplo, o comportamento dos nomes abstractos ou encapsuladores (shell nouns), que aparecen en todas as linguas analizadas pero que diverxen nas súas solucións tradutivas: en determinados contextos, unidades máis concretas noutras linguas poden corresponder no Gold Standard galego a formas máis xerais como asunto ou cousa, o que obriga a extremar a atención no proceso de anotación. Do mesmo xeito, certas estruturas procedentes do alemán, como compostos léxicos que nas linguas románicas se corresponden con combinacións do tipo N. + Adx., suscitan tamén decisións específicas de etiquetaxe, xa que a anotación pode recaer unicamente sobre o núcleo nominal, como en mercado laboral. Estes casos poñen de manifesto que a anotación semántica multilingüe non pode resolverse unicamente por equivalencia formal, senón que require criterios interpretativos sensibles á estrutura e ao funcionamento de cada lingua.

Un caso ilustrativo é o de pobo, cuxa polisemia evidencia a necesidade de aplicar criterios de desambiguación atentos ao contexto sociolingüístico. Neste sentido, estudos recentes apuntan tamén á utilidade dos grandes modelos de linguaxe como apoio no proceso de anotación (Míguez Rego 2026).

En conxunto, o galego aparece ao mesmo tempo como un reto metodolóxico e como un laboratorio privilexiado para validar estratexias de anotación semántica multilingüe: malia a súa condición de lingua con menos recursos, a proximidade formal a linguas veciñas e a dispoñibilidade de recursos lexicográficos consolidados permiten abordar a etiquetaxe con base empírica sólida e achegar evidencia valiosa para o avance dunha ferramenta máis robusta e sensible á diversidade lingüística.

Bibliografía

Domínguez Vázquez, María José (2025). Diseño y metodología de un etiquetador semántico-ontológico multilingüe – ESMAS-ES+. Revista de Investigación Lingüística, 28, 175-192. DOI: https://doi.org/10.6018/ril.662171

Domínguez Vázquez, María José & Simões, Alberto & Bardanca Outeiriño, Daniel & Caíña Hurtado, María & Iglesias Allones, José Luis (2024). Automatic generation of nominal phrases for Portuguese and Galician. Natural Language Processing. 2024:1-25. DOI: https://doi.org/10.1017/nlp.2024.32

Míguez-Rego, V. (2026). Large language models as first-pass filters for corpus annotation: semantic disambiguation of Galician pobo. Open Linguistics, 12(1): 20250078. DOI: https://doi.org/10.1515/opli-2025-0078

Files

Sanmarco Bande_O galego no proxecto ESMAS.pdf

Files (1.1 MB)

Name	Size	Download all
Sanmarco Bande_O galego no proxecto ESMAS.pdf md5:69cd96848114e2e0fbc16f0e99806dea	1.1 MB	Preview Download

Additional details

Ministerio de Ciencia, Innovación y Universidades
Etiquetador semántico multilingüe automático y sostenible PID2022-137170OB-I00

	All versions	This version
Views	0	0
Downloads	0	0
Data volume	0 Bytes	0 Bytes

O galego no proxecto ESMAS-ES+: retos e oportunidades para a anotación semántica

Authors/Creators

Description

Files

Sanmarco Bande_O galego no proxecto ESMAS.pdf

Files (1.1 MB)

Additional details

Funding