Published May 29, 2026 | Version v1
Poster Open

O galego no proxecto ESMAS-ES+: retos e oportunidades para a anotación semántica

  • 1. Universidade de Santiago de Compostela Facultade de Filoloxía
  • 2. ROR icon Universidade de Santiago de Compostela

Description

Motivación: o proxecto ESMAS-ES+ (PID2022-137170OB-I00) ten como obxectivo o desenvolvemento e a validación dun prototipo de etiquetador semántico multilingüe, automático e sostible para alemán, español, francés e galego. Dentro deste marco, o galego ocupa unha posición singular polo seu menor grao de dispoñibilidade de recursos en comparación coas outras linguas do proxecto, o que implica retos metodolóxicos específicos, pero tamén oportunidades derivadas da súa proximidade tipolóxica a linguas coma o español e o portugués. O traballo co galego non  constitúe unha aplicación máis dun modelo xeralsenón tamén un espazo especialmente produtivo para detectar problemas metodolóxicos, afinar categorías de anotación e mellorar procedementos nun contexto multilingüe.

Obxectivos: o póster persegue dous obxectivos principais: (1) presentar o encaixe do galego dentro da arquitectura xeral de ESMAS-ES+ e describir as características que condicionan o deseño do etiquetador semántico en contraste coas outras linguas do proxecto; e (2) mostrar como estas especificidades poden contribuír ao deseño dun etiquetador máis preciso, flexible e sensible á diversidade lingüística.

Método e resultados: o traballo parte dos paquetes léxicos multilingües elaborados no marco de ESMAS-ES+ e do corpus Gold Standard paralelo en construción para a validación das anotacións semántico-ontolóxicas. No caso do galego, non se desenvolveron paquetes específicos independentes, senón que se partiu da hipótese de que a ontoloxía subxacente ao sistema é language-independent e, polo tanto, aplicable tamén á anotación de datos galegos a través das súas rutas semánticas. Neste sentido, o traballo coa lingua galega non supón tanto a creación ex novo dunha base léxica separada como a posta a proba da capacidade de adaptación da arquitectura xeral do proxectoao tempo que permite detectar lagoasdesaxustes e necesidades de refinamento nos paquetes xa existentes a partir da análise do corpus que constitúe o Gold Standard.

No proceso de anotación do galego identificáronseademais, fenómenos semánticos que requiren tratamento específico e que non sempre atopan equivalencia directa nas outras linguas do proxecto. Entre eles pódese mencionar, por exemplo, o comportamento dos nomes abstractos ou encapsuladores (shell nouns), que aparecen en todas as linguas analizadas pero que diverxen nas súas solucións tradutivas: en determinados contextos, unidades máis concretas noutras linguas poden corresponder no Gold Standard galego a formas máis xerais como asunto ou cousa, o que obriga a extremar a atención no proceso de anotación. Do mesmo xeitocertas estruturas procedentes do alemán, como compostos léxicos que nas linguas románicas se corresponden con combinacións do tipo N. + Adx., suscitan tamén decisións específicas de etiquetaxexa que a anotación pode recaer unicamente sobre o núcleo nominal, como en mercado laboralEstes casos poñen de manifesto que a anotación semántica multilingüe non pode resolverse unicamente por equivalencia formal, senón que require criterios interpretativos sensibles á estrutura e ao funcionamento de cada lingua. 

Un caso ilustrativo é o de pobocuxa polisemia evidencia a necesidade de aplicar criterios de desambiguación atentos ao contexto sociolingüístico. Neste sentido, estudos recentes apuntan tamén á utilidade dos grandes modelos de linguaxe como apoio no proceso de anotación (Míguez Rego 2026).

En conxunto, o galego aparece ao mesmo tempo como un reto metodolóxico e como un laboratorio privilexiado para validar estratexias de anotación semántica multilingüe: malia a súa condición de lingua con menos recursos, a proximidade formal a linguas veciñas e a dispoñibilidade de recursos lexicográficos consolidados permiten abordar a etiquetaxe con base empírica sólida e achegar evidencia valiosa para o avance dunha ferramenta máis robusta e sensible á diversidade lingüística.

 

Bibliografía

Domínguez Vázquez, María José (2025)Diseño y metodología de un etiquetador semántico-ontológico multilingüe – ESMAS-ES+Revista de Investigación Lingüística, 28, 175-192DOI: https://doi.org/10.6018/ril.662171

Domínguez Vázquez, María José & Simões, Alberto & Bardanca Outeiriño, Daniel & Caíña Hurtado, María & Iglesias Allones, José Luis (2024)Automatic generation of nominal phrases for Portuguese and GalicianNatural Language Processing. 2024:1-25. DOI: https://doi.org/10.1017/nlp.2024.32

Míguez-Rego, V. (2026). Large language models as first-pass filters for corpus annotation: semantic disambiguation of Galician poboOpen Linguistics, 12(1): 20250078. DOI: https://doi.org/10.1515/opli-2025-0078

Files

Sanmarco Bande_O galego no proxecto ESMAS.pdf

Files (1.1 MB)

Name Size Download all
md5:69cd96848114e2e0fbc16f0e99806dea
1.1 MB Preview Download

Additional details

Funding

Ministerio de Ciencia, Innovación y Universidades
Etiquetador semántico multilingüe automático y sostenible PID2022-137170OB-I00