Published October 27, 2025 | Version Version 1
Dataset Embargoed

Corlega: Corpus de Lecturabilidade en Galego

  • 1. ROR icon Universidade de Santiago de Compostela

Description

Corlega é un corpus de textos en galego de diversos xéneros, subxéneros e tipos textuais clasificados en función do seu nivel de lecturabilidade (ou complexidade do texto para a súa lectura). Estes textos foron seleccionados pensando en persoas adultas con interese en aprender ou mellorar a lingua como público obxectivo. Os textos están en formato .txt (codificados en utf8). O obxectivo da creación do corpus é a de adestrar e avaliar ferramentas de clasificación automática de textos en galego.

Extensión do corpus: 480 textos, 134518 tokens

Os niveis foron definidos pola autora, baseándose na proposta de niveis do proxecto europeo iRead4Skills (very easy, easy, plain, more complex), que foi contrastada e ampliada coas especificacións, especialmente sobre comprensión lectora, dos niveis Celga e do MCER e cunha análise de contidos dos manuais Aula de galego. A equivalencia aproximada entre estes niveis e os niveis de competencia do MCER, o Celga, o ALTE e o proxecto iRead4Skills é a seguinte:

Corlega iRead4Skills MCER Celga ALTE
Nivel 1 very easy A1 - -
Nivel 2 easy A2 Celga 1 Level 1
Nivel 3 plain B1 Celga 2 Level 2
Nivel 4 more complex B2 / C1 / C2 Celga 3 / 4 / 5 Level 3 / 4 / 5

Os textos son representativos dos seguintes dominios comunicativos:

1- Comunicación persoal (mensaxes, diarios e blogs)

2- Comunicación profesional (mensaxes, notas de prensa e webs)

3- Medios de comunicación (biografías, entrevistas, reportaxes, novas, artigos de opinión...)

4- Publicidade e difusión (anuncios, etiquetas, menús...)

5- Literatura didáctica (dicionarios e libros autodidácticos)

6- Literatura de ficción (novela, poesía e teatro)

7- Literatura de non ficción (crónicas, diarios de viaxe, guías turísticas...)

8- Política (discursos e programas)

9- Legal e administrativos (textos legais e textos administrativos)

10- Relixión (escrituras e ensinanzas)

11- Didáctico (textos extraídos de materiais para a ensinanza do galego como lingua estranxeira)

Files

Embargoed

The files will be made publicly available on December 31, 2099.

Reason: Solicitude de acceso Se desexa solicitar acceso a estes ficheiros, complete o formulario seguinte. Para que esta solicitude sexa aceptada, debe cumprir as seguintes condicións: Os ficheiros de datos son abertos (é dicir, accesibles en liña, gratuítos e reutilizables) baixo a licenza CC BY-NC-ND 4.0. Para acceder e usar este conxunto de datos, recoñece que, dado que algúns textos do corpus aínda poden estar protexidos por dereitos de autor, o acceso só se concede para a inspección dos resultados da investigación e para garantir a súa reproducibilidade. Non obstante, os textos non poden ser publicados nin usados libremente para ningún outro propósito que non cumpra coa licenza CC BY-NC-ND 4.0. Complete o formulario seguinte ou envíe a súa solicitude a: sandrarodriguez.rey@usc.gal ------------------------------------------------------ Request access If you would like to request access to these files, please fill out the form below. You need to satisfy these conditions in order for this request to be accepted: The data files are open (i.e., they have on-line access, they are free of charge to the user, and they are re-usable) according to CC BY-NC-ND 4.0 license. To access and use this dataset, you acknowledge that, as part of the texts in the corpus may be still under copyright, access is only granted for the inspection of research results and to ensure research results reproducibility, but the texts cannot be published freely or for any purposes not compliant with CC BY-NC-ND 4.0 license. Please fill out the form below or send request to: sandrarodriguez.rey@usc.gal