NOS_Corpus_Administrativo-Legal. Corpus de dominio administrativo-legal.
Description
Corpus de dominio administrativo-legal
Descripción general
El corpus de dominio administrativo-legal reúne textos oficiales procedentes de boletines y diarios institucionales de Galicia, representativos del uso formal, normativo y administrativo del lenguaje jurídico-administrativo.
Los textos incluidos corresponden a documentos completos, estructurados y con metadatos asociados.
Fuentes
El conjunto de datos está formado por tres subcorpora independientes, cada uno asociado a un boletín institucional de referencia en Galicia:
-
Boletín Oficial de la Provincia de A Coruña (Diputación de A Coruña).
-
Boletín Oficial de la Provincia de Pontevedra (Diputación de Pontevedra).
-
Diario Oficial de Galicia (Xunta de Galicia).
Los documentos originales estaban disponibles en formatos HTML, XHTML o XML, que constituyen la fuente primaria de extracción. Estos subcorpora también pertenecen a CorpusNOS [1], pero han sufrido modificaciones en el formato y el procesamiento para la publicación en este corpus.
Proceso de extracción y estructuración
Para cada una de las fuentes se desarrollaron scripts de parsing específicos, adaptados a la estructura editorial y al marcado propio de cada boletín.
De forma general, el proceso de extracción incluyó las siguientes etapas:
-
Lectura y parsing de los documentos HTML, XHTML o XML originales.
-
Extracción del texto principal del anuncio, resolución o disposición normativa, excluyendo elementos de navegación, encabezados repetidos y contenido no lingüístico.
-
Identificación y extracción de metadatos estructurales y administrativos cuando estaban disponibles de forma fiable (por ejemplo, sección, organismo emisor, unidad administrativa, fecha o número de anuncio).
-
Construcción de identificadores estables por documento, priorizando identificadores oficiales y utilizando mecanismos deterministas de respaldo cuando fue necesario.
- Reclasificación y verificación lingüística.
-
Almacenamiento del resultado en formato JSONL, con un documento por línea.
Cada subcorpus conserva únicamente los campos que pueden extraerse de forma consistente a partir de su fuente original; no se forzó una homogeneización artificial entre boletines con estructuras distintas.
Organización del corpus
NOS_Corpus_Administrativo-Legal/
├── DeputacionCoruna_BOP/
│ ├── es/
│ │ ├── 2009.jsonl
│ │ ├── ...
│ │ └── 2022.jsonl
│ └── gl/
│ ├── 2009.jsonl
│ ├── ...
│ └── 2022.jsonl
├── DeputacionPontevedra_BOPPO/
│ ├── es/
│ │ ├── 2014.jsonl
│ │ ├── ...
│ │ └── 2024.jsonl
│ └── gl/
│ ├── 2014.jsonl
│ ├── ...
│ └── 2024.jsonl
└── XuntaGalicia_DOG/
├── es/
│ ├── 2000.jsonl
│ ├── ...
│ └── 2023.jsonl
└── gl/
├── 2000.jsonl
├── ...
└── 2023.jsonl
Formato de los datos
Todos los documentos se almacenan en formato JSONL, con un objeto JSON por línea. Los campos pueden variar ligeramente entre subcorpora en función de la información disponible en la fuente original, pero incluyen de forma general:
-
identificador del documento,
-
texto administrativo completo,
-
fuente y boletín de procedencia,
-
fecha de publicación,
-
idioma detectado,
-
metadatos administrativos cuando están disponibles.
Ejemplo de entrada (BOPPO)
{
"id": "20220408-2022020529",
"date": "08/04/2022",
"doc_code": "2022020529",
"section": "ADMINISTRACIÓN LOCAL",
"admin_scope": "Municipal",
"unit": "Pontevedra",
"chapter_type": "Outros documentos, notificacións e informacións públicas",
"summary": "Extracto de acordos adoptados pola Xunta de Goberno Local na sesión extraordinaria e urxente de 22.03.2022",
"url": "https://boppo.depo.gal/web/boppo/detalle/-/boppo/2022/04/08/2022020529",
"text": "Ratificación da urxencia da sesión. Subvencións destinadas á adquisición de equipos informáticos para alumnado de centros públicos. Bases reguladoras e convocatoria de axudas á rehabilitación de edificios e vivendas...",
"language": "es"
}
Información adicional
| Boletín | Idioma | Nº de documentos | Nº de tokens |
|---------|--------|------------------|--------------|
| BOP Diputación de A Coruña | Español (es) | 63 592 | 40 961 782 |
| BOP Diputación de A Coruña | Gallego (gl) | 92 274 | 72 559 386 |
| BOPPO Diputación de Pontevedra | Español (es) | 17 615 | 7 135 029 |
| BOPPO Diputación de Pontevedra | Gallego (gl) | 27 169 | 13 793 946 |
| DOGA Xunta de Galicia | Español (es) | 317 201 | 252 019 124 |
| DOGA Xunta de Galicia | Gallego (gl) | 315 188 | 247 219 060 |
| **TOTAL** | | **833 039** | **633 688 327** |
Notas y limitaciones
-
No se ha aplicado corrección lingüística manual ni normalización de contenido, más allá de la limpieza estructural necesaria para la extracción.
-
Pueden persistir errores residuales derivados del marcado HTML original o de inconsistencias en las fuentes.
-
La distribución temporal y lingüística no es necesariamente uniforme entre subcorpora ni entre años.
Licencia y condiciones de uso
Los textos incluidos en este corpus proceden de fuentes institucionales oficiales y se enmarcan dentro de la normativa española sobre reutilización de la información del sector público. Aunque los documentos son de carácter público y reutilizables conforme a la legislación vigente, los archivos originales fueron facilitados en el marco de acuerdos de colaboración y cesión institucional con las entidades responsables de su publicación.
Este corpus constituye una obra derivada, resultado de procesos automáticos de extracción, limpieza y estructuración en formato JSONL, sin alteración del contenido semántico original. En todas las reutilizaciones se mantiene la atribución a las fuentes institucionales originales.
La estructura del corpus, el formato de los datos, la organización de los archivos y los procesos de extracción y normalización aplicados se distribuyen bajo la licencia:
Creative Commons Attribution 4.0 International (CC BY 4.0)
Referencias
@inproceedings{de-dios-flores-etal-2024-corpusnos,
title = ""{C}orpus{N{\'O}S}: A massive {G}alician corpus for training large language models"",
author = ""de-Dios-Flores, Iria and
Su{\'a}rez, Silvia Paniagua and
P{\'e}rez, Cristina Carbajal and
Outeiri{\~n}o, Daniel Bardanca and
Garcia, Marcos and
Gamallo, Pablo"",
editor = ""Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{\'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{\c{c}}alo and
Amaro, Raquel"",
booktitle = ""Proceedings of the 16th International Conference on Computational Processing of Portuguese - Vol. 1"",
month = mar,
year = ""2024"",
address = ""Santiago de Compostela, Galicia/Spain"",
publisher = ""Association for Computational Lingustics"",
url = ""https://aclanthology.org/2024.propor-1.66"",
pages = ""593--599"",
}
-----------
Esta publicación del proyecto Desarrollo de Modelos ALIA está financiada por el Ministerio para la Transformación Digital y de la Función Pública y por el Plan de Recuperación, Transformación y Resiliencia – Financiado por la Unión Europea – NextGenerationEU
This work is funded by the Ministerio para la Transformación Digital y de la Función Pública - Funded by EU – NextGenerationEU within the framework of the project Desarrollo de Modelos ALIA.
Files
NOS_Corpus_Administrativo-Legal.zip
Files
(1.2 GB)
| Name | Size | Download all |
|---|---|---|
|
md5:6e298cbf2af3a9c4c838cb35618965b6
|
1.2 GB | Preview Download |