Published December 15, 2025 | Version v1
Dataset Open

Nos_Corpus_Periodistico. Corpus de dominio periodístico.

  • 1. Universidade de Santiago de Compostela

Description

Corpus periodístico

Descripción general

El corpus periodístico reúne textos informativos procedentes de prensa digital en gallego, recopilados a partir de distintos medios y en el marco de proyectos y fases de adquisición diferentes. El conjunto representa el registro periodístico contemporáneo y está orientado a su uso en tareas de procesamiento del lenguaje natural.

El corpus incluye tanto colecciones previamente integradas en CorpusNÓS [1], con un esquema de datos simplificado, como conjuntos más recientes que conservan metadatos periodísticos completos extraídos directamente de fuentes estructuradas.

Fuentes

El corpus incluye textos procedentes de los siguientes medios de comunicación digitales en gallego:

  • Galicia é

  • Galicia Hoxe

  • Tempos Dixital

  • Xornal GL

  • A Nosa Terra
  • Nós Diario

  • Praza Pública

  • Código Cero

Colecciones sin metadatos

Una parte de los medios fue incorporada a CorpusNÓS en fases anteriores y se presenta en un formato JSON plano, con una estructura orientada principalmente al contenido textual. Cada documento incluye, de forma general, los siguientes campos:

  • identificador interno,

  • texto completo de la noticia,

  • número de palabras,

  • métricas automáticas de calidad (por ejemplo, pyplexity),

  • idioma.

Estos conjuntos priorizan la disponibilidad de texto limpio y homogéneo frente a la conservación de metadatos editoriales detallados. Estos archivos son los mismos que se pueden encontrar en CorpusNOS.

Corpus con metadatos

Los corpus correspondientes a Nós Diario y Praza Pública se obtuvieron directamente a partir de fuentes XML/HTML estructuradas. En estos casos, los documentos conservan información periodística detallada, entre la que se incluye:

  • identificadores de la noticia,

  • fechas de creación, publicación y revisión,

  • URL original,

  • titular y subtítulo,

  • categorías temáticas,

  • cuerpo de la noticia en texto plano y en HTML,

  • palabras clave,

  • referencia al archivo XML de origen.

Estos documentos se organizan jerárquicamente por año y mes de publicación, reflejando la estructura temporal original de los medios. Estos diarios también están incluidos en CorpusNOS, pero abarcan una cantidad menor de noticias. Los archivos en este corpus han pasado un proceso de extracción y limpieza diferente.

Formato y organización

Todos los textos del corpus periodístico se distribuyen en formato JSONL, con un documento por archivo o por línea.

El corpus presenta la siguiente estructura:

NOS_Corpus_Periodistico/
├── nosdiario/
│   └── corpus/
│       ├── 2012/
│       ├── 2013/
│       ├── ...
│       └── 2025/
├── prazapublica/
│   ├── 2012/
│   ├── 2013/
│   ├── ...
│   └── 2025/
├── gl_a_nosa_terra.jsonl
├── gl_codigocero.jsonl
├── gl_galicia_e.jsonl
├── gl_galicia_hoxe.jsonl
├── gl_tempos_dixital.jsonl
└── gl_xornal.jsonl

Ejemplo entrada sin metadatos

{
  "id": 41090,
  "text": "O roadshow da banda larga de Movistar recala en Arbo até o domingo. A iniciativa forma parte do Plan de Banda Larga da Xunta e permitirá o acceso a redes ultrarrápidas mediante fibra óptica (FTTH)...",
  "num_words": 544,
  "pyplexity_score": 685.0293946985031,
  "lang": "gl"
}

Ejemplo entrada con metadatos

{
  "metadata": {
    "news_item_id": "188941",
    "first_created": "20240131T195109+01:00",
    "first_published": "20240201T072219+01:00",
    "this_revision_created": "20240201T073632+01:00",
    "url": "https://www.nosdiario.gal/articulo/social/..."
  },
  "news": {
    "headline": "A Xunta cancelou a misión para salvar a Casa da Galiza en Uruguai",
    "categories": ["social"],
    "body": "No mes de outubro de 2021, o Goberno do Uruguai ordenou a intervención pública do sanatorio da Casa da Galiza...",
    "body_html": "<p>No mes de outubro de 2021, o Goberno do Uruguai ordenou a intervención pública do sanatorio...</p>",
    "abstract": "Responsables da Xunta son acusados de manter silencio ante o fechamento da Casa da Galiza no Uruguai.",
    "keywords": [
      "Alberto Núñez Feixoo",
      "Alfonso Rueda",
      "Xunta da Galiza",
      "Uruguai",
      "Casa da Galiza"
    ]
  },
  "source_xml": "2024-02-01T062219__188941.xml",
  "images": [
    {
      "url": "https://www.nosdiario.gal/media/...jpg",
      "caption": "Alberto Iglesias, último presidente da Casa da Galiza."
    }
  ]
}

Procesamiento y limitaciones

El corpus ha sido generado mediante procesos automáticos de extracción, normalización y limpieza básica del texto. No se ha realizado corrección lingüística manual ni anotación semántica adicional.

Dado que los datos proceden de diferentes fuentes y momentos de recopilación, existen variaciones en la riqueza de metadatos, en la estructura de los documentos y en la calidad del texto, inherentes a los formatos originales y a los métodos de extracción utilizados.

Información adicional

| Corpus periodístico (gallego) | Nº de documentos | Nº de tokens (body y text) |
|-------------------------------|------------------|--------------|
| Total                         | 159.986          | 55.912.558   |

Licencia y condiciones de uso

Los textos incluidos en el corpus periodístico fueron obtenidos mediante acuerdos de cesión y colaboración con las entidades responsables de los contenidos o a través de fuentes que permiten su reutilización con fines de investigación. Parte de estos corpus ha sido previamente integrada en CorpusNÓS y se distribuye bajo las mismas condiciones.

El corpus constituye una obra derivada, resultado de procesos automáticos de extracción, limpieza y estructuración en formato JSONL, sin alteración del contenido semántico original. En todas las reutilizaciones se mantiene la atribución a las fuentes periodísticas originales.

La estructura del corpus y los procesos de procesamiento aplicados se distribuyen bajo la licencia:

Creative Commons Attribution 4.0 International (CC BY 4.0)

Referencias

[1] @inproceedings{de-dios-flores-etal-2024-corpusnos,
    title = ""{C}orpus{N{\'O}S}: A massive {G}alician corpus for training large language models"",
    author = ""de-Dios-Flores, Iria  and
      Su{\'a}rez, Silvia Paniagua  and
      P{\'e}rez, Cristina Carbajal  and
      Outeiri{\~n}o, Daniel Bardanca  and
      Garcia, Marcos  and
      Gamallo, Pablo"",
    editor = ""Gamallo, Pablo  and
      Claro, Daniela  and
      Teixeira, Ant{\'o}nio  and
      Real, Livy  and
      Garcia, Marcos  and
      Oliveira, Hugo Gon{\c{c}}alo  and
      Amaro, Raquel"",
    booktitle = ""Proceedings of the 16th International Conference on Computational Processing of Portuguese - Vol. 1"",
    month = mar,
    year = ""2024"",
    address = ""Santiago de Compostela, Galicia/Spain"",
    publisher = ""Association for Computational Lingustics"",
    url = ""https://aclanthology.org/2024.propor-1.66"",
    pages = ""593--599"",
}

--------------

Esta publicación del proyecto Desarrollo de Modelos ALIA está financiada por el Ministerio para la Transformación Digital y de la Función Pública y por el Plan de Recuperación, Transformación y Resiliencia – Financiado por la Unión Europea – NextGenerationEU

This work is funded by the Ministerio para la Transformación Digital y de la Función Pública - Funded by EU – NextGenerationEU within the framework of the project Desarrollo de Modelos ALIA. 

Files

NOS_Corpus_Periodistico.zip

Files (198.8 MB)

Name Size Download all
md5:23a93eea79030149854acf41623c1b81
198.8 MB Preview Download