Análisis de la madurez del ecosistema de datos abiertos en España
Authors/Creators
- 1. "Universidad Complutense de Madrid"
- 2. "Harvard University"
Description
Analysis of the Maturity of the Open Data Ecosystem in Spain
This repository contains the results generated in CSV and XLSX formats after executing the analysis pipeline developed for the Master’s Thesis in Internet of Things at the Complutense University of Madrid.
Project Overview
The objective of this project is to evaluate the maturity of the open data ecosystem in Spain by analyzing open data portals from a technical, structural, and metadata quality perspective, going beyond the simple assessment of the volume of published datasets.
To achieve this goal, a reproducible pipeline implemented in Python was designed and developed. The pipeline enables dataset-level analysis and the construction of a maturity index based on objective and comparable metrics.
Project Objective
To design and evaluate a methodological framework for analyzing and comparing the maturity level of open data portals in Spain based on:
-
Metadata quality and completeness
-
Use of open and reusable formats
-
Degree of technical and semantic interoperability
-
Actual accessibility of published resources
-
Temporal and structural traceability of datasets
Analyzed Open Data Portals
The following open data portals were selected for metadata collection and analysis: Opendata Barcelona, Ayuntamiento Junta Andalucia, Datos Portal Nacional, Datos Comunidad Madrid, Datos abiertos Región Murcia, Datos abiertos Castilla y León, Opendata Aragon
Repository Structure
The repository is organized into folders containing the outputs generated by executing the scripts for each analyzed portal. Each folder corresponds to a specific portal and stores the resulting XLSX and CSV files produced by each stage of the pipeline.
Each automated script generates an output file. Thus, the execution of Stage 1 produces the corresponding metadata extraction results, and the same logic applies to the subsequent stages that together constitute the complete pipeline.
Each folder contains files corresponding to different analysis outputs. The analysis was conducted using approximately 600 datasets per portal, for a total of 3,819 datasets.
Example: Portal Results Folder Structure
Stage_1_Metadata_Extraction_Junta_Andalucia.csv
Stage_1_Metadata_Extraction_Junta_Andalucia.xlsx
Stage_2_Reuse_Trace_Extraction_Junta_Andalucia.xlsx
Stage_3_Portal_Maturity_Metrics_Andalucia.csv
Stage_3_Portal_Maturity_Metrics_Andalucia.xlsx
Stage_3_Portal_Maturity_Metrics_Andalucia_UNIQUE.csv
Stage_3_Portal_Maturity_Metrics_Andalucia_UNIQUE.xlsx
Pipeline Stages Description
Stage 1 Metadata Extraction (Stage_1_Metadata_Extraction)
This stage generates structured metadata outputs, including (among others):
Dataset title, Dataset URI, Format, License, Description, Data dictionary availability, DCAT-AP compliance, Download URL, Publication date, Last update date, Update frequency, Semantic metadata, API type, Portal name
Stage 2 Reuse Trace Extraction (Stage_2_Reuse_Trace_Extraction)
This stage identifies external reuse traces of datasets.
For the Spanish portals analyzed, no explicit reuse matches were detected, primarily due to the absence of stable and persistent identifiers such as DOIs.
Stage 3 – Maturity Metrics Construction (Stage_3_Portal_Maturity_Metrics)
This stage produces the results of advanced ecosystem maturity metrics, aggregating indicators related to accessibility, traceability, interoperability, and metadata quality at both dataset and portal levels.
Additional Folder: United Kingdom
The repository includes an additional folder named UnitedKingdom, which contains the results of executing the same pipeline on a UK open data portal. In this case:
-
The Stage 1 output is used as input for Stage 2
-
Real and explicit reuse traces were successfully detected
This folder serves as a comparative reference and validation of the reuse detection methodology under better traceability conditions.
Methodological Alignment
The proposed approach is aligned with open data maturity evaluation methodologies based on:
-
Interoperability
-
Metadata quality
-
Traceability
-
Accessibility
The metrics are applied to public open data portals built on CKAN and described using DCAT-AP.
Pipeline Repository: The source code for the analysis pipeline can be found on GitHub:
VERSION EN ESPAÑOL
Este repositorio contiene los resultados de las tablas obtenidas en archivos csv y xlsx, tras ejecutar el pipeline del análisis del Trabajo Fin de Máster en Internet de la Cosas de la Universidad Complutense de Madrid.
Resumen del Proyecto: El proyecto tiene como objetivo evaluar la madurez del ecosistema de datos abiertos en España, analizando portales de datos abiertos desde una perspectiva técnica, estructural y de calidad de metadatos, más allá del simple volumen de datasets publicados.
Para ello, se diseña e implementa un pipeline reproducible en Python que permite analizar datasets a nivel individual y construir un índice de madurez basado en métricas objetivas y comparables.
Objetivo del proyecto:
Diseñar y evaluar un marco metodológico para analizar y comparar el grado de madurez de los portales de datos abiertos en España a partir de:
-
La calidad y completitud de los metadatos.
-
El uso de formatos abiertos y reutilizables.
-
El grado de interoperabilidad técnica y semántica.
-
La accesibilidad real de los recursos publicados.
-
La trazabilidad temporal y estructural de los datasets.
Para la recopilación de los metadatos se seleccionaron, los siguientes portales para el análisis: Opendata Barcelona, Ayuntamiento Junta Andalucia, Datos Portal Nacional, Datos Comunidad Madrid, Datos abiertos Región Murcia, Datos abiertos Castilla y León, Opendata Aragon
Composición del Repositorio
El repositorio está organizado en carpetas que contienen los resultados generados por la ejecución de los scripts para cada portal analizado. Cada carpeta corresponde a un portal y almacena archivos en formato XLSX y CSV, los cuales se obtienen al ejecutar cada uno de los puntos del pipeline.
Por cada script automatizado ejecutado se genera un archivo de salida. De este modo, la ejecución del Punto 1 produce los resultados asociados a dicho punto, y de forma análoga ocurre con los puntos siguientes que conforman el pipeline completo.
Ejemplo Carpeta de resultados de un Portal:
Punto 1 Extraccion_MetadatosDatasets_Ayto_Andalucia.csv
Punto 1 Extraccion_MetadatosDatasets_Ayto_Andalucia.xlsx
Punto 2 Reutilizacion_Extraccion_Huellas_Junta_Andalucia.xlsx
Punto 3 Construccion_MetricasMadurezPortal_Andalucia.csv
Punto 3 Construccion_MetricasMadurezPortal_Andalucia.xlsx
Punto 3 Construccion_MetricasMadurezPortal_AndaluciaUNICO.csv
Punto 3 Construccion_MetricasMadurezPortal_AndaluciaUNICO.xlsx
-
Punto 1 Extraccion_MetadatosDatasets: Es el resultado de metadatos estructurados como: título, dataset_uri, formato, licencia, descripcion, diccionario de datos, dcat ap, url_descarga, fecha de publicación, fecha de actualización, frecuencia de actualizacion, datos semánticos, tipo de api, nombre del portal entre otros.
-
Punto 2 Reutilizacion_Extraccion_Huellas Resultados de Identificación de huellas de reutilización, para el caso de españa resultados sin coincidencias explícitas. Por la falta de un doi o identificador persistente y estable.
-
Punto 3Construccion_MetricasMadurez: Resultados de cálculo de métricas avanzadas de madurez de ecosistemas.
El repositorio contiene una carpeta adicional llamada ReinoUnido que es el resultado de la ejecución del script que genera el archivo del Punto 1 y luego el siguiente script usa como entrada el archivo del Punto 1 y genera el archivo del Punto 2, los cuales fueron datos reales de huellas de reutilización.
El enfoque está alineado con metodologías de evaluación para analizar madurez de datos abiertos con métricas de Interoperabilidad, calidad, trazabilidad, accesibilidad, aplicadas a portales públicos basados en CKAN y DCAT-AP.
El repositorio del pipeline se puede encontrar en Github TFM MIOT YZG
Files
Files
(10.3 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:62f27f9b06ef4c91d3fa9eac9f3d6dd9
|
10.3 MB | Download |