Published June 30, 2025 | Version v1
Conference paper Open

Optimización de entornos de Big Data Analytics mediante sistemas de ficheros paralelos Ad-hoc

Description

Durante los últimos años, el procesamiento de datos en diversas áreas de la Informática, como la Inteligencia Artificial o el Big Data, ha supuesto un reto para la computación de alto rendimiento (High Performance Computing o HPC). Esto ha causado una innovación en la forma de procesar y gestionar estos enormes volúmenes de datos.

Para ello, han surgido numerosos sistemas que pretenden proporcionar una solución para este problema. Entre ellos, destacan los sistemas de ficheros paralelos, que utilizan técnicas como la partición o replicación de ficheros para ofrecer un sistema de alta disponibilidad y alto rendimiento para entornos HPC. Además, también se han diseñado numerosas herramientas de trabajo para su uso junto con los sistemas de ficheros paralelos en entornos Big Data Analytics (BDA) con el objetivo de reducir los cuellos de botella causados por el gran número de operaciones de entrada/salida (E/S).

En el trabajo presentado en este artículo, se presenta una nueva solución para este tipo de entornos BDA utilizando Apache Spark y Expand. Expand es un sistema de ficheros paralelo y distribuido diseñado por el grupo de investigación ARCOS que puede ser usado como sistema de ficheros ad-hoc, y que ayuda a mitigar los cuellos de botella de E/S producidos por los sistemas de ficheros paralelos tradicionales. El uso de Apache Spark junto con el sistema de ficheros Expand, permite aprovechar las ventajas ofrecidas por ambas plataformas.

Files

JS2025_paper_53.pdf

Files (589.0 kB)

Name Size Download all
md5:92f8e38032021d5b32c314952f18ad84
589.0 kB Preview Download

Additional details

Dates

Available
2025-06-25