Optimización de entornos de Big Data Analytics mediante sistemas de ficheros paralelos Ad-hoc
Authors/Creators
Description
Durante los últimos años, el procesamiento de datos en diversas áreas de la Informática, como la Inteligencia Artificial o el Big Data, ha supuesto un reto para la computación de alto rendimiento (High Performance Computing o HPC). Esto ha causado una innovación en la forma de procesar y gestionar estos enormes volúmenes de datos.
Para ello, han surgido numerosos sistemas que pretenden proporcionar una solución para este problema. Entre ellos, destacan los sistemas de ficheros paralelos, que utilizan técnicas como la partición o replicación de ficheros para ofrecer un sistema de alta disponibilidad y alto rendimiento para entornos HPC. Además, también se han diseñado numerosas herramientas de trabajo para su uso junto con los sistemas de ficheros paralelos en entornos Big Data Analytics (BDA) con el objetivo de reducir los cuellos de botella causados por el gran número de operaciones de entrada/salida (E/S).
En el trabajo presentado en este artículo, se presenta una nueva solución para este tipo de entornos BDA utilizando Apache Spark y Expand. Expand es un sistema de ficheros paralelo y distribuido diseñado por el grupo de investigación ARCOS que puede ser usado como sistema de ficheros ad-hoc, y que ayuda a mitigar los cuellos de botella de E/S producidos por los sistemas de ficheros paralelos tradicionales. El uso de Apache Spark junto con el sistema de ficheros Expand, permite aprovechar las ventajas ofrecidas por ambas plataformas.
Files
JS2025_paper_53.pdf
Files
(589.0 kB)
| Name | Size | Download all |
|---|---|---|
|
md5:92f8e38032021d5b32c314952f18ad84
|
589.0 kB | Preview Download |
Additional details
Dates
- Available
-
2025-06-25