Tolérance aux pannes dans l'exécution distribuée de graphes de tâches

Lion, Romain

doi:10.5281/zenodo.3716332

Published February 10, 2020 | Version v1

Conference paper Open

Tolérance aux pannes dans l'exécution distribuée de graphes de tâches

Lion, Romain

Les plus grands supercalculateurs rassemblent un nombre toujours croissant d’unités de calcul, ce qui augmente d’autant le taux de pannes. Des méthodes de checkpoint/restart ont été proposées pour éviter que, lorsqu’un nœud est totalement perdu, l’on doive reprendre l’exécution de l’application depuis son départ. Ces méthodes sont cependant en général transparentes et ne profitent pas d’informations connues sur le comportement de l’application. Inversement, le paradigme de programmation par graphe de tâches fournit l’opportunité de proposer des méthodes de checkpoint/restart bien plus judicieuses. Nous proposons ainsi une approche qui permettra de ne sauvegarder que les données utiles en cohérence avec les communications de l’application, de supporter un redémarrage local, tout en exhibant une interface de programmation simple intégrée à la programmation de graphe de tâches.

Notes

https://hal.inria.fr/hal-02296118

Files

Compas_Romain_LION_submitted_final_new.pdf

Files (159.7 kB)

Name	Size	Download all
Compas_Romain_LION_submitted_final_new.pdf md5:1cd4538c9d4ba9b047c1603df00a7cf1	159.7 kB	Preview Download

Additional details

European Commission
EXA2PRO - Enhancing Programmability and boosting Performance Portability for Exascale Computing Systems 801015

	All versions	This version
Views	422	415
Downloads	120	119
Data volume	20.0 MB	19.8 MB

Tolérance aux pannes dans l'exécution distribuée de graphes de tâches

Authors/Creators

Description

Notes

Files

Compas_Romain_LION_submitted_final_new.pdf

Files (159.7 kB)

Additional details

Funding