Published February 10, 2020 | Version v1
Conference paper Open

Tolérance aux pannes dans l'exécution distribuée de graphes de tâches

Creators

Description

Les plus grands supercalculateurs rassemblent un nombre toujours croissant d’unités de calcul, ce qui augmente d’autant le taux de pannes. Des méthodes de checkpoint/restart ont été proposées pour éviter que, lorsqu’un nœud est totalement perdu, l’on doive reprendre l’exécution de l’application depuis son départ. Ces méthodes sont cependant en général transparentes et ne profitent pas d’informations connues sur le comportement de l’application. Inversement, le paradigme de programmation par graphe de tâches fournit l’opportunité de proposer des méthodes de checkpoint/restart bien plus judicieuses. Nous proposons ainsi une approche qui permettra de ne sauvegarder que les données utiles en cohérence avec les communications de l’application, de supporter un redémarrage local, tout en exhibant une interface de programmation simple intégrée à la programmation de graphe de tâches.

Notes

https://hal.inria.fr/hal-02296118

Files

Compas_Romain_LION_submitted_final_new.pdf

Files (159.7 kB)

Name Size Download all
md5:1cd4538c9d4ba9b047c1603df00a7cf1
159.7 kB Preview Download

Additional details

Funding

EXA2PRO – Enhancing Programmability and boosting Performance Portability for Exascale Computing Systems 801015
European Commission