Conference paper Open Access

Tolérance aux pannes dans l'exécution distribuée de graphes de tâches

Lion, Romain

Les plus grands supercalculateurs rassemblent un nombre toujours croissant d’unités de calcul, ce qui augmente d’autant le taux de pannes. Des méthodes de checkpoint/restart ont été proposées pour éviter que, lorsqu’un nœud est totalement perdu, l’on doive reprendre l’exécution de l’application depuis son départ. Ces méthodes sont cependant en général transparentes et ne profitent pas d’informations connues sur le comportement de l’application. Inversement, le paradigme de programmation par graphe de tâches fournit l’opportunité de proposer des méthodes de checkpoint/restart bien plus judicieuses. Nous proposons ainsi une approche qui permettra de ne sauvegarder que les données utiles en cohérence avec les communications de l’application, de supporter un redémarrage local, tout en exhibant une interface de programmation simple intégrée à la programmation de graphe de tâches.

https://hal.inria.fr/hal-02296118
Files (159.7 kB)
Name Size
Compas_Romain_LION_submitted_final_new.pdf
md5:1cd4538c9d4ba9b047c1603df00a7cf1
159.7 kB Download
21
13
views
downloads
All versions This version
Views 2121
Downloads 1313
Data volume 2.1 MB2.1 MB
Unique views 1818
Unique downloads 1010

Share

Cite as