Reducing HPC resource consumption
(Réduction de la consommation de ressources en HPC)

Boëzennec, Robin - (2025-12-10) / Université de Rennes - Reducing HPC resource consumption

Accéder au document : https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Langue : Anglais

Directeur(s) de thèse:  Pallez, Guillaume

Discipline : Informatique

Laboratoire :  IRISA

Ecole Doctorale : MATISSE

Classification : Informatique

Mots-clés : Calcul haute performance (HPC), Ordonnancement de tâches, Évaluation des Performances, Mémoire désagrégée, vieillissement du matériel
Calcul intensif (informatique)
Ordonnancement (informatique)


Résumé : Cette thèse vise à réduire l'utilisation de ressources dans les systèmes de calcul haute performance (HPC). Elle commence par explorer l'utilisation d'algorithmes d’apprentissage automatique pour améliorer l'ordonnancement de tâches, mais conclut que les ordonnanceurs actuels sont déjà proches de l'optimal, et que de récents progrès proclamés dans ce domaine étaient dus à de mauvaises métriques et des méthodologies d'évaluation défaillantes. Les éléments d'une bonne évaluation sont donc discutés, et des métriques pertinentes mises en avant. La deuxième contribution explore l’usage de systèmes de mémoire désagrégée pour limiter la consommation de mémoire. Deux algorithmes d’allocation avec garanties théoriques sont proposés et évalués, montrant une réduction significative de la consommation mémoire tout en n'engendrant qu'une faible augmentation du response time. Le dernier volet introduit des modèles de vieillissement du matériel au niveau des nœuds de calcul, couplé à une stratégie de changement de fréquence pour maximiser la quantité totale de calcul sur la durée de vie du système. L’approche se montre robuste face aux incertitudes sur le vieillissement réel du matériel. En conclusion, ces approches augmentent l’efficience économique mais induisent aussi une hausse des temps de réponse, freinant ainsi l’effet rebond.

Abstract : This thesis aims to reduce resource usage in high-performance computing (HPC) systems. It begins by exploring the use of machine learning algorithms to improve job scheduling, but concludes that current schedulers are already close to optimal, and that some recent claimed advances in the field were actually due to poor metrics and flawed evaluation methodologies.  The elements of a correct evaluation are  therefore studied, and relevant metrics are highlighted. The second contribution investigates the use of disaggregated memory systems to reduce memory consumption. Two allocation algorithms with theoretical guarantees are proposed and evaluated, showing a significant reduction in memory usage with only a slight increase in response time. The final part introduces node-level hardware aging models, combined with a frequency scaling strategy to maximize the total amount of computation delivered over the lifetime of the system. The approach is shown to be robust to uncertainties in the actual aging behavior of hardware. Finally, these approaches improve economic efficiency but also lead to longer response times, which helps mitigate the rebound effect.