Voir le résumé
Pour déployer des applications web, l'utilisation de serveurs informatique est primordiale. S'ils sont peu nombreux, les performances des applications peuvent se détériorer. En revanche, s'ils sont trop nombreux, les ressources sont gaspillées et les coûts argumentés. Dans ce contexte, les ingénieurs utilisent des outils de planning capacitaire qui leur permettent de suivre les performances des serveurs, de collecter les données temporelles générées par les infrastructures et d’anticiper les futurs besoins. La nécessité de créer des prévisions fiables apparaît évidente. Les données des infrastructures présentent souvent une saisonnalité évidente. Le cycle d’activité suivi par l’infrastructure est déterminé par certains cycles saisonniers (par exemple, le rythme quotidien de l’activité des utilisateurs). Cette thèse présente un framework pour la prévision de séries temporelles saisonnières. Ce framework est composé de deux modèles d’apprentissage automatique (e.g. clustering et classification) et vise à fournir des prévisions fiables à moyen terme avec un nombre limité de paramètres. Trois implémentations du framework sont présentées : une baseline, une déterministe et une probabiliste. La baseline est constituée d'un algorithme de clustering K-means et de modèles de Markov. La version déterministe est constituée de plusieurs algorithmes de clustering (K-means, K-shape, GAK et MODL) et de plusieurs classifieurs (classifieurs bayésiens, arbres de décisions, forêt aléatoire et régression logistique). La version probabiliste repose sur du coclustering pour créer des grilles probabilistes de séries temporelles, afin de décrire les données de manière non supervisée. Les performances des différentes implémentations du framework sont comparées avec différents modèles de l’état de l’art, incluant les modèles autorégressifs, les modèles ARIMA et SARIMA, les modèles Holts Winters, ou encore Prophet pour la partie probabiliste. Les résultats de la baseline sont encourageants, et confirment l'intérêt pour le framework proposé. De bons résultats sont constatés pour la version déterministe du framework, et des résultats corrects pour la version probabiliste. Un cas d’utilisation d’Orange est étudié, et l’intérêt et les limites de la méthodologie sont montrés.