Packing detection and classification relying on machine learning to stop malware propagation (Détection et classification d'empaquetage s'appuyant sur l'apprentissage automatique pour contrer la propagation des logiciels malveillants) Noureddine, Lamine - (2021-12-21) / Universite de Rennes 1 Packing detection and classification relying on machine learning to stop malware propagation
| |||
Langue : Anglais Directeur(s) de thèse: Ubeda, Stéphane; Zendra, Olivier Discipline : Informatique Laboratoire : IRISA Ecole Doctorale : MATHSTIC Classification : Informatique Mots-clés : Empaquetage, Logiciels malveillants, Détection, Classification, Apprentissage automatique
| |||
Résumé : Dans cette thèse, nous proposons des solutions pour une détection et classification d'empaqueteurs effectives, efficaces et robustes pouvant faire partie de la chaîne pratique d'analyse de logiciels malveillants d'un antivirus. Nos solutions apportent à la littérature deux contributions. Dans la première, nous introduisons une étude visant à mieux comprendre l'impact de la labellisation, la sélection des algorithmes d'apprentissage automatique, et la sélection de caractéristique sur l'effectivité, l’efficacité et la robustesse des systèmes de détection et de classification d'empaqueteurs basés sur l'apprentissage automatique supervisé. Dans la seconde, nous proposons, concevons et implémentons SE-PAC (Self-Evolving PAcker Classifier), un nouveau framework auto-évolutif de classification d'empaqueteurs qui repose sur le regroupement incrémental de façon semi-supervisée, pour faire face à l'évolution rapide des empaqueteurs au fil du temps. Pour ces deux contributions, nous menons des expériences réalistes montrant des résultats prometteurs en termes d'effectivité, d'efficacité et de robustesse pour la détection et la classification des empaqueteurs. Abstract : In this thesis, we propose solutions for effective, efficient, and robust packing detection and classification to be practical parts of the malware analysis chain of an antivirus. Our solutions bring two contributions to the literature. In the first one, we introduce a study which aims at better understanding the impact of ground truth generation, machine learning algorithms selection, and feature selection on the effectiveness, efficiency, and robustness of supervised machine-learning-based packing detection and classification systems. In the second one, we propose, design, and implement SE-PAC, a new Self-Evolving PAcker Classifier framework that relies on incremental clustering in a semi-supervised fashion, in order to cope with the fast-paced evolution of packers over time. For both contributions, we conduct realistic experiments showing promising results for effectiveness, efficiency, and robustness for packing detection and classification. |