Quantization and adversarial robustness of embedded deep neural networks

Quantization and adversarial robustness of embedded deep neural networks
(Quantification et robustesse aux attaques adverses d’algorithmes neuronaux profonds embarqués)

Allenet, Thibault - (2023-03-24) / Université de Rennes
Quantization and adversarial robustness of embedded deep neural networks

Accéder au document :

https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Langue : Anglais

Directeur(s) de thèse: Sentieys, Olivier; Bichler, Olivier

Discipline : Informatique

Laboratoire : IRISA

Ecole Doctorale : MATISSE

Classification : Informatique

Mots-clés : Apprentissage Automatique, Réseaux neuronaux (informatique), Quantificateurs, Commande robuste, Systèmes embarqués

Réseaux neuronaux (informatique)
Commande robuste
Quantificateurs (logique mathématique)
Systèmes embarqués (informatique) - Apprentissage automatique

Résumé : Les réseaux de neurones convolutifs et les réseaux neurones récurrents (RNN) ont été largement utilisés dans de nombreux domaines tels que la vision par ordinateur, le traitement naturel du langage et le traitement du signal. Néanmoins, la charge de calcul et le besoin en bande passante mémoire impliqués dans l'inférence des réseaux de neurones profonds empêchent souvent leur déploiement sur des cibles embarquées à faible ressources. De plus, la vulnérabilité des réseaux de neurones profonds à de petites perturbations sur les entrées remet en question leur déploiement pour des applications impliquant des décisions de haute criticité. Pour relever ces défis, cette thèse propose deux principales contributions. D'une part, nous proposons des méthodes de compression pour rendre les réseaux de neurones profonds plus adaptés aux systèmes embarqués ayant de faibles ressources. D'autre part, nous proposons une nouvelle stratégie pour rendre les réseaux de neurones profonds plus robustes aux attaques adverses en tenant compte des ressources limitées des systèmes embarqués. Dans un premier temps, nous présentons une revue de la littérature sur des principes et des outils de bases de l'apprentissage profond, des types de réseaux de neurones reconnus et un état de l'art sur des méthodes de compression de réseaux de neurones. Ensuite, nous présentons deux contributions autour de la compression des réseaux de neurones profonds : une étude de transférabilité du Lottery Ticket sur les RNN et une méthode de quantification à l’apprentissage. L’étude de transférabilité du Lottery Ticket sur les RNN analyse la convergence des RNN et étudie son impact sur l'élagage des paramètres pour des taches de classification d'images et de modélisation du langage. Nous proposons aussi une méthode de prétraitement basée sur le sous-échantillonnage des données qui permet une convergence plus rapide des LSTM tout en préservant les performances applicatives. Avec la méthode Disentangled Loss Quantization Aware Training (DL-QAT), nous proposons d'améliorer une méthode de quantification avancée avec des fonctions de coût favorables à la quantification afin d'atteindre des paramètres binaires. Les expériences sur ImageNet-1k avec DL-QAT montrent une amélioration de près de 1 % sur la précision du score de ResNet-18 avec des poids binaires et des activations de 2 bits. Il apparaît clairement que DL-QAT fournit le meilleur profil du compromis entre l'empreinte mémoire et la performance applicative. Ce travail étudie ensuite la robustesse des réseaux de neurones face aux attaques adverses. Après avoir présenté l'état de l'art sur les attaques adverses et les mécanismes de défense, nous proposons le mécanisme de défense Ensemble Hash Defense (EHD). EHD permet une meilleure résistance aux attaques adverses basées sur l'approximation du gradient tout en préservant les performances de l'application et en ne nécessitant qu'une surcharge de mémoire au moment de l'inférence. Dans la meilleure configuration, notre système réalise des gains de robustesse significatifs par rapport aux modèles de base et à une approche de robustesse basée sur la fonction de coût. De plus, le principe de l'EHD la rend complémentaire à d'autres méthodes d'optimisation robuste qui permettraient d'améliorer encore la robustesse du système final. Dans la perspective de l'inférence sur cible embarquée, la surcharge mémoire introduite par l'EHD peut être réduite par la quantification ou le partage de poids. En conclusion, les travaux de cette thèse ont proposé des méthodes de compression de réseaux de neurones et un système de défense pour résoudre des défis importants, à savoir comment rendre les réseaux de neurones profonds plus robustes face aux attaques adverses et plus faciles à déployer sur les plateformes à ressources limitées. Ces travaux réduisent davantage l'écart entre l'état de l'art des réseaux neurones profonds et leur exécution sur des cibles embarquées à faible ressources.

Abstract : Convolutional Neural Networks (CNNs) and Recurrent Neural Networks (RNNs) have been broadly used in many fields such as computer vision, natural language processing and signal processing. Nevertheless, the computational workload and the heavy memory bandwidth involved in deep neural networks inference often prevents their deployment on low-power embedded devices. Moreover, deep neural networks vulnerability towards small input perturbations questions their deployment for applications involving high criticality decisions. This PhD research project objective is twofold. On the one hand, it proposes compression methods to make deep neural networks more suitable for embedded systems with low computing resources and memory requirements. On the other hand, it proposes a new strategy to make deep neural networks more robust towards attacks based on crafted inputs with the perspective to infer on edge. We begin by introducing common concepts for training neural networks, convolutional neural networks, recurrent neural networks and review the state of the art neural on deep neural networks compression methods. After this literature review we present two main contributions on compressing deep neural networks: an investigation of lottery tickets on RNNs and Disentangled Loss Quantization Aware Training (DL-QAT) on CNNs. The investigation of lottery tickets on RNNs analyze the convergence of RNNs and study its impact when subject to pruning on image classification and language modelling. Then we present a pre-processing method based on data sub-sampling that enables faster convergence of LSTM while preserving application performance. With the Disentangled Loss Quantization Aware Training (DL-QAT) method, we propose to further improve an advanced quantization method with quantization friendly loss functions to reach low bit settings like binary parameters where the application performance is the most impacted. Experiments on ImageNet-1k with DL-QAT show improvements by nearly 1\% on the top-1 accuracy of ResNet-18 with binary weights and 2-bit activations, and also show the best profile of memory footprint over accuracy when compared with other state-of-the art methods. This work then studies neural networks robustness toward adversarial attacks. After introducing the state of the art on adversarial attacks and defense mechanisms, we propose the Ensemble Hash Defense (EHD) defense mechanism. EHD enables better resilience to adversarial attacks based on gradient approximation while preserving application performance and only requiring a memory overhead at inference time. In the best configuration, our system achieves significant robustness gains compared to baseline models and a loss function-driven approach. Moreover, the principle of EHD makes it complementary to other robust optimization methods that would further enhance the robustness of the final system and compression methods. With the perspective of edge inference, the memory overhead introduced by EHD can be reduced with quantization or weight sharing. The contributions in this thesis have concerned optimization methods and a defense system to solve an important challenge, that is, how to make deep neural networks more robust towards adversarial attacks and easier to deployed on the resource limited platforms. This work further reduces the gap between state of the art deep neural networks and their execution on edge devices.