Parcimonie dans les réseaux de neurones : compromis entre le nombre d’opérations et leur complexité dans un contexte embarqué
(Sparsity in neural networks : the trade-off between operation count and complexity for embedded systems)

Rossigneux, Baptiste - (2025-10-02) / Université de Rennes - Parcimonie dans les réseaux de neurones : compromis entre le nombre d’opérations et leur complexité dans un contexte embarqué

Accéder au document : https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Langue : Anglais

Directeur(s) de thèse:  Casseau, Emmanuel

Discipline : Informatique

Laboratoire :  IRISA

Ecole Doctorale : MATISSE

Classification : Informatique

Mots-clés : Réseaux de neurones, Parcimonie, Élagage, Traitement des images
Réseaux neuronaux (informatique)
Traitement d'images -- Techniques numériques


Résumé : Cette thèse aborde le défi du déploiement de réseaux de neurones profonds sur des systèmes embarqués aux ressources contraintes. Nous exploitons la parcimonie comme un levier fondamental pour concevoir des modèles de vision par ordinateur à la fois efficaces et performants. Nos contributions s'articulent en trois axes. Premièrement, nous nous attaquons au goulot d'étranglement de la mémoire dans les réseaux de neurones convolutifs (CNN). Nous proposons une double couche de projection qui, insérée avec un rapide entraînement, réduit l'empreinte mémoire maximale du réseau, puis se combine aux couches existantes pour n'induire aucun surcoût calculatoire à l'inférence. Deuxièmement, nous présentons une méthode d'élagage de non-linéarités visant à réduire la profondeur effective des modèles. Nous introduisons un critère statistique rapide, basé sur la distribution des activations, qui identifie les non-linéarités redondantes. Cette approche permet de fusionner des couches linéaires successives tout en préservant la précision du modèle. Enfin, nous tentons de réduire la quantité de calculs demandée par les Modèles de Vision-Language (VLMs) par la voie de la réduction des tokens données en entrée. Dans un même temps nous tentons de réduire la sensibilité au bruit de ces modèles en débruitant les tokens gardés, avant de les donner au modèle de langage.

Abstract : This thesis addresses the challenge of deploying deep neural networks on resource-constrained embedded systems. We leverage sparsity as a fundamental mechanism to design computer vision models that are both efficient and performant. Our contributions are threefold. First, we tackle the memory bottleneck in Convolutional Neural Networks (CNNs). We propose a foldable projection layer that, when inserted through a brief fine-tuning stage, reduces the network's peak memory footprint and subsequently folds into existing layers, incurring no additional computational overhead at inference. Second, we present a method for non-linearity pruning to reduce the effective depth of models. We introduce a fast statistical criterion, based on the activation distribution, which identifies redundant non-linearities. This approach enables the fusion of successive linear layers while preserving model accuracy. Finally, we aim to reduce the computational load of Vision-Language Models (VLMs) by pruning input tokens. At the same time, we seek to decrease the models' sensitivity to noise by denoising the retained tokens before they are passed to the language model.