| |
|<
<< Page précédente
1
Page suivante >>
>|
|
documents par page
|
|
Tri :
Date
Titre
Auteur
|
|
|
Informatique
/ 02-10-2025
Rossigneux Baptiste
Voir le résumé
Voir le résumé
Cette thèse aborde le défi du déploiement de réseaux de neurones profonds sur des systèmes embarqués aux ressources contraintes. Nous exploitons la parcimonie comme un levier fondamental pour concevoir des modèles de vision par ordinateur à la fois efficaces et performants. Nos contributions s'articulent en trois axes. Premièrement, nous nous attaquons au goulot d'étranglement de la mémoire dans les réseaux de neurones convolutifs (CNN). Nous proposons une double couche de projection qui, insérée avec un rapide entraînement, réduit l'empreinte mémoire maximale du réseau, puis se combine aux couches existantes pour n'induire aucun surcoût calculatoire à l'inférence. Deuxièmement, nous présentons une méthode d'élagage de non-linéarités visant à réduire la profondeur effective des modèles. Nous introduisons un critère statistique rapide, basé sur la distribution des activations, qui identifie les non-linéarités redondantes. Cette approche permet de fusionner des couches linéaires successives tout en préservant la précision du modèle. Enfin, nous tentons de réduire la quantité de calculs demandée par les Modèles de Vision-Language (VLMs) par la voie de la réduction des tokens données en entrée. Dans un même temps nous tentons de réduire la sensibilité au bruit de ces modèles en débruitant les tokens gardés, avant de les donner au modèle de langage.
|
|
|
|<
<< Page précédente
1
Page suivante >>
>|
|
documents par page
|