Recherche avancée
Toutes les thèses
Thèses de doctorat
Thèses d'exercice (médecine, santé, pharmacie)
Thèses de doctorat > Par laboratoire en fr
  • Nouveautés
  • Par thématique
  • Par laboratoire
  • Par date
  • Par auteur
Thèses de doctorat -> Recherche par laboratoire
Laboratoire > INRIA-RENNES
Niveau supérieur
  • 174 ressources ont été trouvées. Voici les résultats 1 à 10
  |< << Page précédente 1 2 3 4 5 6 Page suivante >> >| documents par page
Tri :   Date Titre Auteur

VAE-based compression of light field images using disentangled latent modeling and perceptual quality assessment


Signal, image, vision / 22-01-2026
Takhtardeshir Soheib
Voir le résumé
Voir le résumé
La demande d'expériences visuelles immersives dans des applications telles que la réalité virtuelle et la téléprésence a mis en évidence les limites de l'imagerie 2D traditionnelle. L'imagerie Light Field (LF) répond à ce problème en capturant une représentation 4D d'une scène, encodant à la fois les informations spatiales (texture) et angulaires (point de vue). Cette richesse permet une véritable parallaxe et une perception de la profondeur, mais crée un goulot d'étranglement de données important, car les volumes de données massifs constituent un obstacle majeur au stockage, à la transmission et au traitement efficaces en temps réel. Les méthodes de compression conventionnelles traitent souvent les données LF comme une simple séquence d'images, n'exploitant pas efficacement la structure spatio-angulaire sous-jacente, ce qui conduit à des performances sous-optimales. Cette thèse aborde le défi de la compression efficace des LF en développant un cadre d'apprentissage fondé sur des principes et centré sur le spatial-angular disentanglement. Le cœur du travail est une série d'architectures basées sur des Variational Autoencoder (VAE) qui séparent explicitement les caractéristiques spatiales et angulaires en des représentations latentes distinctes. Cette approche offre une plus grande flexibilité et efficacité en permettant à chaque domaine d'être modélisé en fonction de ses propriétés statistiques uniques. Le modèle VAE fondamental est progressivement amélioré par deux contributions clés : premièrement, l'intégration de dual-hyperprior entropy models pour apprendre des distributions de probabilité adaptées à chaque flux latent, améliorant la performance rate-distortion ; et deuxièmement, l'introduction d'un information-theoretic regularizer pour garantir une séparation robuste des caractéristiques. Enfin, un pipeline de compression modulaire et léger est proposé pour compresser davantage ces représentations latentes sans nécessiter un réentraînement du réseau. Les méthodes proposées ont été rigoureusement évaluées sur des datasets LF publics standards ainsi que sur un nouvel ensemble de données sphériques de LF créé dans le cadre de cette recherche pour prendre en charge des scénarios de téléprésence immersive. Les évaluations objectives démontrent que les cadres désenchevêtrés atteignent une performance rate-distortion supérieure, avec des gains BD-PSNR significatifs par rapport aux codecs de pointe, qu'ils soient basés sur l'apprentissage ou traditionnels. De manière cruciale, les méthodes offrent également des temps d'encodage et de décodage considérablement plus rapides, une exigence essentielle pour les applications en temps réel. Pour évaluer la performance perceptive, une étude formelle de la qualité subjective a été menée, qui a confirmé que les méthodes proposées délivrent une qualité visuelle améliorée, particulièrement dans la préservation de la cohérence angulaire et la réduction des artefacts qui altèrent l'expérience immersive. En conclusion, cette thèse démontre que le fait de désenchevêtrer, modéliser et compresser explicitement les composantes spatiales et angulaires des Light Fields est une stratégie très efficace. Les cadres et outils développés font progresser l'état de l'art en fournissant des solutions pratiques et évolutives qui équilibrent l'efficacité de la compression, la vitesse de calcul et la qualité perceptive. Ce travail apporte une contribution significative à la faisabilité de l'utilisation de l'imagerie LF de haute qualité dans des applications immersives à bande passante limitée. Cette thèse est basée sur les contributions de six publications scientifiques évaluées par des pairs.

Généralisation de domaine en vision par ordinateur : apport des modèles pré-entraînés à grande échelle


Informatique / 10-12-2025
Hémadou Louis
Voir le résumé
Voir le résumé
Dans de nombreuses applications d’apprentissage machine, les données d’entraînement et de test diffèrent sensiblement, créant ce que l’on appelle un écart de domaine. Dans un contexte industriel, ce décalage apparaît typiquement lorsqu’un modèle est entraîné sur des données synthétiques puis déployé sur des données réelles. Un tel écart compromet la robustesse des modèles : leurs performances se dégradent dès qu’ils sont confrontés aux données de test. Cette thèse vise à concevoir de nouvelles méthodes pour limiter ces pertes de performance et renforcer la capacité de généralisation face à un changement de domaine. L’approche développée s’appuie sur l’exploitation des connaissances encodées par les grands modèles pré-entraînés, apparus peu avant le début de ces travaux, afin de tirer parti de leur richesse représentationnelle pour mieux gérer ces décalages. Nous proposons dans un premier temps une évaluation de l’efficacité de ces modèles sur des données issues de contextes académiques et industriels. Nous introduisons ensuite une méthode d’adaptation de domaine fondée sur l’utilisation d’une indication textuelle décrivant le domaine cible. Ces deux contributions portent sur la classification d’images, tandis qu’une dernière partie étend les travaux à la tâche de détection d’objets.

Apprentissage par renforcement profond multi-agents pour l'allocation et la planification des ressources en 6G


Informatique / 26-11-2025
Bouroudi Abdelmounaim
Voir le résumé
Voir le résumé
Cette thèse propose des approches avancées pour la gestion des ressources dans les réseaux 6G, en utilisant l’apprentissage par renforcement multi-agents. Face à la diversité des exigences de qualité de service (QoS) et à la complexité des environnements multi-domaines et multi-acteurs, une solution distribuée et optimisée est cruciale. Premièrement, un algorithme de placement multi-agents pour les fonctions réseau virtualisées (VNF) a été développé, optimisant la répartition des ressources à travers des domaines distincts tout en assurant une coordination efficace entre les agents. Deuxièmement, un algorithme innovant de scaling multi-domaines a été conçu, intégrant des prévisions de trafic et des mécanismes d’échange inter-domaines pour garantir une allocation dynamique et adaptée des ressources. Enfin, une solution globale prenant en compte le placement et le scaling a été proposée, mettant l’accent sur la réduction de la consommation énergétique dans un contexte distribué et multi-acteurs. Ces contributions ont été validées à travers une plateforme de simulation flexible et légère développée avec OMNeT++. Les résultats obtenus influencent directement les standards des réseaux 6G et ouvrent la voie à des innovations brevetables dans la gestion des ressources.

Modulating social perception during virtual interactions with affective haptic feedback


Informatique / 25-11-2025
Hecquard Jeanne
Voir le résumé
Voir le résumé
La réalité virtuelle (RV) offre des expériences immersives en sollicitant de multiples sens. Bien que loin de reproduire parfaitement le monde physique, la RV sociale suscite néanmoins des comportements qui reflètent les normes sociales du monde réel, même en l'absence d'indices clés tels que les expressions faciales ou un langage corporel précis. Parmi ces éléments manquants, le toucher social reste largement inexploré, la plupart des systèmes de RV n'offrant qu'un retour haptique limité ou simplifié. L'absence de toucher peut profondément altérer la perception que les utilisateurs ont d'eux-mêmes et des autres. Cette thèse étudie le rôle de l'haptique affectif sur les interactions sociales en RV. Nous examinons d'abord comment le retour haptique affectif influence la perception intrapersonnelle, modulant la façon dont les utilisateurs se perçoivent et se représentent en RV. Nous étendons ensuite cette recherche aux contextes interpersonnels, explorant comment le toucher virtuel peut moduler la perception sociale et favoriser les comportements prosociaux.

Graph signal processing to estimate biomarkers of brain connectivity


Informatique / 24-10-2025
Dam Sébastien
Voir le résumé
Voir le résumé
Cette thèse étudie l’approche multimodale basée sur le traitement de signal sur graphe (TSG) pour intégrer la connectivité cérébrale structurelle et les signaux BOLD, mesurés par l’IRM de diffusion et fonctionnelle, respectivement. Dans une première partie, nous utilisons la théorie des graphes pour extraire les régions cérébrales liées à la dépression. Puis, du point de vue du TSG, nous montrons que l’analyse multimodale apporte une plus grande précision dans la classification d'adolescents anxieux et dépressifs, par rapport aux analyses unimodales. Dans une deuxième partie, nous essayons d’améliorer la localisation du signal à la fois dans le domaine spatial et spectral du graphe. Pour ce faire, nous concevons des paquets d’ondelettes sur graphe afin de créer un nouvel ensemble de transformées qui prennent mieux en compte la structure sous-jacente du graphe. Ensuite, nous exploitons et étendons l’approche Slepian de graphe qui vise à se concentrer sur un ensemble spécifique de nœuds sans exclure le sous-graphe. Nous proposons une décomposition spectrale des signaux BOLD dans des structures cérébrales localisées ainsi qu’une méthode de filtrage permettant d’examiner les patterns d’interactions entre les réseaux cérébraux. Dans une troisième partie, nous développons l’apprentissage sur graphe en utilisant les réseaux de neurones convolutionnels pour intégrer la structure et la fonction.

"Faire confiance mais vérifier" : robustesse des audits statistiques des modèles d’apprentissage en boîte noire


Informatique / 06-10-2025
Garcia Bourrée Jade
Voir le résumé
Voir le résumé
L'opacité des modèles d'apprentissage automatique soulève d'importantes questions quant à leur équité, en particulier lorsque leurs décisions ont une influence directe sur la vie des individus. Les audits externes, réalisés sans accès au code ou aux données internes, constituent un outil essentiel pour évaluer ces systèmes. Cette thèse analyse les conditions de validité des audits en boîte noire et met en évidence les tensions méthodologiques qu'ils soulèvent. Tout d'abord, elle montre que la détection des manipulations stratégiques par les plateformes, un phénomène connu sous le nom de fairwashing, nécessite que l'auditeur utilise des sources d'information indépendantes. Sur la base de cette observation, deux modèles d'audit sont proposés pour évaluer l'équité et identifier les manipulations. Ensuite, la pertinence de ces sources indépendantes est discutée et leurs limites sont précisées. Nous proposons également deux modèles d'audit collaboratif pour surmonter ces limites. Ces résultats conduisent à l'élaboration de modèles d'audit opérationnels qui alignent les pratiques d'audit sur les exigences réglementaires, soulignant l'importance de cette recherche dans le domaine des audits d'apprentissage automatique.

Effects of synchronous clock glitch on the security of integrated circuits


Informatique / 23-06-2025
Marotta Amélie
Voir le résumé
Voir le résumé
Lors de la conception d'un objet électronique, la sécurité est à prendre en considération. En effet, les sources de vulnérabilité peuvent être multiples, ainsi que les moyens de les exploiter. En particulier, nous nous intéressons à l'injection de fautes. Ces attaques consistent à perturber certains signaux d'un circuit (comme l'alimentation) afin de modifier son comportement. Que ce soit pour développer des contremesures ou des attaques efficaces, il est nécessaire de comprendre l'impact global des fautes sur un circuit intégré. L'injection de fautes électromagnétiques impacte plusieurs signaux à la fois, et donc son étude peut se révéler complexe. Cette thèse vise à étudier un effet en particulier des fautes électromagnétiques, les perturbations synchrones de l'horloge. Ce type de perturbation a été utilisé avec succès pour contourner des mesures de sécurité. Pourtant, une analyse de bout en bout n'a jamais été explorée. Dans un premier temps, nous explorons leur effet sur les bascules et leur échantillonnage, ce qui nous permet de déduire un nouveau modèle de faute. Dans un second temps, notre intérêt se porte sur l'effet des perturbations sur la microarchitecture. Nos buts sont multiples : faire le lien entre les paramètres d'injection et les différents effets observés, identifier les parties vulnérables du processeur, faire le lien avec le modèle de faute bas niveau. Ces deux contributions permettent d'améliorer la compréhension des effets de l'injection de fautes, notamment électromagnétiques, à divers niveaux d'abstraction.

Combining implicit and explicit representations for modeling 3D shape and appearance


Signal, image, vision / 23-06-2025
Jena Shubhendu
Voir le résumé
Voir le résumé
Cette thèse aborde la reconstruction de géométrie 3D précise et éditable ainsi que la synthèse d’apparence réaliste à partir d’entrées éparses, non posées ou bruitées, en combinant des représentations 3D implicites et explicites. Les champs implicites permettent une modélisation continue et flexible, mais restent coûteux et peu robustes. Les représentations explicites, comme les maillages, sont rapides à rendre et éditables, mais dépendent de données fiables. Nous explorons leur adaptation et combinaison pour une reconstruction 3D robuste et évolutive. Nous améliorons les champs implicites via un transfert d’opacité depuis des NeRFs vers des champs d’occupation, et proposons une optimisation SDF robuste adaptée aux nuages de points bruités. Pour les représentations explicites, nous développons une méthode de déformation de maillage pour la reconstruction humaine monoculaire, basée sur des descripteurs pixel-alignés et des graphes, ainsi qu’un pipeline de rendu neuronal combinant géométrie proxy et descripteurs conditionnés. Enfin, nous introduisons un cadre de Gaussian Splatting 2D généralisable pour la synthèse de vues et un pipeline sans pose pour reconstruire géométrie et caméras via splatting différentiable et priors 3D. Ces approches hybrides unifient flexibilité et structure pour une modélisation 3D robuste et pratique.

Sensing and reconstruction of plenoptic point clouds


Signal, image, vision / 21-05-2025
Freitas Davi Rabbouni de Carvalho
Voir le résumé
Voir le résumé
Cette thèse donne un aperçu de la fonction plénoptique et de la manière dont elle est liée aux contenus volumétriques, par le biais de représentations de scènes plénoptiques. Elle passe en revue les méthodes existantes qui introduisent cette capacité de manière explicite et implicite, sous la forme d’un nuage de points plénoptique (PPC) et de champs de radiance (RF), respectivement. Ces méthodes sont présentées du point de vue des défis qu’elles posent en termes de praticité pour les applications de diffusion en continu de contenu interactif, à savoir la taille et la vitesse. Dans un premier temps, nous avons intégré la capacité plénoptique pour le codeur MPEG basé sur la géométrie (G-PCC) en compressant les PPC à l’aide d’une combinaison des transformées linéaires sur le vecteur de couleur des différents points de vue de la caméra combinées aux codeurs d’attributs prédictifs du G-PCC. Nous abordons ensuite les inconvénients liés à la taille des implémentations de rendu en temps réel des méthodes basées sur le NeRF, en introduisant un pipeline de compression dans le modèle PlenOctrees. Ensuite, nous introduisons une méthode pour générer systématiquement des PPC et les comparer directement aux solutions RF avec des mesures conventionnelles basées sur le rendu. Enfin, nous tirons parti de la géométrie sous-jacente des modèles RF pour orienter leur élagage en vue d’une compression plus efficace.

Efficient low-precision training for deep learning training


Informatique / 30-04-2025
Ben Ali Sami
Voir le résumé
Voir le résumé
L’entraînement des réseaux neuronaux profonds (DNN) est très gourmand en ressources de calcul, d’où l’intérêt pour l’arithmétique de basse précision afin d’améliorer l’efficacité. Cette thèse explore de nouvelles approches pour permettre un entraînement efficace en basse précision pour les accélérateurs d’apprentissage profond. Tout d’abord, nous présentons MPTorch-FPGA, une extension de l’environnement MPTorch conçue pour faciliter l’entraînement de DNN à faible précision pour des environnements CPU, GPU et FPGA. MPTorch-FPGA peut générer un accélérateur spécifique au modèle pour l’entraînement DNN, avec des tailles et des implémentations arithmétiques personnalisables, offrant une précision au niveau du bit par rapport à l’entraînement DNN émulé sur les GPU ou les CPU. Un algorithme de correspondance hors ligne sélectionne l’une des configurations FPGA pré-générées (statiques) en utilisant un modèle de performance pour estimer la latence. Deuxièmement, nous proposons une unité de multiplication-accumulation (MAC) optimisée, basée sur des arrondis stochastiques et adaptée à l’apprentissage en basse précision. Notre conception utilise un multiplicateur FP8 avec une accumulation FP12 et s’appuie sur une nouvelle implémentation de l’arrondi stochastique dans les additionneurs à virgule flottante, réduisant de manière significative la surface, la consommation d’énergie et le délai par rapport aux implémentations conventionnelles. Ensemble, ces contributions soulignent le potentiel de l’arithmétique personnalisée et de l’entraînement en précision mixte pour améliorer les performances des accélérateurs d’apprentissage profond tout en préservant la précision du modèle.

rss |< << Page précédente 1 2 3 4 5 6 Page suivante >> >| documents par page
© 2016  |  MENTIONS LEGALES  |  PLUS D'INFORMATION