Généralisation de domaine en vision par ordinateur : apport des modèles pré-entraînés à grande échelle

Généralisation de domaine en vision par ordinateur : apport des modèles pré-entraînés à grande échelle
(Domain generalization in computer vision : the contribution of large-scale pretrained models)

Hémadou, Louis - (2025-12-10) / Université de Rennes - Généralisation de domaine en vision par ordinateur : apport des modèles pré-entraînés à grande échelle

Accéder au document :

https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Langue : Français

Directeur(s) de thèse: Jurie, Frédéric; Kijak, Ewa

Discipline : Informatique

Laboratoire : INRIA-RENNES

Ecole Doctorale : MATISSE

Classification : Informatique

Mots-clés : apprentissage profond, vision par ordinateur, généralisation de domaine, modèles multimodaux

Apprentissage profond
Vision par ordinateur

Résumé : Dans de nombreuses applications d’apprentissage machine, les données d’entraînement et de test diffèrent sensiblement, créant ce que l’on appelle un écart de domaine. Dans un contexte industriel, ce décalage apparaît typiquement lorsqu’un modèle est entraîné sur des données synthétiques puis déployé sur des données réelles. Un tel écart compromet la robustesse des modèles : leurs performances se dégradent dès qu’ils sont confrontés aux données de test. Cette thèse vise à concevoir de nouvelles méthodes pour limiter ces pertes de performance et renforcer la capacité de généralisation face à un changement de domaine. L’approche développée s’appuie sur l’exploitation des connaissances encodées par les grands modèles pré-entraînés, apparus peu avant le début de ces travaux, afin de tirer parti de leur richesse représentationnelle pour mieux gérer ces décalages. Nous proposons dans un premier temps une évaluation de l’efficacité de ces modèles sur des données issues de contextes académiques et industriels. Nous introduisons ensuite une méthode d’adaptation de domaine fondée sur l’utilisation d’une indication textuelle décrivant le domaine cible. Ces deux contributions portent sur la classification d’images, tandis qu’une dernière partie étend les travaux à la tâche de détection d’objets.

Abstract : In many machine learning applications, training and test data differ significantly, leading to what is commonly referred to as a domain shift. In industrial settings, such a shift typically arises when a model is trained on synthetic data and then deployed on real data. This discrepancy undermines the robustness of models, as their performance often drops when applied to test data. This thesis aims to design new methods to mitigate these performance losses and enhance generalization capabilities in the presence of domain shifts. The proposed approach leverages the knowledge encoded in large pretrained models, which emerged shortly before the start of this work, in order to exploit their rich representations for better handling such discrepancies. We first provide an evaluation of the effectiveness of these models on datasets from both academic and industrial contexts. We then introduce a domain adaptation method based on textual cues describing the target domain. While these two contributions focus on image classification, the final part of the thesis extends the approach to the task of object detection.