|
|<
<< Page précédente
1
2
3
4
5
6
Page suivante >>
>|
|
documents par page
|
Tri :
Date
Titre
Auteur
|
|
Informatique
/ 01-07-2024
Venkataramanan Shashanka
Voir le résumé
Voir le résumé
Le principal objectif de la vision par ordinateur est de permettre aux machines d'extraire des informations significatives à partir de données visuelles, telles que des images et des vidéos, et de tirer parti de ces informations pour effectuer une large gamme de tâches. À cette fin, de nombreuses recherches se sont concentrées sur le développement de modèles d'apprentissage profond capables de coder des représentations visuelles complètes et robustes. Une stratégie importante dans ce contexte consiste à préentraîner des modèles sur des ensembles de données à grande échelle, tels qu'ImageNet, pour apprendre des représentations qui peuvent présenter une applicabilité transversale aux tâches et faciliter la gestion réussie de diverses tâches en aval avec un minimum d'effort. Pour faciliter l'apprentissage sur ces ensembles de données à grande échelle et coder de bonnes représentations, des stratégies complexes d'augmentation des données ont été utilisées. Cependant, ces augmentations peuvent être limitées dans leur portée, étant soit conçues manuellement et manquant de diversité, soit générant des images qui paraissent artificielles. De plus, ces techniques d'augmentation se sont principalement concentrées sur le jeu de données ImageNet et ses tâches en aval, limitant leur applicabilité à un éventail plus large de problèmes de vision par ordinateur. Dans cette thèse, nous visons à surmonter ces limitations en explorant différentes approches pour améliorer l'efficacité et l'efficience de l'apprentissage des représentations. Le fil conducteur des travaux présentés est l'utilisation de techniques basées sur l'interpolation, telles que mixup, pour générer des exemples d'entraînement diversifiés et informatifs au-delà du jeu de données original. Dans le premier travail, nous sommes motivés par l'idée de la déformation comme un moyen naturel d'interpoler des images plutôt que d'utiliser une combinaison convexe. Nous montrons que l'alignement géométrique des deux images dans l'espace des caractéristiques permet une interpolation plus naturelle qui conserve la géométrie d'une image et la texture de l'autre, la reliant au transfert de style. En nous appuyant sur ces observations, nous explorons la combinaison de mix6up et de l'apprentissage métrique profond. Nous développons une formulation généralisée qui intègre mix6up dans l'apprentissage métrique, conduisant à des représentations améliorées qui explorent des zones de l'espace d'embedding au-delà des classes d'entraînement. En nous appuyant sur ces insights, nous revisitons la motivation originale de mixup et générons un plus grand nombre d'exemples interpolés au-delà de la taille du mini-lot en interpolant dans l'espace d'embedding. Cette approche nous permet d'échantillonner sur l'ensemble de l'enveloppe convexe du mini-lot, plutôt que juste le long des segments linéaires entre les paires d'exemples. Enfin, nous explorons le potentiel de l'utilisation d'augmentations naturelles d'objets à partir de vidéos. Nous introduisons un ensemble de données "Walking Tours" de vidéos égocentriques en première personne, qui capturent une large gamme d'objets et d'actions dans des transitions de scènes naturelles. Nous proposons ensuite une nouvelle méthode de préentraînement auto-supervisée appelée DoRA, qui détecte et suit des objets dans des images vidéo, dérivant de multiples vues à partir des suivis et les utilisant de manière auto-supervisée.
|
|
Signal, image, vision
/ 11-06-2024
Engin Deniz
Voir le résumé
Voir le résumé
Le contenu vidéo a considérablement augmenté en volume et en diversité à l'ère numérique, et cette expansion a souligné la nécessité de technologies avancées de compréhension des vidéos. Poussée par cette nécessité, cette thèse explore la compréhension sémantique des vidéos, en exploitant plusieurs modes perceptuels similaires aux processus cognitifs humains et un apprentissage efficace avec une supervision limitée, semblable aux capacités d'apprentissage humain. Cette thèse se concentre spécifiquement sur la réponse aux questions sur les vidéos comme l'une des principales tâches de compréhension vidéo. Notre première contribution traite de la réponse aux questions sur les vidéos à long terme, nécessitant une compréhension du contenu vidéo étendu. Alors que les approches récentes dépendent de sources externes générées par les humains, nous traitons des données brutes pour générer des résumés vidéo. Notre contribution suivante explore la réponse aux questions vidéo en zéro-shot et en few-shot, visant à améliorer l'apprentissage efficace à partir de données limitées. Nous exploitons la connaissance des modèles à grande échelle existants en éliminant les défis d'adaptation des modèles pré-entraînés à des données limitées. Nous démontrons que ces contributions améliorent considérablement les capacités des systèmes de réponse aux questions vidéo multimodaux, où les données étiquetées spécifiquement annotées par l'homme sont limitées ou indisponibles.
|
|
Informatique
/ 24-05-2024
Younes Mohamed
Voir le résumé
Voir le résumé
Cette thèse étudie l’extraction et la simulation des interactions entre combattants, principalement pour la boxe, en utilisant des techniques d’apprentissage profond : l’estimation du mouvement humain à partir de vidéos, l’apprentissage par imitation basé sur l’apprentissage par renforcement, et la simulation de personnages basée sur la physique. Dans le contexte de l’analyse sportive à partir de vidéos, un protocole de référence est proposé dans lequel diverses méthodes contemporaines d’extraction de poses humaines en 2D sont évaluées pour leur précision à dériver des informations positionnelles à partir d’enregistrements vidéo RVB de boxeurs lors de mouvements complexes et dans des circonstances de tournage défavorables. Dans une deuxième partie, la thèse se concentre sur la reproduction d’interactions réalistes entre boxeurs à partir de données de mouvement et d’interaction grâce à une méthodologie innovante permettant d’imiter les interactions et les mouvements de plusieurs personnages simulés physiquement à partir de données de capture de mouvement non organisées. Initialement, cette technique a été démontrée pour simuler une boxe légère entre deux combattants sans contact physique significatif. Par la suite, elle a été étendue pour prendre en compte des données d’interaction supplémentaires concernant la boxe avec du contact physique réel et d’autres activités de combat, ainsi que pour gérer les instructions de l’utilisateur et les restrictions d’interaction.
|
|
Automatique, productique et robotique
/ 17-04-2024
THOMAS JOHN
Voir le résumé
Voir le résumé
Dans cette thèse, un système multi-sensoriel composé de capteurs proximétriques, appelé réseau proximétriques, est proposé. En l’attachant à l’effecteur, il permet à un robot d’effectuer des tâches de positionnement plan sur plan et de positionnement par rapport à un cylindre. L’analyse de la stabilité de la tâche de positionnement plan sur plan est effectuée en obtenant la forme explicite pour la pseudo-inverse de la matrice d’interaction. Les informations de proximité et de vision sont ensuite combinées pour traiter le positionnement dans un espace encombré pour une tâche d’assemblage à l’aide de capteurs sans contact dans le cadre de la commande référencée multi-capteurs. Le réseau proximétrique est enroulé autour du bras du manipulateur pour permettre d’éviter les collisions alors que l’asservissement visuel à partir de 4 points assure le positionnement. Divers résultats expérimentaux et de simulation sont fournis pour valider la théorie. Des formes explicites de la base duale sont obtenues pour des tâches incluant le suivi plan sur plan et le positionnement par rapport à un cylindre avec un
minimum de capteurs et un asservissement visuel à partir de 3 points. La base duale est associée à l’espace linéaire des torseurs d’interaction qui forment les composantes de la matrice d’interaction. Cela conduit à des équations explicites capteurs.
|
|
Automatique, productique et robotique
/ 18-03-2024
Smolentsev Lev
Voir le résumé
Voir le résumé
Cette thèse se situe dans le domaine de l’interaction robotique avec des objets déformables. Elle présente une approche de commande robotique pour la manipulation autonome d'un câble déformable attaché entre 2 robots et soumis à la gravité. Le travail de recherche a porté sur l'élaboration d'une approche d'asservissement visuel qui utilise une caméra RGB-D pour extraire la forme du câble et l'angle de lacet du plan vertical qui le contient. Pour concevoir la commande du système, nous avons proposé d’utiliser, en tant qu’informations visuelles, les coefficients d'une courbe parabolique représentant une approximation de la forme du câble et l'angle de lacet de son plan. Le modèle d'interaction qui relie les variations de ces informations visuelles aux vitesses des extrémités du câble a été dérivé analytiquement. Des résultats expérimentaux ont dans un premier temps été obtenus avec un bras robotique manipulant une extrémité du câble et ont démontré l'efficacité de cette approche d'asservissement visuel pour déformer le câble vers une configuration de forme désirée. Cette approche a ensuite été adaptée à la manipulation robotique aérienne et validée expérimentalement sur un scénario robotique impliquant la saisie et le transport d'un objet par un câble manipulé par deux drones quadrotors dont l’un, qui est équipé d'une caméra RGB-D, est contrôlé par la méthode d’asservissement visuel proposée.
|
|
Signal, image, vision
/ 20-12-2023
Lecert Arthur
Voir le résumé
Voir le résumé
Aujourd'hui, de nombreux domaines évoluent pour inclure des algorithmes de vision par ordinateur. Or, ceux-ci n'ont pas été conçus pour fonctionner sur des scènes nocturnes. Leurs performances s'en trouvent fortement dégradées ce qui limite leurs applications. Cela est dû aux fortes dégradations lors de la capture d'images de nuit. Elles prennent la forme d'un faible rapport signal à bruit ainsi que de déviations de couleur. Dans cette thèse, nous répondons à cette problématique en cherchant à les restaurer à l'aide de méthodes d'apprentissage profond. Notre contexte nous force à nous concentrer sur des méthodes non supervisées qui n'hallucinent pas. Dans un premier temps, nous identifions une solution triviale au niveau de l'illumination ignorée jusqu'à maintenant. Nous proposons un a priori pour corriger ce problème ainsi qu'une méthode de restauration qui ne nécessite pas de jeu de données d'apprentissage. Nous obtenons des résultats proches des méthodes de l'état de l'art supervisées. Dans un deuxième temps, nous revenons sur les définitions des composantes du modèle Retinex et proposons plusieurs améliorations afin de suivre la physique de la lumière. Une architecture basée GAN est ensuite définie. Notre méthode garantit qu'aucune hallucination n'est ajoutée en sortie. Enfin, dans un dernier temps, nous dévoilons le lien entre notre objectif et le problème du pont de Schrödinger. Nous intégrons des a priori à un algorithme de transport optimal à base de modèles de diffusion afin d'inverser les dégradations.
|
|
Signal, image, vision
/ 20-12-2023
Salomon Antoine
Voir le résumé
Voir le résumé
En permettant de visualiser de manière sélective les dynamiques des particules dans les cellules, la microscopie de fluorescence est un outil de premier plan pour la recherche biomédicale. Il existe par conséquent une forte demande d'outils algorithmiques capables d'analyser automatiquement des données microscopiques brutes. Après une présentation de la théorie et des techniques entourant les dynamiques des particules, la microscopie de fluorescence, les méthodes de suivi et la classification de mouvements, nous présentons dans cette thèse une nouvelle méthode de cartographie basée sur des estimateurs à noyaux spatio-temporels permettant d'estimer de manière robuste la diffusion et la dérive intracellulaires à partir des données de suivi. Nous l'évaluons dans un ensemble étendu d'expériences utilisant des données simulées, réelles, 2D et 3D et montrons que notre méthode fournit des cartes de diffusion et de dérive précises et exactes tout en étant plus performante que les méthodes existantes. En tant que telle, elle permet aux biologistes d'étudier les dynamiques intracellulaires de particules spécifiquement marquées avec une plus large gamme d'acquisitions et de techniques de microscopie de fluorescence. En outre, nous présentons une méthode de détection de domaines de confinement utilisant également le suivi de particules et la classification de mouvements.
|
|
Informatique
/ 20-12-2023
Delaunay Julien
Voir le résumé
Voir le résumé
Cette thèse se concentre sur la génération d'explications locales pour les modèles de machine learning déjà déployés, en recherchant les conditions optimales pour des explications pertinentes, prenant en compte à la fois les données et les besoins de l'utilisateur. L'objectif principal est de développer des méthodes produisant des explications pour n'importe quel modèle de prédiction, tout en veillant à ce que ces explications demeurent à la fois fidèles au modèle sous-jacent et compréhensibles par les utilisateurs qui les reçoivent. La thèse est divisée en deux parties. Dans la première, on améliore une méthode d'explication basée sur des règles. On introduit ensuite une approche pour évaluer l'adéquation des explications linéaires pour approximer un modèle à expliquer. Enfin, cette partie présente une expérimentation comparative entre deux familles de méthodes d'explication contrefactuelles, dans le but d'analyser les avantages de l'une par rapport à l'autre. La deuxième partie se concentre sur des expériences utilisateurs évaluant l'impact de trois méthodes d'explication et de deux représentations différentes. Ces expériences mesurent la perception en termes de compréhension et de confiance des utilisateurs en fonction des explications et de leurs représentations. L'ensemble de ces travaux contribue à une meilleure compréhension de la génération d'explications pour les modèles de machine learning, avec des implications potentielles pour l'amélioration de la transparence, de la confiance et de l'utilisabilité des systèmes d'IA déployés.
|
|
Signal, image, vision
/ 19-12-2023
Deschemps Antonin
Voir le résumé
Voir le résumé
La dosimétrie biologique est la branche de la physique de la santé qui se préoccupe de l’estimation de doses de rayonnement ionisants à partir de biomarqueurs. Dans le procédé standard défini par l’AIEA, la dose est calculée en estimant la fréquence d’apparition de chromosomes dicentriques lors de la métaphase des lymphocytes périphériques. La variabilité morphologique des chromosomes, ainsi que celle des conditions d’acquisition des images rend ce problème de détection d’objets complexe. De plus, l’estimation fiable de cette fréquence nécessite le traitement d’un grand nombre d’image. Étant donné les limites du comptage humain (faible nombre de personnes qualifiées, charge cognitive), l’automatisation est une nécessité dans le contexte d’exposition de masse. Dans ce contexte, l’objectif de cette thèse est de tirer parti des progrès récents en vision par ordinateur (et plus spécifiquement en détection d’objets) apportés par l’apprentissage profond. La contribution principale de ce travail est une preuve de concept pour un modèle de détection de chromosomes dicentriques. Ce système repose sur l’agrégation de modèles pour parvenir à un haut niveau de performance, ainsi qu’a une bonne quantification de son incertitude, une exigence essentielle dans un contexte médical.
|
|
Automatique, productique et robotique
/ 12-12-2023
Robic Maxime
Voir le résumé
Voir le résumé
Cette thèse vise à développer des lois de commande basées vision pour un satellite d'observation en basse orbite capable de s'orienter sur ses trois degrés de liberté. En effet, les satellites d'observation de la Terre doivent pointer précisément leur capteur vers la surface de la Terre, et les méthodes de commande traditionnelles font face à des problèmes en raison de la vitesse orbitale du satellite et des perturbations externes devenant fortes en orbite terrestre basse. Un guidage en temps réel de l'attitude d'un satellite à partir des informations d'un capteur de vision peut offrir davantage de fonctionnalités pour améliorer la robustesse, la précision et la flexibilité du pointage, et permettre des missions plus complexes, telles que le suivi d'un objet en mouvement, ce qui restait jusqu'à présent un problème ouvert. L'asservissement visuel est une approche prometteuse dans ce contexte. Elle a en effet déjà prouvé son efficacité pour effectuer des tâches robotiques (déplacement, manipulation, observation,..), avec de récentes applications à la robotique spatiale. En formulant la mission d'un satellite comme une tâche d'asservissement visuel, il devient possible d'appliquer ces techniques pour contrôler précisément son orientation. Cette thèse propose des lois d'asservissement visuel pour résoudre les problèmes liés aux mouvements rapides du satellite, à ses contraintes mécaniques, à la poursuite de cibles mobiles, et à la qualité de l'image, en atténuant spécifiquement le flou de mouvement lors d'une acquisition.
|
|
|<
<< Page précédente
1
2
3
4
5
6
Page suivante >>
>|
|
documents par page
|