Deep latent representations for visual servoing

Imprimer

Deep latent representations for visual servoing
(Représentations latentes pour l'asservissement visuel)

Felton, Samuel - (2022-12-20) / Universite de Rennes 1
Deep latent representations for visual servoing

Accéder au document :

https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Langue : Anglais

Directeur(s) de thèse: Fromont, Élisa; Marchand, Éric

Discipline : Informatique

Laboratoire : IRISA

Ecole Doctorale : MATHSTIC

Classification : Informatique

Mots-clés : Asservissement visuel, apprentissage profond, représentations latentes

Apprentissage profond
Vision artificielle (robotique)

Résumé : L'asservissement visuel (AV) est utilisé pour contrôler des systèmes robotiques, en se servant d'informations visuelles. L'AV permet de résoudre de nombreuses tâches, telles que la saisie d'objets, la navigation ou le suivi de cibles. Les primitives visuelles classiquement utilisées sont de nature géométrique ou photométrique. Cependant, les primitives géométriques peuvent être difficiles à extraire et à suivre à partir d'images brutes. Récemment, l'apprentissage profond a été proposé comme une solution potentielle pour l'asservissement visuel, mais son utilisation s'est limitée à l'extraction des primitives ou de la pose. Dans cette thèse, nous proposons d'aller plus loin en supprimant cette étape d'extraction des primitives. Nous établissons directement le lien entre le mouvement de la caméra et les changements dans l'espace latent. Ce lien peut être directement appris, créant ainsi une approche de l'asservissement reposant intégralement sur l'apprentissage, ou il peut être calculé analytiquement en exploitant la structure des réseaux appris. De plus, l'apprentissage supervisé ou non supervisé peut être utilisé pour créer des représentations utiles à l'AV. Enfin, le fait de formuler l'AV dans un espace latent permet d'exploiter des informations provenant de différentes modalités, telles que les poses de la caméra et les images, conduisant à un asservissement "hybride". Nous montrons que l'espace latent est idéal de par sa flexibilité, et peut être utilisé pour effectuer de grands déplacements, tout en conservant une excellente précision.

Abstract : Visual servoing is used to control robotic systems using visual information. This framework can be used to solve many tasks, such as object grasping, navigation or target tracking. Classically, visual features are geometric or photometric in nature. However, geometric primitives can be hard to extract and track from raw images. Lately, deep learning has come to light as a potential tool for visual servoing, but its use remained limited to extracting features or estimating the pose from images. In this thesis, we propose to go further by removing the feature extraction step, directly linking the learned representations to the motion of the camera, mounted on the robot. This link can be learned, creating an end-to-end approach, or it can be analytically computed, based on the network structure. Moreover, both supervised and unsupervised learning can be employed to create useful servoing representations. Finally, framing visual servoing in a latent space allows us to leverage information from multiple modalities, such as poses and images, leading to a novel "hybrid" visual servoing scheme. We show that the latent space is ideal due to its flexibility, and can be leveraged to accomplish large motions, while retaining an excellent accuracy.