Learning-based depth estimation from light field and view synthesis

Imprimer

Learning-based depth estimation from light field and view synthesis
(L’estimation de la profondeur de champ de lumière et la synthèse de vue basés sur l’apprentissage)

Shi, Jinglei - (2021-06-16) / Universite de Rennes 1
Learning-based depth estimation from light field and view synthesis

Accéder au document :

https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Langue : Anglais

Directeur(s) de thèse: Guillemot, Christine

Discipline : informatique

Laboratoire : INRIA-RENNES

Ecole Doctorale : MATHSTIC

Classification : Informatique

Mots-clés : champs de lumière, estimation de profondeur, synthèse de vue, interpolation de trame

aVision par ordinateur
Apprentissage automatique

Résumé : Un champ de lumière échantillonne la scène à partir de différentes perspectives, et les informations directionnelles contenues dans chaque vue de champ de lumière permettent d'obtenir de meilleures performances dans ces tâches de vision par ordinateur que l'utilisation d'images 2D classiques. Les contributions principales de cette thèse se présentent sous trois aspects. Notre première contribution se concentre sur l'estimation de la profondeur (ou de la disparité) à partir du champ de lumière avec un sous-ensemble de vues. Les méthodes existantes d'estimation de la profondeur conviennent soit à des champs de lumière simplement échantillonnés de manière dense, soit à la prédiction de profondeurs imprécises avec des artefacts visuels apparents. Nous proposons un nouveau cadre basé sur l'apprentissage qui génère des profondeurs précises avec un plus petit sous-ensemble de vues avec une grande variété de plages de disparités. Ensuite, dans la deuxième partie, nous nous concentrons sur le problème de synthèse de vue en champ de lumière. En adoptant les techniques d'estimation de la profondeur utilisées dans les travaux précédents et en combinant des pixels et des caractéristiques, nous proposons un pipeline de synthèse dépendant de la profondeur, qui peut suréchantillonner un champ de lumière à toutes les dimensions souhaitées et produire des vues synthétisées de haute qualité. Dans le dernier aspect, nous améliorons notre pipeline de synthèse avec de nouvelles architectures et l'adaptons à la tâche d'interpolation de trame vidéo. Le schéma amélioré montre une performance supérieure pour la tâche de synthèse de vue de champ de lumière et donne des résultats compétitifs avec les méthodes d'état de l'art d'interpolation de trame vidéo.

Abstract : A light field samples the scene from different perspectives, and the directional information contained in each light field view makes it yield better performance in those computer vision task than using classical 2D images. The main contributions of this thesis are in three aspects. Our first contribution focuses on the depth (or disparity) estimation from light field with a subset of views. Existing depth estimation methods either is suitable for merely densely sampled light fields, or predict imprecise depths with apparent visual artifacts. We propose a novel learning-based framework that generates precise depths with a smaller subset of views with a large variety of disparity range. Then in the second part, we focus on light field view synthesis problem. By adopting depth estimation techniques used in the previous work and by combining pixel and feature cues, we propose a depth-dependent synthesis pipeline, which can upsample a light field to any desired dimensions and produce high quality synthesized views. In the last aspect, we improve our synthesis pipeline with some new architectures, and adapt it to the video frame interpolation task. The improved scheme shows a superior performance for light field view synthesis task and yields results competitive with the state-of-the-art video frame interpolation methods.