Deep learning for light field view synthesis from monocular and a very sparse set of input views

Deep learning for light field view synthesis from monocular and a very sparse set of input views
(Apprentissage profond pour la synthèse de vues de champs de lumière dans un cadre monoculaire et pour un faible nombre de vues d'entrée)

Evain, Simon - (2021-07-12) / Universite de Rennes 1
Deep learning for light field view synthesis from monocular and a very sparse set of input views

Accéder au document :

https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Langue : Anglais

Directeur(s) de thèse: Guillemot, Christine

Discipline : Informatique

Laboratoire : INRIA-RENNES

Ecole Doctorale : MATHSTIC

Classification : Informatique

Mots-clés : champs de lumière, synthèse de vues, génération de vues monoculaire, apprentissage profond

Apprentissage profond
Vision monoculaire

Résumé : Un champ de lumière est une modélisation de l'intensité de l'ensemble des rayons lumineux circulant par tous les points d'une scène donnée. Capturer de tels champs de lumière en utilisant des appareils adéquats est intéressant, car permet d'importants développements et applications. Cependant, ces champs de lumière sont très coûteux en stockage données. Nous répondons à cette problématique dans cette thèse par le biais de la synthèse de vues. Nous présentons ainsi trois contributions. Dans un premier temps, nous nous intéressons à la synthèse de nouvelles vues à partir d'une seule image. Nous nous focalisons en particulier sur le cas stéréoscopique, et par le biais d'une combinaison avantageuse de plusieurs réseaux de neurones, nous présentons une méthode se comparant favorablement avec l'état de l'art, tout en étant très légère et capable de s'ajuster rapidement à de nouveaux jeux de données. Dans un second temps, nous étendons cette contribution au bidimensionnel, en générant cette fois des champs de lumière. Nous améliorons également le traitement de la problématique en ajoutant un composant adversarial, et développons un module stéréo-champ de lumière permettant d'entraîner notre approche sur des données stéréoscopiques tout en générant des champs de lumière de qualité. Enfin, dans un dernier temps, nous utilisons des réseaux de neurones récurrents pour générer des champs de lumière entiers à partir d'un nombre libre de vues d'entrée, en adoptant une représentation dite "MPI". Notre méthode est légère, efficace et peut s'appliquer dans n'importe quelle distribution de plans de profondeur lors du test.

Abstract : A light field models the intensity of every ray of light flowing through every point in a given scene. Capturing light fields by using adequate equipment is interesting, for it allows significant development and applications. Nevertheless, light fields are very computationally expensive. We address this concern in this thesis through view synthesis. We thus present three contributions. First, we focus on view synthesis given one input image. We are interested, in particular, in studying the stereoscopic case, and by the means of an advantageous combination of neural networks, we present a method that compares favorably with state-of-the-art, all while being lightweight and capable of quick adjustments to new datasets. Then, we extend this contribution to bidimensional contents, by generating light fields this time. We also improve our solution by adding an adversarial component, and we develop a stereo to light fields module allowing to train our approach on stereo data, while generating in the end quality light fields. Finally, we use recurrent neural networks to generate light fields from a free number of input views, by adopting a MPI representation. Our method is lightweight, efficient and can be applied to any depth plane distribution at test time.