VAE-based compression of light field images using disentangled latent modeling and perceptual quality assessment

VAE-based compression of light field images using disentangled latent modeling and perceptual quality assessment
(Compression d'images light field basée sur VAE par modélisation latente désenchevêtrée et évaluation de la qualité perceptive)

Takhtardeshir , Soheib - (2026-01-22) / Université de Rennes, Mid Sweden University (Suède) - VAE-based compression of light field images using disentangled latent modeling and perceptual quality assessment

Accéder au document :

https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Langue : Anglais

Directeur(s) de thèse: Guillemot, Christine; Sjöström, Mårten; Olsson, Roger

Discipline : Signal, image, vision

Laboratoire : INRIA-RENNES

Ecole Doctorale : MATISSE

Classification : Sciences de l'ingénieur

Mots-clés : Compression de Light Field, Variational Autoencoder (VAE), Désenchevêtrement Spatio-Angulaire, Évaluation de la Qualité Perceptive

Imagerie quadridimensionnelle
Compression d'images

Résumé : La demande d'expériences visuelles immersives dans des applications telles que la réalité virtuelle et la téléprésence a mis en évidence les limites de l'imagerie 2D traditionnelle. L'imagerie Light Field (LF) répond à ce problème en capturant une représentation 4D d'une scène, encodant à la fois les informations spatiales (texture) et angulaires (point de vue). Cette richesse permet une véritable parallaxe et une perception de la profondeur, mais crée un goulot d'étranglement de données important, car les volumes de données massifs constituent un obstacle majeur au stockage, à la transmission et au traitement efficaces en temps réel. Les méthodes de compression conventionnelles traitent souvent les données LF comme une simple séquence d'images, n'exploitant pas efficacement la structure spatio-angulaire sous-jacente, ce qui conduit à des performances sous-optimales. Cette thèse aborde le défi de la compression efficace des LF en développant un cadre d'apprentissage fondé sur des principes et centré sur le spatial-angular disentanglement. Le cœur du travail est une série d'architectures basées sur des Variational Autoencoder (VAE) qui séparent explicitement les caractéristiques spatiales et angulaires en des représentations latentes distinctes. Cette approche offre une plus grande flexibilité et efficacité en permettant à chaque domaine d'être modélisé en fonction de ses propriétés statistiques uniques. Le modèle VAE fondamental est progressivement amélioré par deux contributions clés : premièrement, l'intégration de dual-hyperprior entropy models pour apprendre des distributions de probabilité adaptées à chaque flux latent, améliorant la performance rate-distortion ; et deuxièmement, l'introduction d'un information-theoretic regularizer pour garantir une séparation robuste des caractéristiques. Enfin, un pipeline de compression modulaire et léger est proposé pour compresser davantage ces représentations latentes sans nécessiter un réentraînement du réseau. Les méthodes proposées ont été rigoureusement évaluées sur des datasets LF publics standards ainsi que sur un nouvel ensemble de données sphériques de LF créé dans le cadre de cette recherche pour prendre en charge des scénarios de téléprésence immersive. Les évaluations objectives démontrent que les cadres désenchevêtrés atteignent une performance rate-distortion supérieure, avec des gains BD-PSNR significatifs par rapport aux codecs de pointe, qu'ils soient basés sur l'apprentissage ou traditionnels. De manière cruciale, les méthodes offrent également des temps d'encodage et de décodage considérablement plus rapides, une exigence essentielle pour les applications en temps réel. Pour évaluer la performance perceptive, une étude formelle de la qualité subjective a été menée, qui a confirmé que les méthodes proposées délivrent une qualité visuelle améliorée, particulièrement dans la préservation de la cohérence angulaire et la réduction des artefacts qui altèrent l'expérience immersive. En conclusion, cette thèse démontre que le fait de désenchevêtrer, modéliser et compresser explicitement les composantes spatiales et angulaires des Light Fields est une stratégie très efficace. Les cadres et outils développés font progresser l'état de l'art en fournissant des solutions pratiques et évolutives qui équilibrent l'efficacité de la compression, la vitesse de calcul et la qualité perceptive. Ce travail apporte une contribution significative à la faisabilité de l'utilisation de l'imagerie LF de haute qualité dans des applications immersives à bande passante limitée. Cette thèse est basée sur les contributions de six publications scientifiques évaluées par des pairs.

Abstract : The demand for immersive visual experiences in applications like virtual reality and telepresence has highlighted the limitations of traditional 2D imaging. Light Field (LF) imaging addresses this by capturing a 4D representation of a scene, encoding both spatial (texture) and angular (viewpoint) information. This richness enables true parallax and depth perception but creates a significant data bottleneck, as the massive data volumes are a major obstacle to efficient storage, transmission, and real-time processing. Conventional compression methods often treat LF data as a simple sequence of images, failing to effectively exploit the underlying spatial-angular structure, which leads to sub-optimal performance. This thesis addresses the challenge of efficient LF compression by developing a principled, learning-based framework centered on spatial-angular disentanglement. The core of the work is a series of Variational Autoencoder (VAE)-based architectures that explicitly separate spatial and angular features into distinct latent representations. This approach provides greater flexibility and efficiency by allowing each domain to be modeled according to its unique statistical properties. The foundational VAE model is progressively advanced through two key contributions: first, the integration of dual-hyperprior entropy models to learn tailored probability distributions for each latent stream, improving rate-distortion performance; and second, the introduction of an information-theoretic regularizer to ensure robust feature separation. Finally, a lightweight, modular compression pipeline is proposed to further compress these latent representations without requiring network retraining. The proposed methods were rigorously evaluated on standard public LF datasets as well as a novel spherical LF dataset created as part of this research to support immersive telepresence scenarios. Objective evaluations demonstrate that the disentangled frameworks achieve a superior rate-distortion performance, with significant BD-PSNR gains over state-of-the-art learning-based and traditional codecs. Crucially, the methods also offer substantially faster encoding and decoding times, a critical requirement for real-time applications. To assess perceptual performance, a formal subjective quality study was conducted, which confirmed that the proposed methods deliver improved visual quality, particularly in preserving angular consistency and reducing artifacts that impair the immersive experience. In conclusion, this thesis demonstrates that explicitly disentangling, modeling, and compressing the spatial and angular components of Light Fields is a highly effective strategy. The developed frameworks and tools advance the state-of-the-art by providing practical and scalable solutions that balance compression efficiency, computational speed, and perceptual quality. This work makes a significant contribution toward the feasibility of using high-quality LF imaging in bandwidth-constrained immersive applications. This is based on the contributions of six peer-reviewed scientific publications.