Thèses de doctorat > Takhtardeshir Soheib

Thèses de doctorat -> Auteurs
Auteurs > T > Takhtardeshir Soheib Niveau supérieur

1 ressource a été trouvée.

|< << Page précédente 1 Page suivante >> >|

documents par page

Tri : Date Titre Auteur

VAE-based compression of light field images using disentangled latent modeling and perceptual quality assessment

Signal, image, vision / 22-01-2026
Takhtardeshir Soheib

Voir le résumé

La demande d'expériences visuelles immersives dans des applications telles que la réalité virtuelle et la téléprésence a mis en évidence les limites de l'imagerie 2D traditionnelle. L'imagerie Light Field (LF) répond à ce problème en capturant une représentation 4D d'une scène, encodant à la fois les informations spatiales (texture) et angulaires (point de vue). Cette richesse permet une véritable parallaxe et une perception de la profondeur, mais crée un goulot d'étranglement de données important, car les volumes de données massifs constituent un obstacle majeur au stockage, à la transmission et au traitement efficaces en temps réel. Les méthodes de compression conventionnelles traitent souvent les données LF comme une simple séquence d'images, n'exploitant pas efficacement la structure spatio-angulaire sous-jacente, ce qui conduit à des performances sous-optimales. Cette thèse aborde le défi de la compression efficace des LF en développant un cadre d'apprentissage fondé sur des principes et centré sur le spatial-angular disentanglement. Le cœur du travail est une série d'architectures basées sur des Variational Autoencoder (VAE) qui séparent explicitement les caractéristiques spatiales et angulaires en des représentations latentes distinctes. Cette approche offre une plus grande flexibilité et efficacité en permettant à chaque domaine d'être modélisé en fonction de ses propriétés statistiques uniques. Le modèle VAE fondamental est progressivement amélioré par deux contributions clés : premièrement, l'intégration de dual-hyperprior entropy models pour apprendre des distributions de probabilité adaptées à chaque flux latent, améliorant la performance rate-distortion ; et deuxièmement, l'introduction d'un information-theoretic regularizer pour garantir une séparation robuste des caractéristiques. Enfin, un pipeline de compression modulaire et léger est proposé pour compresser davantage ces représentations latentes sans nécessiter un réentraînement du réseau. Les méthodes proposées ont été rigoureusement évaluées sur des datasets LF publics standards ainsi que sur un nouvel ensemble de données sphériques de LF créé dans le cadre de cette recherche pour prendre en charge des scénarios de téléprésence immersive. Les évaluations objectives démontrent que les cadres désenchevêtrés atteignent une performance rate-distortion supérieure, avec des gains BD-PSNR significatifs par rapport aux codecs de pointe, qu'ils soient basés sur l'apprentissage ou traditionnels. De manière cruciale, les méthodes offrent également des temps d'encodage et de décodage considérablement plus rapides, une exigence essentielle pour les applications en temps réel. Pour évaluer la performance perceptive, une étude formelle de la qualité subjective a été menée, qui a confirmé que les méthodes proposées délivrent une qualité visuelle améliorée, particulièrement dans la préservation de la cohérence angulaire et la réduction des artefacts qui altèrent l'expérience immersive. En conclusion, cette thèse démontre que le fait de désenchevêtrer, modéliser et compresser explicitement les composantes spatiales et angulaires des Light Fields est une stratégie très efficace. Les cadres et outils développés font progresser l'état de l'art en fournissant des solutions pratiques et évolutives qui équilibrent l'efficacité de la compression, la vitesse de calcul et la qualité perceptive. Ce travail apporte une contribution significative à la faisabilité de l'utilisation de l'imagerie LF de haute qualité dans des applications immersives à bande passante limitée. Cette thèse est basée sur les contributions de six publications scientifiques évaluées par des pairs.

|< << Page précédente 1 Page suivante >> >|

documents par page