Image semantic compression at extremely low bitrate

Image semantic compression at extremely low bitrate
(Compression sémantique d'images à extrêmement bas débits)

Bordin, Tom - (2025-12-04) / Université de Rennes
Image semantic compression at extremely low bitrate

Accéder au document :

https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Langue : Anglais

Directeur(s) de thèse: Maugey, Thomas

Discipline : Signal, image, vision

Laboratoire : INRIA-RENNES

Ecole Doctorale : MATISSE

Classification : Sciences de l'ingénieur, Informatique

Mots-clés : Sémantique, compression, diffusion, apprentissage profond, image

Compression d'images
Sémantique
Apprentissage profond

Résumé : Dans cette thèse, nous présentons nos travaux sur la compression d’images sémantique. Notre objectif est de réduire drastiquement les débits de compression au-delà de ceux proposés par les approches classiques. Nous introduisons un nouveau cadre fondé sur des représentations sémantiques des images, déplaçant l’accent de la fidélité pixel vers la préservation du contenu de l’image. L’objectif devient alors de conserver la sémantique du contenu tout en reconstruisant des images réalistes. Nous abordons deux questions de recherche centrales : Comment construire une représentation sémantique compacte mais expressive d’une image ? et Comment concevoir un décodeur capable de reconstruire, à partir d’une telle représentation, des images réalistes et fidèles sémantiquement, même à des débits extrêmement faibles ? Au fil des chapitres de cette thèse, nous montrons que les modèles fondamentaux possèdent des espaces sémantiques riches, exploitables pour la compression. Nous adaptons ensuite le décodeur à ces représentations en tirant parti de la puissance des modèles de diffusion, proposant des techniques permettant de les guider efficacement sans nécessiter de réentraînement. Enfin, nous introduisons un schéma de compression à l’état de l’art qui atteint des taux extrêmement bas tout en préservant la fidélité sémantique, appuyé par une évaluation subjective.

Abstract : In this thesis, we present our work on semantic image compression. Our aim is focused on compression rates far beyond those achieved by standard approaches. To achieve this, we introduce a new framework based on semantic representations of images, shifting the focus from pixel-level fidelity to the preservation of meaningful content. The objective becomes clear: retain what matters to human perception while reconstructing images that are realistic. We address mainly two research questions: How can we construct a compact yet expressive semantic representation of an image? and How can we design a decoder capable of reconstructing realistic and semantically faithful images from such a representation, even at extremely low bitrates? Throughout the thesis, we show that foundation models embed images into rich semantic spaces that can be exploited for compression. We further adapt the decoder to these representations by harnessing the power of diffusion models, proposing techniques to guide them effectively without retraining. We propose a state-of-the-art framework that achieves drastically low compression rates while preserving semantic fidelity, confirmed through subjective evaluation.