Semantic compression of large image collection (Compression sémantique de large collection d'images) Bachard, Tom - (2024-11-29) / Université de Rennes Semantic compression of large image collection
| |||
Langue : Anglais Directeur(s) de thèse: Maugey, Thomas Discipline : Signal, image, vision Laboratoire : IRISA Ecole Doctorale : MATISSE Classification : Informatique Mots-clés : Traitement du signal, Compression, Sémantique, Intelligence artificielle, CLIP
| |||
Résumé : Cette thèse explore la compression de bases de données d’images en exploitant les redondances sémantiques présentes. Nous montrons d’abord qu’un schéma de compression multi-image fondé sur des métriques pixels atteint des résultats encourageants, mais insuffisants. En effet, lorsque le taux de compression augmente, la qualité des images décodées chute considérablement. Nous concluons qu’il faut s’affranchir du cadre classique de compression. Pour se faire, l’évaluation de la distorsion est déplacée à un plus haut niveau : au niveau de la sémantique. Nous avons dès lors chercher à modéliser et à représenter cette sémantique et avons finalement convergé vers l’utilisation de modèles de fondations, CLIP spécifiquement, pour extraire et encoder cette information. De plus, nous avons prouvé expérimentalement que ces modèles possédaient de bonnes qualités pour représenter et manipuler la sémantique d’image. Finalement, nous avons pu revenir sur le problème de compression multi-image initial et proposer un schéma de compression basé CLIP qui exploitait les redondances sémantiques de la collection d’images. Ce schéma est fondé sur l’apprentissage d’un dictionnaire de sémantiques simples représentant la sémantique de la base de données d’images et possède, lui aussi, des propriétés sémantiques intéressantes. Ce schéma de compression permet une conservation autant de la sémantique que de la qualité d’image, et ce, à des débits extrêmement faibles. Abstract : In this thesis, we explore multi-item compression by exploiting semantic redundancies. First, we show that classical compression frameworks are not adapted to multi-item compression, as the results are encouraging but insufficient. Indeed, as the compression rate increases, the quality of decoded images drastically drops. We conclude that we have to change the compression paradigm. To do so, the distortion evaluation moves to a higher level: semantics. We then looked at how to model and represent this semantic and converged to CLIP, a foundation model, for extracting and encoding this information. We experimentally showed that CLIP has interesting properties for semantically representing and manipulating images, and we built a proof-of-concept semantic-based coder: CoCliCo. This result allowed us to extend CLIP-based compression to multi-item scenarios. In this proposal, a dictionary of simple semantics that encapsulates the semantics of the data collection is learned. We show that this dictionary is also of a semantic nature and is able to describe images in an even more compact representation. This scheme achieves extremely low bitrates while conserving semantics and maintaining a good quality of image. |