|
|<
<< Page précédente
1
Page suivante >>
>|
|
documents par page
|
Tri :
Date
Titre
Auteur
|
|
Signal, image, vision
/ 29-11-2024
Bachard Tom
Voir le résumé
Voir le résumé
Cette thèse explore la compression de bases de données d’images en exploitant les redondances sémantiques présentes. Nous montrons d’abord qu’un schéma de compression multi-image fondé sur des métriques pixels atteint des résultats encourageants, mais insuffisants. En effet, lorsque le taux de compression augmente, la qualité des images décodées chute considérablement. Nous concluons qu’il faut s’affranchir du cadre classique de compression. Pour se faire, l’évaluation de la distorsion est déplacée à un plus haut niveau : au niveau de la sémantique. Nous avons dès lors chercher à modéliser et à représenter cette sémantique et avons finalement convergé vers l’utilisation de modèles de fondations, CLIP spécifiquement, pour extraire et encoder cette information. De plus, nous avons prouvé expérimentalement que ces modèles possédaient de bonnes qualités pour représenter et manipuler la sémantique d’image. Finalement, nous avons pu revenir sur le problème de compression multi-image initial et proposer un schéma de compression basé CLIP qui exploitait les redondances sémantiques de la collection d’images. Ce schéma est fondé sur l’apprentissage d’un dictionnaire de sémantiques simples représentant la sémantique de la base de données d’images et possède, lui aussi, des propriétés sémantiques intéressantes. Ce schéma de compression permet une conservation autant de la sémantique que de la qualité d’image, et ce, à des débits extrêmement faibles.
|
|
|<
<< Page précédente
1
Page suivante >>
>|
|
documents par page
|