| |
|<
<< Page précédente
1
Page suivante >>
>|
|
documents par page
|
|
Tri :
Date
Titre
Auteur
|
|
|
Signal, image, vision
/ 11-12-2025
Muller Thomas
Voir le résumé
Voir le résumé
Le domaine de la compression audio, au cœur des applications de transmission et de stockage de la parole, musique et audio général, est bouleversé depuis quelques années par l'utilisation des réseaux de neurones artificiels. La nouvelle génération de codecs qui en découle, les codecs audio neuronaux, démontre des performances très prometteuses, en particulier par leur capacité à compresser à très bas débit. Dans cette thèse nous nous intéressons au potentiel des codecs audio neuronaux selon deux angles principaux. Le premier concerne la qualité audio permise par ces codecs et les moyens de la mesurer. Nous proposons des caractérisations étendues de la qualité des codecs neuronaux sur la parole ainsi que la musique et le contenu mixte parole/musique. Ces résultats issus de tests subjectifs sont également employés pour évaluer l'estimation de qualité proposée par les outils de mesure automatique que sont les métriques objectives. Le second axe de travail est dédié à l'analyse et la quantification de l'espace latent des codecs audio neuronaux. Une étude de l'espace latent appris par un codec neuronal nous permet d'optimiser l'étage de quantification du codec. Enfin, nous explorons l'utilisation de la quantification vectorielle sphérique par réseau de points dans le cadre du codage audio neuronal et montrons qu'il s'agit d'une alternative avantageuse d'un point de vue apprentissage, complexité calculatoire et stockage mémoire.
|
|
|
|<
<< Page précédente
1
Page suivante >>
>|
|
documents par page
|