Voir le résumé
Cette thèse porte sur la classification audio sous contrainte de faible latence. La classification audio est un sujet qui a beaucoup mobilisé les chercheurs depuis plusieurs années. Cependant, on remarque qu’une grande majorité des systèmes de classification ne font pas état de contraintes temporelles : le signal peut être parcouru librement afin de rassembler les informations nécessaires pour la prise de décision (on parle alors d’une classification hors ligne). Or, on se place ici dans un contexte de classification audio pour des applications liées au domaine des télécommunications. Les conditions d’utilisation sont alors plus sévères : les algorithmes fonctionnent en temps réel et l’analyse du signal et le traitement associé se font à la volée, au fur et à mesure que le signal audio est transmis. De fait, l’étape de classification audio doit également répondre aux contraintes du temps réel, ce qui affecte son fonctionnement de plusieurs manières : l’horizon d’observation du signal se voit nécessairement réduit aux instants présents et à quelques éléments passés, et malgré cela, le système doit être fiable et réactif. Dès lors, la première question qui survient est : quelle stratégie de classification peut-on adopter afin de faire face aux exigences du temps réel ? On retrouve dans littérature deux grandes approches permettant de répondre à des contraintes temporelles plus ou moins fortes : la classification à la trame et la classification sur segment. Dans le cadre d’une classification à la trame, la décision est prise en se basant uniquement sur des informations issues de la trame audio courante. La classification sur segment, elle, exploite une information court-terme en utilisant les informations issues de la trame courante et de quelques trames précédentes. La fusion des données se fait via un processus d’intégration temporelle qui consiste à extraire une information pertinente basée sur l’évolution temporelle des descripteurs audio. À partir de là, on peut s’interroger pour savoir quelles sont les limites de ces stratégies de classification ? Une classification à la trame et une classification sur segment peuvent-elles être utilisées quel que soit le contexte ? Est-il possible d’obtenir des performances convenables avec ces deux approches ? Quelle mode de classification permet de produire le meilleur rapport entre performance de classification et réactivité ? Aussi, pour une classification sur segment, le processus d’intégration temporelle repose principalement sur des modélisation statistiques mais serait-il possible de proposer d’autres approches ? L’exploration de ce sujet se fera à travers plusieurs cas d’étude concrets. Tout d’abord, dans le cadre des projets de recherche à Orange Labs, nous avons pu contribuer au développement d’un nouvel algorithme de protection acoustique, visant à supprimer très rapidement des signaux potentiellement dangereux pour l’auditeur. La méthode mise au point, reposant sur la proposition de trois descripteurs audio, montre un taux de détection élevé tout en conservant un taux de fausse alarme très bas, et ce, quelles que soient les conditions d’utilisation. Par la suite, nous nous sommes intéressés plus en détail à l’utilisation de l’intégration temporelle des descripteurs dans un cadre de classification audio faible latence. Pour cela, nous avons proposé et évalué plusieurs méthodologies d’utilisation de l’intégration temporelle permettant d’obtenir le meilleur compromis entre performance globale et réactivité. Enfin, nous proposons une autre manière d’exploiter l’information temporelle des descripteurs. L’approche proposée s’appuie sur l’utilisation des représentations symboliques permettant de capter la structure temporelle des séries de descripteurs. L’idée étant ensuite de rechercher des motifs temporels caractéristiques des différentes classes audio. Les expériences réalisées montrent le potentiel de cette approche.