Classification audio sous contrainte de faible latence (Audio classification under low latency constraint) Flocon-Cholet, Joachim - (2016-06-29) / Universite de Rennes 1 - Classification audio sous contrainte de faible latence
| |||
Langue : Français Directeur(s) de thèse: Scalart, Pascal; Faure, Julien Discipline : Traitement du signal et télécommunications Laboratoire : IRISA Ecole Doctorale : MATISSE Classification : Sciences de l'ingénieur Mots-clés : Classification audio, Apprentissage automatique, Temps réel, Protection acoustique, Séries temporelles, Représentation symbolique
| |||
Résumé : Cette thèse porte sur la classification audio sous contrainte de faible latence. La classification audio est un sujet qui a beaucoup mobilisé les chercheurs depuis plusieurs années. Cependant, on remarque qu’une grande majorité des systèmes de classification ne font pas état de contraintes temporelles : le signal peut être parcouru librement afin de rassembler les informations nécessaires pour la prise de décision (on parle alors d’une classification hors ligne). Or, on se place ici dans un contexte de classification audio pour des applications liées au domaine des télécommunications. Les conditions d’utilisation sont alors plus sévères : les algorithmes fonctionnent en temps réel et l’analyse du signal et le traitement associé se font à la volée, au fur et à mesure que le signal audio est transmis. De fait, l’étape de classification audio doit également répondre aux contraintes du temps réel, ce qui affecte son fonctionnement de plusieurs manières : l’horizon d’observation du signal se voit nécessairement réduit aux instants présents et à quelques éléments passés, et malgré cela, le système doit être fiable et réactif. Dès lors, la première question qui survient est : quelle stratégie de classification peut-on adopter afin de faire face aux exigences du temps réel ? On retrouve dans littérature deux grandes approches permettant de répondre à des contraintes temporelles plus ou moins fortes : la classification à la trame et la classification sur segment. Dans le cadre d’une classification à la trame, la décision est prise en se basant uniquement sur des informations issues de la trame audio courante. La classification sur segment, elle, exploite une information court-terme en utilisant les informations issues de la trame courante et de quelques trames précédentes. La fusion des données se fait via un processus d’intégration temporelle qui consiste à extraire une information pertinente basée sur l’évolution temporelle des descripteurs audio. À partir de là, on peut s’interroger pour savoir quelles sont les limites de ces stratégies de classification ? Une classification à la trame et une classification sur segment peuvent-elles être utilisées quel que soit le contexte ? Est-il possible d’obtenir des performances convenables avec ces deux approches ? Quelle mode de classification permet de produire le meilleur rapport entre performance de classification et réactivité ? Aussi, pour une classification sur segment, le processus d’intégration temporelle repose principalement sur des modélisation statistiques mais serait-il possible de proposer d’autres approches ? L’exploration de ce sujet se fera à travers plusieurs cas d’étude concrets. Tout d’abord, dans le cadre des projets de recherche à Orange Labs, nous avons pu contribuer au développement d’un nouvel algorithme de protection acoustique, visant à supprimer très rapidement des signaux potentiellement dangereux pour l’auditeur. La méthode mise au point, reposant sur la proposition de trois descripteurs audio, montre un taux de détection élevé tout en conservant un taux de fausse alarme très bas, et ce, quelles que soient les conditions d’utilisation. Par la suite, nous nous sommes intéressés plus en détail à l’utilisation de l’intégration temporelle des descripteurs dans un cadre de classification audio faible latence. Pour cela, nous avons proposé et évalué plusieurs méthodologies d’utilisation de l’intégration temporelle permettant d’obtenir le meilleur compromis entre performance globale et réactivité. Enfin, nous proposons une autre manière d’exploiter l’information temporelle des descripteurs. L’approche proposée s’appuie sur l’utilisation des représentations symboliques permettant de capter la structure temporelle des séries de descripteurs. L’idée étant ensuite de rechercher des motifs temporels caractéristiques des différentes classes audio. Les expériences réalisées montrent le potentiel de cette approche. Abstract : This thesis focuses on audio classification under low-latency constraints. Audio classification has been widely studied for the past few years, however, a large majority of the existing work presents classification systems that are not subject to temporal constraints : the audio signal can be scanned freely in order to gather the needed information to perform the decision (in that case, we may refer to an offline classification). Here, we consider audio classification in the telecommunication domain. The working conditions are now more severe : algorithms work in real time and the analysis and processing steps are now operated on the fly, as long as the signal is transmitted. Hence, the audio classification step has to meet the real time constraints, which can modify its behaviour in different ways : only the current and the past observations of the signal are available, and, despite this fact the classification system has to remain reliable and reactive. Thus, the first question that occurs is : what strategy for the classification can we adopt in order to tackle the real time constraints ? In the literature, we can find two main approaches : the frame-level classification and the segment-level classification. In the frame-level classification, the decision is performed using only the information extracted from the current audio frame. In the segment-level classification, we exploit a short-term information using data computed from the current and few past frames. The data fusion here is obtained using the process of temporal feature integration which consists of deriving relevant information based on the temporal evolution of the audio features. Based on that, there are several questions that need to be answered. What are the limits of these two classification framework ? Can an frame-level classification and a segment-level be used efficiently for any classification task ? Is it possible to obtain good performance with these approaches ? Which classification framework may lead to the best trade-off between accuracy and reactivity ? Furthermore, for the segment-level classification framework, the temporal feature integration process is mainly based on statistical models, but would it be possible to propose other methods ? Throughout this thesis, we investigate this subject by working on several concrete case studies. First, we contribute to the development of a novel audio algorithm dedicated to audio protection. The purpose of this algorithm is to detect and suppress very quickly potentially dangerous sounds for the listener. Our method, which relies on the proposition of three features, shows high detection rate and low false alarm rate in many use cases. Then, we focus on the temporal feature integration in a low-latency framework. To that end, we propose and evaluate several methodologies for the use temporal integration that lead to a good compromise between performance and reactivity. Finally, we propose a novel approach that exploits the temporal evolution of the features. This approach is based on the use of symbolic representation that can capture the temporal structure of the features. The idea is thus to find temporal patterns that are specific to each audio classes. The experiments performed with this approach show promising results. |