Compressed sensing and dimensionality reduction for unsupervised learning

Compressed sensing and dimensionality reduction for unsupervised learning
(Échantillonnage compressé et réduction de dimension pour l'apprentissage non supervisé)

Bourrier, Anthony - (2014-05-13) / Université de Rennes 1
Compressed sensing and dimensionality reduction for unsupervised learning

Accéder au document :

https://ecm.univ-rennes1.fr/nuxeo/site/esupversion...

Langue : Anglais

Directeur(s) de thèse: Gribonval, Rémi

Discipline : Traitement du signal et télécommunications

Laboratoire : IRISA

Ecole Doctorale : Mathématiques, informatique, signal, électronique et télécommunications

Classification : Sciences de l'ingénieur

Mots-clés : traitement du signal, apprentissage compressé

Traitement du signal - Thèses et écrits académiques

Résumé : Cette thèse est motivée par la perspective de rapprochement entre traitement du signal et apprentissage statistique, et plus particulièrement par l'exploitation de techniques d'échantillonnage compressé afin de réduire le coût de tâches d'apprentissage. Après avoir rappelé les bases de l'échantillonnage compressé et mentionné quelques techniques d'analyse de données s'appuyant sur des idées similaires, nous proposons un cadre de travail pour l'estimation de paramètres de mélange de densités de probabilité dans lequel les données d'entraînement sont compressées en une représentation de taille fixe. Nous instancions ce cadre sur un modèle de mélange de Gaussiennes isotropes. Cette preuve de concept suggère l'existence de garanties théoriques de reconstruction d'un signal pour des modèles allant au-delà du modèle parcimonieux usuel de vecteurs. Nous étudions ainsi dans un second temps la généralisation de résultats de stabilité de problèmes inverses linéaires à des modèles tout à fait généraux de signaux. Nous proposons des conditions sous lesquelles des garanties de reconstruction peuvent être données dans un cadre général. Enfin, nous nous penchons sur un problème de recherche approchée de plus proche voisin avec calcul de signature des vecteurs afin de réduire la complexité. Dans le cadre où la distance d'intérêt dérive d'un noyau de Mercer, nous proposons de combiner un plongement explicite des données suivi d'un calcul de signatures, ce qui aboutit notamment à une recherche approchée plus précise.

Abstract : This thesis is motivated by the perspective of connecting compressed sensing and machine learning, and more particularly by the exploitation of compressed sensing techniques to reduce the cost of learning tasks. After a reminder of compressed sensing and a quick description of data analysis techniques in which similar ideas are exploited, we propose a framework for estimating probability density mixture parameters in which the training data is compressed into a fixed-size representation. We instantiate this framework on an isotropic Gaussian mixture model. This proof of concept suggests the existence of theoretical guarantees for reconstructing signals belonging to models beyond usual sparse models. We therefore study generalizations of stability results for linear inverse problems for very general models of signals. We propose conditions under which reconstruction guarantees can be given in a general framework. Finally, we consider an approximate nearest neighbor search problem exploiting signatures of the database vectors in order to save resources during the search step. In the case where the considered distance derives from a Mercer kernel, we propose to combine an explicit embedding of data followed by a signature computation step, which principally leads to a more accurate approximate search.