Représentation des mots et des connaissances : construction, utilisation et évaluation des plongements euclidiens et hyperboliques (Word and knowledge representation: building, using and evaluating euclidean and hyperbolic embeddings) Torregrossa, François - (2021-12-16) / Universite de Rennes 1 - Représentation des mots et des connaissances : construction, utilisation et évaluation des plongements euclidiens et hyperboliques
| |||
Langue : Français Directeur(s) de thèse: Gravier, Guillaume; Claveau, Vincent Discipline : Informatique Laboratoire : IRISA Ecole Doctorale : MATHSTIC Classification : Informatique Mots-clés : Traitement automatique du langage naturel, Représentation des connaissances, Classification, Apprentissage automatique, Ontologies
| |||
Résumé : Les données présentent des natures hétérogènes: textes, graphes et hiérarchies. Dans cette thèse, nous traitons l’ensemble des manières de représenter ces trois types en tirant profit d’espaces géométriques adaptés à chacun. Au départ, nous étudions les plongements de mots pour la représentation de textes et tentons d’évaluer leur qualité et de proposer des propriétés déterminant leur efficacité. L’enrichissement de ces plongements par des connaissances expertes nous permet de mieux traiter une tâche industrielle. À partir de ce constat, nous cherchons d’autres moyens pour obtenir des connaissances structurées (hiérarchies) à partir de sources disponibles gratuitement (Linked Open Data) ou à partir d’informations à plat contenus dans des textes (induction de taxonomies) ou d’autre types de bases de données. Ces hiérarchies de connaissances sont représentés au mieux par des plongements hyperboliques, et nous proposons une nouvelle méthode de plongement dans ces espaces. Le but est de limiter la perte d’information de la hiérarchie à l’espace continue, puis de déterminer une manière de combiner ces nouvelles connaissances dans les plongements de mots usuels. Abstract : Texts, graphs and hierarchies are heterogeneous form of data. In this thesis, we deal with these three categories by leveraging geometric spaces suiting each of them. Starting with the study of word embedding for representing texts, we try to evaluate their quality and provide properties highlighting effectiveness. Enriching those word embeddings with expert knowledge entails a better processing of an industrial task. Building from this fact, we develop new ways to accumulate structured knowledges (e.g. hierarchies) from free online sources (Linked Open Data), or, from information contained in flat contents such as texts (taxonomy induction) or other databases. These hierarchies are then represented using hyperbolic spaces, and we propose a new hyperbolic embedding method. The ultimate goal being to restrain information loss from the structure to the continuous space, and then to combine this new knowledge with traditional word embeddings. |