Content and data linking leveraging ontological knowledge in data journalism (Utilisation de connaissances ontologiques dans la liaison de contenus et de données appliquée au journalisme de données) El Vaigh, Cheikh Brahim - (2021-01-07) / Universite de Rennes 1 Content and data linking leveraging ontological knowledge in data journalism
| |||
Langue : Anglais Directeur(s) de thèse: Gravier, Guillaume; Goasdoué, François; Sébillot, Pascale Discipline : Informatique Laboratoire : INRIA-RENNES Ecole Doctorale : MATHSTIC Classification : Informatique Mots-clés : traitement automatique des langues, bases de connaissances ontologiques, liage d’entités, mesure de relations entre entités, alignement d’entités
| |||
Résumé : Cette thèse s’intéresse à la création de liens entre contenus textuels et bases de connaissances ontologiques (BC). Elle fait appel à plusieurs domaines de recherche : le traitement automatique des langues, la recherche d’information et le web sémantique, notamment l’utilisation de BC fondées sur le modèle RDF. Nous proposons d’une part d’étudier le liage d’entités collectif qui cherche à relier simultanément les mentions d’entités présentes dans un texte aux entités d’une BC. Notre contribution porte sur la définition de mesures sémantiques bien fondées qui exploitent les propriétés des BC pour améliorer l’état de l’art, et permettent d’introduire du raisonnement. D’autre part, nous nous intéressons à l’alignement de différentes BC, moyennant des approches de plongement des bases dans des espaces de grandes dimensions. Cet alignement permet l’enrichissement des BC, et indirectement l’amélioration du liage d’entités collectif. Pour ce faire, nous proposons un nouveau critère qui se fonde sur l’alignement des dimensions des espaces de plongement des BC, et permet de résister à un alignement a priori bruité entre les BC, voire de supprimer ce besoin d’alignement manuel. Abstract : This thesis is about the creation of links between textual content and ontological knowledge bases (KBs). It pertains several areas of research: natural language processing, information retrieval and semantic web, and in particular RDF-based KBs. We propose to study collective entity linking, which consists in linking at once mentions of entities present in a textual document to entities in a KB. To that end, we leverage semantic measures, i.e., entity relatedness measures which exploit the relationships between the entities in a KB. We contribute by the definition of well-founded entity relatedness measures that benefit to the extent possible from the properties of RDF KBs through (basic) reasoning, and thus allow to improve the state-of-the-art. Furthermore, we are also interested in the alignment of different KBs, based on KBs embedding techniques. This alignment not only allows to enrich the KBs at hand, but also to indirectly improve the collective entity linking. We contribute by an alignment criterion, based on the alignment of the dimensions of the KBs embedding spaces, which, notably does not need any prior knowledge to perform said KBs alignment. |