Imprimer |
Analyses hiérarchiques et temporelles de corpora scientifiques vues comme outils pour l’histoire des sciences (Hierarchical and temporal analysis of scientific corpora as tools for the history of science) Jeantet, Ian - (2021-01-05) / Universite de Rennes 1 - Analyses hiérarchiques et temporelles de corpora scientifiques vues comme outils pour l’histoire des sciences
| |||
Langue : Anglais Directeur(s) de thèse: Gross-Amblard, David Discipline : Informatique Laboratoire : IRISA Ecole Doctorale : MATHSTIC Classification : Informatique Mots-clés : Carte d'évolution, Quasi-dendrogram, Regroupement Hiérarchique Chevauchant, Alignement de hiérarchies
| |||
Résumé : Cette thèse vise à fournir une analyse automatique de publications scientifiques pour l'épistémologie quantitative. L'objectif final est de produire des cartes d'évolution des domaines scientifiques pour aider les épistémologues à déterminer les mécanismes en jeu et ce à partir du texte brut des publications. Nous proposons d'abord d'enrichir les connaissances sur la structure de la science à l'aide d'une nouvelle structure hiérarchique appelée quasi-dendrogramme qui peut être vue comme un graphe acyclique dirigé spécifique. Nous proposons un cadre d'étude comprenant un nouvel algorithme de regroupement hiérarchique chevauchant (OHC) afin de générer une telle hiérarchie à partir du texte d'articles scientifiques. L'un des problèmes majeurs est l'absence de vérité terrain. Nous proposons donc une nouvelle mesure de similarité qui compare des hiérarchies en estimant la correspondance existante entre niveaux de même taille. Enfin, nous proposons une méthode alternative pour générer des cartes évolutives de domaines scientifiques à partir de requêtes. Une carte évolutive est définie comme un ensemble de chronologies déterminées en suivant un alignement de hiérarchies de périodes consécutives. Nous avons également défini une probabilité d'évolution qui utilisée comme un seuil produit des cartes évolutives plus robustes. Abstract : This thesis aims to provide automatic analysis of the raw text of scientific publications for quantitative epistemology. The final goal is to produce maps of evolution of scientific domains to help epistemologists to determine the mechanisms that are at stake. We first propose to enrich the insights on the structure of science with a new hierarchical structure called a quasi-dendrogram that can be seen as a specific directed acyclic graph. We propose a framework including a new overlapping hierarchical clustering (OHC) algorithm to generate such hierarchy from the text of scientific papers. One of the major issues was the absence of ground truth. Hence we propose a new similarity measure that compares hierarchies by estimating the matching of same size levels. Finally we propose an alternative method to generate evolutionary maps of scientific domains from a user query. An evolutionary map is defined as a set of timelines determined in following aligned hierarchies from consecutive periods. We defined a probability of evolution that, if used as a threshold, produces more robust evolutionary maps. |