Learning on graphs and hierarchies

Learning on graphs and hierarchies
(Apprentissage sur les graphes et les hiérarchies)

Pereira de Almeida, Raquel - (2023-02-24) / Université de Rennes, Pontifícia universidade católica de Minas Gerais‎ (Brésil)
Learning on graphs and hierarchies

Accéder au document :

https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Langue : Anglais

Directeur(s) de thèse: Amsaleg, Laurent; Guimarães, Silvio

Discipline : Informatique

Laboratoire : IRISA

Ecole Doctorale : MATISSE

Classification : Informatique

Mots-clés : hiérarchies , hiérarchies morphologiques, apprentissage automatique , forêt aléatoire, graphique, apprentissage automatique sur graphique

Apprentissage automatique
Théorie des graphes
Forêts d'arbres de décision

Résumé : Les hiérarchies, telles que décrites dans la morphologie mathématique, représentent des régions d'intérêt imbriquées et fournissent des mécanismes pour créer des concepts et une organisation cohérente des données. Elles facilitent l'analyse de haut niveau et la gestion de grandes quantités de données. Représentées sous forme d'arbres hiérarchiques, elles ont des formalismes croisés avec la théorie des graphes, et des applications qui peuvent être facilement généralisées. En raison des algorithmes déterministes, des représentations multiformes et distinctes, et de l'absence d'un moyen direct d'évaluer la qualité de la représentation hiérarchique, il est difficile d'insérer des informations hiérarchiques dans un cadre d'apprentissage et de bénéficier des avancées récentes dans le domaine. Les chercheurs s'attaquent généralement à ce problème en affinant les hiérarchies pour un média spécifique et en évaluant leur qualité pour une tâche particulière. L'inconvénient de cette approche est qu'elle dépend de l'application et que les formulations limitent la généralisation à des données similaires. Ce travail vise à créer un cadre d'apprentissage qui peut fonctionner avec des données hiérarchiques et qui est agnostique à l'entrée et à l’application. L'idée est d'étudier les moyens de transformer les données en une représentation régulière requise par la plupart des modèles d'apprentissage tout en préservant la richesse de l'information dans la structure hiérarchique. Il propose d'étudier et de formaliser les concepts sous forme de graphes, un point commun pour les hiérarchies et le multimédia, et un sujet de grand intérêt pour l'apprentissage automatique. Les méthodes proposées dans cette étude utilisent des graphes d'images pondérés par des arêtes et des arbres hiérarchiques comme entrée, et évaluent différentes propositions sur les tâches de détection des contours et de segmentation. Le modèle principal est la forêt aléatoire, une méthode rapide, verifiable et extensible, adaptée au travail avec des données de grandes dimensions. Malgré les médias, les tâches et les choix de modèle , il concentre les formulations sur des graphes et des arbres hiérarchiques, et n'utilise les tâches que pour évaluer la réponse produite par différentes caractéristiques. Il donne les résultats en termes quantitatifs et qualitatifs et propose des analyses statistiques de la distribution et de la dimensionnalité des données, évaluant ainsi leur impact sur l'apprentissage. En outre, il fournit une revue systématique de la littérature sur des propositions qui intègrent l'apprentissage automatique et les hiérarchies. Il démontre qu'il est possible de créer un cadre d'apprentissage dépendant uniquement des données hiérarchiques qui fonctionne dans plusieurs tâches avec différents modèles.

Abstract : Hierarchies, as described in mathematical morphology, represent nested regions of interest and provide mechanisms to create concepts and coherent data organization. They facilitate high-level analysis and management of large amounts of data. Represented as hierarchical trees, they have formalisms intersecting with graph theory and applications that can be conveniently generalized. Due to the deterministic algorithms, the multiform and distinct representations, and the absence of a direct way to evaluate the hierarchical representation quality, it is hard to insert hierarchical information into a learning framework and benefit from the recent advances in the field. Researchers usually tackle this problem by refining the hierarchies for a specific media and assessing their quality for a particular task. The downside of this approach is that it depends on the application, and the formulations limit the generalization to similar data. This work aims to create a learning framework that can operate with hierarchical data and is agnostic to the input and the application. The idea is to study ways to transform the data to a regular representation required by most learning models while preserving the rich information in the hierarchical structure. It proposes to study and formalize the concepts as graphs, a common point for hierarchies and multimedia, and a topic of great interest for machine learning. The methods in this study use edge-weighted image graphs and hierarchical trees as input, evaluating different proposals on the edge detection and segmentation tasks. The primary model is the Random Forest, a fast, inspectable, and scalable method suited to work with high-dimensional data. Despite the media, tasks, and model choices, it focuses the formulations on graphs and hierarchical trees and only uses the tasks to evaluate the response produced by different characteristics. It gives the results in quantitative and qualitative terms and offers statistical analyses of the data distribution and dimensionality, assessing their impact on learning. Furthermore, it provides a critical systematic review of proposals in the literature that integrates machine learning and hierarchies. It demonstrates that it is possible to create a learning framework dependent only on the hierarchical data that performs well in multiple tasks.