Apprentissage actif de données incertaines et imprécises

Apprentissage actif de données incertaines et imprécises
(Active learning of uncertain and imprecise data)

Hoarau, Arthur - (2024-06-13) / Université de Rennes - Apprentissage actif de données incertaines et imprécises

Accéder au document :

https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Langue : Français

Directeur(s) de thèse: Martin, Arnaud; Miklós‎, Zoltán

Discipline : Informatique

Laboratoire : IRISA

Ecole Doctorale : MATISSE

Classification : Informatique

Mots-clés : Apprentissage automatique, Réduction de coûts, Modélisation d'incertitudes

Apprentissage automatique
Coût -- Contrôle

Résumé : Ce document expose les recherches effectuées dans le cadre d'une thèse sur l'apprentissage actif de données incertaines et imprécises, soutenue grâce au financement de la Région Bretagne et du département Côtes-d'Armor. Deux principaux axes de recherche ont été explorés : les fonctions de croyance pour modéliser l'incertitude dans les données, et l'apprentissage actif pour travailler avec un nombre limité d'observations labellisées. La thèse s'est penchée sur la qualité et la quantité des labels en apprentissage automatique, visant à améliorer la modélisation des labels (qualité) tout en réduisant les coûts de labellisation (quantité). Des jeux de données à labels riches ont été proposés et mis à la disposition de la communauté scientifique. De nouveaux modèles ont été développés, des arbres de décision et des forêts aléatoires crédibilistes, tous capables de produire des prédictions incertaines et imprécises. Deux méthodes d'échantillonnage, fondées sur l'incertitude crédibiliste, ont été proposées et ont montré une augmentation des performances en apprentissage actif sur des jeux de données classiques. Enfin, des perspectives de recherche future ont été envisagées, notamment l'amélioration des méthodes d'échantillonnage par incertitude crédibiliste. Les travaux en cours comprennent la comparaison de la méthode proposée avec d'autres modèles de décomposition d'incertitudes, en se basant sur des recherches récentes liées à la thèse.

Abstract : This document outlines the research conducted within the scope of a thesis on active learning of uncertain and imprecise data, supported by funding from the Brittany Region and the Côtes-d'Armor Department. Two main research areas were explored: belief functions for modeling uncertainty in data and active learning to work with a limited number of labeled observations. The thesis focused on the quality and quantity of labels in machine learning, aiming to enhance label modeling (quality) while reducing labeling costs (quantity). Datasets with rich labels were proposed and made available to the scientific community. Novel models were developed, including evidential decision trees and evidential random forests, all capable of producing uncertain and imprecise predictions. Two sampling methods, based on evidential uncertainty, were proposed and demonstrated improved performance in active learning on conventional datasets. Finally, future research perspectives were considered, particularly improving methods for evidential uncertainty-based sampling. Ongoing work involves comparing the proposed method with other uncertainty decomposition models, drawing from recent research related to the thesis.