Synthetic tabular data: generation and detection
(Données tabulaires : génération et détection)

Kindji, Gaspard Charbel Novixi - (2025-12-18) / Université de Rennes
Synthetic tabular data: generation and detection

Accéder au document : https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Langue : Anglais

Directeur(s) de thèse:  Fromont, Élisa; Urvoy, Tanguy

Discipline : Informatique

Laboratoire :  IRISA

Ecole Doctorale : MATISSE

Classification : Informatique

Mots-clés : Génération de données tabulaires, optimisation des hyperparamètres, optimisation d'architectures neuronales, détection de données tabulaires synthétiques
Analyse des données
Hyperparamètres
Optimisation mathématique


Résumé : Les données tabulaires sont largement utilisées dans la médecine, les sciences sociales et les registres administratifs. Elles sont hétérogènes, souvent incomplètes et sensibles. Générer automatiquement des données réalistes et détecter celles produites artificiellement constituent deux défis majeurs à fort impact sociétal. Cette thèse aborde ces deux enjeux. Elle propose d’abord une évaluation rigoureuse et à grande échelle des générateurs de données tabulaires à l’état de l’art, incluant un réglage précis des hyperparamètres et des architectures, et une analyse selon l’utilité, la fidélité, la confidentialité et le coût de calcul. Les expériences identifient un ensemble réduit d’hyperparamètres offrant des performances proches d’un réglage exhaustif, pour un coût moindre. La thèse étudie ensuite la détection de données tabulaires synthétiques, en prévoyant un usage croissant des modèles génératifs. De nouveaux protocoles expérimentaux, schémas d’encodage et méthodes de détection sont proposés et évalués, couvrant des approches classiques et fondées sur les Transformers. Une attention particulière est portée aux scénarios de déploiement réel, apportant des enseignements utiles à la détection et au développement d’approches neuronales pour la prédiction tabulaire.

Abstract : Tabular data are widely used in medicine, the social sciences, and administrative records. They are highly heterogeneous, often incomplete, and sensitive. Automatically generating realistic tabular data and detecting artificially produced ones are two challenges of major societal relevance. This thesis addresses both issues. It first presents a large-scale and rigorous evaluation of state-of-the-art tabular data generators, including fine-tuned hyperparameters and architectures, and assessment across utility, fidelity, privacy, and computational cost. The experiments identify a reduced set of hyperparameters achieving performance comparable to large-scale tuning while lowering computational cost. The thesis then explores the detection of synthetic tabular data, anticipating broader use of generative models. New experimental protocols, encoding schemes, and detection methods are proposed and tested, spanning both classical and Transformer-based approaches. Particular attention is given to realistic deployment contexts, yielding insights relevant to data authenticity assessment and to the broader development of neural models for tabular prediction.