Déjouer les dissimulations : outils pour l'audit de systèmes de prédiction en boîte noire

Déjouer les dissimulations : outils pour l'audit de systèmes de prédiction en boîte noire
(Thinking out of the (black)-box : tools for audits in the presence of malicious model providers)

Godinot, Augustin - (2026-02-10) / Université de Rennes - Déjouer les dissimulations : outils pour l'audit de systèmes de prédiction en boîte noire

Accéder au document :

https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Langue : Anglais

Directeur(s) de thèse: Le Merrer, Erwan; Trédan, Gilles

Discipline : Informatique

Laboratoire : INRIA-RENNES

Ecole Doctorale : MATISSE

Classification : Informatique

Mots-clés : audit, apprentissage automatique, régulation de l'IA, manipulation d'évaluations

Prédictions conformes (informatique)
Audit informatique
Intelligence artificielle

Résumé : Les systèmes de prédiction fondés sur l'apprentissage automatique sont désormais largement accessibles mais restent trop souvent opaque, s'apparentant à des boîtes noires pour leurs utilisateurs. L'audit, en tant qu'évaluation indépendante est un outil essentiel à la gouvernance de ces systèmes. Cependant, la facilité de détection des audits et leurs conséquences potentiellement coûteuses pour le fournisseur du système rend les audits en boite noire particulièrement vulnérables aux dissimulations. Cette thèse explore les limites de l'audit en boîte noire et présente trois contributions pour y remédier : la formalisation de l'audit robuste comme un problème de construction d'une _connaissance a priori_ pour l'auditeur, l'étude de l'apport de la connaissance de la classe d'hypothèses par l'auditeur, et enfin l'introduction d'une technique d'empreinte de modèle pour détecter les modifications du système post-audit.

Abstract : Machine learning-based prediction services are now widely deployed across industries by companies, governments, and individuals. Yet, these services often rely on a complex AI supply chain, whose components (training data, models, infrastructure), while critical to their performance, are partially or completely hidden to the final users. Thus, to an external user or regulator, these prediction services appear as black-boxes, complicating their evaluation and opening avenues for manipulations. In the presence of deceptive model providers, this thesis aims to understand the fundamental limits to black-box auditing and designing protocols to provide guarantees beyond the black-box interaction model. This manuscript presents three contributions towards that goal. First, I present a formalization of this quest for the minimal assumption beyond the black-box as a prior construction problem and provide a new audit method leveraging the labeled data available to the auditor. Then, I study the benefits of requesting the hypothesis class used by the platform to inform the audit. Finally, in an attempt to cheaply detect post-audit attacks, I introduce a new model fingerprint baseline and theoretical analysis to detect model change.