Privacy risk analysis of large-scale temporal data : application to electricity consumption data (Analyse des risques liés à la publication de données temporelles : application aux données de consommation électriques) Voyez, Antonin - (2023-07-11) / Université de Rennes Privacy risk analysis of large-scale temporal data : application to electricity consumption data
| |||
Langue : Anglais Directeur(s) de thèse: Fromont, Élisa; Avoine, Gildas Discipline : Informatique Laboratoire : IRISA Ecole Doctorale : MATISSE Classification : Informatique Mots-clés : Données ouvertes, séries temporelles, données électriques, data science
| |||
Résumé : Enedis est le principal gestionnaire de distribution d’électricité en France. Les distributeurs sont légalement obligé de mesurer et de publier la consommation électrique française. Les mesures contiennent de nombreuses informations personnelles et sensibles. De fait, la publication est anonymisée à l’aide d’agrégats par seuils. Ce travail étudie la vulnérabilité liée à la publication des mesures de consommation électrique. Notre première contribution est une étude statistique à grande échelle des mesures d’électricité française. En particulier, nous réalisons une étude d’unicité montrant que les séries non anonymisées sont très facilement identifiables. Notre deuxième contribution est une attaque par inférence d’appartenance qui permet de trouver toutes les séries formant un agrégat. Cette attaque est basée sur une variante du problème de la somme des sous-ensembles. Notre troisième contribution est une attaque par inférence d’appartenance modélisée comme un problème de classification de séries temporelles. Cette attaque nécessite peu de connaissances préalables et permet de trouver une cible spécifique dans un agrégat. Nous réalisons des expériences approfondies sur les attaques. Les résultats permettent de mieux choisir le seuil de publication. Enfin, nous proposons une méthode pour estimer la vulnérabilité des séries. Abstract : The leading French electricity distribution manager, Enedis, legally must collect and publish electricity consumption time series. Series from households and companies are highly privacy sensitive. Therefore, the publication is anonymized using threshold aggregates. This work studies the vulnerability of open-sourcing electricity consumption time series. Our first contribution performs a large-scale statistical study of French electricity measurements. In particular, we perform a unique study showing un-anonymized series’ high vulnerability against identification attacks. Our second contribution is a membership inference attack that finds every series forming an aggregate. This attack is based on a variant of the subset-sum problem. Our third contribution is a membership inference attack modelized as a time series classification problem. This attack requires little prior knowledge and can find a specific target in an aggregate. We perform in-depth experiments on the attacks. The results offer insight into the choice of relevant threshold. Finally, we propose a metric estimate the potential vulnerability of individual series. |