Modèles statistiques pour les systèmes d'aide à la décision basés sur la réutilisation des données massives en santé : application à la surveillance syndromique en santé publique (Statistical models for decision support systems based on the reuse of Health Big Data: application to syndromic surveillance in public health) Poirier, Canelle - (2019-06-13) / Universite de Rennes 1 - Modèles statistiques pour les systèmes d'aide à la décision basés sur la réutilisation des données massives en santé : application à la surveillance syndromique en santé publique
| |||
Langue : Français, Anglais Directeur(s) de thèse: Bertaud, Valérie; Lavenu, Audrey Discipline : Génétique, génomique et bioinformatique Laboratoire : Laboratoire de Traitement du Signal et de l'Image Ecole Doctorale : Biologie-Santé Classification : Médecine et santé Mots-clés : Données massives , Machine learning , Modélisation statistique , Surveillance syndromique , Aide à la décision , Santé publique
| |||
Résumé : Depuis plusieurs années, la notion de Big Data s'est largement développée. Afin d'analyser et explorer toutes ces données, il a été nécessaire de concevoir de nouvelles méthodes et de nouvelles technologies. Aujourd'hui, le Big Data existe également dans le domaine de la santé. Les hôpitaux en particulier, participent à la production de données grâce à l'adoption du dossier patient électronique. L'objectif de cette thèse a été de développer des méthodes statistiques réutilisant ces données afin de participer à la surveillance syndromique et d'apporter une aide à la décision. Cette étude comporte 4 axes majeurs. Tout d'abord, nous avons montré que les données massives hospitalières étaient très corrélées aux signaux des réseaux de surveillance traditionnels. Dans un second temps, nous avons établi que les données hospitalières permettaient d'obtenir des estimations en temps réel plus précises que les données du web, et que les modèles SVM et Elastic Net avaient des performances comparables. Puis, nous avons appliqué des méthodes développées aux Etats-Unis réutilisant les données hospitalières, les données du web (Google et Twitter) et les données climatiques afin de prévoir à 2 semaines les taux d'incidence grippaux de toutes les régions françaises. Enfin, les méthodes développées ont été appliquées à la prévision à 3 semaines des cas de gastro-entérite au niveau national, régional, et hospitalier. Abstract : Over the past few years, the Big Data concept has been widely developed. In order to analyse and explore all this data, it was necessary to develop new methods and technologies. Today, Big Data also exists in the health sector. Hospitals in particular are involved in data production through the adoption of electronic health records. The objective of this thesis was to develop statistical methods reusing these data in order to participate in syndromic surveillance and to provide decision-making support. This study has 4 major axes. First, we showed that hospital Big Data were highly correlated with signals from traditional surveillance networks. Secondly, we showed that hospital data allowed to obtain more accurate estimates in real time than web data, and SVM and Elastic Net models had similar performances. Then, we applied methods developed in United States reusing hospital data, web data (Google and Twitter) and climatic data to predict influenza incidence rates for all French regions up to 2 weeks. Finally, methods developed were applied to the 3-week forecast for cases of gastroenteritis at the national, regional and hospital levels. |