Frequent itemset sampling of high throughput streams on FPGA accelerators (Échantillonnage de motifs fréquents dans flux de données à haut débits sur achitectures FPGA) Gueguen, Mael - (2020-10-23) / Universite de Rennes 1 Frequent itemset sampling of high throughput streams on FPGA accelerators
| |||
Langue : Anglais Directeur(s) de thèse: Sentieys, Olivier; Termier, Alexandre Discipline : Informatique Laboratoire : INRIA-RENNES Ecole Doctorale : MATHSTIC Classification : Informatique Mots-clés : fouille de données, itemset fréquents, échantillonnage, FPGA, flux de données
| |||
Résumé : Le domaine de recherche de motifs fréquents consiste à trouver tous les motifs récurrents dans une base de données à analyser. De nombreux algorithmes de recherche de motifs ont été proposés dans la littérature scientifique, mais la plupart d’entre eux souffrent du même problème : les résultats sont très volumineux et contiennent beaucoup de redondances, qui rendent les analyses difficiles. Une méthode appelée échantillonnage de l’espace de sortie a récemment été introduite. Cette méthode consiste à retourner un échantillon réduit, avec des contraintes statistiques qui permettent d’assurer sa représentativité. Dans un contexte où réagir aux tendances en temps réel est devenu un enjeu important, une analyse sur un échantillon en temps réel peut l’emporter sur une analyse exhaustive hors-ligne. Pour permettre de réaliser en temps réel les calculs coûteux de la recherche de motifs fréquents, cette thèse propose des solutions reposant sur des architectures matérielles dédiées, plus efficaces en temps et énergie que les serveurs classiques. La première contribution de cette thèse est un accélérateur matériel pour la recherche de motifs fréquents basé sur une architecture FPGA. La solution que nous proposons permet une plus grande modularité de l’accélérateur, tout en réduisant l’allocation de mémoire nécessaire, une ressource restreinte sur ce type d’architecture. Cette première contribution apporte d’une part des avancées algorithmiques, pour permettre de rendre l’exploration de l’espace de recherche suffisamment régulière pour une exécution efficace sur FPGA, et d’autre part, par une proposition d’architecture FPGA apte à gérer des transferts de données importants avec la mémoire. La deuxième contribution étend l’approche précédente, qui était restreinte à des jeux de données statiques, à des flux de données. Cela demande de revoir les bases théoriques de l’approche d’échantillonnage utilisé, car les valeurs de l’échantillon doivent dans ce cas refléter à la fois l’état instantané du flux, mais aussi les tendances importantes du passé proche. Abstract : The field of frequent pattern mining aims to discover recurring patterns from a given database. Many pattern mining approaches are available in the scientific literature, yet most of them suffer from the same drawback: there can be many output results, which contain highly redundant information. This makes such results hard to analyze. A technique called output space sampling has recently being used along frequent pattern mining for this very reason. Output space sampling consists in returning a bounded sample of the results, with statistical guarantees that ensure it is representative of the complete output. In a field where fast adaptation to trends is prevalent, an imperfect real-time analysis can be preferable over exhaustive offline analysis. To this aim, the thesis focuses its work on dedicated hardware architectures, more energy and time efficient than commonly used servers. The first contribution of the thesis is a frequent pattern mining accelerator for FPGA architectures. the proposed solution allow for a greater architectural flexibility, while reducing the cost of on-Chip memory, a scarce resource for the architecture. This first contribution proposes algorithmic improvements, to allow for a regularisation of the explored research space suited for efficient computing on FPGA. Furthermore, we propose an FPGA accelerator able to manage the heavy load of communication with its external memory. The second contribution extends the first one, restricted to static databases, to streaming databases. This requires to reconsider the theoretical basis of the sampling technique, as the value of the sample must be representative of the most recent snapshot of the stream, but also of the important trends in the close past of the stream. |