|
|<
<< Page précédente
1
Page suivante >>
>|
|
documents par page
|
Tri :
Date
Titre
Auteur
|
|
Informatique
/ 16-12-2022
Lemane Téo
Voir le résumé
Voir le résumé
Le 21ème siècle subit un tsunami de données dans de nombreux domaines, notamment en bio-informatique. Ce changement de paradigme nécessite le développement de nouvelles méthodes de traitement capables de passer à l'échelle sur de telles données. Ce travail consiste principalement à considérer des jeux de données massifs provenant du séquençage génomique. Une façon courante de traiter ces données est de les représenter comme un ensemble de mots de taille fixe, appelés k-mers. Les k-mers sont très largement utilisés comme éléments de bases par de nombreuses méthodes d'analyses de données de séquençages. L'enjeu est de pouvoir représenter les k-mers et leurs abondances dans un grand nombre de jeux de données. Une possibilité est la matrice de k-mers, où chaque ligne est un k-mer associé à un vecteur d'abondances. Ces k-mers sont erronées en raison des erreurs de séquençage et doivent être filtrés. La technique habituelle consiste à écarter les k-mers peu abondants. Sur des ensembles de données complexes comme les métagénomes, un tel filtre n'est pas efficace et élimine un trop grand nombre de k-mers. La vision des abondances à travers les échantillons permise par la représentation matricielle permet également une nouvelle procédure de détection des erreurs dans les jeux de données complexes. En résumé, nous explorons le concept de matrice de k-mer et montrons ses capacités en termes de passage à l'échelle au travers de diverses applications, de l'indexation à l'analyse, et proposons différents outils à cette fin. Sur le plan de l'indexation, nos outils ont permis d'indexer un grand ensemble métagénomique du projet Tara Ocean tout en conservant des k-mers rares, habituellement écartés par les techniques de filtrage classiques. En matière d'analyse, notre technique de construction de matrices permet d'accélérer d'un ordre de grandeur l'analyse différentielle de k-mers.
|
|
|<
<< Page précédente
1
Page suivante >>
>|
|
documents par page
|