Télécharger la présentation
Publié parEléonore Lamarche Modifié depuis plus de 9 années
1
Une plateforme ETL parallèle et distribuée pour l’intégration de données massives
Réalisé par : Encadré par : - Keheli adnane Pr L.Lamrini - SADOUK amine
2
Plan Introduction bases de P-ETL Paramétrage d’un processus dans P-ETL
Présentation de l’ETL Difficultés rencontrées avec les données massives Introduction de la plateforme ETL parallèle distribuée bases de P-ETL Partitionnement des données Les mappers et reducers Architecture de P-ETL Paramétrage d’un processus dans P-ETL Expérimentation Conclusion
3
Introduction
4
Présentation de l’ETL Extract Transform Load est une technologie informatique qui permet de synchroniser Elle repose des connecteurs servant à exporter ou importer l’objectif est l’intégration de données d’un réservoir source dans un réservoir cible
5
Difficultés rencontrées avec les données massives
L’apprentissage des données et leur synchronisation deviennent une tâche complexe La tâche transformation se fait dans un langage propre à la technologie La tâche chargement fait face à des quantités importantes de données
6
Introduction à la plateforme ETL parallèle et distribuée
Basée sur du code Python L’objectif est d’adopter le schéma classique de l’ETL en ajoutant de nouvelles phases : Partitionnement réduction
7
Bases de P-ETL
8
Partitionnement des données
Afin de permettre à plusieurs tâches de s’exécuter de manière parallèle, chaque tâche doit traiter sa propre partition Il existe 3 types de partition : Simple Round robin Round robin bloc
9
Partitionnement des données
Simple : génère des partitions égales selon l’équation suivante : Round Robin : on se base sur l’équation suivante avec tuple l’élément qu’on veut affecter
10
Partitionnement des données
Round robin bloc : même équation que la 2ème partition sauf que l’on affecte des blocs et non pas des tuples.
11
Les mappers et les reducers
Les mappers ont pour rôle de normaliser les données, il traite chaque «row» dans un tunnel de transformation où chaque Ti est chargé d’une opération (nettoyage, filtrage, projection ,conversion..)
12
Les mappers et les reducers
les reducers quand à eux sont chargés de la fusion et de l’agrégation des données préparées . la figure suivante montre l’agrégation des données mappées pour elles soient chargées dans l’entrepôt de données.
13
Architecture P-ETL
14
Architecture P-ETL
15
Paramétrage d’un processus P-ETL
16
Paramétrage d’un processus P-ETL
17
Expérimentation
18
Expérimentation Afin de tester les performances du P-ETL, la configuration matérielle de 19 postes est la suivante : Processeur de 3.30GHZ partagé sur 4 cœurs 4GO de RAM 500GO d’espace disque Un réseau LAN Ethernet 0 100Mbps/s la configuration citée avant permettra d’affecter deux tâches parallèles à un même noeud
19
Expérimentation le processeur doit gérer les données d’un programme de renseignements des étudiant d’une taille de 300GO, les tâches sont les suivantes : Une projection qui consiste à exclure les attributs bourse et sport Un filtrage de tout les attributs présentant une valeur NULL (date d’inscription , cycle et spécialité) Une fonction year() qui extrait l’année à partir de la date d’inscription Une fonction count() qui compte le nombre d’étudiants inscrit durant la même année et la même spécialité
20
Expérimentation Le résultat du traitement est représenté par le diagramme suivant :
21
Conclusion
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.