Une plateforme ETL parallèle et distribuée pour l’intégration de données massives Réalisé par : Encadré par : - Keheli adnane - Pr L.Lamrini - SADOUK amine
Plan Introduction bases de P-ETL Paramétrage d’un processus dans P-ETL Présentation de l’ETL Difficultés rencontrées avec les données massives Introduction de la plateforme ETL parallèle distribuée bases de P-ETL Partitionnement des données Les mappers et reducers Architecture de P-ETL Paramétrage d’un processus dans P-ETL Expérimentation Conclusion
Introduction
Présentation de l’ETL Extract Transform Load est une technologie informatique qui permet de synchroniser Elle repose des connecteurs servant à exporter ou importer l’objectif est l’intégration de données d’un réservoir source dans un réservoir cible
Difficultés rencontrées avec les données massives L’apprentissage des données et leur synchronisation deviennent une tâche complexe La tâche transformation se fait dans un langage propre à la technologie La tâche chargement fait face à des quantités importantes de données
Introduction à la plateforme ETL parallèle et distribuée Basée sur du code Python L’objectif est d’adopter le schéma classique de l’ETL en ajoutant de nouvelles phases : Partitionnement réduction
Bases de P-ETL
Partitionnement des données Afin de permettre à plusieurs tâches de s’exécuter de manière parallèle, chaque tâche doit traiter sa propre partition Il existe 3 types de partition : Simple Round robin Round robin bloc
Partitionnement des données Simple : génère des partitions égales selon l’équation suivante : Round Robin : on se base sur l’équation suivante avec tuple l’élément qu’on veut affecter
Partitionnement des données Round robin bloc : même équation que la 2ème partition sauf que l’on affecte des blocs et non pas des tuples.
Les mappers et les reducers Les mappers ont pour rôle de normaliser les données, il traite chaque «row» dans un tunnel de transformation où chaque Ti est chargé d’une opération (nettoyage, filtrage, projection ,conversion..)
Les mappers et les reducers les reducers quand à eux sont chargés de la fusion et de l’agrégation des données préparées . la figure suivante montre l’agrégation des données mappées pour elles soient chargées dans l’entrepôt de données.
Architecture P-ETL
Architecture P-ETL
Paramétrage d’un processus P-ETL
Paramétrage d’un processus P-ETL
Expérimentation
Expérimentation Afin de tester les performances du P-ETL, la configuration matérielle de 19 postes est la suivante : Processeur de 3.30GHZ partagé sur 4 cœurs 4GO de RAM 500GO d’espace disque Un réseau LAN Ethernet 0 100Mbps/s la configuration citée avant permettra d’affecter deux tâches parallèles à un même noeud
Expérimentation le processeur doit gérer les données d’un programme de renseignements des étudiant d’une taille de 300GO, les tâches sont les suivantes : Une projection qui consiste à exclure les attributs bourse et sport Un filtrage de tout les attributs présentant une valeur NULL (date d’inscription , cycle et spécialité) Une fonction year() qui extrait l’année à partir de la date d’inscription Une fonction count() qui compte le nombre d’étudiants inscrit durant la même année et la même spécialité
Expérimentation Le résultat du traitement est représenté par le diagramme suivant :
Conclusion