Réalisé par : Encadré par : - Keheli adnane Pr L.Lamrini

Name: Réalisé par : Encadré par : - Keheli adnane Pr L.Lamrini
Uploaded: 2017-12-29T16:14:14+00:00
Duration: PTM4S38
Channel: Eléonore Lamarche
Description: Réalisé par : Encadré par : - Keheli adnane Pr L.Lamrini

Une plateforme ETL parallèle et distribuée pour l’intégration de données massives
Réalisé par : Encadré par : - Keheli adnane Pr L.Lamrini - SADOUK amine

Plan Introduction bases de P-ETL Paramétrage d’un processus dans P-ETL
Présentation de l’ETL Difficultés rencontrées avec les données massives Introduction de la plateforme ETL parallèle distribuée bases de P-ETL Partitionnement des données Les mappers et reducers Architecture de P-ETL Paramétrage d’un processus dans P-ETL Expérimentation Conclusion

Introduction

Présentation de l’ETL Extract Transform Load est une technologie informatique qui permet de synchroniser Elle repose des connecteurs servant à exporter ou importer l’objectif est l’intégration de données d’un réservoir source dans un réservoir cible

Difficultés rencontrées avec les données massives
L’apprentissage des données et leur synchronisation deviennent une tâche complexe La tâche transformation se fait dans un langage propre à la technologie La tâche chargement fait face à des quantités importantes de données

Introduction à la plateforme ETL parallèle et distribuée
Basée sur du code Python L’objectif est d’adopter le schéma classique de l’ETL en ajoutant de nouvelles phases : Partitionnement réduction

Bases de P-ETL

Partitionnement des données
Afin de permettre à plusieurs tâches de s’exécuter de manière parallèle, chaque tâche doit traiter sa propre partition Il existe 3 types de partition : Simple Round robin Round robin bloc

Simple : génère des partitions égales selon l’équation suivante : Round Robin : on se base sur l’équation suivante avec tuple l’élément qu’on veut affecter

Round robin bloc : même équation que la 2ème partition sauf que l’on affecte des blocs et non pas des tuples.

Les mappers et les reducers
Les mappers ont pour rôle de normaliser les données, il traite chaque «row» dans un tunnel de transformation où chaque Ti est chargé d’une opération (nettoyage, filtrage, projection ,conversion..)

Les mappers et les reducers
les reducers quand à eux sont chargés de la fusion et de l’agrégation des données préparées . la figure suivante montre l’agrégation des données mappées pour elles soient chargées dans l’entrepôt de données.

Architecture P-ETL

Paramétrage d’un processus P-ETL

Expérimentation

Expérimentation Afin de tester les performances du P-ETL, la configuration matérielle de 19 postes est la suivante : Processeur de 3.30GHZ partagé sur 4 cœurs 4GO de RAM 500GO d’espace disque Un réseau LAN Ethernet 0 100Mbps/s la configuration citée avant permettra d’affecter deux tâches parallèles à un même noeud

Expérimentation le processeur doit gérer les données d’un programme de renseignements des étudiant d’une taille de 300GO, les tâches sont les suivantes : Une projection qui consiste à exclure les attributs bourse et sport Un filtrage de tout les attributs présentant une valeur NULL (date d’inscription , cycle et spécialité) Une fonction year() qui extrait l’année à partir de la date d’inscription Une fonction count() qui compte le nombre d’étudiants inscrit durant la même année et la même spécialité

Expérimentation Le résultat du traitement est représenté par le diagramme suivant :

Conclusion

Réalisé par : Encadré par : - Keheli adnane Pr L.Lamrini

Présentations similaires

Présentation au sujet: "Réalisé par : Encadré par : - Keheli adnane Pr L.Lamrini"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Réalisé par : Encadré par : - Keheli adnane Pr L.Lamrini

Présentations similaires

Présentation au sujet: "Réalisé par : Encadré par : - Keheli adnane Pr L.Lamrini"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back