Réalisé par : Encadré par : - Keheli adnane Pr L.Lamrini

Slides:



Advertisements
Présentations similaires
Module 5 : Implémentation de l'impression
Advertisements

Mise en œuvre d’une communication parallèle IEEE 488 sous Labview
Emulateur Telnet pour PDA
19 septembre 2006 Tendances Logicielles IBM Rational Data Architect Un outil complet de modélisation et de conception pour SGBD Isabelle Claverie-Berge.
INTRODUCTION Grande quantité de données
PLAN du COURS Introduction Structure des Systèmes Informatiques
Vue d'ensemble Présentation multimédia : Rôle du routage dans l'infrastructure réseau Activation et configuration du service Routage et accès distant Configuration.
Université de La Mannouba – ISCAE
Jc/md/lp-01/05Boot Loader1 BOOT LOADER. jc/md/lp-01/05Boot Loader2 Objectif du chapitre Introduire la notion de Boot Loader Donner un aperçu de lorganisation.
Gestion des connaissances
Sélection automatique d’index et de vues matérialisées
Projet DataLab Préparé pour le CNN François Bancilhon Data Publica.
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
LA CARTE MERE PROJET REALISER PAR : BELGHITI ALAOUI Anas.
MRP, MRP II, ERP : Finalités et particularités de chacun.
Architectures et systèmes à microprocesseurs – ELEC288
Les Systèmes d’Exploitation
Réalisée par :Samira RAHALI
Principes de persistance dans les applications orienté objet
Cours #8 Flot de conception d’un circuit numérique
Des outils pour le développement logiciel
Département de génie logiciel et des TI Université du Québec École de technologie supérieure Systèmes dinformation dans les entreprises Systèmes dinformation.
Introduction Objectifs du cours Évaluation Références
Chapitre 4 : Morphologie Mathématique
Introduction à l’algèbre
Renauld MAMBOUNDOU Arnaud SCHOEN Safiatou FANNY Vincent BOUVIER
L’adaptativité pour un solveur de l’équation de Vlasov
Supports de formation au SQ Unifié
8INF856 Programmation sur architectures parallèles
ENGIMA.
Objectifs A la fin de ce chapitre, vous pourrez : présenter l'utilisation d'opérations de chargement de données par chemin direct décrire l'utilisation.
Bases de données fédéréEs hétérogènes
Warehouse management system (système de gestion des entrepôts)
Modèles et protocoles de cohérence des données en environnement volatil Grid Data Service IRISA (Rennes), LIP (Lyon) et LIP6 (Paris) Loïc Cudennec Superviseurs.
Le contenu est basé aux transparents du 7 ème édition de «Software Engineering» de Ian Sommerville«Software Engineering» de Ian Sommerville B.Shishedjiev.
D. E ZEGOUR Institut National d ’Informatique
La mémoire virtuelle Dans laquelle un ordinateur exécute des programmes dont les besoins en mémoires dépassent la mémoire disponible. Par exemple des.
SMIL Synchronized Multimedia Integration Language
Visualisation d’un entrepôt de données Pré soutenance technique
Présentation AICHA REVEL INGENIEUR D’ÉTUDE STERIA DEPARTEMENT TRD
N.Mellouli-Nauwynck & M.Lamolle1 Intégration de bases de données hétérogènes N.Mellouli-Nauwynck M.Lamolle.
Architecture matérielle Qu’est ce qu’un ordinateur ?
SYSTEMES d’INFORMATION séance 1 : Introduction et définitions
Clustering. Le Clustering est une technique qui consiste à assembler virtuellement plusieurs machines afin de les faire travailler en parallèle. Cela.
Optimisation pour la Conception de Systèmes Embarqués
Knowledge discovery in Databases (KDD)
Sujet 5 : Intégration d’une loi d’ordonnancement dans un modèle
WinAC ODK Win AC ODK Open Developer Kit Open Developer Kit.
Intégration des Tableaux Multidimensionnels en Pig pour
Plateforme de Calcul Intensif “HPC” de l’lnstitut Pytheas M. Libes, C. Pinazo Juin 2015.
Echantillonnage optimisé de données temporelles distribuées pour l’alimentation des entrepôts de données Présenté par : - EL ISSAOUI Naoufal - ED-DAHMOUNI.
06/04/06 LES BASES DE DONNEES INTRODUCTION CogniTIC – Bruxelles Formation - Cepegra.
Administration d’un système Linux [BTS IRIS tv
Visualisation des flots optiques en 3D
OBJECTIFS : STOP à la recopie fastidieuse SÆCI « Recherche Structurée » permet de récupérer des informations de documents quelconques d’après leur positionnement.
Projet de fin d’étude Développement d’une application de gestion d’un parc informatique et de Help Desk Bonjour tout le monde, Avant de commencer je voudrais.
Chapitre 4 La représentation des nombres.
TP D’UML Groupe N° 3.
Plan Analyse de l’architecture: couche L3 et L4:
Gestion des documents internes avec SQL Server 2005 Date de publication : janvier 2006.
1.1: notions de bases de l’informatique
Algorithmes parallèles
Ingrid Fontaine – Dimitri Sandron | BTS SIO – PPE 1ère année
Présentation de Séminaire
Sécurisation infrastructure Altibus Ajout d’un serveur pour le réseau Call Center.
1 La Coordination dans les Systèmes d’Information Orientés Agents (SIOA) Participants IRIT-UT1 : E.Andonoff, L. Bouzguenda,J. Cardoso, C. Hanachi, C. Sibertin-Blanc,
M2.22 Réseaux et Services sur réseaux
PetaSky: Expérimentations avec HadoopDB et Hive 1 Amin Mesmoudi.
Transcription de la présentation:

Une plateforme ETL parallèle et distribuée pour l’intégration de données massives Réalisé par : Encadré par : - Keheli adnane - Pr L.Lamrini - SADOUK amine

Plan Introduction bases de P-ETL Paramétrage d’un processus dans P-ETL Présentation de l’ETL Difficultés rencontrées avec les données massives Introduction de la plateforme ETL parallèle distribuée bases de P-ETL Partitionnement des données Les mappers et reducers Architecture de P-ETL Paramétrage d’un processus dans P-ETL Expérimentation Conclusion

Introduction

Présentation de l’ETL Extract Transform Load est une technologie informatique qui permet de synchroniser Elle repose des connecteurs servant à exporter ou importer l’objectif est l’intégration de données d’un réservoir source dans un réservoir cible

Difficultés rencontrées avec les données massives L’apprentissage des données et leur synchronisation deviennent une tâche complexe La tâche transformation se fait dans un langage propre à la technologie La tâche chargement fait face à des quantités importantes de données

Introduction à la plateforme ETL parallèle et distribuée Basée sur du code Python L’objectif est d’adopter le schéma classique de l’ETL en ajoutant de nouvelles phases : Partitionnement réduction

Bases de P-ETL

Partitionnement des données Afin de permettre à plusieurs tâches de s’exécuter de manière parallèle, chaque tâche doit traiter sa propre partition Il existe 3 types de partition : Simple Round robin Round robin bloc

Partitionnement des données Simple : génère des partitions égales selon l’équation suivante : Round Robin : on se base sur l’équation suivante avec tuple l’élément qu’on veut affecter

Partitionnement des données Round robin bloc : même équation que la 2ème partition sauf que l’on affecte des blocs et non pas des tuples.

Les mappers et les reducers Les mappers ont pour rôle de normaliser les données, il traite chaque «row» dans un tunnel de transformation où chaque Ti est chargé d’une opération (nettoyage, filtrage, projection ,conversion..)

Les mappers et les reducers les reducers quand à eux sont chargés de la fusion et de l’agrégation des données préparées . la figure suivante montre l’agrégation des données mappées pour elles soient chargées dans l’entrepôt de données.

Architecture P-ETL

Architecture P-ETL

Paramétrage d’un processus P-ETL

Paramétrage d’un processus P-ETL

Expérimentation

Expérimentation Afin de tester les performances du P-ETL, la configuration matérielle de 19 postes est la suivante : Processeur de 3.30GHZ partagé sur 4 cœurs 4GO de RAM 500GO d’espace disque Un réseau LAN Ethernet 0 100Mbps/s la configuration citée avant permettra d’affecter deux tâches parallèles à un même noeud

Expérimentation le processeur doit gérer les données d’un programme de renseignements des étudiant d’une taille de 300GO, les tâches sont les suivantes : Une projection qui consiste à exclure les attributs bourse et sport Un filtrage de tout les attributs présentant une valeur NULL (date d’inscription , cycle et spécialité) Une fonction year() qui extrait l’année à partir de la date d’inscription Une fonction count() qui compte le nombre d’étudiants inscrit durant la même année et la même spécialité

Expérimentation Le résultat du traitement est représenté par le diagramme suivant :

Conclusion