ETL - Pentaho Data Integration Brice LEGRAND – A13
Introduction Pentaho Data Integration, alias Kettle Version Communautaire (CE) : gratuite Version entreprise (EE) : payante Peu de différences entre ces deux versions : Quelques fonctionnalités avancées Support Aspects de sécurité Travail collaboratif Documentation Etc…
Introduction S’intègre parfaitement dans la suite Pentaho : Exemple : Report Designer pour le reporting Business Analytics pour l’intelligence artificielle Exemple : Flux de données récupérés en temps réel par l’ETL et qui donnent lieu à du reporting en temps sur ces données. Fonctionne sur une machine java Pas d’installation (dézippage du dossier) Solution portable et indépendante du système d’exploitation
Pentaho Data Integration CE 4 modules : Spoon : Interface graphique pour construire l’ETL Carte : Permet d’utiliser kettle sur un serveur distant Pan : Exécution des transformations en ligne de commande Kitchen : Exécution des jobs en ligne de commande
Pentaho Data Integration CE Deux possibilités de gestion des jobs et transformations : Par fichiers plats au format XML, en local En base de donnée pour permettre l’accès à plusieurs contributeurs
Spoon Petit rappel : Transformation : Job : Effectue les traitements sur les données Job : Vérifie la présence d’un fichier Assure la synchronisation des transformations Interroge un serveur Envoi un mail etc…
Spoon – Quelques étapes Tri de ligne Dédoublonnage Jointure Altération structure de flux Extraction depuis fichier Calcul
Aspects avancés Mode débogage : permet de visualiser les données en cours de traitement donne des informations sur les exceptions java rencontrées si erreur Clic droit sur l’étape, Prévisualiser
Aspects avancés Traitements avancés des données en JavaScript
Dans quel cas utiliser cet ETL Contexte du datawarehouse Traitement et regroupement de données en général Entreprise PME ou particuliers : coûts faibles ou nuls et maitrisés.
Pour aller plus loin :