module SIE depuis 2011 et IAMD depuis l’an dernier ! Gestion de Masse de Données (GMD) Introduction Adrien Coulet

Slides:



Advertisements
Présentations similaires
Etudes de cas A vous de faire Bases de données DRES – B. TALON.
Advertisements

Module Systèmes d’exploitation
La recherche documentaire
Informatique appliquée à la gestion Bases de données www. labri
Connecter des données métier à Office SharePoint Server 2007 via le Business Data Catalog.
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Mise en œuvre de l’informatique décisionnelle
A L I M E N T A T I O N A G R I C U L T U R E E N V I R O N N E M E N T PhpMyGI une interface générique mysql Interface générique ? Pourquoi une interface.
Intégrer vos données avec.
TP 3-4 BD21.
Gestion de la persistance des objets
Logiciel de base de données
Un système de médiation basé sur les ontologies
Initiation au système d’information et aux bases de données
Les BDAs (Les bases de données réparties)
Initiation au système d’information et aux bases de données
Glide OS. INTRODUCTION : Ce bureau comporte : Un client de messagerie. Un agenda. Un éditeur photos. Un traitement de texte. Un outil de création de site.
Rappel sur les bases de données et le vocabulaire
XML-Family Web Services Description Language W.S.D.L.
Questions/problèmes Contraintes de départ… ressources, plateforme… utilisation de matériel existant –Pas de temps du prof pour préparer des exemples… concrets…
Principes de persistance dans les applications orienté objet
Initiation aux bases de données et à la programmation événementielle
Chap 4 Les bases de données et le modèle relationnel
Administration de bases de données spatiales avec SavGIS
Initiation aux bases de données
BERNARDIN Benoît Lycée Louis Pergaud
Recherche Documentaire et traitement de l’information
Gestion des bases de données
La problématique de la recherche de document Journée de formation 29 février 2008.
Projet Génie Logiciel & UML, Bases de Données & Interfaces
Moteur de recherche d’information
Staf 2x Cours de bases de données
Un modèle sémantique pour linteropérabilité de systèmes dinformation Equipe Ingénierie informatique et base de données – Laboratoire LE2I Université de.
Informatique appliquée UQAC (Dim) DIAPORAMA Informatique appliquée UQAC (Dim)
L3 Module Libre Année universitaire Initiation à la Bioinformatique Jean-Michel RICHER.
Initiation aux bases de données et à la programmation événementielle
Gestion de données distribuées Intégration - Médiation
Vers une génération automatique du mapping de sources biomédicales
Module 5 : Configuration et gestion des systèmes de fichiers
Présentation du projet edot Revue intermédiaire - 29 Juin 2004.
Organisation de l’entrepôt edot
BASES DE DONNEES RELATIONNELLES DES CONCEPTS AUX APPLICATIONS.
Gestion de documents XML hétérogènes
Présentation Finale Spirit 07 / 03 / 2011 Groupe Vert 1 Equipe Verte.
Présentation Finale Spirit 07 / 03 / 2011 Groupe Vert 1 Equipe Verte.
1 Initiation aux bases de données et à la programmation événementielle Responsable : Souheib BAARIR. (le sujet de votre .
Option IT Séminaires Présentation. Option IT - Séminaires Objectifs  Préparer en un temps réduit un dossier de synthèse sur un sujet d’actualité.
Edot Groupe de travail sur l’intégration. Le problème Intégration de nouvelles données avec les données existantes dans l’entrepôt Les données existantes:
Générateur d’applications WEB de gestion de données Menus et aide en ligne.
Plan de la présentation
Initiation aux SGBD Frédéric Gava (MCF)
Séance /10/ Projet de site dynamique avec Dreamweaver : MyCMS
Cours Access TuanLoc NGUYEN. Contact Nguyen TuanLoc Tél: Web:
ORGANISATION DE L’ENSEIGNEMENT Informatique et Sciences du Numérique.
1 Structure en MC Principes Stockage des données dans la mémoire volatile d’un ordinateur Problèmes Stockage temporaire «Petits» volumes de données Langages.
ORGANISATION DE L’ENSEIGNEMENT
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
INTRODUCTION AUX BASES DE DONNEES
Responsable : Serge Hamon
Initiation aux bases de données et à la programmation événementielle
Initiation aux bases de données et à la programmation événementielle
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Introduction Module 1.
Proposition de possibilité d’évolution de nos spécialités Deux projets (liés) : Projet 1 : Informatique Computationnelle – Etudiants 4 e et 5 e IR Projet.
Analyse, élaboration et exploitation d’une Base de Données
Cours 11 Entrepôts de données
Le langage SQL LA Plan 1. Introduction Rappels sur le modèle relationnel Les caractéristiques du langage SQL 2. Le Langage d'Interrogation des.
DUT 1ère année Génie Biologique Paul-Antoine Bisgambiglia Année
ARIANE : Interopérabilité sémantique et accès aux sources d'information sur Internet Sylvain Aymard, Michel Joubert, Dominique Fieschi, Marius Fieschi.
Séminaire IRIT-UT1 « Les nouveaux de 2010 » Novembre 2010 Les entrepôts de données et des documents = des entrepôts de documents ? Ronan Tournier
Transcription de la présentation:

module SIE depuis 2011 et IAMD depuis l’an dernier ! Gestion de Masse de Données (GMD) Introduction Adrien Coulet

Présentation du module Problématique informatique Objectifs Plan Organisation du module (CM/TP/Projet/Evaluation)

GMD : problématique (1/4) CAS 1 : Une masse de données regroupée dans une seule source : par exemple une grosse BD – problème d'optimisation du système de gestion ex1 : création d'indexes ex2 : division de tables GMD (un peu) + Module "BD Avancées" (beaucoup)

Limites de taille des sources de données Systèmes de fichiers taille max d'1 fichiertaille max d'1 volume – FAT 32 4GB 2TB – HFS Plus 8EB 8EB (OS10.3.9) – NTFS16EB 16EB – ext416TB 16TB Bases de données taille max d'une table taille max d'une base – Excel ligne x 256 col – Access GB2GB – MySQL 5 256/64TBIllimité (en théorie) – Oracle 104GB x block size(i.e. 4KB)4GB x block size

GMD : problématique (2/4) CAS2 : des données réparties dans de nombreuses sources de données distinctes – le volume de données à manipuler peut être très élevé – c'est le cas le plus fréquent en pratique Problème : les sources de données sont hétérogènes

GMD : problématique (3/4) Les sources sont hétérogènes – en terme de contenu – en terme de localisation physique ex : locale ou distante – en terme d'accès ex : parsing, appel de Web service, requête relationnelle – en terme de qualité – en terme de syntaxe (format de données) ex : XML, schéma relationnelles, fichier CSV, textes – en terme de sémantique (sens associé aux données) ex : polysémie, synonymie

Quelques "définitions" Source ou ressource de données ex : BD, fichier, site web, corpus de texte Élément d'une source de données ex : un n-uplet, une ligne d'un tableau, une page web, un texte Système d'intégration système qui permette d'interroger de façon uniforme et transparente des source de données hétérogènes Mise en correspondance (ou mapping)

GMD : problématique (4/4) Le vrai défi pour manipuler des masses de données, c’est de pouvoir utiliser différentes sources hétérogènes ensembles, càd de les intégrer On distingue deux grandes approches (et deux type d'architectures associés) pour l'intégration de données : – matérialisée – dématérialisée (ou fédérée ou à médiateur)

GMD : objectifs Vous donner des clés pour 1)accéder à 2)extraire 3)transformer 4)intégrer des données de sources hétérogènes de façon efficace de façon cohérente Un cours pour des ingénieurs

GMD : organisation du module 4 CM 15 TP – 5 séances encadrées en 1/2 groupes – 9 séances pour le projet en groupes Evaluation – 23/02 : 1 écrit de 2h, doc ok (coef 1) – 27-30/04 : soutenances de projet (coef 2)

GMD : plan du cours I.Accéder et extraire des données ①dans un système de gestion de fichier, à partir de fichiers textes ②par un service Web à partir de fichier XML ③par utilisation d'une API de programmation dans une BD relationnelle II.Transformer les données ①par rapport à un schéma global ou une ontologie ②pour gérer les données manquantes ou bruitées III.Regrouper et interroger les données ①de façon matérialisée (entrepôts, cubes de données, NoSQL) ②de façon dématérialisée (systèmes médiateurs)

GMD : projet noté en binôme 9 séances encadrés (TP) prévues au moins 20 heures de travail personnel distribution des sujets le X: implémenter un système dématérialisé d'intégration de données Soutenances: la semaine du 27/4 démo, motivation des choix techniques