La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Bases de Données Georges Gardarin. 1. BD: Quest-ce que cest ? Ensemble de données apparentées (même thématique) Facilement interrogeable et modifiable.

Présentations similaires


Présentation au sujet: "Bases de Données Georges Gardarin. 1. BD: Quest-ce que cest ? Ensemble de données apparentées (même thématique) Facilement interrogeable et modifiable."— Transcription de la présentation:

1 Bases de Données Georges Gardarin

2 1. BD: Quest-ce que cest ? Ensemble de données apparentées (même thématique) Facilement interrogeable et modifiable par un langage de haut niveau (proche langue naturelle) Stocké sur mémoire secondaire (disques) Exemples: –Base des véhicules {voitures, personnes, liens de propriétés } Quelles sont les véhicules de M. Dupont ? Qui possèdent des véhicules de prix > ? –Base des vins {vins, buveurs …} Listes des vins de qualité excellente ? Ajouter un abus au buveur Dupont Jules

3 Pourquoi faire ? Mémoriser des données –Structurées (voitures, personnes, employés, vins …) –Documents (texte, images, films …) Retrouver en ligne la bonne donnée au bon moment –Le salaire de Dupont, sa photo –Lavoir de votre compte en banque Mettre à jour les données variant dans le temps Volume de données de plus en plus grands –Giga, Terra, Péta bases (10**15 octets) –Numériques, Textuelles, Multimédia (images, films,...) –De plus en plus de données archivées

4 Structure des données Les données sont structurées et identifiées –Données élémentaires ex: Votre salaire, Votre note en L1 –Données composées ex: Votre CV, vos résultats de l'année –Identifiant humain ex: NSS ou machine: P26215 De plus en plus de données faiblement structurées –Texte libre, document, Images –Emergence du semi-structuré avec le Web –Il faut aussi les stocker et les interroger –Interrogation approximative type Google Google maintient sans doute la plus grande base du monde –Interrogation par mots-clés –Interrogation approximative (top 10)

5 La hiérarchie des mémoires Cache (SRAM) Mémoire principale (RAM) Mémoire secondaire Mémoire terciaire Capacité vs Coût & Vitesse Registres 2-5 ns 3-10 ns ns 5-10 ms Un accès disque est environ 100,000 fois plus lent quun accès mémoire! –Eviter les accès disques grande mémoire principale –Amortir les accès disques placement des données –Minimiser le nombre daccès disques méthodes daccès

6 Un peu d'histoire Années 60: –Récipients logique de données fichiers sur disque –Accès séquentiel puis sur clé Lire (Nomf, Article), Ecrire (Nomf, Article) Lire (Nomf, Article, Clé), Ecrire (Nomf, article, Clé) Années 70: –Avènement des Bases de Données Réseaux (issues dApollo) –Ensemble de fichiers reliés par des pointeurs –Langage d'interrogation par navigation Années 80: –Avènement des Bases de Données Relationnelles (BDR) –Relations entre ensemble de données –Langage d'interrogation par assertion logique

7 2. BD et Monde réel Les données représente des entités (objets) du monde réel –Nom du type dobjet Exemple: voiture –Caractéristiques des objets Exemple: puissance, couleur marque –Liens entre objets Exemple: Pierre possède la voiture 212 BDW 75 Une BD représente une partie du monde réel –Entreprise, Application, Univers

8 Réel Modèle conceptuel Indépendant du modèle de données Indépendant du SGBD Modèle logique Dépendant du modèle de données Indépendant du SGBD CodasylRelationnelObjetXML Modèle Physique Dépendant du modèle de données Dépendant du SGBD Organisation physique des données Structures de stockage des données Structures accélératrices (index) Modélisation du réel Médecin effectue Visite

9 3. Le transactionnel (OLTP) Opérations typiques –mises à jour ponctuelles de lignes par des écrans prédéfinis, souvent répétitives, sur les données les plus récentes Exemple –Benchmark TPC-A et TPC-B : débit / crédit sur une base de données bancaire –TPC-A transactionnel et TPC-B avec traitement par lot –Mesure le nombre de transactions par seconde (tps) et le coût par tps

10 La base TPC-A/B Comptes Caissiers Agences Historique Taille pour 10 terminaux, avec règle d'échelle ( scaling rule)

11 La transaction Débit - Crédit Begin-Transaction –Update Account Set Balance = Balance + Delta Where AccountId = Aid ; Where AccountId = Aid ; –Insert into History (Aid, Tid, Bid, Delta, TimeStamp) –Update Teller Set Balance = Balance + Delta Where TellerId = Tid ; Where TellerId = Tid ; –Update Branch Set Balance = Balance + Delta Where TellerId = Tid ; Where TellerId = Tid ;End-Transaction. 90 % doivent avoir un temps de réponse < 2 secondes Chaque terminal génère une transaction toute les 10s Performance = Nb transactions commises / Ellapse time

12 4. Le décisionnel (OLAP) Utilisation des données pour aider à la prise de décision dans lentreprise Maintient et prise en compte des versions historiques (6 mois, un an,…) Requêtes complexes sur toute la base –Evolution du CA par produit –Evolution des performances des vendeurs en France –Que se passe-t-il si on ferme la filiale française ? –Quid dune campagne de marketing pour vendre des guimauves ? –Quels prospects cibler ?

13 Explosion de l OLAP Facteurs économiques & technologiques Introduction DW

14 Motivations des entreprises Besoin des entreprises –accéder à toutes les données de lentreprise –regrouper les informations disséminées –analyser et prendre des décisions rapidement (OLAP) Exemples d'applications concernées –Grande distribution : marketing, maintenance,... produits à succès, modes, habitudes dachat préférences par secteurs géographiques –Bancaire : suivi des clients, gestion de portefeuilles mailing ciblés pour le marketing –Télécommunications : pannes, fraudes, mobiles,... classification des clients, détection fraudes, fuites de clients Introduction DW

15 Datawarehouse : définition Entrepôt de données –Ensemble de données historisées variant dans le temps, organisé par sujets, consolidé dans une base de données unique, géré dans un environnement de stockage particulier, aidant à la prise de décision dans lentreprise. Trois fonctions essentielles : –collecte de données de bases existantes et chargement –gestion des données dans lentrepôt –analyse de données pour la prise de décision

16 Architecture type

17 Cohabitation décisionnel-transactionnel Les transactions doivent souvent cohabiter avec des requêtes décisionnelles, traitant un grand nombre de tuples en lecture Exemple : –Moyenne des avoir des comptes par agence – SELECT B.BranchId, AVG(C.Balance) FROM Branch B, Account C FROM Branch B, Account C WHERE B.BrachId = C.BranchId WHERE B.BrachId = C.BranchId GROUP BY B.BranchId ; GROUP BY B.BranchId ;

18 5. Le Multimédia (GED) Archivage et recherche de données multimédias –Texte (livres, articles, journaux, …) –Images –Films –Données géographiques (cartes 2D, 2,5 D) –Données spatiales (3D) Recherche par proximité –Textes : liste de mots-clés (à la Google) –Images : par proximité (couleur, forme, texture …) –Cartes : par erctangle englobant, distance, zoom

19 Recherche plein texte Recherche sur mot-clés Recherche de phrase Support des mots de liaison Recherche sur préfix, suffix, infix Normalisation des mots, accents, capitales, … Recherche par proximité (unité = mots) Spécification de l'ordre des mots Combinaison logic avec AND, OR, NOT Recherche par similarité Tri des résultats par pertinence

20 Recherche dimages Histogramme de couleur Texture Formes et contours Similarité Exemple: trouver toutes les images qui ressemble au bandit ?

21 6. Fichiers versus BD Fichiers composés darticles Gérés par les systèmes opératoires Accédés par les applications –Lus –Écrits –Stockés sur disques –Avec des tables des matières (index) Technique connue depuis les années 60

22 Chirurgie Psychiatrie Systèmes de fichiers Caractéristiques Comptabilité Consultations Problèmes

23 Format des fichiers Caractéristiques Plusieurs applications plusieurs formats plusieurs formats plusieurs langages plusieurs langages Problèmes Difficultés de gestion Dupont Symptomes : y Turlututu : sqj Symptomes : y Turlututu : sdd Analyses : xxx Dupond Turlututusqjsk Symptom: yyyy Analyses xxxx Turlututudhjsd Analyses :xx Duipont Turlututu : sq Symptomyyyy Analysesxxxx Turlututudhjsd Duhpon Symptomes : yy Analyses : xxxx Symptomes : yy

24 Redondance (données) Caractéristiques Plusieurs applications plusieurs formats plusieurs formats plusieurs langages plusieurs langages Redondance de données Problèmes Difficultés de gestion Incohérence des données Dupont Symptomes : y Turlututu : sqj Symptomes : y Turlututu : sdd Analyses : xxx Dupond Turlututusqjsk Symptom: yyyy Analyses xxxx Turlututudhjsd Analyses :xx Duipont Turlututu : sq Symptomyyyy Analysesxxxx Turlututudhjsd Duhpon Symptomes : yy Analyses : xxxx Symptomes : yy

25 InterrogationsCaractéristiques Plusieurs applications plusieurs formats plusieurs formats plusieurs langages plusieurs langages Redondance de données Pas de facilité dinterrogation Question développement Question développement Problèmes Difficultés de gestion Incohérence des données Coûts élevés Maintenance difficile Dupont Symptomes : y Turlututu : sqj Symptomes : y Turlututu : sdd Analyses : xxx Dupond Turlututusqjsk Symptom: yyyy Analyses xxxx Turlututudhjsd Analyses :xx Duipont Turlututu : sq Symptomyyyy Analysesxxxx Turlututudhjsd Duhpon Symptomes : yy Analyses : xxxx Symptomes : yy ChiruSoft ConsultSoft PsychiaSoft ComptaSoft

26 Pannes ??? Caractéristiques Plusieurs applications plusieurs formats plusieurs formats plusieurs langages plusieurs langages Redondance de données Pas de facilité dinterrogation Question développement Question développement Redondance de code Problèmes Difficultés de gestion Incohérence des données Coûts élevés Maintenance difficile Gestion de pannes ??? Dupont Symptomes : y Turlututu : sqj Symptomes : y Turlututu : sdd Analyses : xxx Dupond Turlututusqjsk Symptom: yyyy Analyses xxxx Turlututudhjsd Analyses :xx Duipont Turlututu : sq Symptomyyyy Analysesxxxx Turlututudhjsd Duhpon Symptomes : yy Analyses : xxxx Symptomes : yy ChiruSoft ConsultSoft PsychiaSoft ComptaSoft

27 Partage de données Caractéristiques Plusieurs applications plusieurs formats plusieurs formats plusieurs langages plusieurs langages Redondance de données Pas de facilité dinterrogation Question développement Question développement Redondance de code Problèmes Difficultés de gestion Incohérence des données Coûts élevés Maintenance difficile Gestion de pannes ??? Partage des données ??? Dupont Symptomes : y Turlututu : sqj Symptomes : y Turlututu : sdd Analyses : xxx Dupond Turlututusqjsk Symptom: yyyy Analyses xxxx Turlututudhjsd Analyses :xx Duipont Turlututu : sq Symptomyyyy Analysesxxxx Turlututudhjsd Duhpon Symptomes : yy Analyses : xxxx Symptomes : yy ChiruSoft ConsultSoft PsychiaSoft ComptaSoft

28 ConfidentialitéCaractéristiques Plusieurs applications plusieurs formats plusieurs formats plusieurs langages plusieurs langages Redondance de données Pas de facilité dinterrogation Question développement Question développement Redondance de code Problèmes Difficultés de gestion Incohérence des données Coûts élevés Maintenance difficile Gestion de pannes ??? Partage des données ??? Confidentialité ??? Dupont Symptomes : y Turlututu : sqj Symptomes : y Turlututu : sdd Analyses : xxx Dupond Turlututusqjsk Symptom: yyyy Analyses xxxx Turlututudhjsd Analyses :xx Duipont Turlututu : sq Symptomyyyy Analysesxxxx Turlututudhjsd Duhpon Symptomes : yy Analyses : xxxx Symptomes : yy ChiruSoft ConsultSoft PsychiaSoft ComptaSoft

29 7. Lapproche Bases de données Modélisation des données Eliminer la redondance de données Eliminer la redondance de données Centraliser et organiser correctement les données Centraliser et organiser correctement les données Plusieurs niveaux de modélisation Plusieurs niveaux de modélisation Outils de conception Outils de conception Logiciel «Système de Gestion de Bases de Données» Logiciel «Système de Gestion de Bases de Données» Factorisation des modules de contrôle des applications Factorisation des modules de contrôle des applications - Interrogation, cohérence, partage, gestion de pannes, etc… Administration facilitées des données Administration facilitées des données

30 Champs, attributs, colonnes Modélisation Relationnelle (1) Id-DNomPrénom 1DupontPierre 2DurandPaul 3MasseJean ….……..…… Relation ou table Tuples, lignes ou n-uplets

31 Modélisation Relationnelle (2) Docteurs Id-DNom Préno m 1 Dupo nt Pierre 2 Duran d Paul 3 Mass e Jean ….……..…… Visites VisitesId-DId-P Id- V DatePrix juin août juillet mars 250 PatientsId-PNom Préno m Ville 1 Lebea u Jacque s Paris 2 Troge r ZoeEvry 3DoeJohnParis 4PerryPaule Valento n ….…….…….……. Prescriptions Id- V Lign e Id-M Posolog ie par jour gouttes par jour par jour gouttes ….….….………… MédicamentsId-MNomDescription 1 Aspegic 1000 ………………………… ….. 2Fluisédal 3Mucomyst ….……..

32 Fonctions des SGBD BD VIII - Concurrence daccès VII - Gestion des pannes I- Indépendance Physique IX - Gestion de la confidentialité II- Indépendance Logique VI - Gestion de la cohérence X - Standards V - Optimisation des questions III – Langage de manipulation IV - Gestion des vues

33 Quétudie-t-on en BD ? Les modèles de données Les méthodes de stockage Les langages de requêtes Les algorithmes doptimisation de requêtes Les algorithmes de contrôles Les méthodes de publication de données Les architectures de systèmes La répartition des données La prise en compte du web


Télécharger ppt "Bases de Données Georges Gardarin. 1. BD: Quest-ce que cest ? Ensemble de données apparentées (même thématique) Facilement interrogeable et modifiable."

Présentations similaires


Annonces Google