La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Bases de Données Georges Gardarin.

Présentations similaires


Présentation au sujet: "Bases de Données Georges Gardarin."— Transcription de la présentation:

1 Bases de Données Georges Gardarin

2 1. BD: Qu’est-ce que c’est ?
Ensemble de données apparentées (même thématique) Facilement interrogeable et modifiable par un langage de haut niveau (proche langue naturelle) Stocké sur mémoire secondaire (disques) Exemples: Base des véhicules {voitures, personnes, liens de propriétés } Quelles sont les véhicules de M. Dupont ? Qui possèdent des véhicules de prix > € ? Base des vins {vins, buveurs …} Listes des vins de qualité excellente ? Ajouter un abus au buveur Dupont Jules

3 Pourquoi faire ? Mémoriser des données
Structurées (voitures, personnes, employés, vins …) Documents (texte, images, films …) Retrouver en ligne la bonne donnée au bon moment Le salaire de Dupont, sa photo L’avoir de votre compte en banque Mettre à jour les données variant dans le temps Volume de données de plus en plus grands Giga, Terra, Péta bases (10**15 octets) Numériques, Textuelles, Multimédia (images, films,...) De plus en plus de données archivées

4 Structure des données Les données sont structurées et identifiées
Données élémentaires ex: Votre salaire, Votre note en L1 Données composées ex: Votre CV, vos résultats de l'année Identifiant humain ex: NSS ou machine: P26215 De plus en plus de données faiblement structurées Texte libre, document, Images Emergence du semi-structuré avec le Web Il faut aussi les stocker et les interroger Interrogation approximative type Google Google maintient sans doute la plus grande base du monde Interrogation par mots-clés Interrogation approximative (top 10)

5 La hiérarchie des mémoires
Capacité vs Coût & Vitesse Mémoire terciaire Un accès disque est environ 100,000 fois plus lent qu’un accès mémoire! Eviter les accès disques grande mémoire principale Amortir les accès disques placement des données Minimiser le nombre d’accès disques méthodes d’accès Mémoire secondaire 5-10 ms Mémoire principale (RAM) ns 3-10 ns Cache (SRAM) 2-5 ns Registres

6 Un peu d'histoire Années 60: Années 70: Années 80:
Récipients logique de données  fichiers sur disque Accès séquentiel puis sur clé Lire (Nomf, Article), Ecrire (Nomf, Article) Lire (Nomf, Article, Clé), Ecrire (Nomf, article, Clé) Années 70: Avènement des Bases de Données Réseaux (issues d’Apollo) Ensemble de fichiers reliés par des pointeurs Langage d'interrogation par navigation Années 80: Avènement des Bases de Données Relationnelles (BDR) Relations entre ensemble de données Langage d'interrogation par assertion logique

7 2. BD et Monde réel Les données représente des entités (objets) du monde réel Nom du type d’objet Exemple: voiture Caractéristiques des objets Exemple: puissance, couleur marque Liens entre objets Exemple: Pierre possède la voiture 212 BDW 75 Une BD représente une partie du monde réel Entreprise, Application, Univers

8 Modélisation du réel Réel Modèle conceptuel Modèle logique
Indépendant du modèle de données Indépendant du SGBD Modèle logique Dépendant du modèle de données Codasyl Relationnel Objet XML Modèle Physique Dépendant du SGBD Organisation physique des données Structures de stockage des données Structures accélératrices (index) Médecin effectue Visite

9 3. Le transactionnel (OLTP)
Opérations typiques mises à jour ponctuelles de lignes par des écrans prédéfinis, souvent répétitives, sur les données les plus récentes Exemple Benchmark TPC-A et TPC-B : débit / crédit sur une base de données bancaire TPC-A transactionnel et TPC-B avec traitement par lot Mesure le nombre de transactions par seconde (tps) et le coût par tps

10 La base TPC-A/B 1 100000 Agences Comptes Caissiers Historique 100
Taille pour 10 terminaux, avec règle d'échelle ( scaling rule)

11 La transaction Débit - Crédit
Begin-Transaction Update Account Set Balance = Balance + Delta Where AccountId = Aid ; Insert into History (Aid, Tid, Bid, Delta, TimeStamp) Update Teller Set Balance = Balance + Delta Where TellerId = Tid ; Update Branch Set Balance = Balance + Delta End-Transaction. 90 % doivent avoir un temps de réponse < 2 secondes Chaque terminal génère une transaction toute les 10s Performance = Nb transactions commises / Ellapse time

12 4. Le décisionnel (OLAP) Utilisation des données pour aider à la prise de décision dans l’entreprise Maintient et prise en compte des versions historiques (6 mois, un an,…) Requêtes complexes sur toute la base Evolution du CA par produit Evolution des performances des vendeurs en France Que se passe-t-il si on ferme la filiale française ? Quid d’une campagne de marketing pour vendre des guimauves ? Quels prospects cibler ?

13 Explosion de l ’OLAP Facteurs économiques & technologiques
Introduction DW 3

14 Motivations des entreprises
Besoin des entreprises accéder à toutes les données de l’entreprise regrouper les informations disséminées analyser et prendre des décisions rapidement (OLAP) Exemples d'applications concernées Grande distribution : marketing, maintenance, ... produits à succès, modes, habitudes d’achat préférences par secteurs géographiques Bancaire : suivi des clients, gestion de portefeuilles mailing ciblés pour le marketing Télécommunications : pannes, fraudes, mobiles, ... classification des clients, détection fraudes, fuites de clients Introduction DW 2

15 Datawarehouse : définition
Entrepôt de données Ensemble de données historisées variant dans le temps, organisé par sujets, consolidé dans une base de données unique, géré dans un environnement de stockage particulier, aidant à la prise de décision dans l’entreprise. Trois fonctions essentielles : collecte de données de bases existantes et chargement gestion des données dans l’entrepôt analyse de données pour la prise de décision Introduction DW 8

16 Architecture type 11

17 Cohabitation décisionnel-transactionnel
Les transactions doivent souvent cohabiter avec des requêtes décisionnelles, traitant un grand nombre de tuples en lecture Exemple : Moyenne des avoir des comptes par agence SELECT B.BranchId, AVG(C.Balance) FROM Branch B, Account C WHERE B.BrachId = C.BranchId GROUP BY B.BranchId ;

18 5. Le Multimédia (GED) Archivage et recherche de données multimédias
Texte (livres, articles, journaux, …) Images Films Données géographiques (cartes 2D, 2,5 D) Données spatiales (3D) Recherche par proximité Textes : liste de mots-clés (à la Google) Images : par proximité (couleur, forme, texture …) Cartes : par erctangle englobant, distance, zoom

19 Recherche plein texte Recherche sur mot-clés Recherche de phrase
Support des mots de liaison Recherche sur préfix, suffix, infix Normalisation des mots, accents, capitales, … Recherche par proximité (unité = mots) Spécification de l'ordre des mots Combinaison logic avec AND, OR , NOT Recherche par similarité Tri des résultats par pertinence

20 Recherche d’images Histogramme de couleur Texture Formes et contours
Similarité Exemple: trouver toutes les images qui ressemble au bandit ?

21 6. Fichiers versus BD Fichiers composés d’articles
Gérés par les systèmes opératoires Accédés par les applications Lus Écrits Stockés sur disques Avec des tables des matières (index) Technique connue depuis les années 60

22 Systèmes de fichiers Problèmes Caractéristiques Comptabilité Chirurgie
Consultations Psychiatrie

23 Format des fichiers Problèmes Caractéristiques Plusieurs applications
plusieurs formats plusieurs langages Dupont Symptomes : y Turlututu : sqj Turlututu : sdd Analyses : xxx Dupond Turlututusqjsk Symptom: yyyy Analyses xxxx Turlututudhjsd Analyses :xx Problèmes Difficultés de gestion Duhpon Symptomes : yy Analyses : xxxx Duipont Turlututu : sq Symptomyyyy Analysesxxxx Turlututudhjsd

24 Redondance (données) Problèmes Caractéristiques Plusieurs applications
plusieurs formats plusieurs langages Redondance de données Dupont Symptomes : y Turlututu : sqj Turlututu : sdd Analyses : xxx Dupond Turlututusqjsk Symptom: yyyy Analyses xxxx Turlututudhjsd Analyses :xx Problèmes Difficultés de gestion Incohérence des données Duhpon Symptomes : yy Analyses : xxxx Duipont Turlututu : sq Symptomyyyy Analysesxxxx Turlututudhjsd

25 Interrogations Problèmes Caractéristiques Plusieurs applications
plusieurs formats plusieurs langages Redondance de données Pas de facilité d’interrogation Question développement Dupont Symptomes : y Turlututu : sqj Turlututu : sdd Analyses : xxx Dupond Turlututusqjsk Symptom: yyyy Analyses xxxx Turlututudhjsd Analyses :xx ComptaSoft ChiruSoft Problèmes Difficultés de gestion Incohérence des données Coûts élevés Maintenance difficile Duhpon Symptomes : yy Analyses : xxxx Duipont Turlututu : sq Symptomyyyy Analysesxxxx Turlututudhjsd ConsultSoft PsychiaSoft

26 Pannes ??? Problèmes Caractéristiques Plusieurs applications
plusieurs formats plusieurs langages Redondance de données Pas de facilité d’interrogation Question développement Redondance de code Dupont Symptomes : y Turlututu : sqj Turlututu : sdd Analyses : xxx Dupond Turlututusqjsk Symptom: yyyy Analyses xxxx Turlututudhjsd Analyses :xx ComptaSoft ChiruSoft Problèmes Difficultés de gestion Incohérence des données Coûts élevés Maintenance difficile Gestion de pannes ??? Duhpon Symptomes : yy Analyses : xxxx Duipont Turlututu : sq Symptomyyyy Analysesxxxx Turlututudhjsd ConsultSoft PsychiaSoft

27 Partage de données Problèmes Caractéristiques Plusieurs applications
plusieurs formats plusieurs langages Redondance de données Pas de facilité d’interrogation Question développement Redondance de code Dupont Symptomes : y Turlututu : sqj Turlututu : sdd Analyses : xxx Dupond Turlututusqjsk Symptom: yyyy Analyses xxxx Turlututudhjsd Analyses :xx ComptaSoft ChiruSoft Problèmes Difficultés de gestion Incohérence des données Coûts élevés Maintenance difficile Gestion de pannes ??? Partage des données ??? Duhpon Symptomes : yy Analyses : xxxx Duipont Turlututu : sq Symptomyyyy Analysesxxxx Turlututudhjsd ConsultSoft PsychiaSoft

28 Confidentialité Problèmes Caractéristiques Plusieurs applications
plusieurs formats plusieurs langages Redondance de données Pas de facilité d’interrogation Question développement Redondance de code Dupont Symptomes : y Turlututu : sqj Turlututu : sdd Analyses : xxx Dupond Turlututusqjsk Symptom: yyyy Analyses xxxx Turlututudhjsd Analyses :xx ComptaSoft ChiruSoft Problèmes Difficultés de gestion Incohérence des données Coûts élevés Maintenance difficile Gestion de pannes ??? Partage des données ??? Confidentialité ??? Duhpon Symptomes : yy Analyses : xxxx Duipont Turlututu : sq Symptomyyyy Analysesxxxx Turlututudhjsd ConsultSoft PsychiaSoft

29 7. L’approche ‘‘Bases de données’’
Modélisation des données  Eliminer la redondance de données Centraliser et organiser correctement les données Plusieurs niveaux de modélisation Outils de conception Logiciel «Système de Gestion de Bases de Données» Factorisation des modules de contrôle des applications - Interrogation, cohérence, partage, gestion de pannes, etc… Administration facilitées des données

30 Modélisation Relationnelle (1)
Champs, attributs, colonnes Champs, attributs, colonnes Champs, attributs, colonnes Relation ou table Id-D Nom Prénom 1 Dupont Pierre 2 Durand Paul 3 Masse Jean …. …….. …… Tuples, lignes ou n-uplets Tuples, lignes ou n-uplets Tuples, lignes ou n-uplets Tuples, lignes ou n-uplets

31 Modélisation Relationnelle (2)
Docteurs Id-D Nom Prénom 1 Dupont Pierre 2 Durand Paul 3 Masse Jean …. …….. …… Prescriptions Id-V Ligne Id-M Posologie 1 12 1 par jour 2 5 10 gouttes 8 2 par jour 3 2 gouttes …. ………… Visites Id-D Id-P Id-V Date Prix 1 2 15 juin 250 12 août 180 3 13 juillet 350 4 1 mars Patients Id-P Nom Prénom Ville 1 Lebeau Jacques Paris 2 Troger Zoe Evry 3 Doe John 4 Perry Paule Valenton …. ……. Médicaments Id-M Nom Description 1 Aspegic 1000 …………………………….. 2 Fluisédal 3 Mucomyst …. ……..

32 Fonctions des SGBD Système de gestion de bases de données BD
I- Indépendance Physique X - Standards II- Indépendance Logique IX - Gestion de la confidentialité BD III – Langage de manipulation VIII - Concurrence d’accès IV - Gestion des vues VII - Gestion des pannes V - Optimisation des questions VI - Gestion de la cohérence

33 Qu’étudie-t-on en BD ? Les modèles de données Les méthodes de stockage
Les langages de requêtes Les algorithmes d’optimisation de requêtes Les algorithmes de contrôles Les méthodes de publication de données Les architectures de systèmes La répartition des données La prise en compte du web


Télécharger ppt "Bases de Données Georges Gardarin."

Présentations similaires


Annonces Google