La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Structures physiques Witold Litwin

Présentations similaires


Présentation au sujet: "1 Structures physiques Witold Litwin"— Transcription de la présentation:

1 1 Structures physiques Witold Litwin

2 2 Schéma interne n Définit les chemins d'accès aux données n En général dans l'hypothèse que la BD est –grande –sur le disque n Problèmes –Allocation d'espace disque –Accès direct aux enregistrement –Tampons RAM

3 3 Livres de Support n Voir le cours introductif (Cours 1) n De plus – –Garcia-Molina, H. Ullman, J. Widom J. Database System Implementation. Prentice Hall, 1999 »Description de LH »Jointure bi-passes et multi-passes »Optimisation de requêtes à base de coût

4 4 Principes typiques n Espace disque est paginé en pages de 4-8 KO –Appelés aussi blocs n Une page est une unité de transfert entre disque et RAM n Les pages sont structurées en fichiers –séquentiels ou directs ou non-ordonnés –hachés –Arbres B –autres

5 5 n Les indexes sont des fichiers qui contiennent les paires attribut(s) d'accès -> numéro de page n les indexes peuvent être –séquentiels ou directs ou non-ordonnés –hachés –arbres B –autres

6 6 Structure d'une page N#PAutres infosEnreg 1 Enreg Enreg 53

7 7 Utilisation d'indexes n Sil n'y a pas de chemin d'accès au fichier par la valeur d'attribut, alors il faut faire une longue recherche séquentielle n Un index crée le chemin d'accès aux pages pertinentes n On peut en avoir autant d'indexes que l'on veut n Avantage pour les recherches n Désavantage pour les MAJ, car il faut aussi mettre à jour les indexes

8 8 Page d'index typique N#PAutres inf. London Paris Paris Paris Athens NY Madrid Accélération de 10:1000 fois selon la capacité d'une page d'index

9 9 Accès haché n Le n# de page est obtenu par calcul à partir de la clé primaire de fichier mod 100 = 78 h Clé

10 10HachageHachage n Il existe de nombreuses fonctions de hachage n Il existe deux types de hachage –statique (classique) –virtuel (espace d'adressage peut grandir avec les insertions) »hachage dynamique (Larson) »hachage extensible (Fagin & al) »hachage linéaire (Litwin) –Implémenté dans nombreux produits –IIS, Frontpage, MsExchange, Netscape, Unify, LH Server… n Le fichier haché n'est pas ordonné – –pas de requêtes à intervalle

11 11 Fichiers ordonnés n Arbre-B est le plus populaire (tout SGBD) –En fait larbre B + lié (linked B + - tree de Lehma & Yao) »Pour le parcours séquentiel et laccès concurrent + efficace –Loquets individuels sur chaque page parcourue n Une page contient d>>1 paires en ordre lexicographique de clés –clé - enreg. –ou clé-pointeur de page avec l'enreg. n Une page qui devient pleine éclate en deux pages semi- pleines n La clé d'éclatement est dupliquée dans la page de niveau supérieur avec les pointeurs vers les nouvelles pages

12 12 dodo mom dada dede dudu mom Feuilles avec les enreg dodo... racine dada.. coco..

13 13 dodo mom dada dede dudu mom Feuilles avec les enreg dodo... racine dada.. coco.. Insert bébé bébé dede..

14 14... dada.. coco..dada..bébé.. dodo mom dada dede dudu mom dodo racine Insert bébé dede.....

15 15 coco dada dudu mom dodo... dada.. coco..dada..bébé.. dodo mom racine Insert bébé dede...

16 16 dodo mom dede insert bébé coco dada dudu mom dodo... dada.. coco..dada..bébé.. dede...

17 17 Structures de Données Distribuées et Scalables Client Serveur Multiordinateur

18 18 Opérations relationnelles n Restrictions A = 'C' –sur attribut-clé du fichier - + rapides avec hachage –sur autres attributs - rech. seq. ou par indexe n Restrictions à intervalle –sur attribut-clé ou pas - + rapide avec les arbres-B n Projections –recherche séquentielle (peut être plus efficace avec le hachage) –pourquoi ?

19 19 JointuresJointures n Equijointures + rapides avec le hachage –comment faire ? - jointures: technique générale - jointures: technique générale –Boucles imbriquées –Tri-interclassement (sort-merge) –Index –Hash »Linear Hash

20 20 Boucles imbriquées n Soit J = S[n].A * R[m].A où "*" note JOIN do i=1 to m ;/* Boucle ext. do j = 1 to n ;/* Boucle int. if R[i].A = S[j].A then R := R + R[i] * S[j] ;/* end ; n Coût CPU ?

21 21 Tri-InterclassementTri-Interclassement n Si la table R S nest pas ordonnée sur lattribut de jointure A, alors on trie R et S ou au moins S sur A n Il y a des multiples algorithmes dans la littérature n Si la table rentre entièrement en RAM, alors Quicksort est en général le plus rapide n Sinon alors le « Multiway Sort Merge » est recommandé n Ce type de jointure est surtout utile si –Les tables sont déjà triés sur A –La requête inclue ORDER BY A

22 22 Tri-InterclassementTri-Interclassement n R et S sont triés sur A ; la jointure est m:n r = 1 ; s = 1 ; do while r <= m and s <= n ; v := R[r].A ; do j = s by 1 while s[j].A < v ; end ; s := j ; do j = s by 1 while S[j].A = v ; do i = r by 1 while R[i].A = v ; J := J + R[i]*S[j] ; end ; end s := j ; do i = r by 1 while R[i].A = v ; end ; r := i ; end Coût CPU ? Coût CPU ?

23 23 Index Lookup n En général bien plus rapide que les méthodes précédentes Coût CPU ? Coût CPU ? n X indexe S.A do i = 1 to m /* Il y a k entrées dans X avec la valeur R[i].A do j = 1 to k J := J + R[i] * S[j] ; end ; end ; end ;

24 24 Hash Lookup n En général la méthode la plus efficace pour les équijointures n La table temporaire H cest S haché sur A do j = 1 to n ;/* hache S k= hash S[j].A ; H[k] := H[k] + S[j] ; do i = 1 to m ; k = hash R[i].A ; /* Il y a h tuples de S dans la case H(k) do i= 1 to h ;/* visite de H[k] if S[j].A = R[i].A then J := J + S[j] * R[i] ; end ; Coût CPU ? Coût CPU ?

25 25 Linear Hash Lookup n La taille de la table S peut être inconnue –S peut être une table temporaire crée pendant lévaluation dune restriction »Mode pipeline n Hachage statique est alors peu performant n LH solutionne ce problème –Si H est en RAM, alors la variante LKRHash semble le plus efficace »Conçu par P. Larson & al (Microsoft) »Utilisée dans de nombreux produits MS n LH est aussi préférable pour lévaluation bi-passe ou multi-passe

26 26 Mode d'exécution d'une opération relationnelle n Matérialisation –La table résultante est créée pour l'opération suivante dans l'arbre d'exécution n Pipeline –On passe un tuple à la fois par l'arbre –Moindre coût mémoire –Pas toujours possible »ORDER BY, Hash Lookup… n Mixte

27 27 Optimisation de requêtes n L'optimiseur assigne un coût à toute opération relationnelle de la requête –Typiquement: nombre de pages examinées –Surtout on examine les jointures »Le coût prévisible de chaque méthode possible –En général les indexes diminue les coûts –L'arbre algébrique d'exécution de la requête devient annoté n Chaque arbre annoté devient un plan d'exécution

28 28 Optimisation de requêtes (Choix des arbres algébriques) n Pour générer des plans on examine – –Les arbres gauches résultants des améliorations algébriques » »Approche générale – –Les arbres gauches et ramifiés » »Surtout pour les BDs parallèles n n L'espace des plans est en général très grand – –Des milliers de plans pour déjà pour quelques relations à joindre

29 29 Optimisation de requêtes On choisi le plan minimisant le coût total –System R (IBM) n Surtout, il faut choisir l'ordre des jointures n On examine –Tout plan possible »Programmation dynamique –Meilleur coût de tout (R1 JOIN R2) –Sur cette base, meilleur coût de tout (R1 JOIN R2) JOIN R3 –etc »Programmation dynamique à la "Selinger" –On peut conserver un coût non optimal s'il permet optimiser une opération plus tard –Jointure par tri-interclassement suivie par ORDER BY

30 30 Optimisation de requêtes n On examine par une heuristique certains plans seulement –"Hill Climbing" »On commence avec un plan OK –On varie des composantes –Une autre méthode pour la jointure… »On choisi le plan moins cher alors –On continue les variations jusqu'au temps limite où le meilleur plan –"Greedy Algorithm" »Une simplification de la programmation dynamique –A chaque étape on ne retient que le meilleur plan.

31 31 Gestion de tampons (buffers) n Cachez les pages peut largement améliorer les performances n Particulièrement pour les RAMs MO, –populaires aujourd'hui, mais rares et chères hier

32 32 Concept de cache CPU Cache Disque

33 33 Strategies pour la gestion de caches n Stratégie typique: LRU »remplacer la page le moins usité n Il a été prouvé que pour les BDs il vaut mieux une stratégie dite LRU-2 (Waikum & al, Sigmod 1993)

34 34 Bases parallèles n Partitionnement d'une table sur les mémoires de plusieurs CPUs –mémoire partagée (shared memory) »CPUs d'une même machine –mémoires locales (shared-nothing) »même machine ou multiordinateur réseau –réseau 10 Mb/s au moins –partionnement statique ou scalable n Exécution en parallèle d'opérations sur une BD n Amélioration notable de temps de réponse –traitement parallèle –traitement en RAM n Amélioration possible de la fiabilité –partitionnement redondant

35 35PartitionnementPartitionnement n Aléatoire –par place disponible n Localité de référence –Tuples de Paris sur le site à Paris etc. n Haché –le plus simple –ex. Teradata, Sybase –statique ou scalable (LH*...) –problème de non-uniformité n Ordonné –Statique (ex. Teradata, Sybase ?) –Scalable (RP*...) n Multi-attribut –Scalable (k-RP*...)

36 36 n Sélection et/ou projection –sur l'attribut de partitionnement »message au site concerné –sur un autre attribut »messages à tous les sites –sur un intervalle de l'attribut de partitionnement »messages aux sites concernés »message(s) à tous les sites –sur un autre intervalle »message(s) à tous les sites Opérations relationnelles

37 37 Jointures parallèles n Equi-jointures –Hachage »la méthode en général la plus efficace –"Probing" »quand une de tables est petite n Theta-jointures –fichiers ordonnés parallèles

38 38 Fonctions agrégats n Sum –somme de sommes parallèles n Count –somme de comptages parallèles n Avg –SUM et COUNT parallèles –somme de sommes / somme de comptages n Autres (MIN, MAX, VAR, TOP... ) –selon le cas

39 39 ConclusionConclusion n Gestion de structures physiques est un aspect fondamental de la conception des SGBD n Leur choix détermine les performances n Les principes changes rapidement: n RAMs bien plus grandes et moins chères n Nouveaux supports : RAIDs par exemple n Nouveaux types de données: k-d et multimédia nécessitant nouvelles structures: –arbre-R, arbre k-d, arbres quad.... n Structures parallèles ou distribuées: –DLH, LH*, RP*...

40 40 FINFIN


Télécharger ppt "1 Structures physiques Witold Litwin"

Présentations similaires


Annonces Google