B.Shishedjiev - Entrepôts1 La representation de l’histoire: par le systèmes transactionels - les bases scintillantes par les entrepôts de données - instantanés.

Slides:



Advertisements
Présentations similaires
Bases de Données Avancées: Bases de Données Relationnelles
Advertisements

Iceberg Cube Ne calculer que les cellules du datacube dont le nombre d'occurences satisfait la condition : HAVING COUNT(*) >= minsup Motivation Supposons.
Classification et prédiction
Classification et prédiction
Règles d’association.
19 septembre 2006 Tendances Logicielles IBM Rational Data Architect Un outil complet de modélisation et de conception pour SGBD Isabelle Claverie-Berge.
SQL - Subtilités.
Algèbre relationnelle
SEQUENCE PEDAGOGIQUE 1ère STG Information et gestion
Les requêtes Manière de dialoguer avec une base de donnée pour :
R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)
Copyright © 2004, SAS Institute Inc. All rights reserved. Processus Stockés SAS une perspective analytique Sylvain Tremblay SAS Canada 25 avril 2006.
Christelle Scharff IFI Juin 2004
Data Mining: Définition
LMD: Langage de Manipulation de Données
Contrôles d'accès aux données
L’utilisation des bases de données

2 Ils associent les rangées de 2 requêtes UNION [ALL] INTERSECT MINUS.
SELECT {* | Expression [Alias] [,...] } FROM Table [WHERE Condition] [ORDER BY { Expression | Alias } [ ASC | DESC ] [NULLS FIRST | NULLS LAST ] [,...]
L’utilisation des bases de données
Algèbre relationnelle et SQL
EPID-CPI-ISAIP Philippe Bancquart - mise à jour 24/02/ page 1 SQL PHILIPPE BANCQUART.
MODELE RELATIONNEL concept mathématique de relation
Systèmes d'information décisionnels
Mise en œuvre du langage MDX
Master 1 SIGLIS SID Stéphane Tallard Notes 1Notes sur les SID.
Question 1.1 Q1 Q2 Q3 Q4 USA Canada home Computer phone security
1 SQL: Requêtes, Programmation et Triggers Chapitre 5, Sections
SQL: Contraintes et Triggers
Entreposage de Données et Aide à la Décision
1 SQL: Requêtes, Programmation et Triggers Chapitre 5, Sections
1 SQL Avancé 2010 Witold Litwin 2 Quoi & Pourquoi ? n Possibilités Etendues de Manipulation de BDs relationnelles n Fondamentales pour lexploration approfondie.
Les concepts et les méthodes des bases de données
1 SQL Manipulations Avancées (08-09) Witold Litwin.
1 SQL Manipulations Avancées (08-09) Witold Litwin.
1 SQL Manipulations Avancées Witold Litwin 2 Exemple canon S P SPSP.
Manipulation des données Requêtes simples
Database Management Systems 3ed, R. Ramakrishnan and J. Gehrke1 SQL: Requêtes, Programmation et Triggers Chapitre 5, Sections
Michel Tollenaere SQL et relationnel ENSGI Cours MSI 2A Relationnel et SQL version 1.4 du 25 septembre 2007 (ajout jointures) 1 Modèle relationnel Historique.
OPTIMISATION DE BASE DE DONNEES ORACLE
EPID-CPI-ISAIP Philippe Bancquart - mise à jour 24/02/ page 1 SQL jointure PHILIPPE BANCQUART.
Limiter et trier des données
Traduction des opérations sous MySQL
Optimisation de requêtes
1 G. Gardarin Optimisation de Requêtes  1. Introduction  2. Arbres relationnels  3. Restructuration algébrique  4. Modèle de coût  5. Choix du meilleur.
DOSSIER G10 – La base de données Relationnelle
Sélection de colonnes (la projection)
LE DATA WAREHOUSE.
Analyse des données Entrepôts de données B.Shishedjiev - Analyse des données 1.
MATHÉMATIQUES DISCRÈTES Chapitre 6 (relations)
1 J. PHILIPP d'après G. Gardarin SGBDR : la gestion des vues l 1. Contexte l 2. Vues externes l 3. Interrogation des vues l 4. Mises à jour des vues l.
Quinio1 Bases de données : modèlisation et SGBD Séance 3 B Quinio.
1 Entreposage de Données et Aide à la Décision Chapitre 25, 25.1 – 25.7.
Les bases de données Séance 8 Jointures.
Des fonctions d’oubli intelligentes dans les entrepôts de données
Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.
Systèmes d'information décisionnels
NIVEAU LOGIQUE Vues. Fenêtre dynamique sur la base Ses données proviennent d'autres tables ou d'autres vues.
Op é rateurs ensemblistes Module 4. 2 La clause GROUP BY La clause GROUP BY est nécessaire dès que l'on utilise des fonctions de calculs statistiques.
Cours 11 Entrepôts de données
Probabilités et statistique MQT-1102
Le langage SQL LA Plan 1. Introduction Rappels sur le modèle relationnel Les caractéristiques du langage SQL 2. Le Langage d'Interrogation des.
Modélisation et utilisation Aurélien Marion1 Aurélien Marion
De Arnault Chazareix :
Bases de données : modèlisation et SGBD Séance 3.
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 4 Support de cours rédigé par Bernard COFFIN Université.
Les sous-requêtes ou requêtes imbriquées B.T.S. S.I.O – SI3 – 1.
SQL query - 1 / D. Berrabah SQL : interrogation de BD Requêtes d'interrogation simples Requêtes complexes Agrégats et groupement.
Transcription de la présentation:

B.Shishedjiev - Entrepôts1 La representation de l’histoire: par le systèmes transactionels - les bases scintillantes par les entrepôts de données - instantanés statiques

B.Shishedjiev - Entrepôts2 Table de faits Table de dimension

B.Shishedjiev - Entrepôts3

4

5

6

7 Le schéma – flocon de neige

B.Shishedjiev - Entrepôts8 Opérations pour l’analyse des données La forme générale d’une instruction SQL select D1.C1,... Dn.Cn, Aggr1(F,Cl), Aggrn(F,Cn) from Fact as F, Dimension1 as D1,... DimensionN as Dn where join-condition (F, D1) and... and join-condition (F, Dn) and selection-condition group by D1.C1,... Dn.Cn |order by D1.C1,... Dn.Cn

B.Shishedjiev - Entrepôts9 Exemple: select Time.Month, Product.Name, sum(Qty) from Sale, Time, Product, Promotion where Sale.TimeCode = Time.TimeCode and Sale.ProductCode = Product.ProductCode and Sale.PromoCode = Promotion.PromoCode and (Product. Name = ' Pasta' or Product.Name = 'Oil') and Time.Month between 'Feb' and 'Apr' and Promotion.Name = 'SuperSaver' group by Time.Month, Product.Name order by Time.Month, Product.Name Pivot Time.Month FebMarApr Oil5K5K7K Pasta45K50K51K

B.Shishedjiev - Entrepôts10 select Customer, Part, Location, sum(Sales) from Sales S, Customers C, Locs L, Parts P Where S.CustNo = C.CustNo and S.LocNo=L.LocNo and P.Partno=S.PartNo group by Customer, Year, Location with cube Cube des données

Bogdan Shishedjiev Data Analysis11 Cube des données Le cube est utilisé de présenter les donner en respect certaine mesure d'intérêt. Bien que appelé un "cube", il peut être à deux dimensions, en trois dimensions, ou ultérieure-dimensionnelle. Chaque dimension représente une certaine attribut dans la base de données et de les cellules dans le cube de données représentent la mesure d'intérêt.

Bogdan Shishedjiev Data Analysis 12 Cube des données Representation cube CombinationCount {P1, Calgary, Vance}2 {P2, Calgary, Vance}4 {P3, Calgary, Vance}1 {P1, Toronto, Vance}5 {P3, Toronto, Vance}8 {P5, Toronto, Vance}2 {P5, Montreal, Vance}5 {P1, Vancouver, Bob}3 {P3, Vancouver, Bob}5 {P5, Vancouver, Bob}1 {P1, Montreal, Bob}3 {P3, Montreal, Bob}8 {P4, Montreal, Bob}7 {P5, Montreal, Bob}3 {P2, Vancouver, Richard}11 CombinationCount {P3, Vancouver, Richard}9 {P4, Vancouver, Richard}2 {P5, Vancouver, Richard}9 {P1, Calgary, Richard}2 {P2, Calgary, Richard}1 {P3, Calgary, Richard}4 {P2, Calgary, Allison}2 {P3, Calgary, Allison}1 {P1, Toronto, Allison}2 {P2, Toronto, Allison}3 {P3, Toronto, Allison}6 {P4, Toronto, Allison}2

Bogdan Shishedjiev Data Analysis13 Data Cube Totales – les valeurs ANY ou ALL ou NULL

Cube des données select Time.Month, Product.Name, sum(Qty) from Sale, Time, Product, Promotion where Sale.TimeCode = Time.TimeCode and Sale.ProductCode = Product.ProductCode and Sale.PromoCode = Promotion.PromoCode and (Product. Name = ' Pasta' or Product.Name = 'Oil') and Time.Month between 'Feb' and 'Apr' and Promotion.Name = 'SuperSaver' group by Time.Month, Product.Name order by Time.Month, Product.Name With cube B.Shishedjiev - Entrepôts14

Bogdan Shishedjiev Data Analysis 15 Cube des données TIme.MonihProduct.NameZonesum(Qty) FebPastaNorth18K FebPastaCentre18K FebPastaSouth12K MarPastaNorth18K MarPastaCentre18K MarPastaSouth14K AprPastaNorth18K AprPastaCentre17K AprPastaSouth16K ALLPastaNorth54K ALLPastaCentre53K ALLPastaSouth42K FebPastaALL48K MarPastaALL50K AprPastaALL51K ALLPastaALL149K ALL 149K Le cube entier

Bogdan Shishedjiev Data Analysis 16 Cube des données Roll-up - supprimer une dimension TIme.MonihProduct.NameZonesum(Qty) FebPastaNorth18K FebPastaCentre18K FebPastaSouth12K MarPastaNorth18K MarPastaCentre18K MarPastaSouth14K AprPastaNorth18K AprPastaCentre17K AprPastaSouth16K Product.NameZonesum(Qty) PastaNorth54K PastaCentre53K PastaSouth42K

Bogdan Shishedjiev Data Analysis 17 Cube des données Drill down – additionner une dimension Time. MonthProduct.Namesum(Qty) FebPasta48K MarPasta50K AprPasta51K TIme.MonihProduct.NameZonesum(Qty) FebPastaNorth18K FebPastaCentre18K FebPastaSouth12K MarPastaNorth18K MarPastaCentre18K MarPastaSouth14K AprPastaNorth18K AprPastaCentre17K AprPastaSouth16K

B.Shishedjiev - Entrepôts18 Data mining Le processus de data mining 1.Compréhension des données: c’est impossible d’extraire d’information utile sans une bonne compréhension du domaine d’application. 2.Préparation de l’ensemble de donnès: c’est l’identification d’un sous-ensemble des données d’un entrepôt de données pour l’analyse. On doit encore coder les données dans un forme convenable pour l’algorithme de data mining. 3. Découverte des modèles: On essaie de découvrir des modèles répétés de données. 4.Evaluation des données: Cette étape concerne de tirer des implications depuis les modèles découverts en planant les expérimentes et en formulant des hypothèses. Problèmes de data mining 1.Découvrir les règles d’association 2.Discrétisation 3.Classification

B.Shishedjiev - Entrepôts19 Découverte de règles d’association. On cherche des modèles réguliers parmi les données comme la présence des deux choses dans un groupe des tuples. Exemples: L’analyse de corbeille des marchandises – de trouves les articles qui sont achetés ensemble. Chaque règle comporte prémisse et conséquence (ski – bâton de ski) TransactionDateGoodsQtyPrice 117/12/98ski- pants /12/98boots /12/98T-shirt /12/98jacket /12/98boots /12/98jacket /12/98jacket /12/98T-shirt325

B.Shishedjiev - Entrepôts20 Mesurer les règles Support : c’est la partie d’observations qui satisfait la prémisse et la conséquence. Confidence: c’est la partie d’observations qui satisfait la conséquence parmi les observations qui satisfont la prémisse. PrémisseConséquen ce SupportConfidence ski-pantsboots0.251 bootsski-pants T-shirtboots T-shirtjacket0.51 bootsT-shirt bootsjacket jacketT-shirt jacketboots {T-shirt, boots}jacket0.251 {T-shirt, jacket}boots {boots. jacket}T-shirt0.251

B.Shishedjiev - Entrepôts21 Discrétisation C’est présenter un intervalle continu de valeurs par quelque valeurs discrets, par exemple la tension du sang par basse, normale, haute. Classification C’est de cataloguer un phénomène dans une classe prédéfinie. Le phénomène est présenté en général comme une tuple. L’algorithme de classification s’est construit automatiquement en utilisant un ensemble de données qui contient déjà des données classifiées et il est présenté par un arbre de décision. Exemple: le risque d’une police d’insurence. On suppose qu’il y a un haut risque si le conducteur est moins agé de 23 ans ou la véhicule est de sport ou camion. Policy(Number,Age,AutoType)