Echantillonnage optimisé de données temporelles distribuées pour l’alimentation des entrepôts de données Présenté par : - EL ISSAOUI Naoufal - ED-DAHMOUNI.

Slides:



Advertisements
Présentations similaires
L’échantillonnage & Ses Fluctuations
Advertisements

Théorie des graphes.
A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences.
Cours 3-b Méthode des éléments finis 1D
Cours 5 – Comment bien échantillonner le signal audio
Du signal continu au numérique
Comparaison de deux moyennes observées
Inférence statistique
2. Echantillonnage et interpolation des signaux vidéo
A Pyramid Approach to Subpixel Registration Based on Intensity
M. EL Adel & M. Ouladsine LSIS – UMR-CNRS 6168 Marseille - France
A.Faÿ 1 Recherche opérationnelle Résumé de cours.
                                        République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique.
Vers un indicateur de la qualité des cours d’ eau…
Un neurone élémentaire
QTLmap et les données ayant une distribution non gaussienne
Intégration numérique
Chapitre 6 : Restauration d’images
Les principaux résumés de la statistique
Approche par les problèmes en TS spécialité maths
Journée thématique du GDR IFS « Réduction de modèle en IFS » ENSAM – Jeudi 18 mai 2006 Validation de l’approche de la réduction a priori - POD sur l'équation.
Programmation linéaire
Concepts avancés en mathématiques et informatique appliquées
ÉVALUATION DES SCÉNARIOS POUR L’AIDE À LA CONDUITE DU PROJET
Systèmes d’équations linéaires
La segmentation
Techniques d’optimisation
Comprendre la variation dans les données: Notions de base
Programmation linéaire en nombres entiers Algorithme de la subdivision successive («Branch and Bound Algorithm»)
Courbes de Bézier.
Programmation linéaire en nombres entiers : la méthode du simplexe
Universté de la Manouba
PROGRAMMATION SCIENTIFIQUE EN C
Pr. M. Talibi Alaoui Département Mathématique et Informatique
Détection du meilleur format de compression pour une matrice creuse dans un environnement parallèle hétérogène Olfa HAMDI-LARBI.
L ABORATOIRE d I NGÉNIERIE des S YSTÈMES A UTOMATISÉS EA 4014 – Université dAngers Institut des Sciences et Techniques de lIngénieur dAngers Master2 Recherche.
GPA750 – Gestion de Projets
2. Optimisation sans contrainte Fonctions à une seule variable
L’adaptativité pour un solveur de l’équation de Vlasov
Modélisation géométrique de base
Rappels de statistiques descriptives
Tables et Procédures de décompression
Programmation linéaire en nombres entiers
STATISTIQUES – PROBABILITÉS
Intervalles de confiance pour des proportions L’inférence statistique
2. Optimisation sans contrainte Fonctions à une seule variable
TNS et Analyse Spectrale
- 5 - Optimisation linéaire et non-linéaire
Méthode des moindres carrés (1)
Réalisé par : Encadré par : - Keheli adnane Pr L.Lamrini
Post-optimisation, analyse de sensibilité et paramétrage
Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.
Interpolation et Approximation
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
MATIÈRE Les images numériques - introduction.
TD 2: La gestion des stocks avec le logiciel Odyssée
Université Sidi Mohamed Ben Abdellah
COURS DE TECHNIQUES QUANTITATIVES
Pierre Joli Cours de Mathématique Pierre Joli
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
Introduction aux statistiques Intervalles de confiance
1 Tableur Excel. 2 Introduction Un tableur est un logiciel permettant de manipuler des données numériques et d'effectuer automatiquement des calculs sur.
Les indices du commerce extérieur (ICE) méthodologie et réforme.
Formation SGA Module Budget Durée : 1 jour. Sommaire Formation Budget 1.Notions de base 2.Accéder au budget – Chemin d’accès au fichier Excelarator –
PROJET DE SESSION DANS LE CADRE DU COURS: SCG Réalisation d’applications en SIG PRÉSENTÉ PAR: Marie-Andrée Levesque 18 AVRIL 2006.
1 Théorie de la finance Gestion de portefeuille Moyenne-variance Master Sciences de Gestion – Semestre II - Université Mohammed V Faculté des Sciences.
5 ème Journée des doctorants – ED SPI Lille – 26 Juin 2012 – Ecole des Mines de Douai ETUDE DES CARACTERISTIQUES THERMOPHYSIQUES D’ISOLANTS AGRO-SOURCES.
1 UE Intro. Optimisation L3 INFO UPSud II. Programmation linéaire en variables entières (ou mixtes)
Transcription de la présentation:

Echantillonnage optimisé de données temporelles distribuées pour l’alimentation des entrepôts de données Présenté par : - EL ISSAOUI Naoufal - ED-DAHMOUNI Bouthayna Réalisé par : - Raja Chiky - Georges Hébrail Encadré par : - PR. L.LAMRINI

Plan Introduction Etat de l’art Résolution Expérimentations Résultats Alimentation des entrepôts de données Echantillonnage dans les flux des données Problématique Résolution Expérimentations Résultats Conclusions Plan

1- Introduction Un Entrepôt de données est une base de données regroupant une partie ou l'ensemble des données fonctionnelles d'une entreprise. Il sert à historiser des données résumées, et il est utilisé afin d’améliorer la prise de décision.

1- Introduction Il est de plus en plus alimenté par des données provenant d’un grand nombre de capteurs distribués. Le concepteur d’un entrepôt de données doit mettre en place une stratégie de mise à jour pour l’historisation en prenant en compte la volumétrie des données et en garantissant les meilleures performances possibles en terme de temps de réponse pour l’interrogation et l’analyse. Architecture de récupération de données à partir de Capteurs plusieurs millions de compteurs électriques communicants qui sont reliés à des concentrateurs, qui à leur tour reliés à des entrepôts de données.

1- Introduction Problème ? Le problème qui intervient c’est que lorsque les données temporelles distribuées arrivant de façon continue à un pas de temps très fin, Ceci génère une quantité volumineuse de données, et il devient coûteux de stocker et traiter toutes ces données. Le problème qui intervient c’est que lorsque …. Pour cela ils ont proposer des algorithmes qui permettent la résolution du problème et c’est ce qu’on va voir par la suite ….

2- Etat de l’art Alimentation des entrepôts de données Pour alimenter l’entrepôt de données, on utilise généralement un ETL (Extract, Transform and Load), outil décrivant les données, leur provenance et les transformations effectuées. Il permet d’agréger, de classer, de normaliser, et de nettoyer les données extraites. L’alimentation d’un entrepôt de données se fait de façon périodique suivant une périodicité définie par l’administrateur. Dans cette partie on va voir comment alimenter des entrepôts de données ,,,

2- Etat de l’art Echantillonnage dans les flux de données L’échantillonnage dans les flux de données s’appuie sur les techniques d’échantillonnage traditionnelles, mais requiert des innovations significatives pour parer au problème de la longueur infinie des flux. En effet, des techniques de fenêtrage sont utilisées pour s’adapter à la nature illimitée des données : une fenêtre définit un intervalle temporel exprimé soit en terme de durée (par exemple les 5 dernières minutes), soit sous forme logique exprimé en nombre de tuples (par exemple les 20 derniers éléments). Ces fenêtres peuvent être délimitées par des bornes fixes ou glissantes dans le temps Mainteneat on passe a l’e………………

3- Problématique Le problème consiste à trouver la meilleure « politique de construction de résumé » pour chaque capteur en respectant les contraintes du nombre maximal de données communicables au concentrateur et du nombre de données minimal à prélever par capteur

3.1- Échantillonnage régulier Dans le cas ou l’échantillonnage est régulier, ils ont échantillonné les courbes à un pas j inférieur à p/m . Avec : m : la borne inférieure du nombre de données que l’on souhaite prélever par courbe sur la fenêtre courante t. p: Le nombre d'éléments constituant chaque fenêtre.

3.1- Échantillonnage régulier (problème) Le problème posé consiste à trouver des pas d’échantillonnage pour chaque capteur en respectant les contraintes sur la limite du concentrateur et le nombre minimal de données à sélectionner par capteur. Les pas d’échantillonnage sont calculés à partir des points des courbes de la fenêtre temporelle t − 1, et sont appliqués aux points de la période t. Les pas d’échantillonnage doivent permettre de représenter la courbe initiale le plus finement possible. Le problème d’échantillonnage consiste donc à minimiser la somme des erreurs quadratiques(SSE) entre la courbe d’origine C à la période t − 1, et la courbe échantillonnée c’ en prenant en compte les contraintes citées ci-dessus. SSE se calcule de la façon suivante : SSE : la somme des erreurs quadratiques(SSE

3.2- Échantillonnage irrégulier L’échantillonnage irrégulier, est utilisé pour conserver les informations les plus pertinentes sur les courbes.

3.2- Échantillonnage irrégulier (problème) Le problème consiste à déterminer le nombre de segments pour chaque compteur en respectant -comme pour le cas de l’échantillonnage régulier- le nombre de données communicables au concentrateur pendant une période donnée ainsi que le nombre minimal de données à prélever par capteur. Ils ont utilisé les courbes de la période t−1 pour déterminer la politique de segmentation à appliquer à la période t. La segmentation doit permettre de représenter la courbe initiale le plus précisément possible.

4- Méthode de résolution La méthode la plus immédiate pour déterminer les pas d’échantillonnage est de partager également la bande passante sur les différentes courbes. respecte bien les contraintes posées ne minimise pas la somme des erreurs quadratiques entre les courbes initiales et les courbes échantillonnées . Les courbes présentant des fluctuations différentes, les pas d’échantillonnages ‘fixes’ pourraient sur-échantillonner une courbe ou au contraire la sous-échantillonner. Modélisation sous forme d’un problème d’optimisation linéaire. Afin de pallier le problème décrit, la méthode la plus immédiate pour déterminer…

4.1- Échantillonnage régulier Chaque courbe doit être échantillonnée à un pas inférieur ou égal à p/m La possibilité de choisir un pas entier allant de 1 à p/m. Soit m’=p/m On calcule la matrice Wn+m’ de n lignes et m’ colonnes. Wij : la somme des erreurs quadratiques obtenue (un pas d’échantillonnage j à la courbe i)

4.2- Échantillonnage irrégulier Le nombre de segments minimal : m Le nombre de segments maximal : p Affecter une valeur entière j à une courbe allant de 1 à m. Calcul de la matrice Wn+m Wij : la somme des erreurs quadratiques obtenue si on découpe de façon optimale la courbe d’indice i en p/j segments.

4.3- Généralisation Le problème à résoudre peut s’énoncer comme suit: Xij = 0 ou 1 𝑗=1 𝑚′ 𝑋𝑖𝑗 =1 i={1,…,n} 𝑖=1 𝑛 𝑗=1 𝑚′ ( 𝑝 𝑗 ×𝑋𝑖𝑗) ≤s i={1,…,n} La méthode utilisée est la méthode du simplexe appliquée aux problèmes linéaires à variables réelles.

5- Expérimentations Afin d’étudier la consommation en électricité des clients dans le temps, des courbes de consommation électriques sont utilisées. Des expérimentations ont été faites sur un jeu de données de courbes de charges relevées à pas de 10min par jour. (144 relèves par compteur électrique). Il s’agit d’un fichier de 1000 compteurs électriques. Les courbes de charge ont été normalisées. Courbe de charge : Il s’agit de l’évolution de la consommation d’énergie entre deux instants au cours du temps. Une courbe normalisée est une représentation d'un ensemble de données sur un graphique . Les valeurs des données ont tous été mis en conformité avec la valeur moyenne , de sorte que les résultats peuvent être tracées comme une courbe lisse , plutôt que d' un désordre déchiquetée . 

5. 1- Méthode d’interpolation. -Echantillonnage régulier 5.1- Méthode d’interpolation -Echantillonnage régulier -Echantillonnage irrégulier La somme des erreurs quadratiques dépend de la façon dont nous construisons la courbe échantillonnée . Soit une courbe C contenants p points : C={C1,C2,…,Cp} C’ est sa courbe échantillonnée à un pas j : C’={c’1, c’2,…, c’p} Deux méthodes ont été choisies : Construction de la courbe échantillonnée sous forme de fonction en escalier. Construction de la courbe échantillonnée par interpolation linéaire. 1ère méthode :  les points compris entre deux données sélectionnées successives Ca et Cb prennent la valeur de la première donnée Ca ; càd que la relation entre C et C chap est donnée par.. . 2eme methode : les valeurs des points compris entre deux données sélectionnées successives Ca et Cb sont calculées par interpolation linéaire en utilisant les valeurs de Ca et Cb. En prenant la fontion d interpolation :

5. 1- Méthode d’interpolation. -Echantillonnage régulier 5.1- Méthode d’interpolation -Echantillonnage régulier -Echantillonnage irrégulier Pour reconstruire la courbe segmentée (en escalier) à partir des moyennes de chacun des épisodes, on a besoin aussi du nombre de points de chaque épisode. Exemple: Si la courbe initiale C a été segmentée en k segments, le concentrateur a besoin des données (c’1,n1), (c’2,n2), …,(c’k,nk) Le compteur doit envoyer 2 * j données au concentrateur, ce qui sera pris en compte dans la vérification de la contrainte de seuil s. si la courbe initiale C a été segmentée en k segments, le concentrateur a besoin des données (ĉ1,n1), (ĉ2,n2), …,(ĉk,nk).. Cl étant étant la moyenne de l’épisode l constituée de nl points. l

5.2- Résultats m=7 (m’=144/7=20) , ce qui signifie qu’une courbe échantillonnée sera constituée d’au moins : 7 valeurs si elle est constituée de façon régulière. 3 valeurs si elle est construite de façon irrégulière. Pour chacune des méthodes, on a calculé : La somme des erreurs quadratiques La moyenne des j affectés par optimisation L’écart type pour mesurer la dispersion des j autour de la moyenne la moyenne des différences des pas d’échantillonnage entre la méthode ’escalier’ et la méthode ’interpolation linéaire’

5.2- Résultats -Echantillonnage régulier -Echantillonnage irrégulier L’optimisation permet de diminuer considérablement la somme des erreurs quadratiques que ce soit avec la méthode en ’escalier’ (esc) ou avec l’interpolation linéaire (IL) par rapport à l’échantillonnage au pas ’fixe’. Ces résultats font apparaître que L’optimisation permet de diminuer considérablement la somme des erreurs quadratiques que ce soit avec la méthode en ’escalier’ ou avec l’interpolation linéaire par rapport à l’échantillonnage au pas ’fixe’. Par exemple, en utilisant un seuil de 72000, l’optimisation avec ’Interpolation Linéaire’ nous permet de minimiser l’erreur quadratique de 99% par rapport à l’échantillonnage ’fixe’. - 33,26 = 1.2 % : 2770  - 98.8% - 13,88 = 0.71% : 1956  - 99.29%

5.2- Résultats -Echantillonnage régulier -Echantillonnage irrégulier la segmentation permet de mieux minimiser la somme des erreurs quadratiques par rapport à l’échantillonnage régulier que ce soit avec la méthode escalier ou en utilisant l’interpolation linéaire. La segmentation donne des résultats meilleurs (malgré le nombre inférieur de données récupérées par période de temps.) La différence est plus apparente pour des valeurs de seuil élevées auquel cas il est préférable de segmenter les courbes que de les échantillonner régulièrement. Par exemple, en utilisant un seuil de 9600 , - 1730,6 = 40 % : 4470,3  - 60 % - 1730,6 = 74 % : 2336,6  - 26 %

5. 3- Traitement global du flux. - Approche appliquée 5.3- Traitement global du flux - Approche appliquée - Expérimentations et résultats Les expérimentations précédentes évaluent l’erreur commise sur une période t à partir d’une optimisation effectuée sur cette même période. L’approche globale proposée consiste à appliquer sur une période t le résultat d’une optimisation réalisée sur la période t-1 . Courbe de charge : Il s’agit de l’évolution de la consommation d’énergie entre deux instants au cours du temps. Une courbe normalisée est une représentation d'un ensemble de données sur un graphique . Les valeurs des données ont tous été mis en conformité avec la valeur moyenne , de sorte que les résultats peuvent être tracées comme une courbe lisse , plutôt que d' un désordre déchiquetée . 

5. 3- Traitement global du flux. - Approche appliquée 5.3- Traitement global du flux - Approche appliquée - Expérimentations et résultats t = 0: le concentrateur n’a aucune connaissance des données des compteurs qui lui sont attachés. Il demande aux compteurs d’envoyer 𝒔 𝒏 valeurs, (échantillonnage « fixe » ). A l’expiration de la période : les compteurs calculent les erreurs correspondant aux deux méthodes d’échantillonnage (régulier et irrégulier) et envoient le minimum des erreurs entre ces deux méthodes au concentrateur pour constituer la matrice des erreurs Wn∗m0. Le concentrateur applique le programme d’optimisation pour trouver les j correspondant aux pas d’échantillonnage dans le cas régulier le double du nombre de segments dans le cas irrégulier. Il envoie le résultat de l’optimisation aux compteurs. A la fin de la deuxième période t = 1 :les compteurs envoient de la même façon que précédemment les SSEs pour mettre à jour la matrice des erreurs. Ce processus continue tant que les flux de données arrivent en ligne. Le schéma 4 résume le processus d’échange entre le concentrateur et les capteurs.

5. 3- Traitement global du flux. - Approche appliquée 5.3- Traitement global du flux - Approche appliquée - Expérimentations et résultats 140 courbes de consommations électriques relevées à un pas de 30 min sur une année. La phase d’optimisation utilise les données de la période précédente et les pas d’échantillonnage sont appliqués à la période courante, ceci tout au long de l’année. Calcul et comparaison des moyennes des erreurs d’échantillonnage par interpolation et par fonction en escalier aux moyennes des erreurs obtenues par échantillonnage fixe. T= une journée : Diminution des erreurs d’échantillonnage d’au moins 10% par rapport à la méthode ’fixe’ de plus de 90% des jours de l’année, pour toutes les valeurs de seuil expérimentées. T= une semaine : Diminution des erreurs d’échantillonnage par rapport à l’échantillonnage ’fixe’ pour plus de 90% dans le cas de l’IL, et de 96 % dans le cas de la méthode en ecalier.

6- Conclusion et perspectives La mise en œuvre de l’échantillonnage appliqué à des courbes a permis de montrer que l’affectation des pas d’échantillonnage par optimisation linéaire permet de: réduire significativement les erreurs d’échantillonnage par rapport à un échantillonnage à pas ’fixe’. Des expérimentations en cours s’effectuent sur un jeu de données plus grand afin de suivre l’évolution des erreurs dans le temps. Un autre axe de recherche est d’imposer un nombre minimum de courbes échantillonnées par un pas d’échantillonnage donné ce qui permettra d’effectuer des calculs et des estimations plus précis sur les corrélations entre les courbes.

Merci pour votre attention