Echantillonnage optimisé de données temporelles distribuées pour l’alimentation des entrepôts de données Présenté par : - EL ISSAOUI Naoufal - ED-DAHMOUNI.

Echantillonnage optimisé de données temporelles distribuées pour l’alimentation des entrepôts de données Présenté par : - EL ISSAOUI Naoufal - ED-DAHMOUNI Bouthayna Réalisé par : - Raja Chiky - Georges Hébrail Encadré par : - PR. L.LAMRINI

Plan Introduction Etat de l’art Résolution Expérimentations Résultats
Alimentation des entrepôts de données Echantillonnage dans les flux des données Problématique Résolution Expérimentations Résultats Conclusions Plan

1- Introduction Un Entrepôt de données est une base de données regroupant une partie ou l'ensemble des données fonctionnelles d'une entreprise. Il sert à historiser des données résumées, et il est utilisé afin d’améliorer la prise de décision.

1- Introduction Il est de plus en plus alimenté par des données provenant d’un grand nombre de capteurs distribués. Le concepteur d’un entrepôt de données doit mettre en place une stratégie de mise à jour pour l’historisation en prenant en compte la volumétrie des données et en garantissant les meilleures performances possibles en terme de temps de réponse pour l’interrogation et l’analyse. Architecture de récupération de données à partir de Capteurs plusieurs millions de compteurs électriques communicants qui sont reliés à des concentrateurs, qui à leur tour reliés à des entrepôts de données.

1- Introduction Problème ?
Le problème qui intervient c’est que lorsque les données temporelles distribuées arrivant de façon continue à un pas de temps très fin, Ceci génère une quantité volumineuse de données, et il devient coûteux de stocker et traiter toutes ces données. Le problème qui intervient c’est que lorsque …. Pour cela ils ont proposer des algorithmes qui permettent la résolution du problème et c’est ce qu’on va voir par la suite ….

2- Etat de l’art Alimentation des entrepôts de données
Pour alimenter l’entrepôt de données, on utilise généralement un ETL (Extract, Transform and Load), outil décrivant les données, leur provenance et les transformations effectuées. Il permet d’agréger, de classer, de normaliser, et de nettoyer les données extraites. L’alimentation d’un entrepôt de données se fait de façon périodique suivant une périodicité définie par l’administrateur. Dans cette partie on va voir comment alimenter des entrepôts de données ,,,

2- Etat de l’art Echantillonnage dans les flux de données
L’échantillonnage dans les flux de données s’appuie sur les techniques d’échantillonnage traditionnelles, mais requiert des innovations significatives pour parer au problème de la longueur infinie des flux. En effet, des techniques de fenêtrage sont utilisées pour s’adapter à la nature illimitée des données : une fenêtre définit un intervalle temporel exprimé soit en terme de durée (par exemple les 5 dernières minutes), soit sous forme logique exprimé en nombre de tuples (par exemple les 20 derniers éléments). Ces fenêtres peuvent être délimitées par des bornes fixes ou glissantes dans le temps Mainteneat on passe a l’e………………

3- Problématique Le problème consiste à trouver la meilleure « politique de construction de résumé » pour chaque capteur en respectant les contraintes du nombre maximal de données communicables au concentrateur et du nombre de données minimal à prélever par capteur

3.1- Échantillonnage régulier
Dans le cas ou l’échantillonnage est régulier, ils ont échantillonné les courbes à un pas j inférieur à p/m . Avec : m : la borne inférieure du nombre de données que l’on souhaite prélever par courbe sur la fenêtre courante t. p: Le nombre d'éléments constituant chaque fenêtre.

3.1- Échantillonnage régulier (problème)
Le problème posé consiste à trouver des pas d’échantillonnage pour chaque capteur en respectant les contraintes sur la limite du concentrateur et le nombre minimal de données à sélectionner par capteur. Les pas d’échantillonnage sont calculés à partir des points des courbes de la fenêtre temporelle t − 1, et sont appliqués aux points de la période t. Les pas d’échantillonnage doivent permettre de représenter la courbe initiale le plus finement possible. Le problème d’échantillonnage consiste donc à minimiser la somme des erreurs quadratiques(SSE) entre la courbe d’origine C à la période t − 1, et la courbe échantillonnée c’ en prenant en compte les contraintes citées ci-dessus. SSE se calcule de la façon suivante : SSE : la somme des erreurs quadratiques(SSE

3.2- Échantillonnage irrégulier
L’échantillonnage irrégulier, est utilisé pour conserver les informations les plus pertinentes sur les courbes.

3.2- Échantillonnage irrégulier (problème)
Le problème consiste à déterminer le nombre de segments pour chaque compteur en respectant -comme pour le cas de l’échantillonnage régulier- le nombre de données communicables au concentrateur pendant une période donnée ainsi que le nombre minimal de données à prélever par capteur. Ils ont utilisé les courbes de la période t−1 pour déterminer la politique de segmentation à appliquer à la période t. La segmentation doit permettre de représenter la courbe initiale le plus précisément possible.

4- Méthode de résolution
La méthode la plus immédiate pour déterminer les pas d’échantillonnage est de partager également la bande passante sur les différentes courbes. respecte bien les contraintes posées ne minimise pas la somme des erreurs quadratiques entre les courbes initiales et les courbes échantillonnées . Les courbes présentant des ﬂuctuations différentes, les pas d’échantillonnages ‘ﬁxes’ pourraient sur-échantillonner une courbe ou au contraire la sous-échantillonner. Modélisation sous forme d’un problème d’optimisation linéaire. Afin de pallier le problème décrit, la méthode la plus immédiate pour déterminer…

4.1- Échantillonnage régulier
Chaque courbe doit être échantillonnée à un pas inférieur ou égal à p/m La possibilité de choisir un pas entier allant de 1 à p/m. Soit m’=p/m On calcule la matrice Wn+m’ de n lignes et m’ colonnes. Wij : la somme des erreurs quadratiques obtenue (un pas d’échantillonnage j à la courbe i)

4.2- Échantillonnage irrégulier
Le nombre de segments minimal : m Le nombre de segments maximal : p Affecter une valeur entière j à une courbe allant de 1 à m. Calcul de la matrice Wn+m Wij : la somme des erreurs quadratiques obtenue si on découpe de façon optimale la courbe d’indice i en p/j segments.

4.3- Généralisation Le problème à résoudre peut s’énoncer comme suit:
Xij = 0 ou 1 𝑗=1 𝑚′ 𝑋𝑖𝑗 =1 i={1,…,n} 𝑖=1 𝑛 𝑗=1 𝑚′ ( 𝑝 𝑗 ×𝑋𝑖𝑗) ≤s i={1,…,n} La méthode utilisée est la méthode du simplexe appliquée aux problèmes linéaires à variables réelles.

5- Expérimentations Afin d’étudier la consommation en électricité des clients dans le temps, des courbes de consommation électriques sont utilisées. Des expérimentations ont été faites sur un jeu de données de courbes de charges relevées à pas de 10min par jour. (144 relèves par compteur électrique). Il s’agit d’un fichier de 1000 compteurs électriques. Les courbes de charge ont été normalisées. Courbe de charge : Il s’agit de l’évolution de la consommation d’énergie entre deux instants au cours du temps. Une courbe normalisée est une représentation d'un ensemble de données sur un graphique . Les valeurs des données ont tous été mis en conformité avec la valeur moyenne , de sorte que les résultats peuvent être tracées comme une courbe lisse , plutôt que d' un désordre déchiquetée .

5. 1- Méthode d’interpolation. -Echantillonnage régulier
5.1- Méthode d’interpolation -Echantillonnage régulier -Echantillonnage irrégulier La somme des erreurs quadratiques dépend de la façon dont nous construisons la courbe échantillonnée . Soit une courbe C contenants p points : C={C1,C2,…,Cp} C’ est sa courbe échantillonnée à un pas j : C’={c’1, c’2,…, c’p} Deux méthodes ont été choisies : Construction de la courbe échantillonnée sous forme de fonction en escalier. Construction de la courbe échantillonnée par interpolation linéaire. 1ère méthode : les points compris entre deux données sélectionnées successives Ca et Cb prennent la valeur de la première donnée Ca ; càd que la relation entre C et C chap est donnée par.. . 2eme methode : les valeurs des points compris entre deux données sélectionnées successives Ca et Cb sont calculées par interpolation linéaire en utilisant les valeurs de Ca et Cb. En prenant la fontion d interpolation :

5. 1- Méthode d’interpolation. -Echantillonnage régulier
5.1- Méthode d’interpolation -Echantillonnage régulier -Echantillonnage irrégulier Pour reconstruire la courbe segmentée (en escalier) à partir des moyennes de chacun des épisodes, on a besoin aussi du nombre de points de chaque épisode. Exemple: Si la courbe initiale C a été segmentée en k segments, le concentrateur a besoin des données (c’1,n1), (c’2,n2), …,(c’k,nk) Le compteur doit envoyer 2 * j données au concentrateur, ce qui sera pris en compte dans la vériﬁcation de la contrainte de seuil s. si la courbe initiale C a été segmentée en k segments, le concentrateur a besoin des données (ĉ1,n1), (ĉ2,n2), …,(ĉk,nk).. Cl étant étant la moyenne de l’épisode l constituée de nl points. l

5.2- Résultats m=7 (m’=144/7=20) , ce qui signifie qu’une courbe échantillonnée sera constituée d’au moins : 7 valeurs si elle est constituée de façon régulière. 3 valeurs si elle est construite de façon irrégulière. Pour chacune des méthodes, on a calculé : La somme des erreurs quadratiques La moyenne des j affectés par optimisation L’écart type pour mesurer la dispersion des j autour de la moyenne la moyenne des différences des pas d’échantillonnage entre la méthode ’escalier’ et la méthode ’interpolation linéaire’

5.2- Résultats -Echantillonnage régulier -Echantillonnage irrégulier
L’optimisation permet de diminuer considérablement la somme des erreurs quadratiques que ce soit avec la méthode en ’escalier’ (esc) ou avec l’interpolation linéaire (IL) par rapport à l’échantillonnage au pas ’fixe’. Ces résultats font apparaître que L’optimisation permet de diminuer considérablement la somme des erreurs quadratiques que ce soit avec la méthode en ’escalier’ ou avec l’interpolation linéaire par rapport à l’échantillonnage au pas ’fixe’. Par exemple, en utilisant un seuil de 72000, l’optimisation avec ’Interpolation Linéaire’ nous permet de minimiser l’erreur quadratique de 99% par rapport à l’échantillonnage ’fixe’. - 33,26 = 1.2 % : 2770  % - 13,88 = 0.71% : 1956  %

5.2- Résultats -Echantillonnage régulier -Echantillonnage irrégulier
la segmentation permet de mieux minimiser la somme des erreurs quadratiques par rapport à l’échantillonnage régulier que ce soit avec la méthode escalier ou en utilisant l’interpolation linéaire. La segmentation donne des résultats meilleurs (malgré le nombre inférieur de données récupérées par période de temps.) La différence est plus apparente pour des valeurs de seuil élevées auquel cas il est préférable de segmenter les courbes que de les échantillonner régulièrement. Par exemple, en utilisant un seuil de 9600 , - 1730,6 = 40 % : 4470,3  - 60 % - 1730,6 = 74 % : 2336,6  - 26 %

5. 3- Traitement global du flux. - Approche appliquée
5.3- Traitement global du flux - Approche appliquée - Expérimentations et résultats Les expérimentations précédentes évaluent l’erreur commise sur une période t à partir d’une optimisation effectuée sur cette même période. L’approche globale proposée consiste à appliquer sur une période t le résultat d’une optimisation réalisée sur la période t-1 . Courbe de charge : Il s’agit de l’évolution de la consommation d’énergie entre deux instants au cours du temps. Une courbe normalisée est une représentation d'un ensemble de données sur un graphique . Les valeurs des données ont tous été mis en conformité avec la valeur moyenne , de sorte que les résultats peuvent être tracées comme une courbe lisse , plutôt que d' un désordre déchiquetée .

5.3- Traitement global du flux - Approche appliquée - Expérimentations et résultats t = 0: le concentrateur n’a aucune connaissance des données des compteurs qui lui sont attachés. Il demande aux compteurs d’envoyer 𝒔 𝒏 valeurs, (échantillonnage « fixe » ). A l’expiration de la période : les compteurs calculent les erreurs correspondant aux deux méthodes d’échantillonnage (régulier et irrégulier) et envoient le minimum des erreurs entre ces deux méthodes au concentrateur pour constituer la matrice des erreurs Wn∗m0. Le concentrateur applique le programme d’optimisation pour trouver les j correspondant aux pas d’échantillonnage dans le cas régulier le double du nombre de segments dans le cas irrégulier. Il envoie le résultat de l’optimisation aux compteurs. A la fin de la deuxième période t = 1 :les compteurs envoient de la même façon que précédemment les SSEs pour mettre à jour la matrice des erreurs. Ce processus continue tant que les flux de données arrivent en ligne. Le schéma 4 résume le processus d’échange entre le concentrateur et les capteurs.

5.3- Traitement global du flux - Approche appliquée - Expérimentations et résultats 140 courbes de consommations électriques relevées à un pas de 30 min sur une année. La phase d’optimisation utilise les données de la période précédente et les pas d’échantillonnage sont appliqués à la période courante, ceci tout au long de l’année. Calcul et comparaison des moyennes des erreurs d’échantillonnage par interpolation et par fonction en escalier aux moyennes des erreurs obtenues par échantillonnage fixe. T= une journée : Diminution des erreurs d’échantillonnage d’au moins 10% par rapport à la méthode ’fixe’ de plus de 90% des jours de l’année, pour toutes les valeurs de seuil expérimentées. T= une semaine : Diminution des erreurs d’échantillonnage par rapport à l’échantillonnage ’fixe’ pour plus de 90% dans le cas de l’IL, et de 96 % dans le cas de la méthode en ecalier.

6- Conclusion et perspectives
La mise en œuvre de l’échantillonnage appliqué à des courbes a permis de montrer que l’affectation des pas d’échantillonnage par optimisation linéaire permet de: réduire significativement les erreurs d’échantillonnage par rapport à un échantillonnage à pas ’fixe’. Des expérimentations en cours s’effectuent sur un jeu de données plus grand afin de suivre l’évolution des erreurs dans le temps. Un autre axe de recherche est d’imposer un nombre minimum de courbes échantillonnées par un pas d’échantillonnage donné ce qui permettra d’effectuer des calculs et des estimations plus précis sur les corrélations entre les courbes.

Merci pour votre attention

Echantillonnage optimisé de données temporelles distribuées pour l’alimentation des entrepôts de données Présenté par : - EL ISSAOUI Naoufal - ED-DAHMOUNI.

Présentations similaires

Présentation au sujet: "Echantillonnage optimisé de données temporelles distribuées pour l’alimentation des entrepôts de données Présenté par : - EL ISSAOUI Naoufal - ED-DAHMOUNI."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Echantillonnage optimisé de données temporelles distribuées pour l’alimentation des entrepôts de données Présenté par : - EL ISSAOUI Naoufal - ED-DAHMOUNI.

Présentations similaires

Présentation au sujet: "Echantillonnage optimisé de données temporelles distribuées pour l’alimentation des entrepôts de données Présenté par : - EL ISSAOUI Naoufal - ED-DAHMOUNI."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back