La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Système de gestion de flux de données “Data Stream Management Systems (DSMS)” Sabine CohenAnna Margulis 13 décembre 2004 INF 7115: Bases de données.

Présentations similaires


Présentation au sujet: "Système de gestion de flux de données “Data Stream Management Systems (DSMS)” Sabine CohenAnna Margulis 13 décembre 2004 INF 7115: Bases de données."— Transcription de la présentation:

1 Système de gestion de flux de données “Data Stream Management Systems (DSMS)” Sabine CohenAnna Margulis 13 décembre 2004 INF 7115: Bases de données

2 Contexte Flux de données Notions Fondamentales SGFD: Exemple La gestion des ressources La planification des opérateurs Les techniques d’approximation Les mesures des performances Les opérations distribuées Les modèles DSMS et les domaines d’application Références Plan de la présentation

3 Des données qui bougent! Les sources de données dans le monde des réseaux Nouvelles applications pour la gestion et la distribution de données et de l’information en temps réel. Nouveaux besoins Volume augmenté de données et requêtes continues Environnement incertain / instable Applications proactives Contexte (1/2) Flux de données

4 SGFD: « Système de gestion de flux de données »: Un système qui peut exécuter des requêtes continues sur des flux de données en temps réel Contexte (2/2)

5 DBMSNouvelles applications Données stockées dans un environnement défini Entrée de données continue et ordonnée Flux de données

6 Traitement de flux Traitement de flux de données par étampes de temps dans les tuples, influence interaction avec d’autres systèmes (ex: heure d’arrivée) Technologies principales Sources de données: Création de nouveaux flux de données, s’ajuste à l’environnement de données fourni. Ordonnancement: Division des flux en séquences définies pour minimiser l’utilisation de la mémoire du système Ponctuation: Langage pour description des flux de données afin d’éviter certaines hypothèses émises par les systèmes Notions fondamentales (1/3)

7 Les opérateurs: Outils nommés « fenêtres » pour limiter la portée des flux de données afin qu’ils soient exécutés. (ex: de type tuples, temps, valeurs, unions..) Caractéristiques SQL Langage pour les requêtes sur les flux : CQL Inclus les opérateurs « fenêtre ». Les fonctions du CQL peuvent être appliquées aux résultats des requêtes provenant du SGFD. Notions fondamentales (2/3)

8 Exécution sans état Filtres: Similaire au where dans SQL, objectif de filtrer les flux intrants, division des flux en sous-flux Exécution avec état Agrégation: calcul de flux de données dans des tuples, ex: moyennes, min. et max.. Unions: jumelage de 2 flux d’entrée en 1 flux de sortie Notions fondamentales (3/3)

9 SGFD: Exemple

10 L’optimisation d’utilisation des ressources La vitesse de réaction du système est importante : il faut minimiser le temps de latence et maximiser la capacité de traitement -> minimiser l’utilisation de CPU et de mémoire -> deux méthodes : Planifier l’exécution des opérateurs Laisser tomber une partie de données reçues La précision de réponses est affectée par les deux méthodes Il faut trouver un compromis acceptable (les bonnes techniques d’approximation)

11 La planification d’exécution des opérateurs (1/3) La méthode naïve : la création des fils d’exécution (threads) pour chaque opérateur -> confier l’exécution au OS La quantité de threads peut être trop grande pour OS OS ne fait pas de maintenance OS ne fait pas de QoS Deux façons de planifier l’exécution : L’exécution des processus en « batch » Le routage de tuples dynamique (Telegraph)

12 La planification d’exécution des opérateurs (2/3) L’exécution des processus en « batch » Le temps de préparation de OS pour l’exécution peut être diminué, si on assemble les processus similaires dans les « batches » L’exploitation de la sélectivité des opérateurs : Assembler les opérateurs de séléctivité différente mais qui utilisent les mêmes données peut diminuer l’utilisation de mémoire

13 La planification d’exécution des opérateurs (3/3) Le routage dynamique des tuples (Telegraph)

14 Les techniques d’approximation (1/2) La non-considération de données (load shedding) Load shedding aléatoire pour les données homogènes La stratégie de load shedding pour les données cruciales (en analysant les statistiques) Les valeurs critiques Le moment de load shedding (ex. achalandage) L’emplacement de load shedding dans le cycle de données (dans le cycle du traitement) La quantité des tuples à éliminer

15 Les techniques d’approximation (2/2) L’assemblage de données en histogrammes L’expiration temporelle de données L’éloignement par rapport à la limite La réduction de la fenêtre de requête

16 La mesure de performances Linear Road (Brown U.) -> l’ajout des émetteurs dans chaque objet qui voyage et monitoring QoS -> le temps de réponse, la justesse de load shedding, la précision des réponses à des requêtes La capacité de traitement -> la quantité de données par période fixe La précision des résultats de requêtes

17 Les opérations distribuées Le serveur en grappe (clustered server) Le plus robuste et configurable Les systèmes hétérogènes Les problèmes de intercommunications Les systèmes sans fil (wireless) Les problèmes fonctionnels (ex. la durée de piles) Les problèmes pour les systèmes distribués : La scalabilité géographique et administrative L’équilibre de chargement de données La QoS difficile à implanter Le plan de relève (les pannes) difficile à implanter

18 Conclusion Les modèles DSMS Aurora STREAM Telegraph Les domaines d’application de systèmes DSMS La bourse La défense nationale (l’armée) La santé

19 Références Abadi, Daniel et al.(2003), “Aurora : a new model and architecture for data stream management”, The VLDB Journal, Vol. 12, No. 2. Arasu, A.et al. (2003), “STREAM: The Stanford Data Stream Management System”, IEEE Data Engineering Bulletin, Vol. 26 No. 1. Babcock, Brian et al.(2003), “Distributed Top-K Monitoring”, In Proc. Of the ACM Intl Conf. On Management of Data (SIGMOD 2003). Babcock, Brian et al.(2003), “Load Shedding Techniques for Data Stream Systems”, In Proc. Of the 2003 Workshop on Management and Processing of Data Streams (MPDS 2003). Babcock, Brian et al. Technical Report “Operator Scheduling in Data Stream Systems”. [En ligne], http://www.cs.brown.edu/courses/cs227/papers/Stream/System/ OperatorScheduling.pdf, (Page consultée le 16 novembre 2004) http://www.cs.brown.edu/courses/cs227/papers/Stream/System/ OperatorScheduling.pdf Babcock, B,. et al.(2002), “Models and Issues in Data Stream Systems”, Department of Computer Science, Stanford University. Carney, Don et al., Proceeding of the 29th International Conference on Very Large Data Bases (VLDB), “Operator Scheduling in Data Stream Manager”. [En ligne], http://www.cs.brown.edu/courses/cs227/papers/Aurora/scheduling.pdf, (Page consultée le 16 novembre 2004)http://www.cs.brown.edu/courses/cs227/papers/Aurora/scheduling.pdf Chandrasekaran, Sirish et al., TelegraphCQ : Continuous Dataflow Processing for an Encertain World[En ligne] http://www.cs.brown.edu/courses/cs227/papers/Telegraph/overview/cidr03-tcq.pdf, (Page consultée le 6 décembre 2004) Cherniack, Mitch et al. Proceedings of the Conference for Innovative Database Research (CIDR), “Salable Distributed Stream Processing”, [En ligne], http://www.cs.brown.edu/courses/cs227/papers/Aurora/cidr03.pdf, (Page consultée le 16 novembre 2004)http://www.cs.brown.edu/courses/cs227/papers/Aurora/cidr03.pdf Golab, L., Özsu, M. T. (2003), “Issues in Data Stream Management”, ACM SIGMOD Record, Vol. 32, No. 2, pp. 5-14 Golab, et al (2003)., “Data Stream Management Issues, A Survey”, School of Computer Science, University of Waterloo, Waterloo, Canada, Technical Report CS-2003-08. Hellerstein, Joseph M.(2002), “From Database to Dataflow : New Directions in IT”, Medical Records Institute, Volume 3, Number 6. Motwani, Rajeev et al., In Proc. Of the 2003 Conf. On Innovative Data Systems Research (CIDR), “Query Processing, Resource Management, and Approximation in a Data Stream Management System”, [En ligne] http://www.cs.brown.edu/courses/cs227/papers/Stream/Overviews/ResourseMgmtApprox.pdf, (Page consultée le 16 novembre 2004) http://www.cs.brown.edu/courses/cs227/papers/Stream/Overviews/ResourseMgmtApprox.pdf

20 Références Olston, Chris et al (2003) “Adaptive Filters for Continuous Queries over Distributed Data Streams”, In Proc. Of the ACM Intl Conf. On Management of Data (SIGMOD 2003). Plagemann T, et al.(2004), “Using Data Stream Management Systems for Traffic Analysis, A Case Study”, University of Oslo, Department of Informatics. Raman, Vijayshankar et al. ACM SIGMON Conference, « Partial Results for Online Query Processing », [En ligne] http://www.cs.brown.edu/courses/cs227/papers/Telegraph/adaptive/sigmod02-partial.pdf, (Page consultée le 16 novembre 2004)http://www.cs.brown.edu/courses/cs227/papers/Telegraph/adaptive/sigmod02-partial.pdf Shah, Mehul A. et al. International Conference on Data Engineering (ICDE),”Flux : An Adaptive Partitioning Operator for Continuous Query Systems”,[En ligne] http://www.cs.brown.edu/courses/cs227/papers/Additional/SHCF03-Flux.pdf, (Page consultée le 16 novembre 2004) http://www.cs.brown.edu/courses/cs227/papers/Additional/SHCF03-Flux.pdf Tatbul, Nesime et al. Proceedings of the 29th International Conference on Very Large Data Bases (VLDB), “Load Shedding in a Data Stream Manager” [En ligne] http://www.cs.brown.edu/courses/cs227/papers/Aurora/LoadShedding.pdf, (Page consultée le 16 novembre 2004) http://www.cs.brown.edu/courses/cs227/papers/Aurora/LoadShedding.pdf Windom, J. et al. (2003), Stanford University,“CQL: A Language for Continuous Queries over Streams and Relations” [En ligne] http://www-db.stanford.edu/~widom/cql-talk.pdf, (Page consultée le 27 novembre 2004)http://www-db.stanford.edu/~widom/cql-talk.pdf Wurz, M, et al. (2004), “Data Stream Management and Digital Library Processes on Top of a Hyperdatabase and Grid Infrastructure” University for Health Sciences, Medical Informatics and Technology, Innrain 98 A–6020 Innsbruck Austria. Zdonik, Stan et al. ”Streaming for Dummies”, [En ligne] http://www.cs.brown.edu/courses/cs227/papers/paper.pdf, (Page consultée le 10 novembre 2004) http://www.cs.brown.edu/courses/cs227/papers/paper.pdf Zimmermann, R. (2004), “Continuous Data Stream Processing” University of Southern California, CSci585: Database Systems


Télécharger ppt "Système de gestion de flux de données “Data Stream Management Systems (DSMS)” Sabine CohenAnna Margulis 13 décembre 2004 INF 7115: Bases de données."

Présentations similaires


Annonces Google