La métrologie sur les réseaux : enjeux et quelques problèmes intéressants Métropolis METROlogie Pour L’Internet et les Services.

Slides:



Advertisements
Présentations similaires
Les concepts de bases de la simulation
Advertisements

RTP « réseaux », Saint-Jean-de-Luz, 6-7 février LAction Spécifique « Métrologie des réseaux de lInternet » Philippe Owezarski LAAS-CNRS Toulouse,
Baptiste ARNAULT, Manel ZERELLI, Thierry SORIANO
Résolution de problèmes et logiciel de calcul symbolique
1 Laboratoire d'Automatique I3D FRE-CNRS-2497 UNIVERSITE DES SCIENCES ET TECHNOLOGIES DE LILLE Bâtiment P2, F Villeneuve d'Ascq - Cedex - FRANCE.
10/31/02 Leïla Merghem - LIP6 Une approche Multi-Agents pour la Simulation de Réseaux de Télécommunications Leïla Merghem (LIP 6) Dominique Gaïti (LIP.
_________________________________________________________________________________________________________________________________________________________________________.
A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences.
Caractériser les précipitations intenses du MRCC
Algorithmes et structures de données avancés
Champs de Markov en Vision par Ordinateur
Champs de Markov en Vision par Ordinateur
Mesures et Caractérisation du Trafic dans le Réseau National Universitaire Thèse effectuée par Khadija Ramah Houerbi Sous la direction du Professeur Farouk.
- Couche 7 - Couche application. Sommaire 1)Introduction 1)DNS 1)FTP et TFTP 1)HTTP 1)SNMP 1)SMTP 1)Telnet.
Inférence statistique
Qualité de Service dans l’Internet
Differenciated Services
Colloque "Mesures de l'Internet", Nice, mai 2003 Invariance déchelle dans lInternet P. Abry, P. Flandrin (Cnrs - Éns Lyon) N. Hohn, D. Veitch (Univ.
Modélisation des systèmes non linéaires par des SIFs
Kavé Salamatian MESURES SUR LES RÉSEAUX CHALLENGES POUR LES ANNÉES À VENIR.
Application à la méthode des
Simulateur de réseaux de capteurs Guillaume PANNETIER Bertrand LE MAROUILLE Paul DAVID Étienne BAALI.
Organisation et gestion de données, fonctions
5. Algorithme à estimation de distribution
ADR Active and Dynamic Routing. Plan Introduction au routage Les réseaux actifs Les agents Mise à jour des matrices de routage Architecture du routage.
Simulation multi-agent de phénomènes collectifs : quelques questions d’ordre épistémologique Frédéric AMBLARD Institut de Recherche en Informatique de.
Julien MATHEVET PRESENTE : Projet MACSI DEA RACOR - P2002 Copyright ©
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
Groupe 1: Classes de même intervalle
Construction de modèles visuels
DEA Perception et Traitement de l’Information
Comprendre la variation dans les données: Notions de base
Modélisation de la topologie avec le Graphe Génératif Gaussien
1 Algotel /05/04 Modélisation analytique des algorithmes dordonnancement GPS & WFQ BOCKSTAL Charles, GARCIA J.M. et BRUN Olivier.
Module 2 : Préparation de l'analyse des performances du serveur
Module 3 : Analyse des performances du serveur
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
MIDI Sans Frontières Analyse des problèmes relatifs à la communication musicale sur IP Mémoire présenté en vue de lobtention du grade de Licencié en informatique.
Comparaison entre RIP et OSPF en utilisant OPNET
Chapitre 3-B : AUTOMATIQUE : LES S.L.C.I.
Initiation à la Méthodologie de Recherche
Module 8 : Surveillance des performances de SQL Server
Amélioration de la simulation stochastique
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Présentation du marché obligataire
Echantillonage pour une Evaluation d’Impact
STATISTIQUES – PROBABILITÉS
Les processus métiers : concepts, modèles et systèmes Claude Godart Université de lorraine. Esstin
L’architecture IntServ
Approche Cross layer Dr Mekkakia Maaza Zoulikha Cours M2 SIR
Sureté de fonctionnement dans les WNCS
Colloque JOCAIR 2006, Amiens Les forums de discussion en milieu éducatif, Etat de recherches et des questions France Henri, Bernadette Charlier et Daniel.
TNS et Analyse Spectrale
03/05/2004Diffusion vidéo sur l'Internet - Timothy BURK ENS de Lyon 1 Techniques de diffusion vidéo sur l'Internet Streaming avec RTP/RTSP Timothy BURK.
Décision incertaine et logistique : Grille typologique
1/16 Chapitre 3: Représentation des systèmes par la notion de variables d’état Contenu du chapitre 3.1. Introduction 3.2. Les variables d’état d’un système.
Méthode des moindres carrés (1)
Le Marketing Prédictif
Cours Cotation TD TP.
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Localisation collaborative dans les réseaux de capteurs
Modélisation du signal de télédétection
Gestion de la qualité de service (QoS)
ECHANTILLONAGE ET ESTIMATION
Régulation des vitesses sur l’autoroute A7 Analyse de données individuelles Aurélien Duret Ingénieur des TPE.
Bienvenue au cours MAT-350 Probabilités et statistiques.
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Transcription de la présentation:

La métrologie sur les réseaux : enjeux et quelques problèmes intéressants Métropolis METROlogie Pour L’Internet et les Services

Projet RNRT  Labellisation en 2001 Projet phare du RNRT en 2001 Projet exploratoire sur 36 mois Date de début : Novembre 2001  LIP6 (coordinateur)  FT R&D, GET, INRIA, Eurecom, LAAS, Renater

Objectifs  Développer un cadre commun pour la métrologie des réseaux IP Mesure de la Qualité de Service Développement de modèles réalistes Analyse des protocoles et du comportement du réseau Dimensionnement des réseaux

Organisation du projet  SP 1 : Etat de l’art sur la métrologie dans les réseaux  SP 2 : Classification et dimensionnement  SP3 : Analyse du réseau  SP4 : Méthodes pour la mesure et échantillonnage  SP5 : Modélisation  SP6 : Tarification et SLA  SP7 : Plate-formes de mesures

Approche méthodologique

SP 2 : Classification et dimensionnement  Objectifs Effectuer un classification des flots  Granularité  Type d’application  Protocoles Définir des méthodes de dimensionnement et valider celle ci  Répartition de charge

Tomographie réseau

 Inférer l’intérieur du réseau par des mesures marginales Estimation de matrices de trafic Inférence de la topologie du réseau Inférence des caractéristiques du réseau

Dimensionnement du réseau  Estimation des matrices de trafic ATL ORL NYC PEN RLY CHI KC SJ SEA STK Determiner la matrice de trafic Seul le trafic de chaque lien est connu  Objectif Estimer la matrice de trafic avec des informations limitées = POPs avec mesures POP = Point of Presence

 X j : Demande de trafic pour la paire de POP j  A: matrice de routage  Y i : trafic sur le lien i  c = n * (n - 1) A rxc X c = Y r ATL ORL NYC PEN RLY CHI KC SJ SEA STK Notations

 est un système linéaire fortement sous-déterminé La solution est une optimisation statistique  Deux directions, 3 techniques : Approche déterministe :  Programmation linéaire Approche Statistique :  Bayesienne  Approche EM A rxc X c = Y r Techniques de résolution

 Suppose  Avec and  =  Estimation MLE de  par Algorithme EM  L’algorithme nécessite un bon point de départ (A priori nécessaire) Minimum locaux  Estimation des composants de X par: Approche EM

Classification de flots

Classification de flots dans l’Internet  Objectifs de la Classification des flots Caractérisation du trafic  pour comprendre Rasoir d’Occam Ingénierie de trafic  pour traiter Améliorer la QoS Surveillance  Détecter les flots anormaux Classification comportementale Data mining  Notre approche Caractériser chaque flot par son histogramme Classifier en fonction des histogrammes

Histogrammes ?

Histogrammes et classification  Chaque histogramme Chaque histogramme est une réalisation d’une distribution aléatoire  La classification se fait à l’aide d’un mélange de loi de Dirichlet. où appartient au simplex La distribution marginale de chaque bin suit une distribution béta

Procédure d’inférence  Mélange de Dirichlet Paramètre à estimer   Probabilité a posteriori probabilité d’appartenance aux classes  Appartenance au classe par MAP  Critère de Maximum de vraisemblance Maximum d’a posteriori pour l’appartenance aux classes.  L’optimisation des paramètres de ce mélange utilise l’algorithme SAEM. Réduit le problème des minimums locaux

Méthode SAEM

Classification sur Internet  Données brutes Volume de trafic d’un flot BGP  Granularité de 5 mins (SNMP)  Application dans l’ingénierie de trafic Mesure dans un lien OC-48  Autour de 2600 flots BGP dans le cœur de réseau  800 sont négligeables Le nombre d’observations est inférieur à 2 Chaque histogramme est calculée sur une journée de données  24*12 échantillons  20 bins par histogramme

Comportement de la log- vraisemblance

4 classes

Vert : 21% des flots 70%BP Bleu : 20% des flots 17% BP Noir : 41% des flots 7% BP Rouge : 18% des flots 6% BP

Zoologie d’Internet

Stabilité

SP 3 : Analyse du réseau  Objectifs Analyser in vivo le réseaux  Analyse des flots TCP  Analyse des délais dans les routeurs  Etude des attaques

Caractérisation du trafic Internet

Diversité du trafic Internet (1)  Caractéristiques générales du trafic IP 2 grandes classes de trafic : streaming (audio/vidéo) et élastique (données) 3 entités principales de trafic : paquets, flots, sessions  Répartition par protocole Prédominance de TCP (> 95% des octets transférés)

Diversité du trafic Internet (2)  Répartition par application  Prédominance “classique” de HTTP  Emergence récente et rapide du trafic Pair à pair 80 % du trafic dans certains réseaux

Caractéristiques du trafic IP  Trois entités de trafic (échelles de temps) Paquets: unités élémentaires traitées par la couche IP Flots: suite cohérente de paquets (même instance d’une application donnée)  Trafic streaming : Communication téléphonique ou video  Trafic élastique : Fichier, message, objet d’une page HTML, … Sessions: "connexions" au niveau usager  Session Telnet, connexion FTP,  Navigation Web : ensemble de pages HTML Application Transport TCP, UDP Réseau, IP 

Trafic IP observéTrafic de Poisson Débit intégré sur 0.01 s 0.1 s 1 s Modélisation - Processus paquets  Trafic au niveau paquets - Introduction sur l’auto-similarité Processus d’arrivée : extrême variabilité Mono- ou multi-fractal, LRD, phénomènes d’échelle, …

Modèle générique de trafic (TCP)  Hypothèses du modèle Les sessions sont indépendantes, apparaissent selon un processus de Poisson (un « invariant » de l’Internet) Les flots sont générés « en série » au sein des sessions Le partage de la Bande Passante est équitable entre les flots présents (idéalisation du contrôle dynamique exercé par TCP)  La performance, en termes de débit moyen de transfert des flots, est insensible aux caractéristiques détaillées des flots Arrivées de flots Fin de session Temps de « lecture » Début de session

Modélisation - Processus flots (1)  Processus d’arrivée des flots Dépend des différentes définitions possibles des flots (Granularité, Time Out de terminaison, …) Arrivées non conformes à un processus de Poisson Possible LRD (dépendances à long terme) ? Fonction d’auto-corrélation des inter- arrivées de micro-flots TCP Distribution des inter-arrivées de micro-flots TCP

Modélisation - Processus flots (2)  Distribution de la taille des flots (en paquets, octets, durée) Comportement “heavy-tailed” : très bon ajustement par une loi de Pareto (décroissance sous forme de fonction puissance) Extrême variabilité de la taille des flots : la variance, voire la moyenne, de la loi théorique peuvent être infinies Phénomène “souris/éléphants” : les flots TCP de taille supérieure à 10 Mo, 1/1000 en nombre, contribuent pour 50% de la charge totale en trafic

Modélisation - Processus sessions  Trafic au niveau sessions Périodes d’activité des utilisateurs Arrivées conformes à un processus de Poisson Longueur, durée des sessions : loi de distribution “heavy-tailed” (Pareto) Distribution des inter- arrivées de sessions Fonction d’auto-corrélation des inter-arrivées de sessions

Etude du passage du micro au macro  Les régles de composition des flots microscopiques et macroscopiques ne sont pas les mêmes Comment étudier le passage du  au  Système de couplage Deux problèmes intéressants  Etude de convergence  Inférence statistique des paramètres de couplages

SP 4 : Méthodes pour la mesure et échantillonnage  Objectifs Développement d’une théorie de l’échantillonnage  Similaire à la théorie classique dans le traitement de signal Echantillonnage  Spatial  Temporel  Applicatif

Mesures actives  Un agent emet des paquets sur le réseau Chaque paquet est une sonde qui s’imprégne de l’état du réseau en le traversant A la réception le processus de pertes et de délai est extrait  Modèle sous-jacent Le réseau est ressenti grâce à ces effets  Les effets sont les pertes et les délais D(t)D(t) S(t)S(t) T1T1 T2T2 T3T3 T4T4 T 1 +D( T 1 ) T 2 +D( T 2 ) T 3 +D( T 3 ) T 4 +D( T 4 )

Challenges existants  Développer une théorie de l’échantillonnage pour la mesure dans le réseau PASTA ou PIZZA ????  Comment échantillonner dans un graphe Quelle est la taille d’Internet ? Quelle sont les performances d’un algorithme de routage

 Objectifs Développer des modèles réalistes du réseau  Macroscopique Modèle de flots  Microscopique Modèles de TCP Comment passer du micro au macro  Vers une théorie macroéconomique du réseau SP 5 : Modélisation

Modélisation empirique

De l’interprétation  Des mesures Mais que veulent t’elle dire ?  Interprétation? Relier les effets aux causes Être capable de prédire le comportement  A différentes échelle de temps Pouvoir réagir  L’interprétation nécessite un a priori

Approches de modélisation  Approche descriptive Le réseau est un boite noire de structure inconnue  Décrire les observations par le biais de paramètres descriptifs statistique Moyenne, variance, Paramètres de Hurst multi-fractaux, etc… Approche haut en bas  On commence par les observations et on calcule les paramètres descriptifs Problème  Cela ne répond pas au pourquoi?  Cela ne répond pas au what if?  Il est difficile d’interpréter les résultats de modèlisation L’Interpretation nécessite des a priori  Nous n’utilisons pas toute l’information disponible Nous pouvons utiliser notre a priori sur le phénomène aboutissant à l’observation  Approche constructive Approche classique Utilise un modèle explicatif des processus internes au réseau Le réseau est constitué de files d’attentes, routeurs, liens, … Appliquer la simulation ns or des méthodes analytiques de files d’attente ou le network calculus, etc… Approche de bas en haut On commence avec les scenarii d’entrée et la structure du réseau et obtient les mesures de performances Problèmes  La Généralisation est difficile  Trop de paramètres  Les résultats de simulation ne ressemblent pas aux mesures réelles  L’approche est en boucle ouverte

Objectifs de modélisation  Nous avons besoin de modèles pour Interpréter les mesures  Relier les effets aux causes Developper des descriptions réalistes de réseaux réels  Afin de controller la QoS dans les réseaux réels Définir des scénarios pour des évaluations réalistes  En nourissant des modèles avec des paramètres réalistes calibrés sur des traces empiriques  Il faut mélanger les approches descriptives et constructives

La caverne de Platon Socrate. - … Figure-toi des hommes dans une demeure souterraine, en forme de caverne, ayant sur toute sa largeur une entrée ouverte à la lumière;…Figure-toi maintenant le long de ce petit mur des hommes portant des objets de toute sorte…, qui dépassent le mur, Glaucon— Voilà, s'écria-t-il, un étrange tableau et d'étranges prisonniers. - Ils nous ressemblent, répondis-je; et d'abord, penses-tu que dans une telle situation ils aient jamais vu autre chose d'eux- mêmes et de leurs voisins que les ombres projetées par le feu sur la paroi de la caverne qui leur fait face ?

Cadre de l’interprétation Modèle a priori Y observations  contexte X cachés Y  Quelle est la cause cachée (X et ) qui a abouti à l’observation de Y Quelle est ma compréhension du phénomène qui génère l’observation ?  Le modèle a priori condense cette compréhension dans Y=M(X,  )

Interprétation  Nous avons à résoudre deux problèmes inverses Le problème de modélisation  Quelles sont les paramètres de contexte  qui décrivent le mieux l’environnement Le problème d’interprétation  Connaissant les paramètres  quelle est la valeur de l’entrée cachée X qui décrit le mieux l’observation  Beaucoup de problèmes de modélisation peuvent s’exprimer dans ce cadre L’interprétation de mesures actives La tomographie du réseau

Interprétation de mesures actives  Mesures actives Un agent de mesure envoit des paquets sur le réseau Chaque paquet est une sonde qui s’imprégne des informations du chemin qu’il emprunte A la réception les pertes et le délai sont extrait et stockés  Modèle sous-jacent Les effets du réseau sur le flot de mesure sont les délais et les pertes D(t)D(t) S(t)S(t) T1T1 T2T2 T3T3 T4T4 T 1 +D( T 1 ) T 2 +D( T 2 ) T 3 +D( T 3 ) T 4 +D( T 4 )

Mesure active  Trace obtained between France and US 50 msec interval, Pkt size = 100 Bytes

Modèle a priori pour l’interprétation  Nous supposons a priori que le réseau peut être décrit par un simple goulot d’étranglement qui est nourrit par un traffic MMPP Chaque état de traffic MMPP génère un traffic de Poisson de débit La matrice de transition suit une chaîne de Markov de matrice de transition   Les paramètres de contexte sont =( µ,K, i,  ij )  L’entrée X est la suite des états de la MMPP K Buffer Measurement Traffic  Internet Traffic { i,  ij } µ

Problème de modèlisation  Résultats de la EM =(20, ,1.07) =(0.03, 0.65, 0.32)

Problème d’interprétation

Trace simulée

How to solve it ?  Problème de modèlisation Méthode de maximum de vraisemblanc Méthode Bayésienne  Problème d’interprétation Maximul d’a posteriori

Conclusion

Verrous  Techniques d’échantillonnages Avancée sur la généralisation Avancée sur l’échantillonnage temporel  Modèles réalistes de trafic Développement de différentes classes de modèles  Analyse et compréhension Bonne compréhension des différents phénomènes du réseau Analyse des attaques  Dimensionnement Travaux sur l’estimation des matrices de trafic Estimation de l’impact du Pair-à-pair sur le dimensionnement

Obstacles rencontrés  Définition de la bonne granularité des mesures  Passage du microscopique au macroscopique  Transformation de l’expertise en méthodologie  Problèmes liées à la confidentialité

Retombées du projet  Déploiement d’une plateforme de mesure A notre connaissance la plus importante hors des Etats- Unis  Bonne visibilité de la communauté de recherche française Nationale: AS Métrologie Européenne: NoE E-Next, EuroNGI, contact avec Géant et DANTE Internationale: Collaboration ave SPRINT, AT&T, INTEL, etc.. Organisation de colloques  IMC 2002, INTIMATE 2003, PAM 2004, IMC 2004  Nombreuses demandes d’expertise Collaboration dans l’améliorations de produits  Rapprochement IPANEMA, QosMos  Relations avec QosMetrix

Retombées du projet  1 Draft IETF Utilisation de RTCP pour effectuer des mesures (Timur Friedman)  Publications 3 revues 22 Conférences internationales  2004 : 2 Sigmetrics, 3 PAM, 2 ICC, etc… 8 conférences francophones 7 soumission en cours 6 publications communes entres partenaires  Essaimage Nombreuses actions vers la communauté réseau  25 tutoriels et interventions invités

Résultats actuels  Émergence d’une communauté de recherche visible Multidisciplinaire Nombreuses publications  Ouverture de nouveaux axes de recherches Topologie du réseau Surveillance et détection d’anomalies Echantillonage