Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parOscar Chevalier Modifié depuis plus de 9 années
1
La métrologie sur les réseaux : enjeux et quelques problèmes intéressants Métropolis METROlogie Pour L’Internet et les Services
2
Projet RNRT Labellisation en 2001 Projet phare du RNRT en 2001 Projet exploratoire sur 36 mois Date de début : Novembre 2001 LIP6 (coordinateur) FT R&D, GET, INRIA, Eurecom, LAAS, Renater
3
Objectifs Développer un cadre commun pour la métrologie des réseaux IP Mesure de la Qualité de Service Développement de modèles réalistes Analyse des protocoles et du comportement du réseau Dimensionnement des réseaux
4
Organisation du projet SP 1 : Etat de l’art sur la métrologie dans les réseaux SP 2 : Classification et dimensionnement SP3 : Analyse du réseau SP4 : Méthodes pour la mesure et échantillonnage SP5 : Modélisation SP6 : Tarification et SLA SP7 : Plate-formes de mesures
5
Approche méthodologique
6
SP 2 : Classification et dimensionnement Objectifs Effectuer un classification des flots Granularité Type d’application Protocoles Définir des méthodes de dimensionnement et valider celle ci Répartition de charge
7
Tomographie réseau
8
Inférer l’intérieur du réseau par des mesures marginales Estimation de matrices de trafic Inférence de la topologie du réseau Inférence des caractéristiques du réseau
9
Dimensionnement du réseau Estimation des matrices de trafic ATL ORL NYC PEN RLY CHI KC SJ SEA STK 8 3 3 3 10 2 3 5 5 4 15 13 4 4 Determiner la matrice de trafic Seul le trafic de chaque lien est connu Objectif Estimer la matrice de trafic avec des informations limitées = POPs avec mesures POP = Point of Presence
10
X j : Demande de trafic pour la paire de POP j A: matrice de routage Y i : trafic sur le lien i c = n * (n - 1) A rxc X c = Y r ATL ORL NYC PEN RLY CHI KC SJ SEA STK 8 3 3 3 10 2 3 5 5 4 15 13 4 4 Notations
11
est un système linéaire fortement sous-déterminé La solution est une optimisation statistique Deux directions, 3 techniques : Approche déterministe : Programmation linéaire Approche Statistique : Bayesienne Approche EM A rxc X c = Y r Techniques de résolution
12
Suppose Avec and = Estimation MLE de par Algorithme EM L’algorithme nécessite un bon point de départ (A priori nécessaire) Minimum locaux Estimation des composants de X par: Approche EM
13
Classification de flots
14
Classification de flots dans l’Internet Objectifs de la Classification des flots Caractérisation du trafic pour comprendre Rasoir d’Occam Ingénierie de trafic pour traiter Améliorer la QoS Surveillance Détecter les flots anormaux Classification comportementale Data mining Notre approche Caractériser chaque flot par son histogramme Classifier en fonction des histogrammes
15
Histogrammes ?
16
Histogrammes et classification Chaque histogramme Chaque histogramme est une réalisation d’une distribution aléatoire La classification se fait à l’aide d’un mélange de loi de Dirichlet. où appartient au simplex La distribution marginale de chaque bin suit une distribution béta
17
Procédure d’inférence Mélange de Dirichlet Paramètre à estimer Probabilité a posteriori probabilité d’appartenance aux classes Appartenance au classe par MAP Critère de Maximum de vraisemblance Maximum d’a posteriori pour l’appartenance aux classes. L’optimisation des paramètres de ce mélange utilise l’algorithme SAEM. Réduit le problème des minimums locaux
18
Méthode SAEM
19
Classification sur Internet Données brutes Volume de trafic d’un flot BGP Granularité de 5 mins (SNMP) Application dans l’ingénierie de trafic Mesure dans un lien OC-48 Autour de 2600 flots BGP dans le cœur de réseau 800 sont négligeables Le nombre d’observations est inférieur à 2 Chaque histogramme est calculée sur une journée de données 24*12 échantillons 20 bins par histogramme
20
Comportement de la log- vraisemblance
21
4 classes
22
Vert : 21% des flots 70%BP Bleu : 20% des flots 17% BP Noir : 41% des flots 7% BP Rouge : 18% des flots 6% BP
23
Zoologie d’Internet
24
Stabilité
25
SP 3 : Analyse du réseau Objectifs Analyser in vivo le réseaux Analyse des flots TCP Analyse des délais dans les routeurs Etude des attaques
26
Caractérisation du trafic Internet
27
Diversité du trafic Internet (1) Caractéristiques générales du trafic IP 2 grandes classes de trafic : streaming (audio/vidéo) et élastique (données) 3 entités principales de trafic : paquets, flots, sessions Répartition par protocole Prédominance de TCP (> 95% des octets transférés)
28
Diversité du trafic Internet (2) Répartition par application Prédominance “classique” de HTTP Emergence récente et rapide du trafic Pair à pair 80 % du trafic dans certains réseaux
29
Caractéristiques du trafic IP Trois entités de trafic (échelles de temps) Paquets: unités élémentaires traitées par la couche IP Flots: suite cohérente de paquets (même instance d’une application donnée) Trafic streaming : Communication téléphonique ou video Trafic élastique : Fichier, message, objet d’une page HTML, … Sessions: "connexions" au niveau usager Session Telnet, connexion FTP, e-mail Navigation Web : ensemble de pages HTML Application Transport TCP, UDP Réseau, IP
30
Trafic IP observéTrafic de Poisson Débit intégré sur 0.01 s 0.1 s 1 s Modélisation - Processus paquets Trafic au niveau paquets - Introduction sur l’auto-similarité Processus d’arrivée : extrême variabilité Mono- ou multi-fractal, LRD, phénomènes d’échelle, …
31
Modèle générique de trafic (TCP) Hypothèses du modèle Les sessions sont indépendantes, apparaissent selon un processus de Poisson (un « invariant » de l’Internet) Les flots sont générés « en série » au sein des sessions Le partage de la Bande Passante est équitable entre les flots présents (idéalisation du contrôle dynamique exercé par TCP) La performance, en termes de débit moyen de transfert des flots, est insensible aux caractéristiques détaillées des flots Arrivées de flots Fin de session Temps de « lecture » Début de session
32
Modélisation - Processus flots (1) Processus d’arrivée des flots Dépend des différentes définitions possibles des flots (Granularité, Time Out de terminaison, …) Arrivées non conformes à un processus de Poisson Possible LRD (dépendances à long terme) ? Fonction d’auto-corrélation des inter- arrivées de micro-flots TCP Distribution des inter-arrivées de micro-flots TCP
33
Modélisation - Processus flots (2) Distribution de la taille des flots (en paquets, octets, durée) Comportement “heavy-tailed” : très bon ajustement par une loi de Pareto (décroissance sous forme de fonction puissance) Extrême variabilité de la taille des flots : la variance, voire la moyenne, de la loi théorique peuvent être infinies Phénomène “souris/éléphants” : les flots TCP de taille supérieure à 10 Mo, 1/1000 en nombre, contribuent pour 50% de la charge totale en trafic
34
Modélisation - Processus sessions Trafic au niveau sessions Périodes d’activité des utilisateurs Arrivées conformes à un processus de Poisson Longueur, durée des sessions : loi de distribution “heavy-tailed” (Pareto) Distribution des inter- arrivées de sessions Fonction d’auto-corrélation des inter-arrivées de sessions
35
Etude du passage du micro au macro Les régles de composition des flots microscopiques et macroscopiques ne sont pas les mêmes Comment étudier le passage du au Système de couplage Deux problèmes intéressants Etude de convergence Inférence statistique des paramètres de couplages
36
SP 4 : Méthodes pour la mesure et échantillonnage Objectifs Développement d’une théorie de l’échantillonnage Similaire à la théorie classique dans le traitement de signal Echantillonnage Spatial Temporel Applicatif
38
Mesures actives Un agent emet des paquets sur le réseau Chaque paquet est une sonde qui s’imprégne de l’état du réseau en le traversant A la réception le processus de pertes et de délai est extrait Modèle sous-jacent Le réseau est ressenti grâce à ces effets Les effets sont les pertes et les délais D(t)D(t) S(t)S(t) T1T1 T2T2 T3T3 T4T4 T 1 +D( T 1 ) T 2 +D( T 2 ) T 3 +D( T 3 ) T 4 +D( T 4 )
39
Challenges existants Développer une théorie de l’échantillonnage pour la mesure dans le réseau PASTA ou PIZZA ???? Comment échantillonner dans un graphe Quelle est la taille d’Internet ? Quelle sont les performances d’un algorithme de routage
40
Objectifs Développer des modèles réalistes du réseau Macroscopique Modèle de flots Microscopique Modèles de TCP Comment passer du micro au macro Vers une théorie macroéconomique du réseau SP 5 : Modélisation
41
Modélisation empirique
42
De l’interprétation Des mesures Mais que veulent t’elle dire ? Interprétation? Relier les effets aux causes Être capable de prédire le comportement A différentes échelle de temps Pouvoir réagir L’interprétation nécessite un a priori
43
Approches de modélisation Approche descriptive Le réseau est un boite noire de structure inconnue Décrire les observations par le biais de paramètres descriptifs statistique Moyenne, variance, Paramètres de Hurst multi-fractaux, etc… Approche haut en bas On commence par les observations et on calcule les paramètres descriptifs Problème Cela ne répond pas au pourquoi? Cela ne répond pas au what if? Il est difficile d’interpréter les résultats de modèlisation L’Interpretation nécessite des a priori Nous n’utilisons pas toute l’information disponible Nous pouvons utiliser notre a priori sur le phénomène aboutissant à l’observation Approche constructive Approche classique Utilise un modèle explicatif des processus internes au réseau Le réseau est constitué de files d’attentes, routeurs, liens, … Appliquer la simulation ns or des méthodes analytiques de files d’attente ou le network calculus, etc… Approche de bas en haut On commence avec les scenarii d’entrée et la structure du réseau et obtient les mesures de performances Problèmes La Généralisation est difficile Trop de paramètres Les résultats de simulation ne ressemblent pas aux mesures réelles L’approche est en boucle ouverte
44
Objectifs de modélisation Nous avons besoin de modèles pour Interpréter les mesures Relier les effets aux causes Developper des descriptions réalistes de réseaux réels Afin de controller la QoS dans les réseaux réels Définir des scénarios pour des évaluations réalistes En nourissant des modèles avec des paramètres réalistes calibrés sur des traces empiriques Il faut mélanger les approches descriptives et constructives
45
La caverne de Platon Socrate. - … Figure-toi des hommes dans une demeure souterraine, en forme de caverne, ayant sur toute sa largeur une entrée ouverte à la lumière;…Figure-toi maintenant le long de ce petit mur des hommes portant des objets de toute sorte…, qui dépassent le mur, Glaucon— Voilà, s'écria-t-il, un étrange tableau et d'étranges prisonniers. - Ils nous ressemblent, répondis-je; et d'abord, penses-tu que dans une telle situation ils aient jamais vu autre chose d'eux- mêmes et de leurs voisins que les ombres projetées par le feu sur la paroi de la caverne qui leur fait face ?
46
Cadre de l’interprétation Modèle a priori Y observations contexte X cachés Y Quelle est la cause cachée (X et ) qui a abouti à l’observation de Y Quelle est ma compréhension du phénomène qui génère l’observation ? Le modèle a priori condense cette compréhension dans Y=M(X, )
47
Interprétation Nous avons à résoudre deux problèmes inverses Le problème de modélisation Quelles sont les paramètres de contexte qui décrivent le mieux l’environnement Le problème d’interprétation Connaissant les paramètres quelle est la valeur de l’entrée cachée X qui décrit le mieux l’observation Beaucoup de problèmes de modélisation peuvent s’exprimer dans ce cadre L’interprétation de mesures actives La tomographie du réseau
48
Interprétation de mesures actives Mesures actives Un agent de mesure envoit des paquets sur le réseau Chaque paquet est une sonde qui s’imprégne des informations du chemin qu’il emprunte A la réception les pertes et le délai sont extrait et stockés Modèle sous-jacent Les effets du réseau sur le flot de mesure sont les délais et les pertes D(t)D(t) S(t)S(t) T1T1 T2T2 T3T3 T4T4 T 1 +D( T 1 ) T 2 +D( T 2 ) T 3 +D( T 3 ) T 4 +D( T 4 )
49
Mesure active Trace obtained between France and US 50 msec interval, Pkt size = 100 Bytes
50
Modèle a priori pour l’interprétation Nous supposons a priori que le réseau peut être décrit par un simple goulot d’étranglement qui est nourrit par un traffic MMPP Chaque état de traffic MMPP génère un traffic de Poisson de débit La matrice de transition suit une chaîne de Markov de matrice de transition Les paramètres de contexte sont =( µ,K, i, ij ) L’entrée X est la suite des états de la MMPP K Buffer Measurement Traffic Internet Traffic { i, ij } µ
51
Problème de modèlisation Résultats de la EM =(20, 1.2594,1.07) =(0.03, 0.65, 0.32)
52
Problème d’interprétation
53
Trace simulée
54
How to solve it ? Problème de modèlisation Méthode de maximum de vraisemblanc Méthode Bayésienne Problème d’interprétation Maximul d’a posteriori
55
Conclusion
56
Verrous Techniques d’échantillonnages Avancée sur la généralisation Avancée sur l’échantillonnage temporel Modèles réalistes de trafic Développement de différentes classes de modèles Analyse et compréhension Bonne compréhension des différents phénomènes du réseau Analyse des attaques Dimensionnement Travaux sur l’estimation des matrices de trafic Estimation de l’impact du Pair-à-pair sur le dimensionnement
57
Obstacles rencontrés Définition de la bonne granularité des mesures Passage du microscopique au macroscopique Transformation de l’expertise en méthodologie Problèmes liées à la confidentialité
58
Retombées du projet Déploiement d’une plateforme de mesure A notre connaissance la plus importante hors des Etats- Unis Bonne visibilité de la communauté de recherche française Nationale: AS Métrologie Européenne: NoE E-Next, EuroNGI, contact avec Géant et DANTE Internationale: Collaboration ave SPRINT, AT&T, INTEL, etc.. Organisation de colloques IMC 2002, INTIMATE 2003, PAM 2004, IMC 2004 Nombreuses demandes d’expertise Collaboration dans l’améliorations de produits Rapprochement IPANEMA, QosMos Relations avec QosMetrix
59
Retombées du projet 1 Draft IETF Utilisation de RTCP pour effectuer des mesures (Timur Friedman) Publications 3 revues 22 Conférences internationales 2004 : 2 Sigmetrics, 3 PAM, 2 ICC, etc… 8 conférences francophones 7 soumission en cours 6 publications communes entres partenaires Essaimage Nombreuses actions vers la communauté réseau 25 tutoriels et interventions invités
60
Résultats actuels Émergence d’une communauté de recherche visible Multidisciplinaire Nombreuses publications Ouverture de nouveaux axes de recherches Topologie du réseau Surveillance et détection d’anomalies Echantillonage
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.