La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Processeurs Réseau PAPR (2) UE de M2 février / mars 2007 Daniela Genius LIP6.

Présentations similaires


Présentation au sujet: "Processeurs Réseau PAPR (2) UE de M2 février / mars 2007 Daniela Genius LIP6."— Transcription de la présentation:

1

2 Processeurs Réseau PAPR (2) UE de M2 février / mars 2007 Daniela Genius LIP6

3 Contenu du cours uPrincipes & Contraintes darchitecture des processeurs réseau u Conception des Processeurs Réseau u Exemples de processeurs réseau : IBM Power NP, Intel IXP u Processeur Réseau LIP6

4 Critères de Comparaison u Microarchitecture u Architecture u Implémentation Physique u Support Logiciel

5 Comparaison: Micro-architecture u Organisation interne du processeur (étages du pipeline, PUs etc.) u Plusieurs processeurs avec des micro-architectures différentes auront la même architecture u Critères n basée sur tâches (task-based) n présence des instructions spécialisées n nombre des contextes actives n nombre des contextes par contexte actif

6 Comparaison: Architecture u Vue sur lensemble du système programmable par langage machine n Processing Elements PE n Registres accessibles par instruction n Jeu dinstruction complet n Modes dadressage n Formatage des données u Multiprocessing n contrôle centralisé n nombre de PE n structure de communication interne aux PE n Interfaces n Multithreading n Memory prefetching

7 Liste Alphabétique des Fournisseurs (début 2005) uAgere (se porte bien) uAlchemy (acheté par AMD) uAMCC (se porte bien) uBay Microsystems (acheté par Xilinx??) uBRECIS Communications uBroadcom (se porte bien) uCisco uClearspeed (se porte bien) uClearwater Networks (struggling, 2004) uCognigine (acheté par entreprise chinoise Huawei Télécom, mars 2004) uConexant (rien après 2002) uEzchip uIBM uIntel uLexra (violation de brevet de MIPS 1999, disparaît du marché janvier 2002) uMotorola uPMC-Sierra (se porte bien) uVitesse (Y. Viniotis cofondateur) se porte bien uXelerated (se porte bien)

8 Espace de Solutions Processeurs Réseau Solutions ASIC Processeurs Universels DSP Processeurs de Communication Coprocesseurs Réseau Buts de la conception : performance coût fonctionnalité (pour un domaine d application donné) programmabilité compromis qualitatifs et quantitatifs En annexe (p. 41 ff) : traduction de l étude de N. Shah

9 Littérature Thèse de N. Shah : Understanding Network Processors : disponible sous /users/enseig/genius/UnderstandingNPs.pdf.gz Collection d articles d Intel : disponible sous /users/enseig/genius/IntelJournal.pdf.gz Description de l architecture du IBM PowerNP: disponible sous /users/enseig/genius/PowerNP.pdf.gz Livre de D. Comer (peut être consulté sur place en bureau 404)

10 Agere (Q ??) uPayloadPlus Trois puces séparées n Fast Pattern Processor n Routing Switch Processor n Interface Système (ASI) u Interfaces Utopia, MPI, PCI u Interface Système ASI n management n traitement lent : initialisation, mise à jour des tables de routage, mise à jour du traitement de la file, traitement des exceptions, collection des statistiques u Interface PCI pour connecter au monde extérieur Configuration bus

11 Agere Diagramme de l unité FPP

12 Agere FPP

13 Agere Diagramme de l unité RSP

14 Agere RSP Functional Units

15 Alchemy Au1000 (Q ??) u Processeur plutôt generaliste u basé sur 32-bit MIPS basse consommation n Pipeline à 5 étages n 32*16 Multiply-Accumulate n conditional moves, prechargement des données, autres optimisations classiques u Deux contrôleurs Ethernet u IrDA, USB, 4 UARTS u16KB instruction et data cache uupdate 2004 : AU 1550 security processor, SoC

16 Alchemy

17 Applied Micro Circuits AMCC (Q ?) u premier fournisseur (historiquement parlant) uBasé sur EPIF-200 u processeur orienté paquet pour couches 2-7 n 64bit network processor n jeu d instructions optimisé n « zero »-overhead task switching among 8 threads n programmable policy engine for packet classification n Search Engine for layer 2 LAN bridging and layer 3 longest prefix match lookup n packet transform engine n statistics engines

18 Applied Micro Circuits

19 Bay Microsystems (début ??) u Peu d information u couches 3-7 à 10 GB/sec u VLIW avec DRAM u 166 MHz uupdate Montego OC-192 processor uworks with Xilinx (eXtensa architecture)

20 BRECIS (Q ) u multi-services (aussi transmission de voix, téléphone mobile) u MSP5000 : à la fois plusieurs canaux de voix et des données u 1 DSP ZSP400 pour voix et un pour données, respectivement n 4-issue superscalar n 80 Kbyte on-chip I/D mémoire n coprocesseur pour voix, coprocesseur pour donnés u MIPS R4KM pour control-plane operations n 180 MHz n I/D cache de 16Kbyte u security coprocesseur uacheté par cavium en aout 2004 ucontinue à produire des processeurs securité

21 BRECIS u bus à haute bande passante u bus multi service n transactions simultanés n priority switching sur 3 niveaux n interface bus l packet classifier l 3 files paquet uDMA u deux interfaces 10/100 Ethernet MAC, UTOPIA, TDM interfaces for telephony support

22 BRECIS

23 Broadcom (Q ??) u focussé control plane au lieu de data plane u Mercurian SB-1250 u deux coeurs 64bit MIPS u trois Gigabit Ethernet MACs u bus 256 octets u pas dinstructions spécialisées u cœur MIPS SB-1, jusquà 1 GHz u 4 instructions par cycle u pipeline entiers à 9-étages u pipeline flottants à 12-étages u 32 ko L1 cache, 4-way associative 512ko L2 cache u 3 on-chip ethernet MAC u 2 FIFOs paquet

24 Broadcom

25 Cisco PXF/Toaster2 (??) u Vrai multiprocesseur SIMD u utilisé dans des routeurs (Cisco 1000 Edge Service Router) u traitement seulement niveau 3 u processeur ne s´occupe pas de la gestion (network management) u 16 processeurs dans 4 pipelines u deux PXF: 4*8 systolic array (entre autres) u processeur individuel: 2-issue VLIW u instructions spécials packet processing u mémoire hors puce (par colonne)

26 Cisco PXF

27 ClearSpeed (Q ??) u 40 Gbps data rate u core routers, edge routers u Multiple-Threaded Array Processor MTAP n Multiprocesseur éléments l 8 bit par élément l registres n Chaque élément exécute le même code n 32 threads simultanés u Co-processeurs partagés u Bus à haute bande passante u Utilisateur peut ajouter co-processeurs

28 Clearwater (Q ??) u CNP810SP u simultaneous multi-threading n 10 instructions per cycle n 8 threads n hardware multithreading (thread= mini processeur superscalaire avec register file et instruction cache separés) n 8 threads simultanés n 8 files dinstruction n instructions spécialisées n 2 address generators donc 10=8+2 issue u targeted to layer 4-7 processing for edge devices u packet rate 10 Gbps

29 Clearwater Architecture 64kB cache D/I sur puce 9-stage pipeline paquets: PMU gère et classifie en profondeur 256Kbyte dual-ported on-chip memory (packet cache) optimisé pour l allocation mémoire de la taille d un paquet

30 Cognigine RCU (Q ??)

31 Cognigine RCU u modèle de multiprocessur distribué u 16 Processing Elements (Reconfigurable Communication Units RCU) n quatre unités parallèles n pipeline à cinq étages n chemin de données 64 bit n instructions pour reconfiguration dynamique (VISC) n Connecté par crossbar n connecte les RCUs de façon hierarchique -> scalabilité! n Support pour split transaction

32 Conexant (Q ??) uArchitecture n 32 bit RISC processeur Octave n optimisé pour traitement des flux (instructions spécialisées) u traitements de la couche 2 - internetworking (AAL SAR, MPLS) n buffer management n contrôle de congestion n gestion de la bande passante n CRC & FCR (detaction des erreurs) n traffic shaping usupporte des débits de paquets jusqu à 2.5 Gbps

33 Ezchip (Q ??) TOPparseTOPsearch TOPresolve TOPmodify superscalar Superpipelined Packet flow NP1 introduit en Avril 2002 Task Optimized Processors (TOP) jeu d instructions spécifique chemin de données spécifique architecture superscalaire, superpipeliné brevets sur la gestion mémoire embarqué/externe mais pas de détail disponible 2004: NP-1c 10 Go plateforme

34 IBM (Q ??) u Embedded Processor Complex EPC n Coeur PowerPC n 16 processeurs programmables avec pipeline 3 étages dont 1 specialisé lookup u Matériel pour traitement des frames u Interfaces I/O u Coprocesseurs n Data store n Checksum n Enqueue n Interface n String Copy n Compteur n Policy u Mémoire 8KB par Protocol Processor u Divers mémoires internes entre 8 et 32 KB

35 IBM

36 Intel IXP 1200 (Q ??) u originaire de DEC u Layer 2-4 processing u Packet rate 2.5 Mpackets/sec u Interface PCI u 6 micro-engines n 4 threads chacune avec registres partagés n Partitionnement des registres permet changement de contexte dans 1 cycle u 200MHz StrongARM controller u 64 bit IX bus u Matériel spécilisé pour hashage, queueing, shift/rotate en 1 cycle u Instructions specialisés paquet: find first bit set, barrel shift, extract byte/word u FIFOs pour interface avec couche MAC u 8KB cache data sur puce u 16 KB cache instruction du StrongARM u 4 KByte mémoire SRAM scratchpad

37 Intel

38 Lexra NetVortex (Q ) u Max. 16 coeurs LX8000: des MIPS R3000 specialisés traitement réseau u Changement du contexte dans 1 cycle entre 8 contextes uInstructions spécialisées (add-complément, insertion et extraction des bit fields) u Instructions de branchement spécialisées (pour support control plane) u Processing couche 2-4, OC192 u Support pour recupérer des paquets de la mémoire (Block Transfer Unit) via bus système u Multi-channel DMA controller u Update NVP: changement des co-processeurs, crossbar entre coprocesseurs et packet processors, hardware-manages buffers

39 Motorola C-Port (Q ??) u 16 processeurs canal: cœur RISC u 1 à 2 parallel serial data processors (SDP) pour la communication u 5 coprocesseurs n exécutif: coordination avec processeurs externes n fabric: permet d utiliser plusieurs C5 dans un fabric n table lookup: inspection et mise è jour de la table n queue management : gestion de la file paquet n buffer management : gestion rapide de la mémoire u trois bus internes (ensemble 60 GB/sec)

40 Motorola C-Port

41 Vitesse (Q ??) u 4 processeurs 200 MHz RISC scalaires u instructions spécifiques réseau u coprocesseurs « arrangés en flot » n lookup n classification n gestion de l ordre des paquets n multicast n gestion DMA n gestion des contextes n QoS engine

42 Vitesse: IQ2200: 400 MHz

43 Xelerated Packet Devices (Q ??) uSolution à deux processeurs uX40 et T40 uhardware support for Weighted Random early detection ufragmentation et reassemblage uPipeline programmable, 10 étages uaccessible à tous stages de pipeline n 384k compteurs n 128k pour mésurer le traffic n petit CAM interne n arbitre pour accès à CAM externe uchaque processeur est composé n d un classificateur pour identifier des paquets spéciaux n un bloc d action pour les traiter ubloc d action qui porte jeu d instructions spécialisé

44 Xelerated Packet devices

45 Xelerated Packet Devices

46 Espace de Solutions

47 Parallèlisme

48 Comparaison: Implémentation physique J aspects qui intéressent le client (producteur es téléphones mobiles etc.) u Technologie du procès u Taille de la puce u Cœur u Vitesse u Consommation u Disponibilité

49 Implémentation Physique u Agere technologie 0.18, consommation 12W n disponible, coût environ 750$ u Alchemy n soft core 266 MHz, 400 MHz, 500 MHz n consommation <300 mW, 500 mW, 900 mW u AMCC technologie 0.18, consommation 4W n Série nP7xxx : six EPIF-200 sur une puce n Disponible, prix 115 $, mise à jour AMCC jan 2002 : nP7510

50 Implémentation Physique (2) u Bay u Brecis 0., 2 W consommation n 50 $, disponible en 2001 u BroadCom Technologie 0.15 n 1 GHz, 2.5 W consommation, disponible en prototype

51 Implémentation Physique (3) u Cisco u ClearSpeed 0.13, 400 MHz, disponible en soft core u Clearwater 0.15, 300 MHz, 12 W consommation n disponibilité fin 2001 u Cognigine 0.18, 200 MHz n disponible décembre 2001 u Conexant n 125 MHz n 4.2W

52 Implémentation Physique (4) u EZChip n arrive août collaboration avec IBM u IBM n Technologie 0.18, 20 W, 133MHz u Intel n 0.28m 200 MHz, 5W consommation n Disponible, coût 300$, utilisés par nombreux fournisseurs équipement réseau u Lexra n Disponible en soft core, macro RTL synthesizable n 0.15, 250MHz (RTL), 450MHz (hard), consommation 6.8W surface 64 mm2 n Licence 645$+royalties per core

53 Implémentation Physique (5) u Motorola n Utilisé par extreme networks (BlackDiamond 6800) pour paquet via SONET 0.18, 400$, update C-5e (266 Mhz), Q5 u Vitesse 200 MHz, 0.25, 12 W consommation u Xelerated n 0.13 micro n Disponible avril 2002

54 Comparaison : Support Logiciel è Aspects qui intéressent le programmeur des applications (et les participants des TME PAPR) uCompilateur u Système d exploitation u Bibliothèques des fonctionnalités typiques réseau u Simulateur

55 Support Logiciel u Agere u Alchemy n Programmable en C n existent outils développement propres à Alchemy et aussi des autres fournisseurs n supporte Windows CE, Linux,VxWorks u AMCC n programmable comme 1 seule CPU logique n C/C++ compiler, assembler, debuggeur u Bay

56 Support Logiciel (2) u BRECIS n Chaînes logicielles propriétaires et tiers n Implémentation en dur des applications réseau n supporte VxWorks, Linux, BSD u BroadCom n 2.5 Gbps sur layer 3-7 n chaine d outils C/C++ standard à défaut des instructions spécialisées n support système d exploitation pour Linux, BSD, VxWorks u Cisco n compilateur C propriétaire, IOS système d exploitation propriétaire

57 Support Logiciel (3) u ClearSpeed n alpha release SDE, compilateur C, assembler, debugger, profiler n outil visuel pour conception des applications n bibliothèque des fonctionnalités habituelles processing réséau u Clearwater n Compilateur en cours de développement u Cognigine n C/C++ Compiler, assembler, debugger n determination instructions VISC de C/C++ application n application level configuration tool (similaire Click??) n bibliothèque des fonctionnalités couche 2-7

58 Support Logiciel (4) u Conexant n C compiler and debugger n Simulation and analysis tool n modular software architecture on top of TSP PortMaker u EZChip n SDE avec assembleur, debugger, simulateur n bibliothèques des applications n Développement du compilateur en cours u IBM n Assembler, debugger, simulator u Intel n ACE (voir TME)

59 Support Logiciel (5) u Lexra u Motorola u Vitesse n SDE, standard high level, GNU-based n graphical simulation environment n évaluation de performance n bibliothèque pour fonctions typiques réseau u Xelerated

60 Sommaire u Points communs des processeurs réseau existants n hierarchie de processeurs et de mémoire n jeu dinstructions optimisé pour réseaux n filtrage et ordonnancement des paquets n architecture plus ou moins programmable afin dadapter aux changements de protocole n alimentation électrique réduite uDisparités n parallèlisme massif vs. parallèlisme pipeliné n interconnect simple vs. interconnect compliqué n nombre et type des coprocesseurs n...


Télécharger ppt "Processeurs Réseau PAPR (2) UE de M2 février / mars 2007 Daniela Genius LIP6."

Présentations similaires


Annonces Google