FTFC'2003 Une technique de réduction de la puissance dissipée par l'horlogerie des circuits complexes rapides François ANCEAU francois.anceau@polytechnique.fr htt://lmi17.cnam.fr/~anceau/Doc.html
Evolution de la complexité Nb Tr 100 000 000 Pentium 4 Celeron 10 000 000 PPC620 Pentium II PPC601 Pentium-Pro Pentium MC68040 1 000 000 I486 INTEL MC68020 I386 MOTO / IBM 100 000 I286 MC 68000 I8086 10 000 MC6800 I8008 I4004 1 000 1966 1971 1976 1981 1986 1991 1996 2001
Evolution des performances 10000 PENTIUM 4/1,5G 1000 PPC 750/350 PENTIUM II/330 ALPHA/300 PPC 604/133 PENTIUM-PRO/133 Intel Millions d'instructions exécutées par seconde (specint 92) ALPHA/150 PENTIUM/133 100 PPC PPC 601/66 PENTIUM/66 DEC 486/50 486/25 10 386/16 1 84 86 88 90 92 94 96 98 00 02
Evolution technologique Taille des motifs minimaux (microns) prédiction Intel 25nm
Evolution de la fréquence d'horloge (X86) (Ghz) 50 Ghz prédiction Intel 24Ghz 10 Ghz F horloge Micro Intel X86 Fréquence interne Fréquence bus Fréquence externe Utilisation de multiplieurs de fréquence internes
Evolution de la consommation Croissance très rapide de la puissance dissipée Inversion de la tendance pour le P4 Northwood
Croissance de la puissance consommée d'après Fred Pollack, Intel Cœur de réacteur nucléaire Puissance dissipée W/cm2 P4 Willamette P4 Northwood PII PIII Plaque de cuisson P Pro Pentium I386 I486 Familles technologiques 1.5µ 1µ 0.7µ 0.5µ 0.35µ 0.25µ 0.18µ 0.13µ 0.1µ 0.07µ
Deux classes de processeurs 80 Pentium 4 Willamette 0.18µ 70 0.25µ 0.12µ Processeurs de forte puissance 40 50 60 Pentium 4 Northwood Puissance consommée W 30 20 Pentium III 500Mhz 10 Processeurs de faible consommation Pentium 4 M 500 1000 1500 2000 2500 3000 Performance Mips
Demandes du marché Performance Faible consommation Le marché est très demandeur en terme de performances Pour y répondre, les constructeur produisent des "monstres" dont la consommation dépasse le raisonnable (ex P4 75W à 1,5Ghz, ALPHA…..) Faible consommation Le marché demande aussi des processeurs consommant très peu (portables, processeurs inclus (embeeded)) Pour répondre, les constructeurs utilisent des techniques de réduction de la consommation (ex PIII 1W 500Mhz, ARM,…)
zones fonctionnelles isochrones Zones isochrones Zones d'un circuit complexe synchrone qui peuvent être excitées par une seule source d'horloge On cherche à associer zones isochrones et fonctionnalité La taille des zones isochrones diminue lorsque la technologie maigrit (mais leur taille relative reste identique). Dans l'approche SOC, les zones isochrones étaient préalablement des circuits séparés. zones fonctionnelles isochrones
Communication entre zones isochrones voisines écarts de phase dans la distribution de l'horloge HM T1 T2 L'écart de phase entre deux bascules de deux zones isochrones synchrones voisines est comparable à celui à l'intérieur d'une même zone isochrone. H1 H2 T11 T21 écart de phase de l'horloge distribuée dans la zone isochrone T3 B1 B2 bascule temps de propagation du signal zone isochrone 1 zone isochrone 2
Dialogue entre zones isochrones Dépend de la différence de phase entre les horloges des zones isochrones Si l'écart de phase entre les horloges des blocs isochrones est très faible: Les échanges synchrones deviennent possibles entre zones isochrones voisines. Le circuit devient une vaste zone isochrone pour les communications locales.
Techniques de distribution de l'horloge L'objectif est d'amener l'horloge en phase et avec une puissance suffisante au niveau de chaque zone isochrone. Il faut réaliser une distribution dite équilibrée. Plusieurs techniques sont possibles: Distribution arborescente Distribution en anneaux Distribution par plans / grilles Distribution en H …….. Distribution en "H"
Distribution de l'horloge (1) f0 zone isochrone f0 fex multiplieur à PLL arbre de distribution (équilibré)
Distribution de l'horloge (2) f0 déphaseur programmable zone isochrone f0 fex multiplieur à PLL Une batterie de déphaseurs programmables est utilisée pour compenser les écarts de phase de l'arbre de distribution arbre de distribution
Distribution (simplifiée) de l'horloge du Pentium 4* déphaseur (47) zones isochrones c 100 Mhz 2Ghz (3) arbres binaires de distribution PLL plot de test l'écart de phase total entre deux zones isochrones est inférieur à 50ps * A Multigigahertz Clocking Scheme for the Pentium 4 Microprocessor, IEEE journal of Solid State Circuits, nov 2001
Gain de puissance consomme de 40 à 70% de la puissance dissipée L'arbre de distribution de l'horloge consomme de 40 à 70% de la puissance dissipée il doit être "temporellement précis" La division par N de la fréquence de l'horloge transmise permet de gagner un facteur N sur la puissance qu'il consomme (CMOS) L'arbre de distribution doit garder les mêmes caractéristiques électriques il doit conserver la même "précision temporelle" même géométrie même dimensionnement des transistors => même consommation par transition La puissance consommée par les PLL de rétablissement de la fréquence peut être comparée à celle des rephaseurs
Réduction de la fréquence distribuée f0/N multiplieur à PLL zone isochrone fex multiplieur à PLL Approche dite "Multi-PLL" arbre de distribution
Exemple de gain envisageable P4 Northwood Puissance dissipée totale 50 w (à 2,2 Ghz) Puissance dissipée par le réseau de distribution de l'horloge => de 20 à 35 w Puissance dissipée par un réseau à F/10 => 2 à 3,5 w Puissance dissipée par le circuit modifié => 32 à 19 w
Synchronisation inter zones isochrones diviseur zone isochrone i-1 C f0/N f0 horloge distribuée C C C VCO Zone isochrone i /N Le circuit devient un vaste système asservi dont il faut surveiller la stabilité! C C multiplieur diviseur zone isochrone i+1
Conclusions La technique proposée ne se veut pas être un moyen de réaliser des circuits "basse consommation", mais de limiter la puissance dissipée par les circuits rapides tout en ne nuisant pas à leur performance. Elle peut être couplée avec une technique de resynchronisation dynamique Elle n'est pas exclusive des autres techniques de réduction de la consommation.