Introduction à l’analyse des

Introduction à l’analyse des
Licence 3 – Outils mathématiques & statistiques Introduction à l’analyse des séries temporelles

Plan Série d’évènements Le problème Phénomènes aléatoires Tester les tendances Tester l’uniformité Tester un motif Cyclicité Autocorrélation Méthodes de Fourier

Séries d’évènements - Le problème
1229 1376 1583 1780 1927 1239 1377 1584 1804 1928 1240 1387 1587 1806 1929 1265 1388 1598 1814 1931 1269 1434 1611 1815 1932 1270 1438 1612 1826 1933 1272 1473 1613 1827 1934 1273 1485 1620 1828 1935 1274 1505 1631 1829 1938 1281 1506 1637 1830 1949 1286 1522 1649 1854 1950 1305 1533 1668 1872 1951 1324 1542 1675 1874 1953 1331 1558 1683 1884 1954 1335 1562 1691 1894 1955 1340 1563 1708 1897 1956 1346 1564 1709 1906 1957 1369 1576 1765 1916 1958 1375 1582 1772 1920 1962 Années d’éruption du volcan Aso durant la période

Régulier ou pas?

Le plus simple : traiter une série de dates! But: rechercher un critère d’extrapolation, de compréhension… Géologie Tremblements de terre, éruptions volcaniques, impacts météoritiques, extinctions de masse. Les données sont regardées comme des points dans le temps :très courts face à la période considérée. Données excédant un seuil (threshold).

Comment faire? La fin du temps est souvent le présent Choix d’un seuil suivant des critères précis (i.e. séismes) Si c’est aléatoire (random) c’est cuit! Sinon : régularité (regularity), tendance (trend), motif (pattern). Importance de la définition du départ et de la fin de la période ciblée. Les évènements ne doivent pas être les limites sinon biais.

Aléatoire (randomness): l’occurrence d’un événement n’affecte pas la probabilité d’occurrence des autres évènements. Indépendance: Pas très respectée en géologie séismes ou éruptions volcaniques relâchent des contraintes ou causent des instabilités.

Série d’évènements - phénomène aléatoire
10 ans = 10 x 1 an 10 évènements aléatoires Nombre d’intervalles ou l’on attend k évènements donné par le modèle de Poisson :P(k)xT (vu en L1) n : nombre total d’évènements, T : nombre d’intervalles l = n/T -> Test du c2

H0 : Les évènements sont distribués aléatoirement dans le temps H1 : Les évènements sont groupés ou réguliers Avec n évènements, dans T intervalles. (Oj) : nombre d’intervalles observés avec j évènements comparés à (Ek) prédits par la distribution de Poisson. Test du chi-2 (vu en L1) Ek > 5 d.l = (nombre de classes – 2) ATTENTION : Ce test ne convient pas aux tendances (augmentation ou diminution de la fréquence dans le temps)

Un exemple: Dans une série de 45 m de carbonates du Dévonien, des horizons de tufs apparaissent : Position en m: La position est-elle aléatoire?

Distribution de fréquence
Série d’évènements - phénomène aléatoire Observation Intervalle k 0-3 3-6 6-9 9-12 12-15 15-18 18-21 21-24 24-27 27-30 30-33 33-36 36-39 39-42 42-45 2 3 1 Distribution de fréquence observée: k Ok 1 2 3 4 6

Nombre d’intervalles : T = 15 Nombre d’évènements : n = 17 Pour k=0, E0= 15 x e-17/15 = 4.829 k Ek 1 2 3 4 5 4.829 5.470 3.101 1.173 0.333 0.063

Test du c2. H0: les données viennent d’une distribution de Poisson (randomness) H1: Les données ne sont pas issues d’une distribution de Poisson k Ok Ek (Ok-Ek)2/Ek 1 2-inf Total 4 6 5 15 4.829 5.470 4.701 0.142 0.051 0.019 c2=0.212 A peu près 5 dans chaque classe : ok = 0.05, dl = 3 (c’est le nbre classes) – 1 = 2 c2 = 5.99 H0 n’est pas rejeté. Les données peuvent s’ajuster à la distribution de Poisson ATTENTION : Ce test ne convient pas aux tendances

Série d’évènements – Tester les tendances (trends)
Trend : fréquences croissantes ou décroissantes. Changement de fréquences = changement dans la longueur des intervalles entre les évènements. Graphe ordinal entre le numéro des évènements et l’intervalle entre événement. Statistiques non-paramétriques :coefficient de Spearman (vu en L2!). Charles Spearman ( )

Echelle de la 1ere variable : ordinale Echelle de la 2eme variable : intervalle rs :coefficient de rang (Spearman) hi : longueur du i ième intervalle. n = nbre d’intervalles = nbre d’évènements -1.

Même jeu de données que tout à l’heure Position en m: Intervalles

D2 = (Rang obs-Rang de hi)2
Série d’évènements – Tester les tendances (trends) Rang de l’obs. Intervalle hi Rang de hi D2 = (Rang obs-Rang de hi)2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1.8 0.9 1.0 0.7 2.1 4.4 1.3 1.9 1.4 5.5 3.3 4.5 1.6 4.3 6.6 3.5 49 0.25 25 56.25 SD2=287.5

rs = a = 0.05 et n = 16, rs critique = 0.427 La valeur calculée excède la valeur critique. Il y a une tendance!

Série d’évènements – Tester l’uniformité
Les évènements uniformément distribués peuvent se retrouver en géologie quand l’occurrence d’un événement réduit la probabilité d’autres évènements dans un futur proche mais l’augmente après. Ex: séismes Test de Kolmogorov (K test) : hypothèse nulle d’uniformité. (vu en L2)

Tester l’uniformité Basé sur un diagramme de cumul de fréquence. On recherche la différence verticale maximale entre le modèle et les data.

Tester l’uniformité Test sensible aux tendances et aux clusters (regroupements) Le calcul du K met en jeu la proportion d’évènements ayant eu lieu (i/n) et la proportion de temps écoulé (ti/T). n évènements, T temps total. Calcul de (i/n) – (ti/T) et ((i-1)/n) – (ti/T) Plus ces différences sont petites, plus c’est uniforme

Tester l’uniformité Kolmogorov test H0 : les évènements sont uniformes ou aléatoires H1 : les évènements sont regroupés ou avec une tendance K est comparé avec des valeurs critiques issues de tables Un exemple avec toujours les mêmes données…

Tester l’uniformité 1/17 0,5/45 i ti/T i/n (i-1)/n ti/T-i/n
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 0.011 0.051 0.071 0.093 0.109 0.156 0.253 0.282 0.324 0.356 0.478 0.500 0.573 0.673 0.709 0.804 0.951 0.059 0.118 0.176 0.235 0.294 0.353 0.412 0.471 0.529 0.588 0.647 0.706 0.765 0.823 0.882 0.941 1.000 -0.048 -0.067 -0.105 -0.142 -0.185 -0.197 -0.159 -0.189 -0.205 -0.232 -0.169 -0.206 -0.192 -0.150 -0.173 -0.137 -0.049 -0.008 -0.047 -0.083 -0.126 -0.138 -0.100 -0.130 -0.147 -0.110 -0.133 -0.092 -0.114 -0.078 0.010 0,5/45

Tester l’uniformité K = 4.126 x 0.232 = 0.957
Valeur critique dans la table pour a = 0.05 et n = 17 : 0.318 On rejette l’hypothèse nulle. Les évènements ne sont pas uniformes. Ici, plus haute densité en début de série.

Tester l’uniformité Formulaire - Table de la loi de Kolmogorov-Smirnov
Alpha = 0.10 Alpha = 0.05 Alpha = 0.01 1 0,95 0.9750 0.9950 2 0,7764 0.8419 0.9293 3 0,636 0.7076 0.8290 4 0,5652 0.6239 0.7342 5 0,5095 0.5633 0.6685 6 0,468 0.5193 0.6166 7 0,4361 0.4834 0.5758 8 0,4096 0.4543 0.5418 9 0,3875 0.4300 0.5133 10 0,3697 0.4092 0.4889 11 0,3524 0.3912 0.4677 12 0,3381 0.3754 0.4491 13 0,3255 0.3614 0.4325 14 0,3142 0.3489 0.4176 15 0,304 0.3376 0.4042 16 0,2947 0.3273 0.3920 17 0,2863 0.3180 0.3809 18 0,2785 0.3094 0.3706 19 0,2714 0.3014 0.3612 25 0,2377 0.2640 0.3166 30 0,2176 0.2417 0.2899 35 0,2019 0.2242 0.2690 40 0,1891 0.2101 0.2521 45 0,1786 0.1984 0.2380 50 0,1696 0.1884 0.2260 60 0,1551 0.1723 0.2067 70 0,1438 0.1598 0.1917 80 0,1347 0.1496 0.1795 90 0,1271 0.1412 0.1694 100 0,1207 0.1340 0.1608 n>100 1,223/racine(n) 1,358/racine(n) 1,629/racine(n) Formulaire - Table de la loi de Kolmogorov-Smirnov

Tester un motif (pattern)
Il y a des distributions non aléatoires qui ne vont pas être détectées avec les méthodes précédentes : patterns. Par exemple phases d’activité (pattern = uniformité + clusters) On considère une succession d’intervalles. Calcul d’un coefficient de corrélation (de Spearman) entre h et h+1. Si il n’y a pas de pattern, rs = 0. Si rs < 0 : intervalles longs puis courts Si rs > 0 : les intervalles successifs sont similaires

H0 : Pas de relation entre les intervalles successifs H1 : corrélation entre la longueur des intervalles successifs n = (nbre d’évènements) – 2

hi R(hi) hi+1 R(hi+1) (R(hi)- R(hi+1))2 1.8 0.9 1.0 0.7 2.1 4.4 1.3 1.9 1.4 5.5 3.3 4.5 1.6 4.3 8 2 3.5 1 10 13 5 9 6 15 11 14 7 12 6.6 36 2.25 6.25 64 4 132.25 42.25 49 16 S=511

hi hi+1 R(hi) R(hi+1) 1,8 0,9 8 2 1 3 0,7 2,1 9 4,4 10 12 1,3 13 5 1,9 1,4 6 5,5 14 15 3,3 4,5 11 1,6 7 4,3 6,6

rs = rs critique pour a = 0.05 et n = 15 : 0.443 Nous ne rejetons pas H0. Il n’y a pas de corrélation évidente entre les intervalles successifs. Les intervalles consécutifs semblent être indépendants.

hi hi+1 r(Hi) r(hi+1 3 1,2 0,91 5 4 4,2 8,89 11 5,11 2,4 9 14 1,4 6 16,4 7,5 7 10 17,8 0,7 25,3 1,5 26 0,5 8 2 27,5 12 13 28 1,3 40 9,3 41,3 0,4 1 50,6 1,56 51 52,56

Séries temporelles – cyclicité. Autocorrélation
Comparer les valeurs observées en un point avec les valeurs observées en un ou plusieurs points plus tôt (valeurs retardées - lagged values). Notion importante en analyse spatiale Décalage de 100h, puis 200h etc… Chaque observation est très semblable à sa valeur adjacente (lag = 1); mais aussi à la même observation 24h plus tôt (lag = 24).

Chronogramme. L’evolution des T° a Nottingham Castle

L’idée: Trouver le pattern et en tirer avantage. La corrélation entre les données originales et les k-lagged se nomme l’autocorrélation d’ordre k. L’Autocorrelation Function (ACF) donne les coefficients de corrélation entre pour les lag consécutifs. Le corrélogramme est la représentation graphique de l’ACF. Attention si les séries ont une variance instable. Une transformation est nécessaire avant d’utiliser l’AFC.

Attention pour la préparation des données: Les observations doivent être régulièrement espacées dans le temps Toute tendance linéaire doit être éliminée avant l’analyse Règle empirique: au moins 50 valeurs dans la série, le lag ne doit pas excéder n/4.

Test de significativité du coefficient d’autocorrélation. H0 : rs = 0 H1 : rs ≠ 0 Avec t le lag, rs le coefficient d’autocorrelation pour ce lag et n le nombre d’observations. Zr suit une loi normale centrée réduite. Les bornes sont et 1.96 à 95% de confiance.

Séries temporelles – cyclicité. Méthodes de Fourier
Augmentation du CO2 dans l’atmosphère en fonction du temps. Superposition de plusieurs signaux Quels sont leurs origines? Variation séculaire Variation annuelle? ICI C’EST TRES SIMPLE… MAIS CE N’EST PAS TOUJOURS LE CAS

Prenons un autre exemple: Variation du d18O dans la carotte GISP-2 du Groenland sur les dernières années

Principe de la transformée de Fourier Décomposition de la lumière par un prisme Décomposition d’un signal temporel par transformée de Fourier

Séries temporelles – cyclicité. Fourier - traitement préalable
Elimination du bruit par lissage (Smoothing) Données brutes = 1 signal + bruit. Le bruit apparaît sur les hautes fréquences. Il a peu d’influence sur les données adjacentes et peut être réduit en moyennant une courte série. Utilisation de moyennes arithmétiques pondérées. Questions : Nombre d’observations prises en compte? Valeur des poids?

Séries temporelles – cyclicité. Traitement préalable
yi’=(-3yi yi yi + 12 yi+1 – 3 yi+2) / 35 Quadratic polynomial smoothing : 5 termes ti-2 ti-1 ti ti+1 ti+2 -3 12 17 Quadratic polynomial smoothing : 5-9 termes No termes ti ti+1 ti-1 ti+2 ti-2 ti+3 ti-3 ti+4 ti-4 5 7 9 17 59 12 6 54 -3 3 39 -2 14 -21

Les tendances doivent être éliminées avant traitement par transformée de Fourier. Si il y a un trend linéaire y = a + bt On doit travailler sur le résidu: ei = yi – bti - a

Séries temporelles – cyclicité. Fourier - Mathématiques
Décomposition d’une série temporelle en une suite de sinusoïdes (amplitude, phase et fréquence). Voyons le plus simple Ajoutons l’amplitude Comment changer la fréquence? Et la phase?

Donc pour une fréquence spécifique on a: Comme on a également : On tire En posant: On tire

Finalement on somme toutes ces sinusoïdes!! Toutes les fonctions, à condition qu’elles soient continues, et qu’il n’y ait qu’une valeur de Y pour chaque valeur de X, peuvent être écrites sous la forme: Relation de Fourier

L’amplitude pour une fréquence donnée : En général on définit plutôt la puissance ou la variance:

Calcul très complexe alors tout à l’ordinateur! Algorithme FFT (Fast Fourier Transform) mais quelques contraintes : Les données doivent être également espacées dans le temps Le nombre de données doit être 2n avec n entier. Il ne doit pas y avoir de trend Les fréquences entières sont calculées En conséquence de 4. Les cycles doivent être complets.

Problème en géologie dans la définition du temps Sédiments : 1 varve = 1 an Croissance sur les coquilles : rythmes lunaires, années, jours… Si le taux de sédimentation est constant, alors le temps est assimilable à une distance. Quoi qu’il en soit, attention à la corruption du temps!

Les résultats sont exprimés sous forme de puissance (power spectrum)

Simulation: par exemple: avec w1 = fréquence de la fondamentale (en Hz) fois 2p, s(t) = sin(w1t) *sin(3*w1t) + 0.5*sin(5*w1t) *sin(7*w1t) + 0.5*sin(9*w1t) *sin(11*w1t) *sin(13*w1t)

Si T temps total et présence d’un pic à k, la période peut être calculée avec T/k. Contrainte: La fréquence maximale est déterminée par le nombre d’observations /2. Fréquence de Nyquist. Problème: l’aliasing! La variance de tous les signaux dont la fréquence est supérieure à la fréquence de Nyquist seront ajoutées aux variances des plus basses fréquences dans le périodigramme!!! Solution: on filtre les hautes fréquences.

Séries temporelles – cyclicité. Fourier - Filtres

Séries temporelles – cyclicité. Fourier – Le bruit
Bruit blanc : La puissance est uniformément distribuée sur le spectre

Bruit rose: C’est un bruit dit "1/f noise’. Perte de 3dB a chaque octave. C’est le bruit le plus fréquent dans la nature.

Bruit bleu: gain de 3dB a chaque octave.

Séries temporelles – cyclicité. Fourier « glissant »

Séries temporelles – cyclicité. Tests de significativité
Les données réelles sont bruitées (noisy) -> pics mineurs (spikes) Question : signal ou bruit? Réponse : g-test, White noise test. H0: Puissance à f due à un phénomène Aléatoire H1: Une cyclicité existe à cette fréquence Variation totale Valeur critique: p= niveau de signification (a=0.05) m=(nombre d’observations)/2

Lignes de croissance sur des nautiles du Silurien Puissance=1,28 k=12 (freq max) Variance totale: 9,9 n=128 m=n/2=64 On ne rejette pas H0. Conclusion: Ce pic peut résulter d’un phénomène aléatoire

‘White-noise’ test Puissance uniformément distribuée le long du spectre? Basé sur le KS test Puissance cumulée vs. fréquence. Hypothèses: H0: bruit blanc H1: ce n’est pas un bruit blanc

Proportion de puissance cumulée à la fréquence k. Si bruit blanc, ce qui est attendu

Avec a=0.05, les intervalles de confiance sont: et Si gk sort de l’intervalle, il y a 95% de chances pour que les données ne résultent pas d’un processus type ‘bruit blanc’

Séries temporelles – cyclicité. Exemples

Excentricité de l’orbite terrestre (100,000 ans) Précession de l’axe de la Terre (26,000 ans) Angle d’inclinaison sur l’axe (40,000 ans)

Fréquence d'échantillonnage et bande passante: Pour définir numériquement un son de fréquence F, il faut appliquer une fréquence d'échantillonnage Fs telle que: Fs>2F.La valeur du taux d'échantillonnage pour un cd, par exemple n'est pas arbitraire, elle découle en réalité du théorème de Shannon/Nyquist, qui stipule que pour numériser fidèlement une valeur ayant une fréquence donnée, il faut numériser au double de cette fréquence. Or l'oreille humaine n'arrive pas à distinguer des sons dont la fréquence dépasse Hz, ainsi il faut numériser à Hz soit 44 kHz. Différent taux d'échantillonnage : - 44 kHz : qualité cd - 22 kHz : qualité radio - 8 kHz : qualité téléphone

Analyse de Fourier – Principe du CD
R=2n-1 (Où n est le nombre de bits).Ainsi les formats utilisés sont: 8 et 16 bits en micro-informatique et minidisque Sony 16 bits en audio amateur (CD et DAT) 16, 18, 20 et 24 bits en audio professionnelle Codage sur 8 bits : 256 valeurs possibles codage sur 16 bits: valeurs possibles Quelle est la signification pratique de la résolution ? Plus on enregistre un son avec une résolution élevée, plus on va pouvoir en enregistrer les infimes détails. La précision maximale obtenue est celle du plus petit échantillon.

Introduction à l’analyse des

Présentations similaires

Présentation au sujet: "Introduction à l’analyse des"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Introduction à l’analyse des

Présentations similaires

Présentation au sujet: "Introduction à l’analyse des"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back