Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parEveline Cochet Modifié depuis plus de 9 années
1
Une méthode de prévision à un pas de temps Application à la prévision de la qualité de l’air S. Canu, Ph. Leray, A. Rakotomamonjy laboratoire PSI, équipe « systèmes d’information pour l’environnement » psichaud.insa-rouen.fr/~scanu
2
Plan de route u les données de l’agglomération rouennaise u nettoyage des données - validation de capteurs u prévision à un pas de temps le problème d’apprentissage une méthode de sélection de variables pertinentes l’algorithme d ’apprentissage illustrations u conclusions validation de données prévision à un jour
3
Les données brutes de Rouen - SO2 : DRIR, CARL, EXPO, DVIL et SOTT, - NO2 : DRIR, CARL et EXPO - O3 : DRIR, CARL et EXPO 11 variables pendant 3 ans
4
Les données brutes - SO2 : DRIR, CARL, EXPO, DVIL et SOTT, - NO2 : DRIR, CARL et EXPO - O3 : DRIR, CARL et EXPO – 11 variables pendant 3 ans, – une donnée toutes les heures (365*24 = 8760)
5
1998
6
NO 2 (1998)
7
SO 2 98
8
Ozone (O 3 )
9
Ozone 98 - données manquantes
10
Données manquantes 98 sur 8760 points valeurs manquantes SO2 241 393 161 164 45 valeurs manquantes O3 36 219 27 valeurs manquantes NO2 187 52 355 97 sur 24*365= 8760 points valeurs manquantes SO2 1049 359 57 574 131 valeurs manquantes O3 5206 251 117 valeurs manquantes NO2 200 329 783
11
O 3 corrélations 98
12
Nettoyage - principe O 3 (t+1) Modèle linéaire
13
Nettoyage - résultat
14
Nettoyage - résultat (détail)
15
Histogramme des indices ATMO sur Rouen (1997 et 1998)
16
Indice ATMO sur Rouen 1997
17
Indice Atmo sur Rouen 1998
18
Causes des pics de pollutions à Rouen « statistiquement » non significatif conjectures : été : pics d’ozone hiver : pics de NO2-SO2 Précurseur ? Qui est précurseur de qui Fiabilité des capteurs ?
19
Prévision du maximum sur un jour de ozone Il est minuit….. Que va t’il se passer demain Variables explicatives variable à prévoir O3(t-24:t)max(O3(t+1:t+25)) f(x) = y f inconnue, de « taille » inconnue
20
Apprentissage à partir d'exemples Données : (x i,y i ) i=1,n Principe inductif : Minimisation risque empirique Ce n’est pas suffisant...
21
Contrôler la complexité “effective” Taille du réseau limiter les poids Arrêter l’apprentissage estimer la complexité B 1 B n B k*
22
Choix de contrôle de la complexité le cas linéaire
23
* 00.01110 sélection de l'hyperparamètre Erreur Estimer l’erreur, la vraie
24
Choix de contrôle de la complexité le cas linéaire * 00.01110 sélection de l'hyperparamètre Erreur Estimer l’erreur, la vraie 0 0.0250 0 0.0249 0 0.0915 0.0231 0 -0.0296 0 -0.0006 0 0.1049 0 0.1938 0.2810 0.0857 0 -0.1117
25
Choix de contrôle de la complexité le cas NON linéaire (PMC) sélection des variables pertinentes * 00.01110 sélection de l'hyperparamètre Erreur Estimer l’erreur, la vraie -0.0126 -0.0394 -0.0421 -0.0115 -0.0247 0.0396 -0.0232 -0.0038 -0.0000 0.0000 -0.0593 -0.1292 -0.0361 0.0079 0.0019 -0.0003 0.0188 -0.0001 0.0115 0.0194 -0.0000 0.0000 0 0 -0.0418 -0.0224 -0.0046 0.0014 0.0027 0.0099 -0.0538 -0.0352 -0.3224 0.4414 0 0 -0.2225 0.0485 -0.1403 -0.5140 -0.0981 -0.0319 0 0 0.0039 -0.0025 0.0925 0.1301 -0.2475 1.6639
26
Pour j=1:5 xi = X; yi = y; xt = xi((j-1)*n+1:j*n,:); yt = yi((j-1)*n+1:j*n,:); xi((j-1)*n+1:j*n,:) = []; yi((j-1)*n+1:j*n,:) = []; [W1opt,W2opt] = MLParmsfit(xi,yi,W1,W2,lambda); yprev1t = MLPval(xt,W1opt,W2opt,F1,F2); errarmst = errarmst+mean((yprev1t-yt).^2); errarmsat = errarmsat+mean(abs(yprev1t-yt)); end Estimation de l’erreur par validation croisée x test Apprentissage x i
27
Estimation de l’erreur de prévision f(x) = y f inconnue, de « taille » inconnue t = 2 (Nadaraya Watson Hardle 88) Stacking (Wolpert 92): on ajoute toutes les variables explicatives possibles Erreur obtenue sur les y i de test de la validation croisée
28
Algorithme 1. Séparation des données apprentissage (97) - test (98) 2. Identification du modèle 2.1 modèle de prévision 2.1.1 calcul de validation croisée) 2.2.1 estimation du modèle 2.2 prévision de l’erreur variables explicatives = [x, y p ] variable à prévoir = abs(y p - y) = 2 3. Évaluation du modèle
29
Comparaison de trois modèles 1. Modèle linéaire 2. Modèle linéaire régularisé 3. Modèle non linéaire : réseau de neurones de type perceptron multicouche
30
Cohérence des années 97 98
31
97 98
32
97 - 98 max O 3
33
du modèle linéaire Err CV Err abs CV
34
pour le MLP Err CV Err abs CV
35
Prévision : résultats Régression linéaire ARM MLP App 97 133. 8.59 135. 8.48 165. 9.16 98 107. 7.52 110. 7.57 131. 8.16 Test 98 340. 14.7 254. 12.6 148. 8.83 97 341. 14.4 285. 12.8 197. 9.96 MSE MAE Modèle persistant : 97 : 202. - 9.7, 98 : 169. - 8.7
36
Résultats : modèle linéaire
37
Résultats : modèle linéaire (détail)
38
Résultats pour le MLP t
39
Résultats pour le MLP (détail) t
40
t
41
Conclusion on dispose d’une méthodologie – prévision – estimation de l’erreur reste à : – choisir le problème (y, été) – choisir les bonnes « entrées » (x, méteo) – disposer de suffisamment de données......pour la validation (domaine de validité du modèle) on fait de la « programmation par l’exemple »
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.