Une méthode de prévision à un pas de temps Application à la prévision de la qualité de l’air S. Canu, Ph. Leray, A. Rakotomamonjy laboratoire PSI, équipe.

Slides:



Advertisements
Présentations similaires
Évaluation de la qualité d'une clusterisation
Advertisements

Application de réseaux bayésiens à la détection de fumées polluantes
1 Vers la découverte de nouvelles modalités sensori-motrices. Encadrants : Pierre Bessière Anne Spalanzani Pierre Dangauthier DEA I.V.R. 24 Juin 2003 Sélection.
3. Analyse et estimation du mouvement dans la vidéo
Complexité et Classification
Régression -corrélation
THÈME APPLICATION OF THE ARTIFICIAL NEURAL NETWORK FOR MODELING THE THERMAL BEHAVIOR OF BUILDING IN HUMID REGION Léopold Mbaa, Pierre Meukamb, Alexis.
DEA instrumentation et commande
INF 162 Probabilités pour l’informatique Licence informatique
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Apprendre à partir des observations
Modélisation de déclenchement d’avalanche par réseaux de neurones
Dérivation et Intégration numérique
Réseaux de neurones artificiels « la rétropropagation du gradient »

Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
Méthode des k plus proches voisins
Régression linéaire simple
DEA Perception et Traitement de l’Information
DEA Perception et Traitement de l’Information
Constructivisme rationaliste et politiques sociales
Sujet : Étude de Data Mining en utilisant SAS:EM
Les réseaux de neurones
Prévisions météorologiques, projections climatiques : que peut- on prévoir et avec quelle fiabilité ? Exercice 2: estimation de la prévisibilité dans le.
Le comportement des coûts Chapitre 3
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Estimation des paramètres génétiques pour la dysplasie de la hanche dans une population de Terre-Neuve Gérard-Frippiat Aurore Girardier Sophie Graff Sophie.
ASI 3 Méthodes numériques pour l’ingénieur
La régression multiple
Méthodes de prévision (STT-3220) Section 6 Exemple: Prévisions dans un modèle AR(1) Version: 18 décembre 2008.
Les réseaux de neurones
Estimation fonctionnelle à l’aide de S.V.M.
DEA Perception et Traitement de l’Information
Probabilités et Statistiques
Légende : vol (3 possibilités d’affectation) : possibilité d’affectation d’un niveau à un vol : niveau affecté à un vol : conflit potentiel rejeté : conflit.
Cédric LAOUENAN 20/11/2008 Tests statistiques Cédric LAOUENAN 20/11/2008
Impact des émissions de NO par les sols sur la formation de l’ozone en Afrique de l’Ouest Claire Delon, Dominique Serça, Jean Pierre Chaboureau, Céline.
Apport du Data Mining pour prédire la facture de patients hospitalisés
LA REGRESSION LINEAIRE
Algorithmes Branch & Bound
Méthodes d’assimilation: Le problème du point de vue de la mesure (P. Prunet, Noveltis) Assimilation de données en zones cotières (P. De Mey, LEGOS/POC)
Réseaux de neurones artificiels « programmation par l’exemple »
S. Canu, laboratoire PSI, INSA de Rouen
Qualité de Service (QoS) Officer
Réseaux de neurones artificiels « le neurone formel »
Chapitre 12 Régression linéaire simple et corrélation linéaire
Apprentissage « machine »
Probabilités et Statistiques Année 2010/2011
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Gestion budgétaire des ventes
Outils d’analyse: la méthode des moindres carrées
Plan de la séance 5. Deux grands thèmes L’analyse du risque, l’emploi de la simulation et du L’optimisation, la programmation linéaire.
1 BIO 4518: Biostatistiques appliquées Le 1er novembre 2005 Laboratoire 7 ANCOVAs (Analyse de covariance)
Knowledge discovery in Databases (KDD)
L’erreur standard et les principes fondamentaux du test de t
Méthode des moindres carrés (1)
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Principes d'économétrie
Évolution de second ordre dans un algorithme évolutionnaire V. Lefort
Comparaison multi-échelle des précipitations du modèle Méso-NH et des données radar Colloque CNFSH – Ecole des Ponts ParisTech – 11/12 juin 2009 A., Gires.
Dr Vincent BIGE Centre de référence Mucoviscidose de Lyon
Distribution à deux variables
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
la reconnaissance de visages
ETUDES PRONOSTIQUES Pr Ganry.
Institut Technologique FCBA : Forêt, Cellulose, Bois - construction, Ameublement Regards croisés sur les valeurs de la forêt FCBA : Alain Thivolle-Cazat,
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Transcription de la présentation:

Une méthode de prévision à un pas de temps Application à la prévision de la qualité de l’air S. Canu, Ph. Leray, A. Rakotomamonjy laboratoire PSI, équipe « systèmes d’information pour l’environnement » psichaud.insa-rouen.fr/~scanu

Plan de route u les données de l’agglomération rouennaise u nettoyage des données - validation de capteurs u prévision à un pas de temps le problème d’apprentissage une méthode de sélection de variables pertinentes l’algorithme d ’apprentissage illustrations u conclusions validation de données prévision à un jour

Les données brutes de Rouen - SO2 : DRIR, CARL, EXPO, DVIL et SOTT, - NO2 : DRIR, CARL et EXPO - O3 : DRIR, CARL et EXPO 11 variables pendant 3 ans

Les données brutes - SO2 : DRIR, CARL, EXPO, DVIL et SOTT, - NO2 : DRIR, CARL et EXPO - O3 : DRIR, CARL et EXPO – 11 variables pendant 3 ans, – une donnée toutes les heures (365*24 = 8760)

1998

NO 2 (1998)

SO 2 98

Ozone (O 3 )

Ozone 98 - données manquantes

Données manquantes 98 sur 8760 points valeurs manquantes SO valeurs manquantes O valeurs manquantes NO sur 24*365= 8760 points valeurs manquantes SO valeurs manquantes O valeurs manquantes NO

O 3 corrélations 98

Nettoyage - principe O 3 (t+1) Modèle linéaire

Nettoyage - résultat

Nettoyage - résultat (détail)

Histogramme des indices ATMO sur Rouen (1997 et 1998)

Indice ATMO sur Rouen 1997

Indice Atmo sur Rouen 1998

Causes des pics de pollutions à Rouen « statistiquement » non significatif conjectures : été : pics d’ozone hiver : pics de NO2-SO2 Précurseur ? Qui est précurseur de qui Fiabilité des capteurs ?

Prévision du maximum sur un jour de ozone Il est minuit….. Que va t’il se passer demain Variables explicatives variable à prévoir O3(t-24:t)max(O3(t+1:t+25)) f(x) = y f inconnue, de « taille » inconnue

Apprentissage à partir d'exemples Données : (x i,y i ) i=1,n Principe inductif : Minimisation risque empirique Ce n’est pas suffisant...

Contrôler la complexité “effective” Taille du réseau limiter les poids Arrêter l’apprentissage estimer la complexité B 1 B n B k*

Choix de  contrôle de la complexité le cas linéaire

* sélection de l'hyperparamètre Erreur Estimer l’erreur, la vraie

Choix de  contrôle de la complexité le cas linéaire * sélection de l'hyperparamètre Erreur Estimer l’erreur, la vraie

Choix de  contrôle de la complexité le cas NON linéaire (PMC) sélection des variables pertinentes * sélection de l'hyperparamètre Erreur Estimer l’erreur, la vraie

Pour j=1:5 xi = X; yi = y; xt = xi((j-1)*n+1:j*n,:); yt = yi((j-1)*n+1:j*n,:); xi((j-1)*n+1:j*n,:) = []; yi((j-1)*n+1:j*n,:) = []; [W1opt,W2opt] = MLParmsfit(xi,yi,W1,W2,lambda); yprev1t = MLPval(xt,W1opt,W2opt,F1,F2); errarmst = errarmst+mean((yprev1t-yt).^2); errarmsat = errarmsat+mean(abs(yprev1t-yt)); end Estimation de l’erreur par validation croisée x test Apprentissage x i

Estimation de l’erreur de prévision f(x) = y f inconnue, de « taille » inconnue t = 2  (Nadaraya Watson Hardle 88) Stacking (Wolpert 92): on ajoute toutes les variables explicatives possibles Erreur obtenue sur les y i de test de la validation croisée

Algorithme 1. Séparation des données apprentissage (97) - test (98) 2. Identification du modèle 2.1 modèle de prévision calcul de  validation croisée) estimation du modèle 2.2 prévision de l’erreur variables explicatives = [x, y p ] variable à prévoir = abs(y p - y) = 2 3. Évaluation du modèle

Comparaison de trois modèles 1. Modèle linéaire 2. Modèle linéaire régularisé 3. Modèle non linéaire : réseau de neurones de type perceptron multicouche

Cohérence des années 97 98

97 98

max O 3

du modèle linéaire Err CV Err abs CV

 pour le MLP Err CV Err abs CV

Prévision : résultats Régression linéaire ARM MLP App Test MSE MAE Modèle persistant : 97 : , 98 :

Résultats : modèle linéaire

Résultats : modèle linéaire (détail)

Résultats pour le MLP t

Résultats pour le MLP (détail) t

t

Conclusion on dispose d’une méthodologie – prévision – estimation de l’erreur reste à : – choisir le problème (y, été) – choisir les bonnes « entrées » (x, méteo) – disposer de suffisamment de données......pour la validation (domaine de validité du modèle) on fait de la « programmation par l’exemple »