Apprentissage Statistique et Techniques de Ré-échantillonnage

Slides:



Advertisements
Présentations similaires
Chapitre I : Rappels Chapitre II: Eléments d’échantillonnage (Tassi, Chap. 2, Kauffmann, Chap. 5 et 6) Chapitre III: L’information au sens de Fisher (Kauffmann,
Advertisements

Soutenance du stage de DEA.
Probabilités et statistiques au lycée
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Présentation de la société, des logiciels et des services
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Localisation fine de QTL par déséquilibre de liaison Simon BOITARD Durée : octobre 2003-septembre 2006 Laboratoire : BIA (biométrie et intelligence artificielle)
C1 Bio-statistiques F. KOHLER
Inférence statistique
Échantillonnage-Estimation
Complexité et Classification
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Probabilités et statistique en TS
THÈME APPLICATION OF THE ARTIFICIAL NEURAL NETWORK FOR MODELING THE THERMAL BEHAVIOR OF BUILDING IN HUMID REGION Léopold Mbaa, Pierre Meukamb, Alexis.
DEA instrumentation et commande
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Application des algorithmes génétiques
La méthode de Monte Carlo
5. Algorithme à estimation de distribution
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Applications du perceptron multicouche
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Méthode des k plus proches voisins
Régression linéaire simple
Modeles non-lineaires
Les réseaux de neurones
La méthodologie expérimentale Fondements et bases d’application
Modélisation de la topologie avec le Graphe Génératif Gaussien
Prédiction multi-step de la volatilité : le modèle ARIMA-GARCH appliqué aux séries temporelles d’affaiblissement par la pluie sur les liaisons Terre-Satellite.
1 Evaluer le risque en situation de changement climatique : mission impossible ? SAMA, 19 Janvier 2007 Eric Parent 1, Jacques Bernier 1 et Vincent Fortin.
Détection du meilleur format de compression pour une matrice creuse dans un environnement parallèle hétérogène Olfa HAMDI-LARBI.
Approches non intrusives des éléments finis stochastiques
Mécanique Statistique
La régression multiple
Les réseaux de neurones artificiels (RNA)
Régression linéaire (STT-2400)
Université du Québec à Montréal
Les intervalles de confiance pour la moyenne d’une population
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
ASI 3 Méthodes numériques pour l’ingénieur
Les réseaux de neurones
Présentation de la méthode des Eléments Finis
DEA Perception et Traitement de l’Information
Soutenance de stage 16 Mai au 5 Août 2011
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Classification automatique de textes
Méthodes de Biostatistique
Méthodes de Biostatistique
Probabilités et Statistiques
Lecture critique d’un essai clinique
10 février 2006GDR ISIS Journée Localisation et Navigation Projet EGNOS-BUS (Eurêka) André Monin, Wael Suleiman LAAS-CNRS.
des modèles utilisés pour la modélisation incendie
Modèle neuromimètique de l’apprentissage par renforcement Les aspects temporels (réponse retardée) peuvent être facilement intégrés au niveau cortical.
Amélioration de la simulation stochastique
Perceptron multicouches
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Optimisation par les algorithmes génétiques
Une méthode de prévision à un pas de temps Application à la prévision de la qualité de l’air S. Canu, Ph. Leray, A. Rakotomamonjy laboratoire PSI, équipe.
Les réseaux de neurones à réservoir en traitement d’images
Échantillonnage (STT-2000)
Probabilités et Statistiques Année 2010/2011
Travaux Pratiques Optimisation Combinatoire
Construction d'une hiérarchie mémoire faible consommation
Méthode des moindres carrés (1)
GPA-779 Application des systèmes experts et des réseaux de neurones.
ECHANTILLONAGE ET ESTIMATION
Introduction aux statistiques Intervalles de confiance
Transcription de la présentation:

Apprentissage Statistique et Techniques de Ré-échantillonnage Jean-Marc.Martinez@cea.fr Centre d’Etudes de Saclay Département de Modélisation des Systèmes et Structures 91190 Gif sur Yvette Automatique et Optimisation Université de Paris 12 20/03/2003

Domaine d’activité : Simulation numérique Ingénieur-Chercheur au CEA, Commissariat à l’ Énergie Atomique, au Centre d’Études de Saclay au DM2S, Département de Modélisation des Systèmes et Structures Domaine d’activité : Simulation numérique Traitements d’incertitudes Analyses de sensibilité Supervision des calculs Méthodes Plans d’expériences numériques Surfaces de réponse non linéaires Apprentissage statistique (réseaux de neurones) Optimisation multicritère (algorithmes génétiques) Automatique et Optimisation Université de Paris 12 20/03/2003

Apprentissage Statistique (Vapnik ) Modèle général de l’apprentissage à partir d’exemples Générateur vecteurs aléatoires x  Rn, générés à partir d’une distribution de probabilité F(x) Superviseur qui associe une valeur y à chaque x, en fonction distribution conditionnelle F(y|x) inconnue Machine d’Apprentissage opérant sur un ensemble de fonctions paramétriques f(x,a), a  L ensemble de paramètres La sélection d’une fonction f(x,a) est basée sur l’ensemble d’apprentissage composé des observations (x1,y1),…,(xp,yp) x y Générateur « Plans d’expériences » Superviseur « Code » f(x,a) Machine Apprentissage « Surface de réponse » Automatique et Optimisation Université de Paris 12 20/03/2003

Évaluation de l’Apprentissage Fonction de coût L(y,f(x,a)) entre la réponse y du Superviseur et la prédiction f(x,a) fournit par la Machine d’Apprentissage Le risque fonctionnel R(a) n’est pas calculable; il est remplacé par le risque empirique calculé à partir des observations Problème : Le minimum de R(a) peut être différent du minimum de Remp(a) (approximation de fonction = problème mal posé) L’objectif de la Théorie de l’Apprentissage Statistique est de définir les conditions nécessaires et suffisantes pour assurer : Coût Moyen= Risque fonctionnel Automatique et Optimisation Université de Paris 12 20/03/2003

Cas de la régression Probabilité conditionnelle du Superviseur P(y|x) Cas déterministe  certitude conditionnelle : Cas stochastique  fonction de régression : Décomposition du coût moyen quadratique La fonction de régression f(x,a)=f0(x) est la solution optimale Automatique et Optimisation Université de Paris 12 20/03/2003

Décomposition du Risque R0(a) Erreur d’approximation La solution optimale f0(x) peut ne pas être représentée par une fonction paramétrique fn(x,a) car f0(x)  l’espace hypothèse Fn contenant les fonctions paramétriques : polynômes de degré  n réseaux de neurones à une couche cachée de n unités Erreur d’estimation La solution fn,p(x,a) minimisant le risque empirique est différente de la solution optimale du risque fonctionnelle car on ne dispose que d’un nombre limité d’observations Automatique et Optimisation Université de Paris 12 20/03/2003

Théorie de Vapnik et Chervonenkis La dimension VC d’un ensemble de fonctions fn(x,a) mesure leurs capacités de modélisation si h(fn) dimension VC de fn(x,a)=polynôme degré  n alors h(fn+1)>h(fn) Théorème : L’erreur d’estimation est bornée Remp(a) est décroissante mais D(h) est croissante en fonction de la dimension VBC  compromis On ne sait pas calculer avec précision la dimension VC pour des fonctions non linéaires solutions issues des réseaux de neurones et des méthodes statistiques Meilleur modèle Intervalle 1-h confiance Automatique et Optimisation Université de Paris 12 20/03/2003

Pourquoi les réseaux de neurones Propriétés Stinchecombe and White 1986 : toute fonction Rn to Rp peut être approchée par un réseau de neurones multicouche Une couche cachée à fonction logistique suffit Baron 1991 : Pour des réseaux de neurones (p unités en couche cachée), l’erreur d’approximation en O(1/p) indépendante de la dimension de l’espace d’entrée intérêt des réseaux multicouche en grande dimension Dans de nombreuses applications (reconnaissance de formes, régression) leur utilisation a montré de bonnes capacités en généralisation L’intervalle de confiance D(p,h,h) est une a fonction faiblement croissante de la dimension VC (régularisation inhérente) Automatique et Optimisation Université de Paris 12 20/03/2003

Méthodologie Validation croisée (cross validation) Diviser l’ensemble des observations en base d’Apprentissage et base de Test erreur d’Apprentissage = risque empirique erreur de Test  risque fonctionnel Arrêt prématuré (early stoping) Erreur d’apprentissage décroît; l’erreur de Test a un minimum Le nombre de cycles d’apprentissage est adapté en fonction du minimum de l’erreur de test 1 cycle = présentation aléatoire de tous les exemples de la base d’apprentissage Sur apprentissage Erreur de Test Le bootstrap pour améliorer l’estimation du biais D(h)=R(a)-Remp(a) Erreur d’apprentissage Nombre optimal de cycles Automatique et Optimisation Université de Paris 12 20/03/2003

Répliques de l’estimation Bootstrap - Principe Bootstrap (Efron 1985) est une technique de rééchantillonnage pour estimer l’écart type et l’intervalle de confiance pour tout estimateur S(X) Répliques de l’estimation S(X*1) S(X*2) S(X*B) X*1 X*2 X*B Bases bootstrapées X=(x1,x2,…,xp) Les B échantillons sont générés à partir de la base initiale par p tirages aléatoires avec remise En moyenne les bases bootstrapées contiennent 1-1/e des éléments xi Base initiale Automatique et Optimisation Université de Paris 12 20/03/2003

Bootstrap - Méthode Distribution F inconnue;  paramètre de la loi F réalisation d’un échantillon x=(x1,…,xn) distribution estimation de  par =S(x) Comment calculer l’écart type  de l’estimateur =S(x) ? Méthode sélectionner B répliques x*1, x*2,…,x*B obtenues par n tirages aléatoire avec remise pour chaque réplique x*b calculer *(b)=S(x*b); b=1,2,…,B Estimer l’écart type par Théorème Automatique et Optimisation Université de Paris 12 20/03/2003

Bootstrap – Erreur de généralisation Le bootstrap permet d’estimer l’écart entre l’erreur d’apprentissage (risque empirique) et l’erreur de généralisation (risque fonctionnelle) Apprentissage bases bootstrapées, test  base initiale L’analyse des erreurs de test en fonction du nombre de cycles permet de déterminer l’arrêt prématuré optimal Plusieurs stratégies (fractiles, trimédian) permettent d’exclure les apprentissages «outliers » Automatique et Optimisation Université de Paris 12 20/03/2003

Validation de la méthode « NeMo » Cas Test Fonction f0(x) de R8R Apprentissage de la fonction f0(x) par une famille de réseaux de neurones « 8_x_1 » en faisant varier le nombre x d’unités cachées Nombre d’exemples retenus dans la base : 100, 200, …, 1500 Réalisation des apprentissages automatiques avec estimation de l’erreur fonctionnelle Récupération de la fonction analytique et calcul de l’erreur fonctionnelle par Monte Carlo Comparaison de l’erreur fonctionnelle (abscisse) et de son estimation (ordonnée) Automatique et Optimisation Université de Paris 12 20/03/2003

NeMo tool « Neurones et Modélisation » Logiciel Apprentissage automatique des réseaux de neurones non bouclés (early stopping+ ré-échantillonnage, validation croisée) fournit le programme C du réseau de neurones (fonction + jacobienne) Indicateurs de la modélisation (analyse de l’erreur de généralisation : moments, histogramme; distribution empirique des résidus) utilisable sans connaissance sur les réseaux de neurones s’appuie sur SNNS Stuttgart Neural Network Simulator http://www-ra.informatik.uni-tuebingen.de/SNNS Applications Calcul scientifique (neutronique, mécanique, hydrogéologie, …) dans la modélisation de surfaces réponse non linéaires Automatique et Optimisation Université de Paris 12 20/03/2003

Références Livres G. Dreyfus, J.-M. Martinez, … Réseaux de Neurones – Méthodologie et Applications – Eyrolles 2002 B. Efron, R.J. Tibshirani An introduction to the Bootstrap – Chapman & Hall 1993 S. Thiria, Y. Lechevallier, … Statistique et Méthodes Neuronales – Dunod 1997 Ch. Bishop Neural Networks for Pattern Recognition – Oxford University Press 1995 V. Vapnik The nature of Statistical Learning Theory – Springer 1995 Automatique et Optimisation Université de Paris 12 20/03/2003