Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble

Slides:



Advertisements
Présentations similaires
Plan Les réseaux de neurones Le réseau RBF RBF et Mushroom Historique
Advertisements

Apprentissage supervisé à partir de séquences
RECONNAISSANCE DE FORMES
Classification supervisée Marine Campedel avril 2005.
Introduction générale aux réseaux de neurones artificiels
Réseaux de Neurones Artificiels
Les K plus proches voisins
LES RESEAUX DE NEURONES
Application de réseaux bayésiens à la détection de fumées polluantes
1 Réunion biblio 13/12/00 Support Vectors Présentation générale SSS Maintaining Algorithm.
Piecewise Affine Registration of Biological Images
Complexité et Classification
Apprentissage et évolution : l'effet Baldwin
THÈME APPLICATION OF THE ARTIFICIAL NEURAL NETWORK FOR MODELING THE THERMAL BEHAVIOR OF BUILDING IN HUMID REGION Léopold Mbaa, Pierre Meukamb, Alexis.
DEA instrumentation et commande
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Classification automatique de documents
Concepts avancés en mathématiques et informatique appliquées
Modèles de choix discrets (II)
Réseaux de neurones artificiels « la rétropropagation du gradient »
GPA-779 Application des réseaux de neurones et des systèmes experts Cours #3 - 1 Plan 2- Domaines dapplication ClassificationRegroupement ApproximationPrédiction.
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Applications du perceptron multicouche
Architecture d’application
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
Méthode des k plus proches voisins
Méthodes Connexionnistes Apprentissage Fusion d’informations
Architecture d’application
DEA Perception et Traitement de l’Information
RECONNAISSANCE DE FORMES
Construction de modèles visuels
DEA Perception et Traitement de l’Information
Réseaux de neurones.
Quizz rdf Dess IE. La RDF globale: 1.Quand il y a 2 classes seulement 2.Quand on fait un apprentissage 3.Quand les formes sont représentées par des vecteurs.
Les réseaux de neurones
Mémoires associatives
Chapitre 7 Réseau ART.
SYS828: Systèmes biométriques
GPA-779 Perceptron multicouche
Résumé Domaine des réseaux de neurones.
CSI 4506: Introduction à l’intelligence artificielle
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Yves Lechevallier Cours CNAM
Mécanique Statistique
Les réseaux de neurones compétitifs
La régression multiple
Filtrage de Kalman et aperçu probabiliste
Les réseaux de neurones
DEA Perception et Traitement de l’Information
Perceptron multicouches
Apprentissage (III) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.
Modèles de choix discrets (IV) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts.
Classification : objectifs
Christelle Scharff IFI 2004
Réseaux de neurones artificiels « programmation par l’exemple »
Sujets spéciaux en informatique I PIF Approches non-paramétriques u Technique de classification NN u Technique de classification k-NN u Erreurs.
S. Canu, laboratoire PSI, INSA de Rouen
Les réseaux de neurones à réservoir en traitement d’images
Intelligence Artificielle
Apprentissage « machine »
Réseaux de neurones à base radiale
Les réseaux de neurones à réservoir en traitement d’images
SVM machine à vecteurs de support ou séparateur à vaste marge
Mémoires associatives Le modèle BSB/Eidos Mounir Boukadoum.
Le chaos pourquoi ? Permet de modéliser un type de mouvement récent qui n’est ni uniforme, ni accéléré. Des dynamiques chaotiques ont été mises en évidence.
Méthode des moindres carrés (1)
GPA-779 Application des systèmes experts et des réseaux de neurones.
Idées apprentissage couche L3: démarche ascendante ou descendante Temps du premier spike: -conception filtre à la main -apprentissage suivant une règle.
Le réseau de neurones artificiel
Transcription de la présentation:

Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble

plan c’est quoi ? différents types d’apprentissage supervisé les réseaux de neurones le perceptron réseaux plus complexes quelques résultats de la théorie de l’apprentissage bayesien non supervisé par renforcement mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

classifieur élémentaire : le perceptron d’inspiration biologique : « neurone  » élémentaire surface discriminante linéaire : stabilité d’un exemple : distance à la surface discriminante avec signe – si mal classé x1 x2 xN xi w1 wN s=sgn(w.x) input : output : w g mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

commentaire 1 inspiration biologique : McCullock et Pitts (1943) des unités binaires connectées en cascades peuvent réaliser toutes les fonctions logiques Rosenblatt (1962) une unité binaire peut apprendre à reconnaître des formes : perceptron Minsky et Pappert (1969) : le perceptron n’est pas intéressants : il ne peut faire que des séparations linéaires Hopfield (1982) un réseau d’unités binaires interconnectées avec des poids Jik données par la règle de Hebb, modèlise une mémoire associative mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

algorithme du perceptron on initialise les poids du perceptron on parcourt les exemples si la sortie donnée par le perceptron est incorrecte, on modifie les poids jusqu’à convergence convergence assurée seulement si les exemples sont linéairement séparables si les exemples sont linéairement séparables : infinité de solutions entrée · sortie mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

commentaire 2 règle de Hebb – modèle de Hopfield : algorithme du perceptron : i k Jik wi i état du neurone de sortie état du neurone d’entrée mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

exemples non séparables linéairement problème : l’algorithme du perceptron ne converge pas les autres algorithmes convergent mais souvent vers des solutions « non intéressantes » (trop d’exemples mal classés) deux solutions : « classiques » : réseaux en couches « moderne » : Support Vector Machines mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

solution classique : perceptron multicouche

perceptrons binaires « cachés » réseau en couches avec unités binaires permet de représenter des surfaces discriminantes plus complexes méthode constructive : on rajoutte des perceptrons cachés un à un : plusieurs heuristiques x1 x2 + - x1 x2 xN xi w1 w2 w3 couche cachée représentations internes mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

apprentissage d’une fonction réelle LM = { (xm, ym) }1≤m≤M, xm=(xm1, xm2, …, xmN) ; ym e R neurones cachés à valeurs réelles peut apprendre toute fonction continue des entrées à condition que le nombre de neurones cachés soit suffisant apprentissage : "error backpropagation"  minimisation de l’écart quadratique : problèmes : beaucoup de minima locaux : qualité de la solution ? nombre de neurones cachés : par tâtonnement x1 x2 xN xi w1 w2 w3 couche cachée s=tanh(w.x) mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

solution « moderne » Machines à Vecteurs Support (SVM)

perceptron de marge maximale marge : distance à la surface discriminante de l’exemple le plus proche g 2k mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

Support Vector Machines (SVM) application de l'espace des entrées x vers un espace F de plus grande dimension (feature space) Support Vector Machine = perceptron de marge maximale dans le feature space F algorithmes efficaces exemple: mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

théorie de l’apprentissage question fondamentale : est-ce que minimiser le nombre d’erreurs garantit qu’on minimise la probabilité de mal classer de nouvelles données ? eg : erreur de généralisation (de prédiction) -> probabilité de faire une erreur de classification sur des entrées autres que les exemples réponse : oui, à condition que le nombre d’exemples M soit supérieur à la capacité du réseau capacité ≈ nombre maximum d’exemples que l’on peut apprendre sans erreurs, quels que soient les exemples proportionnelle au nombre de paramètres à déterminer perceptron ≈ 2N où N est le nombre de poids = dimension des entrées mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

erreur de prédiction eg tâches de classification réalisables et non réalisables : pour un perceptron : réalisable -> séparable linéairement comment varie eg en fonction du nombre d’exemples ? tâche réalisable : le meilleur algorithme : Bayes (b ≈ 0.5) eg 0.5 0.2 0.1 0.3 0.4 a 2 4 6 coeff qui dépend de l’algorithme mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

inférence bayesienne

règle de Bayes p(a) a p(a) p(b) p(a|b) p(b|a) p(a,b) p(b) b probabilités  p(a) a p(a) p(b) p(a|b) p(b|a) p(a,b) p(b) b mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

inférence bayesienne inférence = apprentissage cadre probabiliste : modifier les hypothèses en fonction des données (exemples) cadre probabiliste : on se donne un modèle des données perceptron  le problème est linéairement séparable probabilité a priori des paramètres du modèle en absence de toute autre information : equiprobabilité  tous les poids w ont la même probabilité LM = { (xm,tm) }1≤m≤M on utilise les exemples pour calculer la probabilité a posteriori des poids avec la règle de Bayes mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

inférence des poids d’un perceptron formule de Bayes : a priori : modèle des données paramétré par les poids w p0(w) p(w) mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

probabilité des poids a posteriori probabilité a posteriori cte > 0 hyperplans compatibles avec LM a priori : p0(w) p0(w) p(w|LM) probabilité a posteriori = 0 mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

classifieur bayesien optimal comment classer la nouvelle entrée ? on classe comme la moyenne pondérée des poids (pondérée par la probabilité a posteriori) dans notre cas : poids équiprobables  règle de la majorité perceptron optimal p0(w) p(w|LM) p(w) mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

inférence bayesienne : résumé hypothèse a priori vraisemblance des données paramètres a posteriori (compatibles avec LM) mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

fin deuxième cours