Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Yves Lechevallier Cours CNAM
CNAM MASTER2 IS Méthodes neuronales Yves Lechevallier INRIA-Rocquencourt E_mail : Yves Lechevallier Cours CNAM
2
Yves Lechevallier Cours CNAM
Plan du Cours Introduction Approche bayésienne Analyse discriminante linéaire Méthodes neuronales Yves Lechevallier Cours CNAM
3
Yves Lechevallier Cours CNAM
Processus Data Mining Phase A : Entrepôt de données Phase B : Exploration Phase C Modélisation Ensemble de règles Classifieurs Ensemble d’apprentissage Ensemble validation Entrepôt de données Ensemble de test Phase D: Choix du modèle Scores Règles Données Opérationnelles Phase E: Prédiction / Scoring Yves Lechevallier Cours CNAM
4
Méthodes de classement Discrimination
Les méthodes de classement ont pour objet d’identifier la classe d’appartenance d’objets définis par leur description Un objet à classer est une entité appartenant à une population théorique P constituant l’ensembles des objets susceptibles d’avoir à être classés. Cette population est supposée connue de façon exhaustive. Yves Lechevallier Cours CNAM
5
Yves Lechevallier Cours CNAM
Notations P est muni d’une partition (P1,…,PK). G={1,…,K} Y la fonction de classement DX espace de description (souvent Rp) Un couple (x,y) où x représente sa description et y l’indice de sa classe d’appartenance. Yves Lechevallier Cours CNAM
6
couple «description, classe»
Un couple (x,y) où x représente sa description et y l’indice de sa classe d’appartenance. Yves Lechevallier Cours CNAM
7
Objectif des méthodes de classement
Trouver une procédure de classement , dite fonction de décision, qui à toute description de DX fournit l’indice d’une classe de P. Cette procédure devra être aussi bonne que possible et fournir le classement des objets de à partir de leur description. P DX X Y ^ G Yves Lechevallier Cours CNAM
8
Yves Lechevallier Cours CNAM
Fonction de décision Toute fonction de décision induit sur une partition en classes appelées région d'affectation de Pour un descripteur X et une fonction de décision on peut définir sur P une partition en K classes d'affectation. Yves Lechevallier Cours CNAM
9
Yves Lechevallier Cours CNAM
Fonction de décision Tous les objets appartenant à une même classe d'affectation sont attribués de la même façon par Yves Lechevallier Cours CNAM
10
Espace de description DX
élément de E + valeur dans DX Xj X + + X + + + Xp + + X1 P DX Yves Lechevallier Cours CNAM
11
Yves Lechevallier Cours CNAM
Classes a priori élément de E + valeur dans DX Xj P1 X,Y + + X,Y + + + Xp + P2 + X1 P DX Yves Lechevallier Cours CNAM
12
Yves Lechevallier Cours CNAM
Fonction de décision élément de E + valeur dans DX Xj + Rk + + + + Xp + + X1 DX Yves Lechevallier Cours CNAM
13
Théorie de la décision bayésienne
Cette l’approche statistique de la reconnaissance des formes. Cette approche est basée sur une quantification de différentes classifications utilisant les coûts et les probabilités accompagnant ces classifications. Un ramasseur de champignon désire éliminer les amanites phalloïdes de sa récolte. Il suppose que 5% des champignons des sous bois qu'il fréquente sont des amanites phalloïdes. Il pense que 90% des amanites phalloïdes présentent une volve à la base du pied alors que ce caractère n'est présent que chez 20% des autres espèces qu'il est susceptible de ramasser. Si un champignon présente une volve quelle décision doit-il adopter? Yves Lechevallier Cours CNAM
14
Concepts probabilistes
La population P est munie d'une mesure de probabilité Pr ce qui permet de relativiser la possibilité d'apparition des différents objets à classer. Dans le cas général, la mesure de probabilité Pr n'est pas connue. Elle permet de définir la probabilité d'apparition des classes d'une part et les lois régissant les variations potentielles des descriptions d'autre part. La probabilité associée à chacune des classes dite probabilité a priori Yves Lechevallier Cours CNAM
15
Yves Lechevallier Cours CNAM
Vraisemblance La loi de probabilité de X est appelée la vraisemblance de X. Si l'espace de description est discret on peut écrire Sinon c’est la densité de probabilité de X au point x. Une description particulière x est d'autant plus vraisemblable qu'elle a une forte chance d'apparaître. Yves Lechevallier Cours CNAM
16
Vraisemblance conditionnelle
Une description particulière x est d'autant plus vraisemblable, pour une classe k, qu'elle a une forte chance d'apparaître chez les objets de cette classe. L'aspect conditionnel de la vraisemblance prend en compte la structure distributionnelle différenciée des descriptions dans chacune des classes. Si le descripteur X était identiquement distribué dans chaque classe, et si donc chaque description était aussi «vraisemblable» dans chacune des classes, on ne pourrait pas prétendre utiliser X pour classer les objets. Seule la fréquence des classes servirait à la discrimination. Yves Lechevallier Cours CNAM
17
Théorie de la décision bayésienne
Nous avons deux états de la nature, les amanites phalloïdes: P1 avec P(P1)=P[Y=1]=0.05. et les autres champignons: P2 avec P(P2)=P[Y=2]=0.95. Le descripteur X est la question « présence d’une volve » qui est la variable aléatoire discrète X1 ayant deux réalisations ou modalités « Oui » « Non ». La probabilité d’avoir une volve sachant que le champignon est une amanite phalloïde est de 0.9 d’où : P[X1=Oui/Y=1]=0.9 et P[X1=Oui/Y=2]=0.2. Yves Lechevallier Cours CNAM
18
Yves Lechevallier Cours CNAM
Formule de Bayes Le promeneur observe que ce champignon possède une volve. Quel est la probabilité que ce champignon est une amanite phalloïde ? Cette probabilité est P[Y=1/ X1=Oui] Sachant que la probabilité jointe sur X et Y peut être écrite suivante deux formes :P[X1=x et Y=y]= P[X1=x/Y=y].P[Y=y]=P[Y=y/X=x].P[X=x] D’où P[Y=1/ X1=Oui]= P[X1=Oui/Y=1].P[Y=1]/ P[X1=Oui] P[X1=Oui]=P[X1=Oui et Y=1]+ P[X1=Oui et Y=2] P[X1=Oui]=P[X1=Oui /Y=1].P[Y=1]+ P[X1=Oui/Y=2].P[Y=2] qui est la formule de Bayes. Cette formule peut exprimer par : a posteriori = ( vraisemblance x a priori)/ évidence Yves Lechevallier Cours CNAM
19
Yves Lechevallier Cours CNAM
Erreur de classement A chaque fonction de décision on a une règle de décision La performance globale de la fonction de décision est la moyenne des probabilités d'erreur de cette fonction de décision sur l'espace de description. La règle d'affectation est la règle de bayes d'erreur minimale si elle est vérifie : Yves Lechevallier Cours CNAM
20
Yves Lechevallier Cours CNAM
Formule de Bayes Calculons les termes permettant d'exploiter la règle d'affectation: Ainsi, l'utilisation de la règle probabiliste de Bayes, minimisant le taux d'erreur, l'amène à classer tous les champignons présentant une volve parmi les champignons à conserver ! la règle de Bayes minimisant le taux d'erreur ne tient aucun compte des conséquences catastrophiques d'une mauvaise décision. Il faut d'introduire une fonction de coût capable de quantifier le risque d'un mauvais classement. Yves Lechevallier Cours CNAM
21
Yves Lechevallier Cours CNAM
Fonction de coût Il faut d'introduire une fonction de coût capable de quantifier le risque d'un mauvais classement. Le caractère mortel de l'amanite phalloïde conduit à poser comme fonction de coût : La règle d'affectation de Bayes de risque minimal conduit alors à rejeter systématiquement tout champignon présentant une volve. Les conséquences d'une erreur étant infinies, le risque est réduit en adoptant une règle d'exclusion systématique des champignons ayant une volve. C'est la réaction naturelle de beaucoup de promeneurs Yves Lechevallier Cours CNAM
22
Éléments de la théorie de la décision
a)(G,A,P) espace probabilisé avec G l’ensembles des états de la nature et P la probabilité associée. b) X une variable aléatoire multidimensionnelle (dans Rp) dont la loi dépend d’un état y de G. c) (X1,Y1),…,(Xn,Yn) un échantillon de taille n. d) D ensemble de décision e) F un ensemble de fonction de décision de Rp dans D. f) C une fonction de coût de GxD dans R+, C(y,d) est le coût de réaliser y et d’avoir pris la décision d. Yves Lechevallier Cours CNAM
23
Yves Lechevallier Cours CNAM
Coût de la décision Pour une fonction de décision de F et P la distribution a priori des états le coût moyen est égal à : qui est le coût de remplacer (x,y) par Yves Lechevallier Cours CNAM
24
Yves Lechevallier Cours CNAM
Théorème de Bayes On note : p(y) la densité correspondant à l’état y; P[Y=y] fy(x) la densité sur Rp si l’état y est choisi. P[X=x/Y=y] px(y) la densité sur G si la réalisation x est observée P[Y=y/X=x] p(x) la densité dans Rp P[X=x] D’après de théorème de Bayes nous avons Yves Lechevallier Cours CNAM
25
Deux formes symétriques
1) Fonction de risque associé à conditionnellement lorsque l’état y est réalisé : avec 2) Fonction de risque associée à conditionnellement lorsque la réalisation x est observée (risque à posteriori) avec Yves Lechevallier Cours CNAM
26
Yves Lechevallier Cours CNAM
Les solutions de Bayes Soit p une mesure de probabilité sur G (ensemble des états de la nature). On appelle solution de Bayes par rapport à p toute fonction de décision telle que : Si on peut trouver une fonction de décision telle que : alors est une solution de Bayes par rapport à p. La décision qui minimise le risque à posteriori est une solution de Bayes. Yves Lechevallier Cours CNAM
27
Règle de décision de Bayes de risque minimum
Nous allons introduire le concept de coût associé à un mauvais classement. Nous rechercherons alors la règle de décision dont le coût moyen est aussi faible que possible. Une fonction de coût C est une application qui, à tout couple (k,h), affecte le coût C(h/k) du classement d'un objet de Pk comme un objet de la classe Ph. Cette fonction vérifie le plus souvent les propriétés suivantes Les valeurs sont fixées suivant le contexte du problème Yves Lechevallier Cours CNAM
28
le coût moyen de l'affectation à la classe k
Ce coût moyen est l'espérance mathématique de la fonction coût, conditionnellement à la description x et est égal à : La règle d'affectation localement optimale en x consiste alors à attribuer l'objet décrit par x à la classe k qui minimise ce coût moyen. En moyenne, c'est la règle «la moins coûteuse». On l'appelle la règle d'affectation de Bayes de risque minimum. Yves Lechevallier Cours CNAM
29
Yves Lechevallier Cours CNAM
Approche Bayésienne Probabilités a priori des classes pk Les lois de probabilité Lk(x) du vecteur x dans chaque classe a priori. Une fonction C de coût du classement d’un objet de la classe a priori Pk dans la classe d’affectation Ph coût C(h/k) Une fonction de décision Y*. Yves Lechevallier Cours CNAM
30
Règle de décision de Bayes d'erreur minimale
La règle la plus simpliste est d'affecter tout objet à classer à la classe la plus probable : Dans ce cas, la règle est constante. D’où l'intérêt de disposer d'une description des objets pour pouvoir orienter leur classement. la probabilité de se tromper connaissant la description x On voit ainsi que chercher à maximiser la probabilité d'appartenance d'un objet à une classe, conditionnellement à sa description, revient à chercher à minimiser la probabilité d'erreur de classement de la règle d'affectation sachant x . Yves Lechevallier Cours CNAM
31
Règle de Bayes d’erreur minimale
Cette définition est peu opérationnelle, en effet, on connaît rarement la probabilité d'un classement sachant une description. Théorème de Bayes Yves Lechevallier Cours CNAM
32
Méthodes statistiques paramétriques
Nous avons considéré que les lois probabilistes régissant les fluctuations de la description X étaient parfaitement connues ou admises. Cette connaissance était exprimée par l'expression analytique des différentes fonctions de vraisemblance Lk et permettait la construction des règles de décision de Bayes Maintenant seule est admise la forme générale de la distribution de probabilité des exemples conditionnellement à leur classe d'appartenance. Les fonctions de vraisemblance sont des éléments inconnus d'une famille de lois de probabilité paramétrée par q=(q1,..,qK). Yves Lechevallier Cours CNAM
33
Échantillonnage des exemples
L'information initiale sous la forme d'un système d'hypothèses probabilistes ou sous la forme d'observations expérimentales regroupées dans un ensemble E de n exemples L'ensemble E des exemples ne sera pas représentatif de la population toute entière mais chaque ensemble Ek sera représentatif de la classe k. Ainsi les probabilités a priori des classes devront être supposées connues ou admises Yves Lechevallier Cours CNAM
34
Les descriptions suivent une loi normale
Le descripteur X des exemples est constitué de p descripteurs numériques et que sa distribution, conditionnellement aux classes, suit une loi normale multidimensionnelle centrée sur le vecteur et de matrice de variance-covariance La vraisemblance conditionnelle de X pour la classe k s'écrit alors Yves Lechevallier Cours CNAM
35
Yves Lechevallier Cours CNAM
Loi normale La fonction de coût est constante alors la règle de Bayes de risque minimum revient à minimiser l'expression Si de plus les probabilités a priori de chacune des classes sont identiques, et que les matrices de variance-covariance sont semblables, alors la règle d'affectation de Bayes est : La règle de Bayes consiste donc, dans ce cas particulier, à affecter un objet à la classe k dont la description moyenne est la plus voisine de la description x de l'objet à classer. Yves Lechevallier Cours CNAM
36
Yves Lechevallier Cours CNAM
Exemple 1 Lk(x) Les variances et les probabilités a priori sont égales Yves Lechevallier Cours CNAM
37
Yves Lechevallier Cours CNAM
Exemple 2 Lk(x) Les variances sont inégales égales Les probabilités a priori sont égales Yves Lechevallier Cours CNAM
38
Yves Lechevallier Cours CNAM
Cas de deux classes la règle de Bayes de risque minimum s'exprime alors en fonction du rapport La règle : Il découle que la surface définie par l'équation l(x)=0 est la frontière qui sépare les deux régions d'affectation . Yves Lechevallier Cours CNAM
39
Yves Lechevallier Cours CNAM
Cas particulier On admet l'égalité des matrices de variance-covariance : Par utilisation directe de la définition de la distance de Mahalanobis on trouve alors que Cette expression, dite aussi statistique d'Anderson, révèle à nouveau le lien étroit qui existe entre la distance de Mahalanobis et le critère d'affectation de Bayes. Yves Lechevallier Cours CNAM
40
Yves Lechevallier Cours CNAM
Cas particulier Par simplification on trouve l'expression est linéaire en x. On peut donc mettre l(x) sous la forme L'égalité des matrices de variance-covariance induit une discrimination linéaire Yves Lechevallier Cours CNAM
41
Analyse discriminante de Fisher entre deux groupes
Les fonctions de densité conditionnelles sont multinormales et homoscédastiques. l(x) s’appelle fonction de score. dépendante de l’échantillon indépendante de l’échantillon Yves Lechevallier Cours CNAM
42
Probabilités a posteriori
Avec : Yves Lechevallier Cours CNAM
43
Interprétabilité des résultats
La fonction score est Le point « pivot » Alors La valeur du score d’un individu est la somme des contributions de ses descripteurs. Pour chaque variable j Le signe de cette contribution dépendant de la position de xj par rapport au pivot mj. Yves Lechevallier Cours CNAM
44
Probabilité a posteriori d'appartenance
La probabilité a posteriori d'appartenance à la classe k d'un objet quelconque décrit par le vecteur x dans le cas particulier où les coûts sont égaux est égale à : la probabilité a posteriori d'appartenance à la première classe est une fonction logistique de l(x). Yves Lechevallier Cours CNAM
45
Les probabilités a posteriori
Deux cas : Soit les hypothèses du modèle choisi sont utilisées, par exemple Soit il n’y a pas de modèle et alors on utilise le théorème de Bayes pour estimer les lois conditionnelles empiriques Yves Lechevallier Cours CNAM
46
Yves Lechevallier Cours CNAM
Généralisation Capacité de bien affecter de nouvelles données + o + o Modèle simple Yves Lechevallier Cours CNAM
47
Yves Lechevallier Cours CNAM
Généralisation + o Modèle un peu trop flexible Complexité du modèle : Comment adapter au mieux le modèle aux données sachant que l’on ne possède qu’un échantillon ? Yves Lechevallier Cours CNAM
48
Yves Lechevallier Cours CNAM
Complexité du modèle + o + o Analyse discriminante Yves Lechevallier Cours CNAM
49
Comment améliorer cette solution ?
+ o + o Méthode neuronale Perceptron Analyse discriminante quadratique Yves Lechevallier Cours CNAM
50
Réseaux de neurones, le début
Au début des années 40 il s’agissait de produire des systèmes artificiels capable de simuler certaines capacités des systèmes naturels: apprentissage, intelligence ... En 1943 Mc Culloch (psychologue) et Pitts(mathématicien) proposent le premier réseau d’automates à seuil analogue à un neurone formel et donne le vocabulaire actuel : neurone, synapse,connexions… En 1949 Donald Hebb introduit le concept de l’apprentissage avec la règle de Hebb dans le livre “The Organization of Behaviour”. Les premier neurones en discrimination apparaissent avec Franck Rosenblatt en 59. Il propose un modèle de réseau capable d’apprendre à partir d’exemples, le Perceptron. Yves Lechevallier Cours CNAM
51
Modèle neuronal en biologie
Yves Lechevallier Cours CNAM
52
Yves Lechevallier Cours CNAM
Cerveau vs Ordinateur Neurones : 50 milliards Synapses : 1014 Vitesse : s Calcul : distribué, non linéaire et parallèle Neurones : 1 milliard Synapses : 1010 Vitesse : s Calcul :central, linéaire et séquentiel Yves Lechevallier Cours CNAM
53
Yves Lechevallier Cours CNAM
Solutions Il faut faire des machines massivement parallèles Cette différence vient du logiciel Importance de l’apprentissage Deux types d’intelligence (J. C. Perez) Formelle Raisonnement logique et déductif Informelle Intelligence de perception, d’intuition et d’apprentissage Yves Lechevallier Cours CNAM
54
Réseaux de neurones, la désillusion
Ensuite Bernard Widrow et Ted Hoff propose ADALINE (Adaptative Linear Element) qui est un algorithme neuronal optimisant le critère des moindres carrés et utilisant la règle de Widrow-Hoff (minimisation de l’erreur quadratique). En 69 est publié par Minsky et Papert un ouvrage important “Perceptrons” proposant un cadre formel d’étude des réseaux de neurones et surtout donnent leurs limites. Yves Lechevallier Cours CNAM
55
Linéairement ou non linéairement séparable
Yves Lechevallier Cours CNAM
56
Réseaux de neurones, la suite
Comme résultat la recherche sur les méthodes neuronales est un peu abandonnée dans les année 70. Cependant quelques chercheurs continuent … 1972, Teuvo Kohonen: associative memory. 1973, Vad der Malsburg: self-organizing maps. 1973, Duda et Hart présentent ces réseaux dans le cadre de la reconnaissance des formes 1974, Paul Werbos propose le paradigme de la rétropropagation du gradien. 1975, Kuniko Fukushima: multi-layer perceptron. 1976, Stephen Grossberg: associative learning. Yves Lechevallier Cours CNAM
57
Réseaux de neurones, la fin
En 86 la présentation de l’algorithme de rétro-propagation (“backward propagation of errors”) par David Rumelhart, Geoffrey Hinton and Ronald Williams relance l’utilisation des réseaux de neurones. David Parker (voir aussi (1982, 1985) et Yann LeCun (1986)). Cet algorithme est une généralisation du Perceptron et de la règle de Widrow-Hoff. En 89 la propriété d’approximateur universel est démontrée pour les réseaux ayant plus d’une couche cachée. Au cours des années 90 les propriétés théoriques des réseaux de neurones ont été largement développées avec de nombreuses applications. Ces développements font des réseaux multicouches une méthode largement connue et employée surtout avec l’arrivée des ordinateurs modernes. Yves Lechevallier Cours CNAM
58
Du neurone biologique au neurone artificiel
Yves Lechevallier Cours CNAM
59
Yves Lechevallier Cours CNAM
Vocabulaire Un Réseau de neurones (ANN, Artificial Neural Network) est un ensemble connecté de neurones. Neurone : c’est un perceptron avec une sortie non linéaire. Structure : c’est l’architecture du réseau. Connections : c’est les liaisons entre les neurones. Yves Lechevallier Cours CNAM
60
Yves Lechevallier Cours CNAM
Le modèle statistique Les entrées sont constituées par p variables aléatoires X1,...,Xp. Les sorties calculée par le réseau seront notées Z=G(X) . La qualité du réseau sera mesurée en fonction de l’écart entre la valeur yi et la valeur obtenue par le réseau Yves Lechevallier Cours CNAM
61
Yves Lechevallier Cours CNAM
Un neurone x1 w1 o 0.5 1 -3 -2 -1 2 3 xj wj e o=f(e) wp xp f est la fonction d’activation Yves Lechevallier Cours CNAM
62
Fonctions d’activation
1 0.5 1 -3 -2 -1 2 3 Heaviside seuil 0.5 -3 -2 -1 1 2 3 1 sigmoïde -1 1 -3 -2 2 3 sigmoïde 0.5 -3 -2 -1 1 2 3 Yves Lechevallier Cours CNAM
63
Fonction de score linéaire
A chaque classe k on associe une fonction de score linéaire : Avec la règle de décision associée Yves Lechevallier Cours CNAM
64
Fonction de score linéaire pour 2 classes
Avec la règle de décision associée Problème : Trouver un vecteur de poids w tel que Yves Lechevallier Cours CNAM
65
Ensemble linéairement séparable
x* est le vecteur étendu de x si x*=(x,1) si Y(x)=1 x*=(-x,-1) si Y(x)=2 (on notera maintenant par x le vecteur x*) L’ensemble E est linéairement séparable s’il existe un vecteur de poids w tel que : Comment le savoir ? Yves Lechevallier Cours CNAM
66
Algorithme du Perceptron
On pourrait prendre le taux de mauvais classement comme critère d’optimisation, mais c’est une fonction constante par morceaux. Rosenblatt suggère le choix du critère suivant : où est l’ensemble des mal classés par le vecteur w Yves Lechevallier Cours CNAM
67
Algorithme du Perceptron
Initialisation Choisir un vecteur w0 de dimension p+1 Étape itérative test=0, Pour chaque x de E faire : Vérification Si test= 0 alors fin sinon refaire l’étape itérative L’algorithme du Perceptron converge en un nombre fini d’étapes si E est linéairement séparable Yves Lechevallier Cours CNAM
68
Architecture du Perceptron
x1 w1 w1 w2 x2 w3 x3 e=w1*x1+w2*x2+ w3*x3+ w4*x4 w4 x4 o=f(e) Sortie désirée (d) Sortie calculée (o) Entrée p neurones Yves Lechevallier Cours CNAM
69
Yves Lechevallier Cours CNAM
Exemple Cet exemple est linéairement séparable w=(1,1,1/2) est une solution de l’équation w1x+ w2y+w0=0 Yves Lechevallier Cours CNAM
70
Exemple non linéairement séparable
Exemple du XOR L’algorithme du Perceptron oscille indéfiniment Yves Lechevallier Cours CNAM
71
Problème de la généralisation (1)
Les droites bleues sont toutes des solutions équivalentes pour l’algorithme du Perceptron Yves Lechevallier Cours CNAM
72
Problème de la généralisation (2)
L’algorithme prend une solution pas très robuste Utilisation de l’erreur quadratique Règle de Widrow-Hoff P WH Yves Lechevallier Cours CNAM
73
Algorithme de gradient stochastique
On suppose que nous avons un échantillon de taille infinie. A la réalisation zt nous ne disposons que de l'information connue sur l’échantillon de taille t . Au lieu de J(w) calculé sur l’échantillon de taille infinie nous avons u(w,t). Dans ce cas on doit résoudre le problème suivant: Yves Lechevallier Cours CNAM
74
Approche séquentielle
On choisit un w0 dans l'espace DX, ensemble des solutions. à l'étape t on effectue un tirage aléatoire suivant la loi P. On obtient une réalisation xt on procède à la mise à jour par la formule suivante : la suite de termes at positifs doit vérifier : Yves Lechevallier Cours CNAM
75
Yves Lechevallier Cours CNAM
Le coefficient a Yves Lechevallier Cours CNAM
76
La mise à jour des pondérations
Mesure de l’erreur Le processus d’apprentissage du réseau consiste à présenter successivement les exemples de l’ensemble d’apprentissage de façon à estimer les poids w.On utilise l’erreur quadratique moyenne Algorithme de minimisation de l’erreur On peut écrire qu’à l’étape t, le vecteur des pondérations w dépendent de l’étape t-1 par la formule suivante: Yves Lechevallier Cours CNAM
77
Architecture du Perceptron (K>2)
Sortie calculée K groupes Sortie désirée Entrée p neurones Yves Lechevallier Cours CNAM
78
Yves Lechevallier Cours CNAM
Schéma de la décision Pr(1/x) C(1/1) C(1/x) _ C(2/1) Pr(2/x) C(2/x) _ Min x Pr(3/x) C(2/4) C(3/x) _ Pr(4/x) C(3/4) Yves Lechevallier Cours CNAM
79
La mise à jour des pondérations
Mesure de l’erreur le processus d’apprentissage du réseau consiste à présenter successivement les exemples de l’ensemble d’apprentissage de façon à estimer les poids W. On utilise l’erreur quadratique moyenne Algorithme de minimisation de l’erreur On peut écrire qu’à l’étape t, la matrice des pondérations W dépendent de l’étape t-1 par la formule suivante: Yves Lechevallier Cours CNAM
80
Architecture du Perceptron MultiCouche
Sortie calculée K groupes(o) Sortie désirée(d) Entrée p neurones Couche cachée J neurones Yves Lechevallier Cours CNAM
81
La fonction de transfert
les variables sont associées aux neurones de la couche d’entrée Les groupes sont associés aux neurones de la couche de sortie W est un vecteur de matrices L’apprentissage de ce réseau est supervisé. Il utilise un algorithme de rétropropagation du gradient de l’erreur Yves Lechevallier Cours CNAM
82
La mise à jour des pondérations
Mesure de l’erreur le processus d’apprentissage du réseau consiste à présenter successivement les exemples de l’ensemble d’apprentissage de façon à estimer les poids W. On utilise l’erreur quadratique moyenne Algorithme de minimisation de l’erreur On peut écrire qu’à l’étape t, le vecteur des matrices des pondérations W dépendent de l’étape t-1 par la formule suivante: Yves Lechevallier Cours CNAM
83
Yves Lechevallier Cours CNAM
Notations f la fonction d’activation qui est continue et dérivable la valeur d’entrée du neurone i de la couche c pour l’élément présenté t. la valeur de la sortie du neurone i de la couche c le poids de la connexion entre le neurone i de la couche c+1 et le neurone j de la couche c le nombre de neurones dans la couche c. Yves Lechevallier Cours CNAM
84
Calcul des pondérations
De manière générale nous avons : Pour le neurone i de la couche de sortie NC il faut calculer: Cette partie dépend de la fonction de coût J. Yves Lechevallier Cours CNAM
85
Calcul des pondérations
car D’où Ce calcul est indépendant de la fonction de coût J. Yves Lechevallier Cours CNAM
86
Les probabilités a posteriori et l’affectation
On peut approximer la probabilité la posteriori par (Gish,1990): Cela revient à normaliser les sorties calculées La règle d’affectation est Yves Lechevallier Cours CNAM
87
Yves Lechevallier Cours CNAM
Exemple du XOR Avec un réseau ayant une couche cachée on peut classer sans erreur cet ensemble non linéairement séparable. Yves Lechevallier Cours CNAM
88
Liens entre l’apprentissage supervisé et la régression
La minimisation de la fonction d’erreur quadratique est équivalente à la minimisation de Yves Lechevallier Cours CNAM
89
Yves Lechevallier Cours CNAM
Mise en œuvre du réseau Les techniques de validation Le paramètre d’apprentissage r Le choix des variables Le nombre de neurones de la couche cachée Test de sensibilité ( élimination des pondérations ) Yves Lechevallier Cours CNAM
90
Estimation de la qualité d’une règle de décision
Donner une mesure de qualité à une règle de décision c’est réaliser une estimation du taux ou du coût d’erreur de classement que fournira cette règle sur la population. Ensemble d’apprentissage C’est sur cet ensemble qu’une méthode de classement construit la règle de décision. Ensemble test C’est sur cet ensemble qu’une méthode de classement est validée Yves Lechevallier Cours CNAM
91
Estimation des taux d’erreur de classement
La probabilité d’erreur de classement ERR sur la population: Le taux d’erreur de classement sur l’ensemble d’apprentissage : (Taux apparent) Trop optimiste et avec biais Le taux d’erreur de classement sur l’ensemble test : (Taux actuel) Sans biais mais il faut un échantillon important Yves Lechevallier Cours CNAM
92
Techniques de rééchantillonnage (1)
Ensemble de données trop petit (taille n) Validation croisée : (cross-validation) découper l’échantillon en k parties de même effectif (k-1) parts servent d’ensembles d’apprentissage la part restante sert d’ensemble test Ceci est répété k fois et le taux d’erreur de classement est la moyenne des taux d’erreur des ensembles test Si k=n (leave one out) Yves Lechevallier Cours CNAM
93
Techniques de rééchantillonnage (2)
Tirage avec remise : bootstrap On tire au hasard et avec remise n exemples qui constituent alors un échantillon On calcule pour chaque tirage a le taux apparent Erra et le taux d’erreur apparent sur l’échantillon de base ERRa D’où le taux d’erreur bootstrap de k dans l : Yves Lechevallier Cours CNAM
94
Yves Lechevallier Cours CNAM
Bibliographie Bishop, C. M., Neural Networks for Pattern Recognition, Clarendon Press, Oxford, 1995. Duda R.O., Hart P.E. et Stone , Pattern classification and scene analysis, John Wiley, 2001. Dreyfus G., Martinez J-M, Samuelides M., Gordon M. B., Badran F., Thiria S., Hérault L., Réseaux de neurones, Méhodologie et applications, Eyrolles, 2002 P. Galinari, S. Thiria et F. Fogelman-Soulé « Multilayer perceptrons and data analysis » IEEE neural networks, p ,1988 Haton J.P., Bouzid N., et al., Le raisonnement en intelligence artificielle, InterEditions, 1991. Lebart L., « Réseaux de neurones et analyse des correspondances » Revue Modulad 18, 1997 Milgram M., Reconnaissance des formes : Méthodes numériques et connexionnistes, Armand Colin, 1993. Mitchell T., Machine Learning, Mac Grow-Hill, 1997. Ripley B. D. Pattern Recognition Neural Networks, Cambridge University Press, 1996. D.E. Rumelhart, G. E. Hinton, R. J. Williams, « Learning internal representations by error propagation » in Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Vol. 1: Foundations, Editors: D.E. Rumelhart and J.L. McClelland, MIT Press, Cambridge, MA, 1986. Thiria S., Lechevallier Y., Gascuel O., Canu S. (Eds) Statistique et méthodes neuronales, Dunod, 1997 Yves Lechevallier Cours CNAM
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.