La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Présentations similaires


Présentation au sujet: "1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : CNAM MASTER2 IS 2006-2007 Méthodes neuronales."— Transcription de la présentation:

1 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : CNAM MASTER2 IS Méthodes neuronales

2 2 Yves Lechevallier Cours CNAM Plan du Cours Introduction Approche bayésienne Analyse discriminante linéaire Méthodes neuronales

3 3 Yves Lechevallier Cours CNAM Processus Data Mining Phase A : Entrepôt de données Phase B : Exploration Phase C Modélisation Données Opérationnelles Entrepôt de données Ensemble dapprentissage Ensemble de test Phase E: Prédiction / Scoring Scores Règles Ensemble de règles Classifieurs Phase D: Choix du modèle Ensemble validation

4 4 Yves Lechevallier Cours CNAM Méthodes de classement Discrimination Les méthodes de classement ont pour objet didentifier la classe dappartenance dobjets définis par leur description Un objet à classer est une entité appartenant à une population théorique constituant lensembles des objets susceptibles davoir à être classés. Cette population est supposée connue de façon exhaustive.

5 5 Yves Lechevallier Cours CNAM Notations est muni dune partition ( 1,…, K ). G={1,…,K} Y la fonction de classement D X espace de description (souvent R p ) Un couple ( x,y) où x représente sa description et y lindice de sa classe dappartenance.

6 6 Yves Lechevallier Cours CNAM couple «description, classe» Un couple ( x,y) où x représente sa description et y lindice de sa classe dappartenance.

7 7 Yves Lechevallier Cours CNAM Objectif des méthodes de classement Trouver une procédure de classement, dite fonction de décision, qui à toute description de D X fournit lindice dune classe de. DXDX X Y Y ^ G Cette procédure devra être aussi bonne que possible et fournir le classement des objets de à partir de leur description.

8 8 Yves Lechevallier Cours CNAM Fonction de décision Toute fonction de décision induit sur une partition en classes appelées région d'affectation de Pour un descripteur X et une fonction de décision on peut définir sur une partition en K classes d'affectation.

9 9 Yves Lechevallier Cours CNAM Fonction de décision Tous les objets appartenant à une même classe d'affectation sont attribués de la même façon par

10 10 Yves Lechevallier Cours CNAM Espace de description D X élément de E DXDX X XjXj X1X1 XpXp + valeur dans D X X

11 11 Yves Lechevallier Cours CNAM Classes a priori élément de E DXDX X,Y XjXj X1X1 XpXp + valeur dans D X X,Y

12 12 Yves Lechevallier Cours CNAM Fonction de décision élément de E DXDX XjXj X1X1 XpXp + valeur dans D X RkRk

13 13 Yves Lechevallier Cours CNAM Cette lapproche statistique de la reconnaissance des formes. Cette approche est basée sur une quantification de différentes classifications utilisant les coûts et les probabilités accompagnant ces classifications. Un ramasseur de champignon désire éliminer les amanites phalloïdes de sa récolte. Il suppose que 5% des champignons des sous bois qu'il fréquente sont des amanites phalloïdes. Il pense que 90% des amanites phalloïdes présentent une volve à la base du pied alors que ce caractère n'est présent que chez 20% des autres espèces qu'il est susceptible de ramasser. Si un champignon présente une volve quelle décision doit-il adopter? Théorie de la décision bayésienne

14 14 Yves Lechevallier Cours CNAM Concepts probabilistes La population est munie d'une mesure de probabilité Pr ce qui permet de relativiser la possibilité d'apparition des différents objets à classer. Dans le cas général, la mesure de probabilité Pr n'est pas connue. Elle permet de définir la probabilité d'apparition des classes d'une part et les lois régissant les variations potentielles des descriptions d'autre part. La probabilité associée à chacune des classes dite probabilité a priori

15 15 Yves Lechevallier Cours CNAM Vraisemblance La loi de probabilité de X est appelée la vraisemblance de X. Si l'espace de description est discret on peut écrire Sinon cest la densité de probabilité de X au point x. Une description particulière x est d'autant plus vraisemblable qu'elle a une forte chance d'apparaître.

16 16 Yves Lechevallier Cours CNAM Vraisemblance conditionnelle Une description particulière x est d'autant plus vraisemblable, pour une classe k, qu'elle a une forte chance d'apparaître chez les objets de cette classe. L'aspect conditionnel de la vraisemblance prend en compte la structure distributionnelle différenciée des descriptions dans chacune des classes. Si le descripteur X était identiquement distribué dans chaque classe, et si donc chaque description était aussi «vraisemblable» dans chacune des classes, on ne pourrait pas prétendre utiliser X pour classer les objets. Seule la fréquence des classes servirait à la discrimination.

17 17 Yves Lechevallier Cours CNAM Théorie de la décision bayésienne Nous avons deux états de la nature, les amanites phalloïdes: 1 avec P( 1 )=P[Y=1]=0.05. et les autres champignons: 2 avec P( 2 )=P[Y=2]=0.95. Le descripteur X est la question « présence dune volve » qui est la variable aléatoire discrète X 1 ayant deux réalisations ou modalités « Oui » « Non ». La probabilité davoir une volve sachant que le champignon est une amanite phalloïde est de 0.9 doù : P[X 1 =Oui/Y=1]=0.9 et P[X 1 =Oui/Y=2]=0.2.

18 18 Yves Lechevallier Cours CNAM Formule de Bayes Le promeneur observe que ce champignon possède une volve. Quel est la probabilité que ce champignon est une amanite phalloïde ? Cette probabilité est P[Y=1/ X 1 =Oui] Sachant que la probabilité jointe sur X et Y peut être écrite suivante deux formes :P[X 1 =x et Y=y]= P[X 1 =x/Y=y].P[Y=y]=P[Y=y/X=x].P[X=x] Doù P[Y=1/ X 1 =Oui]= P[X 1 =Oui/Y=1].P[Y=1]/ P[X 1 =Oui] P[X 1 =Oui]=P[X 1 =Oui et Y=1]+ P[X 1 =Oui et Y=2] P[X 1 =Oui]=P[X 1 =Oui /Y=1].P[Y=1]+ P[X 1 =Oui/Y=2].P[Y=2] qui est la formule de Bayes. Cette formule peut exprimer par : a posteriori = ( vraisemblance x a priori)/ évidence

19 19 Yves Lechevallier Cours CNAM Erreur de classement A chaque fonction de décision on a une règle de décision La performance globale de la fonction de décision est la moyenne des probabilités d'erreur de cette fonction de décision sur l'espace de description. La règle d'affectation est la règle de bayes d'erreur minimale si elle est vérifie :

20 20 Yves Lechevallier Cours CNAM Formule de Bayes Ainsi, l'utilisation de la règle probabiliste de Bayes, minimisant le taux d'erreur, l'amène à classer tous les champignons présentant une volve parmi les champignons à conserver ! la règle de Bayes minimisant le taux d'erreur ne tient aucun compte des conséquences catastrophiques d'une mauvaise décision. Il faut d'introduire une fonction de coût capable de quantifier le risque d'un mauvais classement. Calculons les termes permettant d'exploiter la règle d'affectation:

21 21 Yves Lechevallier Cours CNAM Fonction de coût Il faut d'introduire une fonction de coût capable de quantifier le risque d'un mauvais classement. Le caractère mortel de l'amanite phalloïde conduit à poser comme fonction de coût : La règle d'affectation de Bayes de risque minimal conduit alors à rejeter systématiquement tout champignon présentant une volve. Les conséquences d'une erreur étant infinies, le risque est réduit en adoptant une règle d'exclusion systématique des champignons ayant une volve. C'est la réaction naturelle de beaucoup de promeneurs

22 22 Yves Lechevallier Cours CNAM Éléments de la théorie de la décision a)(G,, ) espace probabilisé avec G lensembles des états de la nature et la probabilité associée. b) X une variable aléatoire multidimensionnelle (dans R p ) dont la loi dépend dun état y de G. c) (X 1,Y 1 ),…,(X n,Y n ) un échantillon de taille n. d) D ensemble de décision e) un ensemble de fonction de décision de R p dans D. f) C une fonction de coût de GxD dans R+, C(y,d) est le coût de réaliser y et davoir pris la décision d.

23 23 Yves Lechevallier Cours CNAM Coût de la décision Pour une fonction de décision de et la distribution a priori des états le coût moyen est égal à : qui est le coût de remplacer (x,y) par

24 24 Yves Lechevallier Cours CNAM Théorème de Bayes On note : (y) la densité correspondant à létat y;P[Y=y] f y (x) la densité sur R p si létat y est choisi.P[X=x/Y=y] p x (y) la densité sur G si la réalisation x est observéeP[Y=y/X=x] p(x) la densité dans R p P[X=x] Daprès de théorème de Bayes nous avons

25 25 Yves Lechevallier Cours CNAM Deux formes symétriques 1) Fonction de risque associé à conditionnellement lorsque létat y est réalisé : 2) Fonction de risque associée à conditionnellement lorsque la réalisation x est observée (risque à posteriori) avec

26 26 Yves Lechevallier Cours CNAM Les solutions de Bayes Soit une mesure de probabilité sur G (ensemble des états de la nature). On appelle solution de Bayes par rapport à toute fonction de décision telle que : Si on peut trouver une fonction de décision telle que : alors est une solution de Bayes par rapport à. La décision qui minimise le risque à posteriori est une solution de Bayes.

27 27 Yves Lechevallier Cours CNAM Règle de décision de Bayes de risque minimum Nous allons introduire le concept de coût associé à un mauvais classement. Nous rechercherons alors la règle de décision dont le coût moyen est aussi faible que possible. Une fonction de coût C est une application qui, à tout couple (k,h), affecte le coût C(h/k) du classement d'un objet de k comme un objet de la classe h. Cette fonction vérifie le plus souvent les propriétés suivantes Les valeurs sont fixées suivant le contexte du problème

28 28 Yves Lechevallier Cours CNAM le coût moyen de l'affectation à la classe k Ce coût moyen est l'espérance mathématique de la fonction coût, conditionnellement à la description x et est égal à : La règle d'affectation localement optimale en x consiste alors à attribuer l'objet décrit par x à la classe k qui minimise ce coût moyen. En moyenne, c'est la règle «la moins coûteuse». On l'appelle la règle d'affectation de Bayes de risque minimum.

29 29 Yves Lechevallier Cours CNAM Approche Bayésienne Probabilités a priori des classes k Les lois de probabilité L k (x) du vecteur x dans chaque classe a priori. Une fonction C de coût du classement dun objet de la classe a priori P k dans la classe daffectation P h coût C(h/k) Une fonction de décision Y*.

30 30 Yves Lechevallier Cours CNAM Règle de décision de Bayes d'erreur minimale La règle la plus simpliste est d'affecter tout objet à classer à la classe la plus probable : Dans ce cas, la règle est constante. Doù l'intérêt de disposer d'une description des objets pour pouvoir orienter leur classement. la probabilité de se tromper connaissant la description x On voit ainsi que chercher à maximiser la probabilité d'appartenance d'un objet à une classe, conditionnellement à sa description, revient à chercher à minimiser la probabilité d'erreur de classement de la règle d'affectation sachant x.

31 31 Yves Lechevallier Cours CNAM Règle de Bayes derreur minimale Théorème de Bayes Cette définition est peu opérationnelle, en effet, on connaît rarement la probabilité d'un classement sachant une description.

32 32 Yves Lechevallier Cours CNAM Méthodes statistiques paramétriques Nous avons considéré que les lois probabilistes régissant les fluctuations de la description X étaient parfaitement connues ou admises. Cette connaissance était exprimée par l'expression analytique des différentes fonctions de vraisemblance L k et permettait la construction des règles de décision de Bayes Maintenant seule est admise la forme générale de la distribution de probabilité des exemples conditionnellement à leur classe d'appartenance. Les fonctions de vraisemblance sont des éléments inconnus d'une famille de lois de probabilité paramétrée par.

33 33 Yves Lechevallier Cours CNAM Échantillonnage des exemples L'information initiale sous la forme d'un système d'hypothèses probabilistes ou sous la forme d'observations expérimentales regroupées dans un ensemble E de n exemples L'ensemble E des exemples ne sera pas représentatif de la population toute entière mais chaque ensemble E k sera représentatif de la classe k. Ainsi les probabilités a priori des classes devront être supposées connues ou admises

34 34 Yves Lechevallier Cours CNAM Les descriptions suivent une loi normale Le descripteur X des exemples est constitué de p descripteurs numériques et que sa distribution, conditionnellement aux classes, suit une loi normale multidimensionnelle centrée sur le vecteur et de matrice de variance-covariance. La vraisemblance conditionnelle de X pour la classe k s'écrit alors

35 35 Yves Lechevallier Cours CNAM Loi normale La fonction de coût est constante alors la règle de Bayes de risque minimum revient à minimiser l'expression Si de plus les probabilités a priori de chacune des classes sont identiques, et que les matrices de variance-covariance sont semblables, alors la règle d'affectation de Bayes est : La règle de Bayes consiste donc, dans ce cas particulier, à affecter un objet à la classe k dont la description moyenne est la plus voisine de la description x de l'objet à classer.

36 36 Yves Lechevallier Cours CNAM Exemple 1 L k (x) Les variances et les probabilités a priori sont égales

37 37 Yves Lechevallier Cours CNAM Exemple 2 L k (x) Les variances sont inégales égales Les probabilités a priori sont égales

38 38 Yves Lechevallier Cours CNAM Cas de deux classes la règle de Bayes de risque minimum s'exprime alors en fonction du rapport La règle : Il découle que la surface définie par l'équation (x)=0 est la frontière qui sépare les deux régions d'affectation.

39 39 Yves Lechevallier Cours CNAM Cas particulier On admet l'égalité des matrices de variance-covariance : Par utilisation directe de la définition de la distance de Mahalanobis on trouve alors que Cette expression, dite aussi statistique d'Anderson, révèle à nouveau le lien étroit qui existe entre la distance de Mahalanobis et le critère d'affectation de Bayes.

40 40 Yves Lechevallier Cours CNAM Cas particulier Par simplification on trouve l'expression L'égalité des matrices de variance-covariance induit une discrimination linéaire est linéaire en x. On peut donc mettre x) sous la forme

41 41 Yves Lechevallier Cours CNAM Analyse discriminante de Fisher entre deux groupes Les fonctions de densité conditionnelles sont multinormales et homoscédastiques. (x) sappelle fonction de score. dépendante de léchantillonindépendante de léchantillon

42 42 Yves Lechevallier Cours CNAM Probabilités a posteriori Avec :

43 43 Yves Lechevallier Cours CNAM Interprétabilité des résultats La fonction score est Le point « pivot » Alors La valeur du score dun individu est la somme des contributions de ses descripteurs. Pour chaque variable j Le signe de cette contribution dépendant de la position de x j par rapport au pivot j.

44 44 Yves Lechevallier Cours CNAM Probabilité a posteriori d'appartenance La probabilité a posteriori d'appartenance à la classe k d'un objet quelconque décrit par le vecteur x dans le cas particulier où les coûts sont égaux est égale à : la probabilité a posteriori d'appartenance à la première classe est une fonction logistique de (x).

45 45 Yves Lechevallier Cours CNAM Les probabilités a posteriori Deux cas : Soit les hypothèses du modèle choisi sont utilisées, par exemple Soit il ny a pas de modèle et alors on utilise le théorème de Bayes pour estimer les lois conditionnelles empiriques

46 46 Yves Lechevallier Cours CNAM Généralisation Capacité de bien affecter de nouvelles données + o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o Modèle simple

47 47 Yves Lechevallier Cours CNAM Généralisation + o o o o o o o o o o o o o o o o o o o o o o Modèle un peu trop flexible Complexité du modèle : Comment adapter au mieux le modèle aux données sachant que lon ne possède quun échantillon ?

48 48 Yves Lechevallier Cours CNAM Complexité du modèle + o o o o o o o o o o o o o o o o o o o o o o o o o Analyse discriminante + o o o o o o o o o o o o o o o o o o o o o o o o o

49 49 Yves Lechevallier Cours CNAM Comment améliorer cette solution ? + o o o o o o o o o o o o o o o o o o o o o o o o o + o o o o o o o o o o o o o o o o o o o o o o o o o Analyse discriminante quadratique Méthode neuronale Perceptron

50 50 Yves Lechevallier Cours CNAM Réseaux de neurones, le début Au début des années 40 il sagissait de produire des systèmes artificiels capable de simuler certaines capacités des systèmes naturels: apprentissage, intelligence... En 1943 Mc Culloch (psychologue) et Pitts(mathématicien) proposent le premier réseau dautomates à seuil analogue à un neurone formel et donne le vocabulaire actuel : neurone, synapse,connexions… En 1949 Donald Hebb introduit le concept de lapprentissage avec la règle de Hebb dans le livre The Organization of Behaviour. Les premier neurones en discrimination apparaissent avec Franck Rosenblatt en 59. Il propose un modèle de réseau capable dapprendre à partir dexemples, le Perceptron.

51 51 Yves Lechevallier Cours CNAM Modèle neuronal en biologie

52 52 Yves Lechevallier Cours CNAM Cerveau vs Ordinateur Neurones : 50 milliards Synapses : Vitesse : s Calcul : distribué, non linéaire et parallèle Neurones : 1 milliard Synapses : Vitesse : s Calcul :central, linéaire et séquentiel

53 53 Yves Lechevallier Cours CNAM Solutions Il faut faire des machines massivement parallèles Cette différence vient du logiciel Importance de lapprentissage Deux types dintelligence (J. C. Perez) Formelle Raisonnement logique et déductif Informelle Intelligence de perception, dintuition et dapprentissage

54 54 Yves Lechevallier Cours CNAM Réseaux de neurones, la désillusion Ensuite Bernard Widrow et Ted Hoff propose ADALINE (Adaptative Linear Element) qui est un algorithme neuronal optimisant le critère des moindres carrés et utilisant la règle de Widrow- Hoff (minimisation de lerreur quadratique). En 69 est publié par Minsky et Papert un ouvrage important Perceptrons proposant un cadre formel détude des réseaux de neurones et surtout donnent leurs limites.

55 55 Yves Lechevallier Cours CNAM Linéairement ou non linéairement séparable

56 56 Yves Lechevallier Cours CNAM Réseaux de neurones, la suite Comme résultat la recherche sur les méthodes neuronales est un peu abandonnée dans les année 70. Cependant quelques chercheurs continuent … 1972, Teuvo Kohonen: associative memory. 1973, Vad der Malsburg: self-organizing maps. 1973, Duda et Hart présentent ces réseaux dans le cadre de la reconnaissance des formes 1974, Paul Werbos propose le paradigme de la rétropropagation du gradien. 1975, Kuniko Fukushima: multi-layer perceptron. 1976, Stephen Grossberg: associative learning.

57 57 Yves Lechevallier Cours CNAM Réseaux de neurones, la fin En 86 la présentation de lalgorithme de rétro-propagation (backward propagation of errors) par David Rumelhart, Geoffrey Hinton and Ronald Williams relance lutilisation des réseaux de neurones. David Parker (voir aussi (1982, 1985) et Yann LeCun (1986)). Cet algorithme est une généralisation du Perceptron et de la règle de Widrow-Hoff. En 89 la propriété dapproximateur universel est démontrée pour les réseaux ayant plus dune couche cachée. Au cours des années 90 les propriétés théoriques des réseaux de neurones ont été largement développées avec de nombreuses applications. Ces développements font des réseaux multicouches une méthode largement connue et employée surtout avec larrivée des ordinateurs modernes.

58 58 Yves Lechevallier Cours CNAM Du neurone biologique au neurone artificiel

59 59 Yves Lechevallier Cours CNAM Vocabulaire Un Réseau de neurones (ANN, Artificial Neural Network) est un ensemble connecté de neurones. Neurone : cest un perceptron avec une sortie non linéaire. Structure : cest larchitecture du réseau. Connections : cest les liaisons entre les neurones.

60 60 Yves Lechevallier Cours CNAM Le modèle statistique Les entrées sont constituées par p variables aléatoires X 1,...,X p. Les sorties calculée par le réseau seront notées Z=G(X). La qualité du réseau sera mesurée en fonction de lécart entre la valeur y i et la valeur obtenue par le réseau

61 61 Yves Lechevallier Cours CNAM Un neurone x1x1 xjxj xpxp wjwj wpwp w1w1 o=f(e) f est la fonction dactivation e o

62 62 Yves Lechevallier Cours CNAM Fonctions dactivation seuil sigmoïde sigmoïde Heaviside

63 63 Yves Lechevallier Cours CNAM Fonction de score linéaire A chaque classe k on associe une fonction de score linéaire : Avec la règle de décision associée

64 64 Yves Lechevallier Cours CNAM Fonction de score linéaire pour 2 classes Avec la règle de décision associée Problème : Trouver un vecteur de poids w tel que

65 65 Yves Lechevallier Cours CNAM Ensemble linéairement séparable Lensemble E est linéairement séparable sil existe un vecteur de poids w tel que : x* est le vecteur étendu de x si x*=(x,1) si Y(x)=1 x*=(-x,-1) si Y(x)=2 (on notera maintenant par x le vecteur x*) Comment le savoir ?

66 66 Yves Lechevallier Cours CNAM Algorithme du Perceptron On pourrait prendre le taux de mauvais classement comme critère doptimisation, mais cest une fonction constante par morceaux. Rosenblatt suggère le choix du critère suivant : oùest lensemble des mal classés par le vecteur w

67 67 Yves Lechevallier Cours CNAM Algorithme du Perceptron Initialisation Choisir un vecteur w 0 de dimension p+1 Étape itérative test=0, Pour chaque x de E faire : Vérification Si test= 0 alors fin sinon refaire létape itérative Lalgorithme du Perceptron converge en un nombre fini détapes si E est linéairement séparable

68 68 Yves Lechevallier Cours CNAM Architecture du Perceptron Entrée p neurones Sortie calculée (o) Sortie désirée (d) x1x1 x2x2 x3x3 x4x4 w1w1 w3w3 w1w1 w4w4 w2w2 e=w 1* x 1 +w 2* x 2 + w 3* x 3 + w 4* x 4 o=f(e)o=f(e)

69 69 Yves Lechevallier Cours CNAM Exemple Cet exemple est linéairement séparable w=(1,1,1/2) est une solution de léquation w 1 x+ w 2 y+w 0 =0

70 70 Yves Lechevallier Cours CNAM Exemple non linéairement séparable Exemple du XOR Lalgorithme du Perceptron oscille indéfiniment

71 71 Yves Lechevallier Cours CNAM Problème de la généralisation (1) Les droites bleues sont toutes des solutions équivalentes pour lalgorithme du Perceptron

72 72 Yves Lechevallier Cours CNAM Problème de la généralisation (2) Lalgorithme prend une solution pas très robuste Utilisation de lerreur quadratique Règle de Widrow-Hoff WH P

73 73 Yves Lechevallier Cours CNAM Algorithme de gradient stochastique On suppose que nous avons un échantillon de taille infinie. A la réalisation z t nous ne disposons que de l'information connue sur léchantillon de taille t. Au lieu de J(w) calculé sur léchantillon de taille infinie nous avons u(w,t). Dans ce cas on doit résoudre le problème suivant:

74 74 Yves Lechevallier Cours CNAM Approche séquentielle On choisit un w 0 dans l'espace D X, ensemble des solutions. à l'étape t on effectue un tirage aléatoire suivant la loi P. On obtient une réalisation x t on procède à la mise à jour par la formule suivante : la suite de termes t positifs doit vérifier :

75 75 Yves Lechevallier Cours CNAM Le coefficient

76 76 Yves Lechevallier Cours CNAM La mise à jour des pondérations Mesure de lerreur Le processus dapprentissage du réseau consiste à présenter successivement les exemples de lensemble dapprentissage de façon à estimer les poids w.On utilise lerreur quadratique moyenne Algorithme de minimisation de lerreur On peut écrire quà létape t, le vecteur des pondérations w dépendent de létape t-1 par la formule suivante:

77 77 Yves Lechevallier Cours CNAM Architecture du Perceptron (K>2) Entrée p neurones Sortie calculée K groupes Sortie désirée

78 78 Yves Lechevallier Cours CNAM Schéma de la décision x Pr(2/x) Pr(1/x) Pr(3/x) Pr(4/x) C(3/x) _ C(1/x) _ C(2/x) _ C(1/1) C(2/1) C(2/4) C(3/4) Min

79 79 Yves Lechevallier Cours CNAM La mise à jour des pondérations Mesure de lerreur le processus dapprentissage du réseau consiste à présenter successivement les exemples de lensemble dapprentissage de façon à estimer les poids W. On utilise lerreur quadratique moyenne Algorithme de minimisation de lerreur On peut écrire quà létape t, la matrice des pondérations W dépendent de létape t-1 par la formule suivante:

80 80 Yves Lechevallier Cours CNAM Architecture du Perceptron MultiCouche Entrée p neurones Couche cachée J neurones Sortie calculée K groupes(o) Sortie désirée(d)

81 81 Yves Lechevallier Cours CNAM La fonction de transfert les variables sont associées aux neurones de la couche dentrée Les groupes sont associés aux neurones de la couche de sortie Lapprentissage de ce réseau est supervisé. Il utilise un algorithme de rétropropagation du gradient de lerreur W est un vecteur de matrices

82 82 Yves Lechevallier Cours CNAM La mise à jour des pondérations Mesure de lerreur le processus dapprentissage du réseau consiste à présenter successivement les exemples de lensemble dapprentissage de façon à estimer les poids W. On utilise lerreur quadratique moyenne Algorithme de minimisation de lerreur On peut écrire quà létape t, le vecteur des matrices des pondérations W dépendent de létape t-1 par la formule suivante:

83 83 Yves Lechevallier Cours CNAM Notations f la fonction dactivation qui est continue et dérivable la valeur dentrée du neurone i de la couche c pour lélément présenté t. la valeur de la sortie du neurone i de la couche c le poids de la connexion entre le neurone i de la couche c+1 et le neurone j de la couche c le nombre de neurones dans la couche c.

84 84 Yves Lechevallier Cours CNAM Calcul des pondérations Pour le neurone i de la couche de sortie NC il faut calculer: De manière générale nous avons : Cette partie dépend de la fonction de coût J.

85 85 Yves Lechevallier Cours CNAM Calcul des pondérations car Doù Ce calcul est indépendant de la fonction de coût J.

86 86 Yves Lechevallier Cours CNAM Les probabilités a posteriori et laffectation On peut approximer la probabilité la posteriori par (Gish,1990): Cela revient à normaliser les sorties calculées La règle daffectation est

87 87 Yves Lechevallier Cours CNAM Exemple du XOR Avec un réseau ayant une couche cachée on peut classer sans erreur cet ensemble non linéairement séparable.

88 88 Yves Lechevallier Cours CNAM Liens entre lapprentissage supervisé et la régression La minimisation de la fonction derreur quadratique est équivalente à la minimisation de

89 89 Yves Lechevallier Cours CNAM Mise en œuvre du réseau Les techniques de validation Le paramètre dapprentissage Le choix des variables Le nombre de neurones de la couche cachée Test de sensibilité ( élimination des pondérations )

90 90 Yves Lechevallier Cours CNAM Estimation de la qualité dune règle de décision Donner une mesure de qualité à une règle de décision cest réaliser une estimation du taux ou du coût derreur de classement que fournira cette règle sur la population. Ensemble dapprentissage Cest sur cet ensemble quune méthode de classement construit la règle de décision. Ensemble test Cest sur cet ensemble quune méthode de classement est validée

91 91 Yves Lechevallier Cours CNAM Estimation des taux derreur de classement La probabilité derreur de classement ERR sur la population: Le taux derreur de classement sur lensemble dapprentissage : (Taux apparent) Trop optimiste et avec biais Le taux derreur de classement sur lensemble test : (Taux actuel) Sans biais mais il faut un échantillon important

92 92 Yves Lechevallier Cours CNAM Techniques de rééchantillonnage (1) Ensemble de données trop petit (taille n) Validation croisée : (cross-validation) découper léchantillon en k parties de même effectif (k-1) parts servent densembles dapprentissage la part restante sert densemble test Ceci est répété k fois et le taux derreur de classement est la moyenne des taux derreur des ensembles test Si k=n (leave one out)

93 93 Yves Lechevallier Cours CNAM Techniques de rééchantillonnage (2) Tirage avec remise : bootstrap On tire au hasard et avec remise n exemples qui constituent alors un échantillon On calcule pour chaque tirage le taux apparent Err et le taux derreur apparent sur léchantillon de base ERR Doù le taux derreur bootstrap de k dans l :

94 94 Yves Lechevallier Cours CNAM Bibliographie Bishop, C. M., Neural Networks for Pattern Recognition, Clarendon Press, Oxford, Duda R.O., Hart P.E. et Stone, Pattern classification and scene analysis, John Wiley, Dreyfus G., Martinez J-M, Samuelides M., Gordon M. B., Badran F., Thiria S., Hérault L., Réseaux de neurones, Méhodologie et applications, Eyrolles, 2002 P. Galinari, S. Thiria et F. Fogelman-Soulé « Multilayer perceptrons and data analysis » IEEE neural networks, p ,1988 Haton J.P., Bouzid N., et al., Le raisonnement en intelligence artificielle, Inte­rEditions, Lebart L., « Réseaux de neurones et analyse des correspondances » Revue Modulad 18, 1997 Milgram M., Reconnaissance des formes : Méthodes numériques et connexion­nistes, Armand Colin, Mitchell T., Machine Learning, Mac Grow-Hill, Ripley B. D. Pattern Recognition Neural Networks, Cambridge University Press, D.E. Rumelhart, G. E. Hinton, R. J. Williams, « Learning internal representations by error propagation » in Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Vol. 1: Foundations, Editors: D.E. Rumelhart and J.L. McClelland, MIT Press, Cambridge, MA, Thiria S., Lechevallier Y., Gascuel O., Canu S. (Eds) Statistique et méthodes neuronales, Dunod, 1997


Télécharger ppt "1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : CNAM MASTER2 IS 2006-2007 Méthodes neuronales."

Présentations similaires


Annonces Google