La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,

Présentations similaires


Présentation au sujet: "Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,"— Transcription de la présentation:

1 Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff, ERIC, université de Lyon

2 RNA de type PMC y = W f ( W f (W X) ) 3 2 2 1 1

3 Motivations RNA de type PMC : si ça marche, il doit y avoir un argument mathématique ! Une machine qui apprend (pour « comprendre » ou « résoudre ») argument biologique ou mathématique Poser (formaliser) le problème « d’apprentissage à partir d’exemples » universalité contrôle de la complexité local vs global dimensionnalité hyper paramètre : structure vs « adaptation » Comprendre comment fonctionne le cerveau resoudre les problemes « complexe » : - rdf, vision, planif, ocr,...

4 Le problème d’apprentissage
Des variables explicatives : X, et des variables à expliquer : Y (observées) (à prédire) des variables aléatoires : (X,Y) une loi jointe (inconnue) une fonction coût une fonction cible r(x)= E(Y|X=x) un échantillon (xi,yi) i=1,n Construire , un estimateur de la fonction r

5 Le problème d’apprentissage
Des variables explicatives : X, et des variables à expliquer : Y (observées) (à prédire) des variables aléatoires : (X,Y) une loi jointe (inconnue) une fonction coût une fonction cible r(x)= E(Y|X=x) un échantillon (xi,yi) i=1,n R (une dimension) Construire , un estimateur de la fonction r

6 Apprentissage à partir d'exemples
Données : (xi,yi) i=1,n Principe inductif : Minimisation risque empirique Ce n’est pas suffisant ...

7 Pourquoi le principe du MRE n’est pas suffisant ?
B trop grand : tout apprendre = apprendre n’importe quoi Solution instable

8 Pourquoi le principe du MRE n’est pas suffisant ?
B trop grand : tout apprendre = apprendre n’importe quoi Solution instable Cemp = 0 minimiser Cemp ce n’est pas forcément minimiser EP

9 Pourquoi le principe du MRE n’est pas suffisant ?
B trop grand : tout apprendre = apprendre n’importe quoi Solution instable Cemp = 0 minimiser Cemp ce n’est pas forcément minimiser EP

10 M.R.E.: comment stabiliser ? deux principes.
Ce problème est mal posé EP est instable B est trop grand Il faut introduire un a priori compactifier = régulariser (Tikhonov 63, Groetsch 93) Stabilisateur (pénalisation), Arrêt de la minimisation, Perturber les entrées,... Minimiser dans un sous ensemble F de B

11 Minimisation du risque empirique
f . . f . . 1 2 3 Mesure de Qualité

12 Minimisation du risque empirique
f . . f . . pas bon 1 2 3 Mesure de Qualité

13 Minimisation du risque empirique
f . . f . . pas bon . . bon . . moyen 1 2 3 Mesure de Qualité

14 Mesure de Qualité  : F R f (f) + Ff| (f) existe
n Min S |yi - f(xi)| (f) 1 2 2 i f  F Ajustement aux Données

15 Mesure de Qualité  : F R f (f) + Ff| (f) existe
n Min S |yi - f(xi)| (f) 1 2 2 i f  F Ajustement aux Données Qualité a priori

16 Mesure de Qualité  : F R f (f) + Ff| (f) existe
n Min S |yi - f(xi)| (f) 1 2 2 i f  F Ajustement aux Données Qualité a priori Roberval

17 Exemple d’a priori (f) mesure la “qualité” de f
Interprétation Bayésienne

18 Exemple d’a priori (f) mesure la “qualité” de f
Fourier Interprétation Bayésienne

19 Choix de l’a priori m : mesure m(dx)= P(x)dx P(x): densité X
200 m : mesure P(x): densité m(dx)= P(x)dx 150 100 50 X -4 -2 2 4 6 P(x) petit P(x) grand peu d’information beaucoup d’information f doit être « régulière » f peut être « irrégulière »

20 Choix de l’a priori m : mesure m(dx)= P(x)dx P(x): densité X
200 m : mesure P(x): densité m(dx)= P(x)dx 150 100 50 X -4 -2 2 4 6 P(x) petit P(x) grand peu d’information beaucoup d’information f doit être « régulière » f peut être « irrégulière » Qualité

21 Choix de l’a priori dérivée de Radon-Nikodym
Un exemple

22 exemple

23 tanh(x) : “globale” (tanh) = 0
Choix de (f) a priori ^ min S |yi-f(xi)| (f) i n 1 2 Solution : r(x) = Arg r(x) = r (x) + r (x) « locale » (r ) = 0 les a priori des perceptrons multicouches tanh(x) : “globale” (tanh) = 0 2 f F ^ ^ ^ l k ^ k

24 Minimisation du risque régularisé
dérivée directionnelle

25 de Q à G |Qf Q*Q Q*Q Ker(Q)

26 de Q à G |Qf Q*Q A PRIORI Q*Q Ker(Q) Solution

27 estimation des c

28 Estimation des c et des d
n+k 1 G +  I K K’ c d y = n n+k

29 Exemple

30 Un cadre théorique possible
Une Solution Mixte r(x) = r (x) + r (x) R.B.F P.M.C Un cadre théorique possible k ^ l

31 Perspectives cadre théorique pour les réseaux de neurones
mesures signées multidimensionnel, intégration des données (x et y) dans le choix de m, nouveaux algorithmes d ’apprentissage (SVM, …), moins d’erreur : des bornes ! intégrer une mesure de complexité,

32 Régression spline et a priori
f = Qf Q*Q G =  f(x) = S ci G(xi,x) + S dj Kerj(x) moindres carrés : (G +  I) c = y Noyau équivalent : f(x) = S yi K(xi,x) Matrice de lissage : f(xi) = S y

33 Les autres fonctions couts
nom contraste fonction cible Cout quadratique Cout absolu Cout relatif absolu Relatif quadratique Quantiles Fixé par l’utilisateur, ... r(x) = E(Y| X=x) white p 194 pour les quartiles : estimateur empirique de Koeneker et Basset (78) abs(y-f(x)) (p 1{x<f(x)} + (1-p)1{x>f(x)}). rappelons nous que la médiane est donnée par la minimisation de l’erreur absolue.

34 Minimisation du Risque Empirique (M.R.E.)
Ce problème est mal posé car B est trop grand ! existence d’une solution unicité stabilité de l’erreur en prédiction EP si (xi,yi) change un peu, EP varie peu Si B est trop grand, il n’y a pas unicité (voir transparent suivant) le transparent suivant discute unicite et stabilité se F est trop petit, il n’existe plus de solution.

35 Minimisation du risque structurel
Minimisation risque empirique Régulariser : choisir F tel que M.R.E. soit stable Choix de F : Minimisation du risque Structurel

36 Minimisation du risque structurel
1 2 { 3 1 - Choix de F -F est fonction de l’échantillon et du problème, - pratiquement, {Fm} : contrôle de la complexité. 2 - Estimation de l’erreur de prédiction - borne théorique, - par rééchantillonnage, - ensemble test. 3 - Régulariser : introduire un a priori (Groetsch 93) - stabilisateur (pénalisation, Weigend 91), - perturber les entrées (régulariser l’opérateur, Plaut 86), - arrêt de la minimisation (Amari 95).

37 Moindres carrés


Télécharger ppt "Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,"

Présentations similaires


Annonces Google