Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff, ERIC, université de Lyon http://psichaud.insa-rouen.fr/~scanu/
RNA de type PMC y = W f ( W f (W X) ) 3 2 2 1 1
Motivations RNA de type PMC : si ça marche, il doit y avoir un argument mathématique ! Une machine qui apprend (pour « comprendre » ou « résoudre ») argument biologique ou mathématique Poser (formaliser) le problème « d’apprentissage à partir d’exemples » universalité contrôle de la complexité local vs global dimensionnalité hyper paramètre : structure vs « adaptation » Comprendre comment fonctionne le cerveau resoudre les problemes « complexe » : - rdf, vision, planif, ocr,...
Le problème d’apprentissage Des variables explicatives : X, et des variables à expliquer : Y (observées) (à prédire) des variables aléatoires : (X,Y) une loi jointe (inconnue) une fonction coût une fonction cible r(x)= E(Y|X=x) un échantillon (xi,yi) i=1,n Construire , un estimateur de la fonction r
Le problème d’apprentissage Des variables explicatives : X, et des variables à expliquer : Y (observées) (à prédire) des variables aléatoires : (X,Y) une loi jointe (inconnue) une fonction coût une fonction cible r(x)= E(Y|X=x) un échantillon (xi,yi) i=1,n R (une dimension) Construire , un estimateur de la fonction r
Apprentissage à partir d'exemples Données : (xi,yi) i=1,n Principe inductif : Minimisation risque empirique Ce n’est pas suffisant ...
Pourquoi le principe du MRE n’est pas suffisant ? B trop grand : tout apprendre = apprendre n’importe quoi Solution instable
Pourquoi le principe du MRE n’est pas suffisant ? B trop grand : tout apprendre = apprendre n’importe quoi Solution instable Cemp = 0 minimiser Cemp ce n’est pas forcément minimiser EP
Pourquoi le principe du MRE n’est pas suffisant ? B trop grand : tout apprendre = apprendre n’importe quoi Solution instable Cemp = 0 minimiser Cemp ce n’est pas forcément minimiser EP
M.R.E.: comment stabiliser ? deux principes. Ce problème est mal posé EP est instable B est trop grand Il faut introduire un a priori compactifier = régulariser (Tikhonov 63, Groetsch 93) Stabilisateur (pénalisation), Arrêt de la minimisation, Perturber les entrées,... Minimiser dans un sous ensemble F de B
Minimisation du risque empirique f . . f . . 1 2 3 Mesure de Qualité
Minimisation du risque empirique f . . f . . pas bon 1 2 3 Mesure de Qualité
Minimisation du risque empirique f . . f . . pas bon . . bon . . moyen 1 2 3 Mesure de Qualité
Mesure de Qualité : F R f (f) + Ff| (f) existe n Min S |yi - f(xi)| (f) 1 2 2 i f F Ajustement aux Données
Mesure de Qualité : F R f (f) + Ff| (f) existe n Min S |yi - f(xi)| (f) 1 2 2 i f F Ajustement aux Données Qualité a priori
Mesure de Qualité : F R f (f) + Ff| (f) existe n Min S |yi - f(xi)| (f) 1 2 2 i f F Ajustement aux Données Qualité a priori Roberval
Exemple d’a priori (f) mesure la “qualité” de f Interprétation Bayésienne
Exemple d’a priori (f) mesure la “qualité” de f Fourier Interprétation Bayésienne
Choix de l’a priori m : mesure m(dx)= P(x)dx P(x): densité X 200 m : mesure P(x): densité m(dx)= P(x)dx 150 100 50 X -4 -2 2 4 6 P(x) petit P(x) grand peu d’information beaucoup d’information f doit être « régulière » f peut être « irrégulière »
Choix de l’a priori m : mesure m(dx)= P(x)dx P(x): densité X 200 m : mesure P(x): densité m(dx)= P(x)dx 150 100 50 X -4 -2 2 4 6 P(x) petit P(x) grand peu d’information beaucoup d’information f doit être « régulière » f peut être « irrégulière » Qualité
Choix de l’a priori dérivée de Radon-Nikodym Un exemple
exemple
tanh(x) : “globale” (tanh) = 0 Choix de (f) a priori ^ min S |yi-f(xi)| (f) i n 1 2 Solution : r(x) = Arg r(x) = r (x) + r (x) « locale » (r ) = 0 les a priori des perceptrons multicouches tanh(x) : “globale” (tanh) = 0 2 f F ^ ^ ^ l k ^ k
Minimisation du risque régularisé dérivée directionnelle
de Q à G |Qf Q*Q Q*Q Ker(Q)
de Q à G |Qf Q*Q A PRIORI Q*Q Ker(Q) Solution
estimation des c
Estimation des c et des d n+k 1 G + I K K’ c d y = n n+k
Exemple
Un cadre théorique possible Une Solution Mixte r(x) = r (x) + r (x) R.B.F + P.M.C Un cadre théorique possible k ^ l
Perspectives cadre théorique pour les réseaux de neurones mesures signées multidimensionnel, intégration des données (x et y) dans le choix de m, nouveaux algorithmes d ’apprentissage (SVM, …), moins d’erreur : des bornes ! intégrer une mesure de complexité,
Régression spline et a priori f = Qf Q*Q G = f(x) = S ci G(xi,x) + S dj Kerj(x) moindres carrés : (G + I) c = y Noyau équivalent : f(x) = S yi K(xi,x) Matrice de lissage : f(xi) = S y
Les autres fonctions couts nom contraste fonction cible Cout quadratique Cout absolu Cout relatif absolu Relatif quadratique Quantiles Fixé par l’utilisateur, ... r(x) = E(Y| X=x) white p 194 pour les quartiles : estimateur empirique de Koeneker et Basset (78) abs(y-f(x)) (p 1{x<f(x)} + (1-p)1{x>f(x)}). rappelons nous que la médiane est donnée par la minimisation de l’erreur absolue.
Minimisation du Risque Empirique (M.R.E.) Ce problème est mal posé car B est trop grand ! existence d’une solution unicité stabilité de l’erreur en prédiction EP si (xi,yi) change un peu, EP varie peu Si B est trop grand, il n’y a pas unicité (voir transparent suivant) le transparent suivant discute unicite et stabilité se F est trop petit, il n’existe plus de solution.
Minimisation du risque structurel Minimisation risque empirique Régulariser : choisir F tel que M.R.E. soit stable Choix de F : Minimisation du risque Structurel
Minimisation du risque structurel 1 2 { 3 1 - Choix de F -F est fonction de l’échantillon et du problème, - pratiquement, {Fm} : contrôle de la complexité. 2 - Estimation de l’erreur de prédiction - borne théorique, - par rééchantillonnage, - ensemble test. 3 - Régulariser : introduire un a priori (Groetsch 93) - stabilisateur (pénalisation, Weigend 91), - perturber les entrées (régulariser l’opérateur, Plaut 86), - arrêt de la minimisation (Amari 95).
Moindres carrés