Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

LES NOMBRES PREMIERS ET COMPOSÉS
[number 1-100].
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Fabrice Lauri, François Charpillet, Daniel Szer
Distance inter-locuteur
Le pluriel des noms
Les numéros
Rover 14½ tables (24/26 étuis) Tables: 14 Rondes: 13 de 2 étuis Étuis au jeu: 28 Saut après: 7 rondes Paire Rover: 15 N-S (ou E-O) Select movement: 1 Mitchell.
Est Ouest Sud 11 1 Nord 1 Laval Du Breuil, Adstock, Québec I-17-17ACBLScore S0417 Allez à 1 Est Allez à 4 Sud Allez à 3 Est Allez à 2 Ouest RndNE
Est Ouest Sud 11 1 Nord 1 RondeNE SO
Sud Ouest Est Nord Individuel 36 joueurs
Les identités remarquables
Les Prepositions.
Les 3 dimensio ns de la morale et de léthique (activité)
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES COHESION CULTURELLE ET EXPANSION DES IDEES SUR LE TERRITOIRE EUROPEEN.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
DEA instrumentation et commande
1 Acteurs du Développement Durable Ecokids. Ecokids 2 Le Développement Durable, Cest quoi? 2.
Application des algorithmes génétiques
Les verbes auxiliaires Avoir ou être ?? Choisissez! Cest un verbe Dr Mrs Vandertrampp? Cest un verbe réfléchi?
Cours de physique générale I Ph 11
1 SERVICE PUBLIC DE LEMPLOI REGION ILE DE France Tableau de bord Juillet- Août 2007.
PM18 MONTAGE DU BLINDAGE AUTOUR DE LA QRL F. DELSAUX - 25 JAN 2005
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
DEA Perception et Traitement de l’Information
DEA Perception et Traitement de l’Information
LES NOMBRES PREMIERS ET COMPOSÉS
Réseaux de neurones.
La Saint-Valentin Par Matt Maxwell.
RACINES CARREES Définition Développer avec la distributivité Produit 1
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
1.1 LES VECTEURS GÉOMÉTRIQUES
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
Les changements de numéraire dans la tarification d’options
C'est pour bientôt.....
Les Nombres 0 – 100 en français.
Veuillez trouver ci-joint
Les Nombres! de 0 à 20.
SUJET D’ENTRAINEMENT n°4
ASI 3 Méthodes numériques pour l’ingénieur
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Estimation fonctionnelle à l’aide de S.V.M.
DEA Perception et Traitement de l’Information
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
Elaboré par M. NUTH Sothan 1. 2 Soit x, y et z des coordonnées cartésiennes à 3 dimension. G un ensemble de points dans le plan (u, v). Déf. : On appelle.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
SUJET D’ENTRAINEMENT n°1
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
* Source : Étude sur la consommation de la Commission européenne, indicateur de GfK Anticipations.
CALENDRIER-PLAYBOY 2020.
Exercice de vérification 1 p
UHA-FST Année L1S1-2 Examen de janvier 2007 – Durée 90 minutes Introduction aux concepts de la Physique N° carte étudiant:………………… 1-Donner la propriété.
Les Chiffres Prêts?
Médiathèque de Chauffailles du 3 au 28 mars 2009.
Une méthode de prévision à un pas de temps Application à la prévision de la qualité de l’air S. Canu, Ph. Leray, A. Rakotomamonjy laboratoire PSI, équipe.
S. Canu, laboratoire PSI, INSA de Rouen
Transcription de la présentation:

Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff, ERIC, université de Lyon http://psichaud.insa-rouen.fr/~scanu/

RNA de type PMC y = W f ( W f (W X) ) 3 2 2 1 1

Motivations RNA de type PMC : si ça marche, il doit y avoir un argument mathématique ! Une machine qui apprend (pour « comprendre » ou « résoudre ») argument biologique ou mathématique Poser (formaliser) le problème « d’apprentissage à partir d’exemples » universalité contrôle de la complexité local vs global dimensionnalité hyper paramètre : structure vs « adaptation » Comprendre comment fonctionne le cerveau resoudre les problemes « complexe » : - rdf, vision, planif, ocr,...

Le problème d’apprentissage Des variables explicatives : X, et des variables à expliquer : Y (observées) (à prédire) des variables aléatoires : (X,Y) une loi jointe (inconnue) une fonction coût une fonction cible r(x)= E(Y|X=x) un échantillon (xi,yi) i=1,n Construire , un estimateur de la fonction r

Le problème d’apprentissage Des variables explicatives : X, et des variables à expliquer : Y (observées) (à prédire) des variables aléatoires : (X,Y) une loi jointe (inconnue) une fonction coût une fonction cible r(x)= E(Y|X=x) un échantillon (xi,yi) i=1,n R (une dimension) Construire , un estimateur de la fonction r

Apprentissage à partir d'exemples Données : (xi,yi) i=1,n Principe inductif : Minimisation risque empirique Ce n’est pas suffisant ...

Pourquoi le principe du MRE n’est pas suffisant ? B trop grand : tout apprendre = apprendre n’importe quoi Solution instable

Pourquoi le principe du MRE n’est pas suffisant ? B trop grand : tout apprendre = apprendre n’importe quoi Solution instable Cemp = 0 minimiser Cemp ce n’est pas forcément minimiser EP

Pourquoi le principe du MRE n’est pas suffisant ? B trop grand : tout apprendre = apprendre n’importe quoi Solution instable Cemp = 0 minimiser Cemp ce n’est pas forcément minimiser EP

M.R.E.: comment stabiliser ? deux principes. Ce problème est mal posé EP est instable B est trop grand Il faut introduire un a priori compactifier = régulariser (Tikhonov 63, Groetsch 93) Stabilisateur (pénalisation), Arrêt de la minimisation, Perturber les entrées,... Minimiser dans un sous ensemble F de B

Minimisation du risque empirique f . . f . . 1 2 3 Mesure de Qualité

Minimisation du risque empirique f . . f . . pas bon 1 2 3 Mesure de Qualité

Minimisation du risque empirique f . . f . . pas bon . . bon . . moyen 1 2 3 Mesure de Qualité

Mesure de Qualité  : F R f (f) + Ff| (f) existe n Min S |yi - f(xi)| (f) 1 2 2 i f  F Ajustement aux Données

Mesure de Qualité  : F R f (f) + Ff| (f) existe n Min S |yi - f(xi)| (f) 1 2 2 i f  F Ajustement aux Données Qualité a priori

Mesure de Qualité  : F R f (f) + Ff| (f) existe n Min S |yi - f(xi)| (f) 1 2 2 i f  F Ajustement aux Données Qualité a priori Roberval

Exemple d’a priori (f) mesure la “qualité” de f Interprétation Bayésienne

Exemple d’a priori (f) mesure la “qualité” de f Fourier Interprétation Bayésienne

Choix de l’a priori m : mesure m(dx)= P(x)dx P(x): densité X 200 m : mesure P(x): densité m(dx)= P(x)dx 150 100 50 X -4 -2 2 4 6 P(x) petit P(x) grand peu d’information beaucoup d’information f doit être « régulière » f peut être « irrégulière »

Choix de l’a priori m : mesure m(dx)= P(x)dx P(x): densité X 200 m : mesure P(x): densité m(dx)= P(x)dx 150 100 50 X -4 -2 2 4 6 P(x) petit P(x) grand peu d’information beaucoup d’information f doit être « régulière » f peut être « irrégulière » Qualité

Choix de l’a priori dérivée de Radon-Nikodym Un exemple

exemple

tanh(x) : “globale” (tanh) = 0 Choix de (f) a priori ^ min S |yi-f(xi)| (f) i n 1 2 Solution : r(x) = Arg r(x) = r (x) + r (x) « locale » (r ) = 0 les a priori des perceptrons multicouches tanh(x) : “globale” (tanh) = 0 2 f F ^ ^ ^ l k ^ k

Minimisation du risque régularisé dérivée directionnelle

de Q à G |Qf Q*Q Q*Q Ker(Q)

de Q à G |Qf Q*Q A PRIORI Q*Q Ker(Q) Solution

estimation des c

Estimation des c et des d n+k 1 G +  I K K’ c d y = n n+k

Exemple

Un cadre théorique possible Une Solution Mixte r(x) = r (x) + r (x) R.B.F + P.M.C Un cadre théorique possible k ^ l

Perspectives cadre théorique pour les réseaux de neurones mesures signées multidimensionnel, intégration des données (x et y) dans le choix de m, nouveaux algorithmes d ’apprentissage (SVM, …), moins d’erreur : des bornes ! intégrer une mesure de complexité,

Régression spline et a priori f = Qf Q*Q G =  f(x) = S ci G(xi,x) + S dj Kerj(x) moindres carrés : (G +  I) c = y Noyau équivalent : f(x) = S yi K(xi,x) Matrice de lissage : f(xi) = S y

Les autres fonctions couts nom contraste fonction cible Cout quadratique Cout absolu Cout relatif absolu Relatif quadratique Quantiles Fixé par l’utilisateur, ... r(x) = E(Y| X=x) white p 194 pour les quartiles : estimateur empirique de Koeneker et Basset (78) abs(y-f(x)) (p 1{x<f(x)} + (1-p)1{x>f(x)}). rappelons nous que la médiane est donnée par la minimisation de l’erreur absolue.

Minimisation du Risque Empirique (M.R.E.) Ce problème est mal posé car B est trop grand ! existence d’une solution unicité stabilité de l’erreur en prédiction EP si (xi,yi) change un peu, EP varie peu Si B est trop grand, il n’y a pas unicité (voir transparent suivant) le transparent suivant discute unicite et stabilité se F est trop petit, il n’existe plus de solution.

Minimisation du risque structurel Minimisation risque empirique Régulariser : choisir F tel que M.R.E. soit stable Choix de F : Minimisation du risque Structurel

Minimisation du risque structurel 1 2 { 3 1 - Choix de F -F est fonction de l’échantillon et du problème, - pratiquement, {Fm} : contrôle de la complexité. 2 - Estimation de l’erreur de prédiction - borne théorique, - par rééchantillonnage, - ensemble test. 3 - Régulariser : introduire un a priori (Groetsch 93) - stabilisateur (pénalisation, Weigend 91), - perturber les entrées (régulariser l’opérateur, Plaut 86), - arrêt de la minimisation (Amari 95).

Moindres carrés