La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Principes généraux de l’INDUCTION

Présentations similaires


Présentation au sujet: "Principes généraux de l’INDUCTION"— Transcription de la présentation:

1 Principes généraux de l’INDUCTION
Antoine Cornuéjols CNAM-IIE et L.R.I., Université de Paris-Sud, Orsay (France)

2 Cours 5 5- Analyse formelle de l’induction
1 & 2- Introduction à l’induction 3- Apprentissage et espace des versions 4- Réseaux de neurones multicouches 5- Analyse formelle de l’induction 6- Les SVM 7- Les arbres de décision 8- Le boosting 9 & 10- Apprentissage par renforcement

3 1- Quel niveau de description ?
1. Analyse de principe, de faisabilité sans référence à un algorithme particulier !! Théories mathématiques en particulier de nature statistique 2. Niveau de la réalisation / simulation Algorithmes Programmes Réalisations et tests empiriques

4 distribution de prob. F(x)
1- Le scénario de base x1, x2, ..., xm Environnement X : distribution de prob. F(x) “Oracle” Sm = (x1,u1), (x2,u2), ..., (xm,um) Apprenant : h (x) x1, x2, ..., xm y1, y2, ..., ym

5 1- Définition formelle du problème
Hypothèse : les données empiriques caractérisent une dépendance probabiliste P entre l’espace X des descriptions et l’espace Y des étiquettes Z = (X, Y) : variable aléatoire sur (, B, P), où P est inconnue S = {(x1,u1), (x2,u2), … (xm,um)} (X  Y)m Échantillon d’apprentissage Les observation sont i.i.d. suivant P H : famille (éventuellement infinie) de fonctions h définies sur X Objectif : prédire l’étiquette y connaissant l’observation x

6 1- L’objectif de l’induction
Objectif : trouver une hypothèse h  H minimisant le risque réel (espérance de risque, erreur en généralisation) Loi de probabilité jointe sur X  Y Fonction de perte Étiquette prédite Étiquette vraie (ou désirée)

7 1- Exemples de fonctions de pertes
Discrimination Régression Estimation de densité

8 1- Les grands principes inductifs
Étant donnés: un échantillon d’apprentissage Sm et un espace d’hypothèse H Qu’est-ce qui caractérise la (les) meilleure(s) hypothèse(s) ? Quelle hypothèse devrais-je chercher ? Le principe inductif

9 2.1- Le principe inductif ERM
On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y). Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèse h  H minimisant le risque empirique

10 2.2- Le principe ERM est-il pertinent ?
h* : hypothèse optimale dans H suivant le risque réel hSm : hypothèse optimale dans H suivant le risque empirique mesuré sur l’échantillon Sm

11 2.2- Analyse du principe de minimisation du risque empirique
Rappel : a-t-on des garanties sur le risque réel lorsque l’on choisit l’hypothèse minimisant le risque empirique sur un échantillon Sm ?

12 2.3- Les facteurs : le compromis biais-variance

13 2.3- Les facteurs : le compromis biais-variance

14 3- Analyse statistique du principe ERM
Étude de la corrélation entre : et Cette corrélation fait intervenir : RRéel(hS) - RRéel (h*) nécessairement ≥ 0 (pourquoi ?) La probabilité que cette différence soit supérieure à une borne donnée car hS dépend de la représentativité de l’échantillon d’apprentissage Sm

15 3- Analyse statistique du principe ERM (suite)

16 3- Analyse statistique du principe ERM (suite)

17 3- Analyse statistique du principe ERM (suite)

18 3- Pertinence (consistance) du principe ERM
On dit que le principe ERM est pertinent (ou consistant) si le risque réel inconnu R(hS) et le risque empirique REmp(hS) convergent vers la même limite R(h*) lorsque la taille m de l’échantillon S tend vers .

19 3.1- Le cas de la discrimination : l’analyse PAC
Contexte : Discrimination Fonction de perte l : {0,1} F = H H : espace fini L’apprentissage consiste alors à éliminer toutes les hypothèses non cohérentes avec les données et à en choisir une parmi les restantes Quelle est la probabilité qu’une hypothèse de risque empirique nul     soit de fait de risque réel ≥ e ? (0 ≤ e ≤ 1)

20 3.2- Le cas de la discrimination : l’analyse PAC
Le risque réel d’une hypothèse herr est égal à la probabilité qu’un exemple tombe dans la zone d’erreur entre herr et la fonction cible f

21 3.2- Le cas de la discrimination : l’analyse PAC
Raisonnement par l’absurde Supposons une hypothèse de risque réel > e Quelle est la probabilité que son risque empirique soit nul après observation d’un échantillon de m exemples tirés i.i.d. suivant la distribution DX ? Après observation d’un exemple, la probabilité de « survie » de herr est : 1 - e Après observation de m exemples i.i.d., elle est : (1 - e)m

22 3.2- Le cas de la discrimination : l’analyse PAC
Quelle est la probabilité qu’une hypothèse au moins dans H « survive » ? Événements disjoints : Donc borné par : |H| (1 - e)m < | H | e-em Il suffit donc d’avoir un échantillon de taille pour que le risque réel de l’hypothèse hS minimisant le risque empirique soit borné par e avec une probabilité 1 - d

23 3.2- Le cas de la discrimination : l’analyse PAC
Pourquoi PAC ? Les hypothèses qui « survivent » sont approximativement correctes (à moins de e de la fonction cible) Avec une certitude qui dépend de l’échantillon d’apprentissage tiré aléatoirement (taux 1 - d) Probablement Approximativement Correct

24 3.3- Les leçons La cardinalité de H (en un certain sens la « richesse » de H) intervient directement dans la borne d’erreur Le raisonnement implique l’ensemble des hypothèses H : argument de convergence uniforme L’idée directrice de la démonstration consiste à borner la probabilité qu’une zone d’erreur de poids > e ne soit pas atteinte par un exemple au moins de l’échantillon d’apprentissage

25 3.4- Extension : l’analyse de Vapnik
Contexte : une généralisation N’importe quel type de fonctions hypothèses N’importe quel type de fonction de perte (> 0 et bornée) F éventuellement ≠ H (apprentissage agnostique) H : espace infini Ici, on va cependant se limiter au cas de la discrimination Risque empirique :

26 3.4- Extension : l’analyse de Vapnik
Définition (Fonction de croissance) : La fonction de croissance GH d’une famille H de fonctions h à valeurs dans {0,1} associe à tout entier positif m le nombre maximal de dichotomies réalisées par les fonctions de H sur un ensemble de m points de X.

27 3.4- Extension : l’analyse de Vapnik
Théorème (Vapnik, 98) : Pour toute valeur de d dans ]0,1], simultanément pour toutes les fonctions h de H, avec une probabilité au moins de 1 - d, on a : Terme dépendant de la « richesse » de H

28 3.4- Extension : l’analyse de Vapnik
Problème angoissant : comment croît la fonction de croissance GH(m) ? Si elle croît exponentiellement : il ne peut pas y avoir de garantie sur les hypothèses sélectionnées par l’apprentissage sur la base du risque empirique (ERM) !!! Définition (Dimension de Vapnik-Chervonenkis, 1971) La dimension de Vapnik-Chervonenkis dVC(H) est le plus grand entier d vérifiant GH(d) = d, si un tel entier existe, l’infini sinon. Si la dimension de Vapnik-Chervonenkis est finie, elle correspond à la taille du plus grand sous-ensemble de X pulvérisé par H.

29 3.4- Extension : l’analyse de Vapnik

30 3.4- Un lemme sauveur : le lemme de Sauer (1972)
Si H est de dimension de Vapnik-Chervonenkis finie dH = dVC(H), alors, pour m supérieur à dH, sa fonction de croissance est bornée :

31 3.4- Qu’est-ce que cela signifie ?
Cas de fonctions de discrimination et H = F La convergence du risque empirique vers le risque réel est exponentiellement rapide, et ceci pour toutes les fonctions de H E.g. la taille de l’échantillon suffisante pour que la probabilité ci-dessus soit bornée par d est : linéaire en dH !!

32 3.4- Le « take-home » message
Pour que le principe ERM soit pertinent, il faut que la dimension de Vapnik-Chervonenkis dH soit finie Alors, l’erreur d’estimation entre RRéel(h) et REmp(h) converge vers 0 comme: dans le cas général dans le cas où H = F

33 3.4- Quelques exemples de dimensions de VC

34 3.5- Vers d’autres principes inductifs
Reconsidérons l’équation (valable pour la discrimination et H = F) Plutôt que de chercher seulement l’hypothèse minimisant le risque empirique (valable seulement si m/dH très grand), il faut aussi tenir compte des caractéristiques de l’espace des hypothèses H, et chercher une hypothèse satisfaisant au mieux un compromis entre : un risque empirique faible : bonne adéquation aux données et un espace d’hypothèse d’expressivité bien réglée

35 3.5- Les méthodes par « sélection de modèles »
Méthodes cherchant à régler le compromis par réglage automatique de l’espace d’hypothèses (modèles) Le SRM (Structural Risk Minimization) La théorie de la régularisation Le MDLp Les approches bayésiennes

36 3.5- Le SRM La procédure s’appuie sur une structure sur H définie a priori

37 3.5- La théorie de la régularisation
Issue de l’étude des problèmes « mal posés » (plusieurs solutions) Il faut imposer des conditions supplémentaires Contraindre l’espace des paramètres si H = {fonctions paramétrées} Imposer des conditions de régularité (e.g. dynamique limitée)

38 3.5- Le MDLp (Minimum Description Length principle)
On suppose qu’il existe : un coût associé à la transmission des données brutes (mesuré en bits) : L(x) un coût associé à la transmission d’un codage (modèle des données) : L(h) On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données

39 3.6- En d’autres mots … Notion de biais
Toute connaissance qui restreint le champ des hypothèses que l'apprenant doit considérer à un instant donné. Biais de représentation On ne peut pas apprendre sans biais Plus le biais est fort, plus l’apprentissage est facile Bien choisir le biais Biais de préférence Dû au contrôle de la recherche Critère de choix entre hypothèses Simplicité, complétude, intelligibilité, facilité d’évaluation, ... Dû au protocole Stratégie éducative (si apprentissage incrémental)

40 3.6- En d’autres mots … Réponses qualitatives
1. De quelle information doit-on disposer ? Compromis entre taille de l'échantillon d'apprentissage nécessaire ET "richesse" de l'espace d'hypothèses 1'. Quel principe inductif ? Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en pariant que l'erreur sera également minimisée sur les exemples non vus Un nouveau principe : minimiser à la fois l'erreur sur l'échantillon d'apprentissage ET une mesure de la richesse de H Donc l'étude de l'apprentissage automatique apporte un certain renouvellement du débat classique sur l'induction. D'un certain côté il suggère un compromis entre la vision empiriste de l'induction (tout vient de l'expérience) et la vision idéaliste de Kant (les catégories préexistent et sont seulement révélées)

41 3.7- Le no-free-lunch theorem

42 3.7- Le no-free-lunch theorem


Télécharger ppt "Principes généraux de l’INDUCTION"

Présentations similaires


Annonces Google