Principes généraux de l’INDUCTION Antoine Cornuéjols CNAM-IIE et L.R.I., Université de Paris-Sud, Orsay (France) antoine@lri.fr http://www.lri.fr/~antoine/
Cours 5 5- Analyse formelle de l’induction 1 & 2- Introduction à l’induction 3- Apprentissage et espace des versions 4- Réseaux de neurones multicouches 5- Analyse formelle de l’induction 6- Les SVM 7- Les arbres de décision 8- Le boosting 9 & 10- Apprentissage par renforcement
1- Quel niveau de description ? 1. Analyse de principe, de faisabilité sans référence à un algorithme particulier !! Théories mathématiques en particulier de nature statistique 2. Niveau de la réalisation / simulation Algorithmes Programmes Réalisations et tests empiriques
distribution de prob. F(x) 1- Le scénario de base x1, x2, ..., xm Environnement X : distribution de prob. F(x) “Oracle” Sm = (x1,u1), (x2,u2), ..., (xm,um) Apprenant : h (x) x1, x2, ..., xm y1, y2, ..., ym
1- Définition formelle du problème Hypothèse : les données empiriques caractérisent une dépendance probabiliste P entre l’espace X des descriptions et l’espace Y des étiquettes Z = (X, Y) : variable aléatoire sur (, B, P), où P est inconnue S = {(x1,u1), (x2,u2), … (xm,um)} (X Y)m Échantillon d’apprentissage Les observation sont i.i.d. suivant P H : famille (éventuellement infinie) de fonctions h définies sur X Objectif : prédire l’étiquette y connaissant l’observation x
1- L’objectif de l’induction Objectif : trouver une hypothèse h H minimisant le risque réel (espérance de risque, erreur en généralisation) Loi de probabilité jointe sur X Y Fonction de perte Étiquette prédite Étiquette vraie (ou désirée)
1- Exemples de fonctions de pertes Discrimination Régression Estimation de densité
1- Les grands principes inductifs Étant donnés: un échantillon d’apprentissage Sm et un espace d’hypothèse H Qu’est-ce qui caractérise la (les) meilleure(s) hypothèse(s) ? Quelle hypothèse devrais-je chercher ? Le principe inductif
2.1- Le principe inductif ERM On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y). Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèse h H minimisant le risque empirique
2.2- Le principe ERM est-il pertinent ? h* : hypothèse optimale dans H suivant le risque réel hSm : hypothèse optimale dans H suivant le risque empirique mesuré sur l’échantillon Sm
2.2- Analyse du principe de minimisation du risque empirique Rappel : a-t-on des garanties sur le risque réel lorsque l’on choisit l’hypothèse minimisant le risque empirique sur un échantillon Sm ?
2.3- Les facteurs : le compromis biais-variance
2.3- Les facteurs : le compromis biais-variance
3- Analyse statistique du principe ERM Étude de la corrélation entre : et Cette corrélation fait intervenir : RRéel(hS) - RRéel (h*) nécessairement ≥ 0 (pourquoi ?) La probabilité que cette différence soit supérieure à une borne donnée car hS dépend de la représentativité de l’échantillon d’apprentissage Sm
3- Analyse statistique du principe ERM (suite)
3- Analyse statistique du principe ERM (suite)
3- Analyse statistique du principe ERM (suite)
3- Pertinence (consistance) du principe ERM On dit que le principe ERM est pertinent (ou consistant) si le risque réel inconnu R(hS) et le risque empirique REmp(hS) convergent vers la même limite R(h*) lorsque la taille m de l’échantillon S tend vers .
3.1- Le cas de la discrimination : l’analyse PAC Contexte : Discrimination Fonction de perte l : {0,1} F = H H : espace fini L’apprentissage consiste alors à éliminer toutes les hypothèses non cohérentes avec les données et à en choisir une parmi les restantes Quelle est la probabilité qu’une hypothèse de risque empirique nul soit de fait de risque réel ≥ e ? (0 ≤ e ≤ 1)
3.2- Le cas de la discrimination : l’analyse PAC Le risque réel d’une hypothèse herr est égal à la probabilité qu’un exemple tombe dans la zone d’erreur entre herr et la fonction cible f
3.2- Le cas de la discrimination : l’analyse PAC Raisonnement par l’absurde Supposons une hypothèse de risque réel > e Quelle est la probabilité que son risque empirique soit nul après observation d’un échantillon de m exemples tirés i.i.d. suivant la distribution DX ? Après observation d’un exemple, la probabilité de « survie » de herr est : 1 - e Après observation de m exemples i.i.d., elle est : (1 - e)m
3.2- Le cas de la discrimination : l’analyse PAC Quelle est la probabilité qu’une hypothèse au moins dans H « survive » ? Événements disjoints : Donc borné par : |H| (1 - e)m < | H | e-em Il suffit donc d’avoir un échantillon de taille pour que le risque réel de l’hypothèse hS minimisant le risque empirique soit borné par e avec une probabilité 1 - d
3.2- Le cas de la discrimination : l’analyse PAC Pourquoi PAC ? Les hypothèses qui « survivent » sont approximativement correctes (à moins de e de la fonction cible) Avec une certitude qui dépend de l’échantillon d’apprentissage tiré aléatoirement (taux 1 - d) Probablement Approximativement Correct
3.3- Les leçons La cardinalité de H (en un certain sens la « richesse » de H) intervient directement dans la borne d’erreur Le raisonnement implique l’ensemble des hypothèses H : argument de convergence uniforme L’idée directrice de la démonstration consiste à borner la probabilité qu’une zone d’erreur de poids > e ne soit pas atteinte par un exemple au moins de l’échantillon d’apprentissage
3.4- Extension : l’analyse de Vapnik Contexte : une généralisation N’importe quel type de fonctions hypothèses N’importe quel type de fonction de perte (> 0 et bornée) F éventuellement ≠ H (apprentissage agnostique) H : espace infini Ici, on va cependant se limiter au cas de la discrimination Risque empirique :
3.4- Extension : l’analyse de Vapnik Définition (Fonction de croissance) : La fonction de croissance GH d’une famille H de fonctions h à valeurs dans {0,1} associe à tout entier positif m le nombre maximal de dichotomies réalisées par les fonctions de H sur un ensemble de m points de X.
3.4- Extension : l’analyse de Vapnik Théorème (Vapnik, 98) : Pour toute valeur de d dans ]0,1], simultanément pour toutes les fonctions h de H, avec une probabilité au moins de 1 - d, on a : Terme dépendant de la « richesse » de H
3.4- Extension : l’analyse de Vapnik Problème angoissant : comment croît la fonction de croissance GH(m) ? Si elle croît exponentiellement : il ne peut pas y avoir de garantie sur les hypothèses sélectionnées par l’apprentissage sur la base du risque empirique (ERM) !!! Définition (Dimension de Vapnik-Chervonenkis, 1971) La dimension de Vapnik-Chervonenkis dVC(H) est le plus grand entier d vérifiant GH(d) = d, si un tel entier existe, l’infini sinon. Si la dimension de Vapnik-Chervonenkis est finie, elle correspond à la taille du plus grand sous-ensemble de X pulvérisé par H.
3.4- Extension : l’analyse de Vapnik
3.4- Un lemme sauveur : le lemme de Sauer (1972) Si H est de dimension de Vapnik-Chervonenkis finie dH = dVC(H), alors, pour m supérieur à dH, sa fonction de croissance est bornée :
3.4- Qu’est-ce que cela signifie ? Cas de fonctions de discrimination et H = F La convergence du risque empirique vers le risque réel est exponentiellement rapide, et ceci pour toutes les fonctions de H E.g. la taille de l’échantillon suffisante pour que la probabilité ci-dessus soit bornée par d est : linéaire en dH !!
3.4- Le « take-home » message Pour que le principe ERM soit pertinent, il faut que la dimension de Vapnik-Chervonenkis dH soit finie Alors, l’erreur d’estimation entre RRéel(h) et REmp(h) converge vers 0 comme: dans le cas général dans le cas où H = F
3.4- Quelques exemples de dimensions de VC
3.5- Vers d’autres principes inductifs Reconsidérons l’équation (valable pour la discrimination et H = F) Plutôt que de chercher seulement l’hypothèse minimisant le risque empirique (valable seulement si m/dH très grand), il faut aussi tenir compte des caractéristiques de l’espace des hypothèses H, et chercher une hypothèse satisfaisant au mieux un compromis entre : un risque empirique faible : bonne adéquation aux données et un espace d’hypothèse d’expressivité bien réglée
3.5- Les méthodes par « sélection de modèles » Méthodes cherchant à régler le compromis par réglage automatique de l’espace d’hypothèses (modèles) Le SRM (Structural Risk Minimization) La théorie de la régularisation Le MDLp Les approches bayésiennes
3.5- Le SRM La procédure s’appuie sur une structure sur H définie a priori
3.5- La théorie de la régularisation Issue de l’étude des problèmes « mal posés » (plusieurs solutions) Il faut imposer des conditions supplémentaires Contraindre l’espace des paramètres si H = {fonctions paramétrées} Imposer des conditions de régularité (e.g. dynamique limitée) …
3.5- Le MDLp (Minimum Description Length principle) On suppose qu’il existe : un coût associé à la transmission des données brutes (mesuré en bits) : L(x) un coût associé à la transmission d’un codage (modèle des données) : L(h) On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données
3.6- En d’autres mots … Notion de biais Toute connaissance qui restreint le champ des hypothèses que l'apprenant doit considérer à un instant donné. Biais de représentation On ne peut pas apprendre sans biais Plus le biais est fort, plus l’apprentissage est facile Bien choisir le biais Biais de préférence Dû au contrôle de la recherche Critère de choix entre hypothèses Simplicité, complétude, intelligibilité, facilité d’évaluation, ... Dû au protocole Stratégie éducative (si apprentissage incrémental)
3.6- En d’autres mots … Réponses qualitatives 1. De quelle information doit-on disposer ? Compromis entre taille de l'échantillon d'apprentissage nécessaire ET "richesse" de l'espace d'hypothèses 1'. Quel principe inductif ? Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en pariant que l'erreur sera également minimisée sur les exemples non vus Un nouveau principe : minimiser à la fois l'erreur sur l'échantillon d'apprentissage ET une mesure de la richesse de H Donc l'étude de l'apprentissage automatique apporte un certain renouvellement du débat classique sur l'induction. D'un certain côté il suggère un compromis entre la vision empiriste de l'induction (tout vient de l'expérience) et la vision idéaliste de Kant (les catégories préexistent et sont seulement révélées)
3.7- Le no-free-lunch theorem
3.7- Le no-free-lunch theorem