CHAPTER 2: Apprentissage supervisé Discussion sur l’apprentissage supervisé: Cas simple au départ Classe positive et classe négative Ensuite nous examinerons le cas d’une multi-classe et de regréssion quand les sorties sont continues. Pierre Dumouchel, ing., Ph.D., Version 5 mai 2009
Apprentissage d’une classe à partir d’exemples de données Classe C d’une automobile de classe familiale Prédiction: est-ce que l’auto x est de classe familiale? Extraction de connaissance: Qu’est-ce que les gens s’attendent d’une automobile de classe familiale? Sortie: Exemples: Positif (+) et négatif (–) Représentation de l’entrée: x1: prix, x2 : puissance de l’engin Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Ensemble d’entraînement X X: entrées R: sorties t: une instance et non le temps dans ce cas-ci N: nombre d’instances t: instance Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Classe C: vraie classe familiale H: classe hypothétique de C Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Classes hypothétiques H X: données d’entraînement x: donnée particulière Fonction: 1(a≠b)= 0 si a≠b et 0 si a=b r: vrai classification h: classification apprise de données empiriques Erreur de h sur H Fonction: 1(a≠b)= 0 si a≠b et 0 si a=b Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
S, G et l’espace de la version Hypothèse la plus spécifique, S Hypothèse la plus générale, G Il est possible de faire des hypothèses: Toutes les instances sous S sont positifs Toutes les instances non couvertes par G sont négatifs Toutes les instances entre G et S sont incertaines donc rejetées et, par exemple, traitées par un humain. h Î H, entre S et G est consistent et forme l’espace de la version (Mitchell, 1997) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Apprentissage probablement approximativement correct (PAC) Combien d’exemples d’entraînement N devront nous avoir de telle sorte qu’avec une probabilité de confiance d’au moins 1-δ, h a une probabilité d’erreur d’au plus ε ? (Blumer et al., 1989) Chaque bande est d’environ ε/4 Pr de manquer une bande est de 1-ε/4 Pr de manquer N fois une bande (1-ε/4)N Pr de manquer N fois 4 bandes 4(1-ε/4)N 4(1-ε/4)N ≤ δ et (1-x) ≤ exp(-x) Si nous choississons N tel que 4exp(-εN/4) ≤ δ Alors 4(1-ε/4)N ≤ δ et 4(1-ε/4)N ≤ δ PAC: Probably Approximately Correct C: vraie classification h: hypothèse de classification ε: erreur Une instance positive qui tombe dans la bande est une erreur Dans notre cas, h= S soit l’espace spécifique (plus petite région) Si nous choisissons N et δ de telle sorte que 4exp(‒ εN/4) ≤ δ Assumons l’inéqualité suivante: (1 ‒ x) ≤ exp( ‒ x) (1 ‒ ε/4) ≤ exp( ‒ ε/4 ) (1 ‒ ε/4)N ≤ exp( ‒ εN/4 ) 4(1 ‒ ε/4)N ≤ 4exp( ‒ εN/4 ) 4(1 ‒ ε/4)N ≤ δ Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
PAC Problème: Supposons que nous voulons une probabilité d’erreur de 5% et que notre probabilité de confiance du rectangle le plus spécifique est de 70%. Combien d’échantillons, N, aurons-nous de besoin? 1 ‒ δ= 0,7 ε = 0,05 N ≥ (4/ε)log(4/δ) = 207,22 Donc plus de 208 Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Bruit et Complexité du modèle Utiliser un modèle simple car: Complexité computationnelle plus petite Entraînement simple (espace paramétrique réduit) Plus facile à expliquer Plus facile à généraliser (petite variance - Occam’s razor) Occam’s razor: Le principe du rasoir d’Occam stipule que des explications simples (produites par un modèle simple) sont plus plausibles et que la complexité non nécessaires devrait être rasée. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Classes multiples, Ci i=1,...,K Auparavant, nous avions vu un problème à 2 classes: classe familiale et toutes les autres types d’automobiles étaient dans l’autre classe. Dans le jargon du métier, nous parlons d’un problème 2-Classes. Maintenant, nous parlerons d’un problème à K-Classes. Ce problème peut-être vu comme un problème à K 2-Classes avec une classer Rejet (?). Hypothèses d’entraînement hi(x), i =1,...,K: Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Régression Classification: sortie est booléenne i.e. oui/non Quand la sortie est continue, il ne faut pas apprendre une classe mais plutôt une fonction continue. La fonction est inconnue, la machine doit donc l’apprendre. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Régression Interpolation: condition sans bruit À partir de données d’entraînement trouver une fonction f(x) qui passe à travers les points de telle sorte que Extrapolation: condition sans bruit Interpolation polynomiale: Pour N points donnés, chercher le polynôme d’ordre N-1 qui relie les points. Régression: condition avec bruit Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Régression Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Régression E(g|X): erreur empirique Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Régression E(g|X): erreur empirique Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Régression Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Sélection d’un modèle & généralisation x1 x2 h1 h2 h3 h4 h5 h6 h7 h8 h9 h10 h11 h12 h13 h14 h15 h16 1 Chaque exemple d’entraînement élimine la moitié des hypothèses. Par exemple, si x1=0, x2=1 et la sortie vaut 0 alors h5,h6,h7,h8,h13,h14,h15,h16 ne sont pas des hypothèses valides. L’entraînement suit un processus similaire, plus il y a de données d’entraînement, plus nous pouvons éliminer d’hypothèses. S’il manque de données d’entraînement alors nous ne pourrons garantir que la solution est unique. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Sélection d’un modèle & généralisation Apprentissage est un problème mal posé; les données ne sont pas suffisantes pour trouver une solution unique Nous nécessitons d’un biais inductif, hypothèses au sujet de H Généralisation: Comment un modèle se comporte avec de nouvelles données? Sur-entraînement: H plus complexe que C ou f Sous-entraînement: H moins complexe que C ou f Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Compromis triple Il existe un compromis entre trois facteurs (Dietterich, 2003): Complexité de H, c (H), Dimension du corpus d’entraînement, N, Erreur de généralisation, E, pour de nouvelles données Quand N, E¯ Quand c (H), premièrement E¯ et après E Compromis triple Triple Trade-Off Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Validation croisée Pour estimer l’erreur de généralisation, il faut de nouvelles données différentes des données d’entraînement. Nous divisons les données comme suit: Ensemble d’entraînement (50%) Ensemble de validation (25%) Ensemble de test (publication) (25%) Ré-échantillonnage est possible quand il existe peu de données Cross-Validation Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Dimensions d’un apprentissage supervisé Modèle : Fonction de perte: Procédure d’optimisation: Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)