CHAPTER 2: Apprentissage supervisé

Slides:



Advertisements
Présentations similaires
Introduction à la notion de fonction 1. Organisation et gestion de données, fonctions 1.1. Notion de fonction ● Déterminer l'image d'un nombre par une.
Advertisements

Animation pédagogique résolution de problèmes au cycle 3.
 Qu’est ce qu’une matrice diagonale ? Une matrice diagonale est une matrice carrée dont les coefficients en dehors de la diagonale principale sont nuls.
Calcul de probabilités
Exploitation de mesures scientifiques.
La spécialité math en TS
Utiliser le calcul littéral pour résoudre ou démontrer
Approches de modélisation pour la répartition des coûts
Valeurs de toutes les différences observables sous H0
La gestion des co-produits (niveau de version : C)
SVT: exposé sur l’Ethique, contraception et PMA: les enjeux du XXIe siècle   Problématique: Peut on moralement intervenir dans la contraception ou la procréation.
Entraînement et évaluation d’une méthode de régression
1.3 COORDONNÉES DES POINTS
Reprise du cours ( ) Aujourd’hui :
1 - Construction d'un abaque Exemple
Dimitri Zuchowski et Marc-Élie Lapointe
Les opérations sur les nombres
Résolutions et réponses
Chapitre 13 : Echantillonnage
Principes de programmation (suite)
Régression linéaire (STT-2400)
ENTRER DANS LE METIER Les ilots bonifiés.
Mesure de température par radiométrie photothermique
Techniques du Data Mining
Chapitre 6: Réduction de dimensionnalité paramétrique
Information, Communication, Calcul
INTELLIGENCE ARTIFICIELLE
3.5 Lois continues 1 cours 16.
Classe Loire... 9 – 10 – 11 avril Ce2 / Cm1 Cm1 / Cm2.
Introduction aux statistiques Intervalles de confiance
1.2 dénombrement cours 2.
Méthodologie scientifique
Réseaux de neurones appliqués à la reconnaissance de caractères
Short distance Exposure (Mask Aligner)
Deuxième partie LE DOSSIER TECHNIQUE DU MARINGOUIN.
Chapitre 7: Groupage.
POL1803: Analyse des techniques quantitatives
LOG770 Annexe A Éléments de probabilité
Des mathématiques derrière l’intelligence artificielle
Chapitre 3 : Caractéristiques de tendance centrale
Atelier sous régional sur l'intégration des données administratives, des données de masse et des informations géospatiales pour la compilation des indicateurs.
Les méthodes non paramétriques
Co-produits Management (Version Level: C)
CHAPTER 2: Apprentissage supervisé
A l’aide du triangle pédagogique de Jean Houssaye
Arbres de décision.
CHAPITRE 5: Méthodes multivariables
CHAPTER 10: Discrimination Linéaire
Lois de Probabilité Discrètes
Lois de Probabilité Discrètes
Mesures simples & Objet en chute libre
ANNEXE 1 Survol et prédictions
Alain Piret, formateur académique
L’expérimentation de la médiation préalable obligatoire
Présentation 4 : Sondage stratifié
Présentation 9 : Calcul de précision des estimateurs complexes
Comment identifier et délimiter le GS du verbe principal
Laboratoire V: Création d’un protocole expérimental
Tu t’amuses en jouant au hockey ?
Reconnaissance de formes: lettres/chiffres
Formation « Utiliser un site Internet école »
Laboratoire II: Le modèle linéaire général (GLM)
Les 6 aspects de la pensée historique
Écriture d’un texte ou d’un discours
Métacognition : le savoir sur son propre savoir
Estimation des conditions initiales par inversion
La soustraction au cycle 2
Pour en moduler l’ouverture et la complexité
Sigle optionnel en français FBD
Tu t’amuses en jouant au hockey ?
Transcription de la présentation:

CHAPTER 2: Apprentissage supervisé Discussion sur l’apprentissage supervisé: Cas simple au départ Classe positive et classe négative Ensuite nous examinerons le cas d’une multi-classe et de regréssion quand les sorties sont continues. Pierre Dumouchel, ing., Ph.D., Version 5 mai 2009

Apprentissage d’une classe à partir d’exemples de données Classe C d’une automobile de classe familiale Prédiction: est-ce que l’auto x est de classe familiale? Extraction de connaissance: Qu’est-ce que les gens s’attendent d’une automobile de classe familiale? Sortie: Exemples: Positif (+) et négatif (–) Représentation de l’entrée: x1: prix, x2 : puissance de l’engin Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Ensemble d’entraînement X X: entrées R: sorties t: une instance et non le temps dans ce cas-ci N: nombre d’instances t: instance Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Classe C: vraie classe familiale H: classe hypothétique de C Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Classes hypothétiques H X: données d’entraînement x: donnée particulière Fonction: 1(a≠b)= 0 si a≠b et 0 si a=b r: vrai classification h: classification apprise de données empiriques Erreur de h sur H Fonction: 1(a≠b)= 0 si a≠b et 0 si a=b Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

S, G et l’espace de la version Hypothèse la plus spécifique, S Hypothèse la plus générale, G Il est possible de faire des hypothèses: Toutes les instances sous S sont positifs Toutes les instances non couvertes par G sont négatifs Toutes les instances entre G et S sont incertaines donc rejetées et, par exemple, traitées par un humain. h Î H, entre S et G est consistent et forme l’espace de la version (Mitchell, 1997) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Apprentissage probablement approximativement correct (PAC) Combien d’exemples d’entraînement N devront nous avoir de telle sorte qu’avec une probabilité de confiance d’au moins 1-δ, h a une probabilité d’erreur d’au plus ε ? (Blumer et al., 1989) Chaque bande est d’environ ε/4 Pr de manquer une bande est de 1-ε/4 Pr de manquer N fois une bande (1-ε/4)N Pr de manquer N fois 4 bandes 4(1-ε/4)N 4(1-ε/4)N ≤ δ et (1-x) ≤ exp(-x) Si nous choississons N tel que 4exp(-εN/4) ≤ δ Alors 4(1-ε/4)N ≤ δ et 4(1-ε/4)N ≤ δ PAC: Probably Approximately Correct C: vraie classification h: hypothèse de classification ε: erreur Une instance positive qui tombe dans la bande est une erreur Dans notre cas, h= S soit l’espace spécifique (plus petite région) Si nous choisissons N et δ de telle sorte que 4exp(‒ εN/4) ≤ δ Assumons l’inéqualité suivante: (1 ‒ x) ≤ exp( ‒ x) (1 ‒ ε/4) ≤ exp( ‒ ε/4 ) (1 ‒ ε/4)N ≤ exp( ‒ εN/4 ) 4(1 ‒ ε/4)N ≤ 4exp( ‒ εN/4 ) 4(1 ‒ ε/4)N ≤ δ Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

PAC Problème: Supposons que nous voulons une probabilité d’erreur de 5% et que notre probabilité de confiance du rectangle le plus spécifique est de 70%. Combien d’échantillons, N, aurons-nous de besoin? 1 ‒ δ= 0,7 ε = 0,05 N ≥ (4/ε)log(4/δ) = 207,22 Donc plus de 208 Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Bruit et Complexité du modèle Utiliser un modèle simple car: Complexité computationnelle plus petite Entraînement simple (espace paramétrique réduit) Plus facile à expliquer Plus facile à généraliser (petite variance - Occam’s razor) Occam’s razor: Le principe du rasoir d’Occam stipule que des explications simples (produites par un modèle simple) sont plus plausibles et que la complexité non nécessaires devrait être rasée. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Classes multiples, Ci i=1,...,K Auparavant, nous avions vu un problème à 2 classes: classe familiale et toutes les autres types d’automobiles étaient dans l’autre classe. Dans le jargon du métier, nous parlons d’un problème 2-Classes. Maintenant, nous parlerons d’un problème à K-Classes. Ce problème peut-être vu comme un problème à K 2-Classes avec une classer Rejet (?). Hypothèses d’entraînement hi(x), i =1,...,K: Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Régression Classification: sortie est booléenne i.e. oui/non Quand la sortie est continue, il ne faut pas apprendre une classe mais plutôt une fonction continue. La fonction est inconnue, la machine doit donc l’apprendre. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Régression Interpolation: condition sans bruit À partir de données d’entraînement trouver une fonction f(x) qui passe à travers les points de telle sorte que Extrapolation: condition sans bruit Interpolation polynomiale: Pour N points donnés, chercher le polynôme d’ordre N-1 qui relie les points. Régression: condition avec bruit Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Régression Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Régression E(g|X): erreur empirique Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Régression E(g|X): erreur empirique Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Régression Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Sélection d’un modèle & généralisation x1 x2   h1 h2 h3 h4 h5 h6 h7 h8 h9 h10 h11 h12 h13 h14 h15 h16 1 Chaque exemple d’entraînement élimine la moitié des hypothèses. Par exemple, si x1=0, x2=1 et la sortie vaut 0 alors h5,h6,h7,h8,h13,h14,h15,h16 ne sont pas des hypothèses valides. L’entraînement suit un processus similaire, plus il y a de données d’entraînement, plus nous pouvons éliminer d’hypothèses. S’il manque de données d’entraînement alors nous ne pourrons garantir que la solution est unique. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Sélection d’un modèle & généralisation Apprentissage est un problème mal posé; les données ne sont pas suffisantes pour trouver une solution unique Nous nécessitons d’un biais inductif, hypothèses au sujet de H Généralisation: Comment un modèle se comporte avec de nouvelles données? Sur-entraînement: H plus complexe que C ou f Sous-entraînement: H moins complexe que C ou f Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Compromis triple Il existe un compromis entre trois facteurs (Dietterich, 2003): Complexité de H, c (H), Dimension du corpus d’entraînement, N, Erreur de généralisation, E, pour de nouvelles données Quand N­, E¯ Quand c (H)­, premièrement E¯ et après E­ Compromis triple Triple Trade-Off Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Validation croisée Pour estimer l’erreur de généralisation, il faut de nouvelles données différentes des données d’entraînement. Nous divisons les données comme suit: Ensemble d’entraînement (50%) Ensemble de validation (25%) Ensemble de test (publication) (25%) Ré-échantillonnage est possible quand il existe peu de données Cross-Validation Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Dimensions d’un apprentissage supervisé Modèle : Fonction de perte: Procédure d’optimisation: Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)