CHAPTER 2: Apprentissage supervisé

Slides:



Advertisements
Présentations similaires
Option : AUTOMATIQUE THEME - Eléments de métrologie (incertitude, limites physiques). - Instrumentation - Eléments de métrologie (incertitude, limites.
Advertisements

Courbes d'Interpolation Interpolation de Lagrange, et Interpolation B-spline.
 Qu’est ce qu’une matrice diagonale ? Une matrice diagonale est une matrice carrée dont les coefficients en dehors de la diagonale principale sont nuls.
Active Learning for Natural Language Parsing and Information Extraction, de Cynthia A. Thompson, Mary Elaine Califf et Raymond J. Mooney Philippe Gambette.
Généralisation de la comparaison de moyennes par Analyse de la variance (ANOVA)
PARTIE 1 Nous sommes toujours dans la première des trois parties du programme de terminale : ACCUMULATION DU CAPITAL, ORGANISATION DU TRAVAIL ET CROISSANCE.
Chapitre 6. Introduction à l’échantillonnage Les sondages Notions fondamentales Fluctuations d’échantillonnage d’une moyenne Théorème central limite C6-1.
Présentation  Objectif : Une initiation au « Machine learning ».  Comprendre et assimiler les différentes techniques permettant d’indexer ou de classifier.
Utilisation du logiciel EduStat © Analyse classique d’items L’examen du rapport.
Les rprésentation des signaux dans le cadre décisionnel de Bayes Jorge F. Silva Shrikanth S. Narayanan.
Animation pédagogique résolution de problèmes au cycle 3
STAGES DUT GEA Depuis quelques années les étudiants de l’IUT GEA de Brive de 1ère et 2ème année bénéficient d’un stage en entreprise. 1.
Outils de Recherche Opérationnelle en Génie MTH 8414
Analyse, Classification,Indexation des Données ACID
Valeurs de toutes les différences observables sous H0
Interprétation des indicateurs?
Créer un collectif de travail, construire et animer un réseau
Résolutions et réponses
CHAPITRE 1 : CONDITIONS DU MILIEU, RESPIRATION ET RÉPARTITION
Techniques de décomposition
Loi Normale (Laplace-Gauss)
Chapitre 13 : Echantillonnage
Technologies de l’intelligence d’affaires Séance 13
Technologies de l’intelligence d’affaires Séance 11
ENTRER DANS LE METIER Les ilots bonifiés.
Technologies de l’intelligence d’affaires Séance 12
Méthodes de prévision (STT-3220)
4.3 Estimation d’une proportion
Chapitre 6: Réduction de dimensionnalité paramétrique
3.3 loi discrète 1 cours 14.
3.5 Lois continues 1 cours 16.
Classe Loire... 9 – 10 – 11 avril Ce2 / Cm1 Cm1 / Cm2.
Introduction aux statistiques Intervalles de confiance
Chapitre 7: Groupage.
LOG770 Systèmes Intelligents
Pierre Dumouchel 20 juillet 2009
LOG770 Annexe A Éléments de probabilité
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
Amélioration de la résolution spatiale des sondeurs multifaisceau
Les méthodes non paramétriques
CHAPTER 2: Apprentissage supervisé
A l’aide du triangle pédagogique de Jean Houssaye
CHAPTER 11: Perceptron Multicouches
Arbres de décision.
CHAPITRE 5: Méthodes multivariables
CHAPTER 10: Discrimination Linéaire
Présentation 3 : Sondage aléatoire simple
Présentation 8 : Redressement des estimateurs
Présentation 9 : Calcul de précision des estimateurs complexes
Comment identifier et délimiter le GS du verbe principal
LES NOTIONS CLES  Vie scolaire  Entrepreneuriat.
Chapitre 1 Formulation d’un programme linéaire (PL) Georges Abboudeh BUST 347.
Les différentes Situations d’apprentissages :.  Rougier (2009) explique que les situations d'apprentissage, choisies après avoir déterminé les objectifs,
Reconnaissance de formes: lettres/chiffres
Les erreurs de mesure Projet d’Appui au renforcement des capacités
RABAH M ed Ali 2018/2019
Recherche de zero d'une fonction MARMAD ANAS MPSI -2.
Programme d’appui à la gestion publique et aux statistiques
INTELLIGENCE ARTIFICIELLE
INTELLIGENCE ARTIFICIELLE
Les méthodes quantitatives en éducation
CSI 3505 / Automne 2005: Conception et Analyse des Algorithmes I.
Encadrée par: - Mr. Abdallah ALAOUI AMINI Réalisée par : -ERAOUI Oumaima -DEKKAR Amal - ES-SAHLY Samira -Houari Mohammed PROGRAMMATION MULTIOBJECTIFS.
Objectifs du chap. 5: Plans quasi-expérimentaux
INTELLIGENCE ARTIFICIELLE
Laboratoire 3 Implémentation d’un classifieur bayésien
Impact Evaluation 4 Peace March 2014, Lisbon, Portugal 1 Echantillonage pour une Evaluation d’Impact Latin America and the Caribbean’s Citizen Security.
Boulain Joris, Handouz Yassine, Regnier Fabien, Giraud Antoine
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
Outils de Recherche Opérationnelle en Génie MTH 8414
Transcription de la présentation:

CHAPTER 2: Apprentissage supervisé Discussion sur l’apprentissage supervisé: Cas simple au départ Classe positive et classe négative Ensuite nous examinerons le cas d’une multi-classe et de regréssion quand les sorties sont continues. Pierre Dumouchel, ing., Ph.D., Version 5 mai 2009

Apprentissage d’une classe à partir d’exemples de données Classe C d’une automobile de classe familiale Prédiction: est-ce que l’auto x est de classe familiale? Extraction de connaissance: Qu’est-ce que les gens s’attendent d’une automobile de classe familiale? Sortie: Exemples: Positif (+) et négatif (–) Représentation de l’entrée: x1: prix, x2 : puissance de l’engin Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Ensemble d’entraînement X X: entrées R: sorties t: une instance et non le temps dans ce cas-ci N: nombre d’instances t: instance Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Classe C: vraie classe familiale H: classe hypothétique de C Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Classes hypothétiques H X: données d’entraînement x: donnée particulière Fonction: 1(a≠b)= 0 si a≠b et 0 si a=b r: vrai classification h: classification apprise de données empiriques Erreur de h sur H Fonction: 1(a≠b)= 0 si a≠b et 0 si a=b Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

S, G et l’espace de la version Hypothèse la plus spécifique, S Hypothèse la plus générale, G Il est possible de faire des hypothèses: Toutes les instances sous S sont positifs Toutes les instances non couvertes par G sont négatifs Toutes les instances entre G et S sont incertaines donc rejetées et, par exemple, traitées par un humain. h Î H, entre S et G est consistent et forme l’espace de la version (Mitchell, 1997) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Apprentissage probablement approximativement correct (PAC) Combien d’exemples d’entraînement N devront nous avoir de telle sorte qu’avec une probabilité de confiance d’au moins 1-δ, h a une probabilité d’erreur d’au plus ε ? (Blumer et al., 1989) Chaque bande est d’environ ε/4 Pr de manquer une bande est de 1-ε/4 Pr de manquer N fois une bande (1-ε/4)N Pr de manquer N fois 4 bandes 4(1-ε/4)N 4(1-ε/4)N ≤ δ et (1-x) ≤ exp(-x) Si nous choississons N tel que 4exp(-εN/4) ≤ δ Alors 4(1-ε/4)N ≤ δ et 4(1-ε/4)N ≤ δ PAC: Probably Approximately Correct C: vraie classification h: hypothèse de classification ε: erreur Une instance positive qui tombe dans la bande est une erreur Dans notre cas, h= S soit l’espace spécifique (plus petite région) Si nous choisissons N et δ de telle sorte que 4exp(‒ εN/4) ≤ δ Assumons l’inéqualité suivante: (1 ‒ x) ≤ exp( ‒ x) (1 ‒ ε/4) ≤ exp( ‒ ε/4 ) (1 ‒ ε/4)N ≤ exp( ‒ εN/4 ) 4(1 ‒ ε/4)N ≤ 4exp( ‒ εN/4 ) 4(1 ‒ ε/4)N ≤ δ Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

PAC Problème: Supposons que nous voulons une probabilité d’erreur de 5% et que notre probabilité de confiance du rectangle le plus spécifique est de 70%. Combien d’échantillons, N, aurons-nous de besoin? 1 ‒ δ= 0,7 ε = 0,05 N ≥ (4/ε)log(4/δ) = 207,22 Donc plus de 208 Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Bruit et Complexité du modèle Utiliser un modèle simple car: Complexité computationnelle plus petite Entraînement simple (espace paramétrique réduit) Plus facile à expliquer Plus facile à généraliser (petite variance - Occam’s razor) Occam’s razor: Le principe du rasoir d’Occam stipule que des explications simples (produites par un modèle simple) sont plus plausibles et que la complexité non nécessaires devrait être rasée. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Classes multiples, Ci i=1,...,K Auparavant, nous avions vu un problème à 2 classes: classe familiale et toutes les autres types d’automobiles étaient dans l’autre classe. Dans le jargon du métier, nous parlons d’un problème 2-Classes. Maintenant, nous parlerons d’un problème à K-Classes. Ce problème peut-être vu comme un problème à K 2-Classes avec une classer Rejet (?). Hypothèses d’entraînement hi(x), i =1,...,K: Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Régression Classification: sortie est booléenne i.e. oui/non Quand la sortie est continue, il ne faut pas apprendre une classe mais plutôt une fonction continue. La fonction est inconnue, la machine doit donc l’apprendre. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Régression Interpolation: condition sans bruit À partir de données d’entraînement trouver une fonction f(x) qui passe à travers les points de telle sorte que Extrapolation: condition sans bruit Interpolation polynomiale: Pour N points donnés, chercher le polynôme d’ordre N-1 qui relie les points. Régression: condition avec bruit Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Régression Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Régression E(g|X): erreur empirique Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Régression E(g|X): erreur empirique Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Régression Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Sélection d’un modèle & généralisation x1 x2   h1 h2 h3 h4 h5 h6 h7 h8 h9 h10 h11 h12 h13 h14 h15 h16 1 Chaque exemple d’entraînement élimine la moitié des hypothèses. Par exemple, si x1=0, x2=1 et la sortie vaut 0 alors h5,h6,h7,h8,h13,h14,h15,h16 ne sont pas des hypothèses valides. L’entraînement suit un processus similaire, plus il y a de données d’entraînement, plus nous pouvons éliminer d’hypothèses. S’il manque de données d’entraînement alors nous ne pourrons garantir que la solution est unique. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Sélection d’un modèle & généralisation Apprentissage est un problème mal posé; les données ne sont pas suffisantes pour trouver une solution unique Nous nécessitons d’un biais inductif, hypothèses au sujet de H Généralisation: Comment un modèle se comporte avec de nouvelles données? Sur-entraînement: H plus complexe que C ou f Sous-entraînement: H moins complexe que C ou f Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Compromis triple Il existe un compromis entre trois facteurs (Dietterich, 2003): Complexité de H, c (H), Dimension du corpus d’entraînement, N, Erreur de généralisation, E, pour de nouvelles données Quand N­, E¯ Quand c (H)­, premièrement E¯ et après E­ Compromis triple Triple Trade-Off Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Validation croisée Pour estimer l’erreur de généralisation, il faut de nouvelles données différentes des données d’entraînement. Nous divisons les données comme suit: Ensemble d’entraînement (50%) Ensemble de validation (25%) Ensemble de test (publication) (25%) Ré-échantillonnage est possible quand il existe peu de données Cross-Validation Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Dimensions d’un apprentissage supervisé Modèle : Fonction de perte: Procédure d’optimisation: Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)