La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Introduction à l’Apprentissage Artificiel

Présentations similaires


Présentation au sujet: "Introduction à l’Apprentissage Artificiel"— Transcription de la présentation:

1 Introduction à l’Apprentissage Artificiel
Antoine Cornuéjols INA-PG et L.R.I., Université de Paris-Sud, Orsay (France)

2 Le cours 1-2-3-4-5-6-7-8 Documents
Le livre "L'apprentissage artificiel. Concepts et algorithmes" A. Cornuéjols & L. Miclet. Eyrolles Les transparents sur …cours apprentissage

3 Cours : plan prévu 1- Introduction à l’induction (AC)
2- Apprentissage statistique (BK) 3- Apprentissage par méthodes d’ensemble (BK) 4- Apprentissage non supervisé (BK) 5- Réseaux de neurones / Validation (AC) 6- Apprentissage de séquences (AC) 7- Fouille de données (MS) 8- Fouille de données relationnelles (MS)

4 Cours 1: plan 1- Introduction à l’induction
Visages de l’apprentissage Des algorithmes Approche plus formelle de l’induction Apprentissage par exploration

5 1.1 Applications : Analyse de puces à ADN
Analyse de l’expression des gènes dans un phénomène biologique Combien de gènes ? Quels gènes ?

6 1.1 Applications : Prédiction de la bioactivité de molécules

7 1.1 Applications : Prédiction du risque cardio-vasculaire

8 1.1 Applications : Analyse de grilles de calcul

9 1.1 Applications : Grand DARPA challenge (2005)

10 1.1 Applications : Grand DARPA challenge (2005)
150 mile off-road robot race across the Mojave desert Natural and manmade hazards No driver, no remote control No dynamic passing Fastest vehicle wins the race (and 2 million dollar prize)

11 1.1 Applications : Grand DARPA challenge (2005)

12 1.1 Applications : Grand DARPA challenge (2005)

13 1.1 Applications : SKY SURVEY

14 1.1 Applications : Apprendre à étiqueter des images
Reconnaissance de visages “Face Recognition: Component-based versus Global Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Computer Vision and Image Understanding, Vol. 91, No. 1/2, 6-21, 2003.

15 1.1 Applications : Apprendre à étiqueter des images
Reconnaissance de visages

16 1.1 Applications : Robot sur Mars

17 1.1 Applications : Robots Robot wowwee

18 1.1 Applications : Agent virtuel sur la Toile

19 1.1- Autres apprentissages
Association Imitation Apprentissage de comportement : Apprendre à marcher (insectoïdes de Brooks) Apprendre à se comporter sur une planète Apprendre à mieux jouer S'adapter à l'adversaire Ne pas répéter ses fautes Apprendre à jouer en équipe Équipes de robots

20 1.1- Autres apprentissages
Apprentissage pour la navigation Apprentissage de trajets (fourmis, abeilles) Robots Discrimination Identification de sous-marins vs. bruits naturels Identification de locuteur / de signature Reconnaissance de l'écriture manuscrite, de la parole Code postal Catégorisation SKY SURVEY

21 1. 1- Autres apprentissages
Systèmes autonomes avec apprentissage

22 1.1- Autres apprentissages
Révision de théorie Découverte scientifique Découverte de régularités (en biochimie, …) Apprendre à filtrer l'information Apprendre les préférences d'un utilisateur Apprendre à faire des résumés Apprendre à communiquer (e.g. Steels, …) ...

23 1. 1- Quel objectif ? (5) Et aussi Mieux comprendre l'apprentissage :
Pour ne pas avoir à programmer Programmation par la démonstration Programmation par l'exemple (e.g. l'EBL) Programmation par échantillon d'apprentissage : induction Pour mieux enseigner Pour savoir ce que d'autres intelligences pourraient apprendre : théorie générale de l'apprentissage

24 1.1- C'est quoi la science de l'apprentissage artificiel ?
On étudie les apprentissages : naturels artificiels des théories (s'appliquant à tout système apprenant) des méthodes et des algorithmes d'apprentissage Implémentables sur machines

25 1. 1- Des scénarios Induction 1 2 3 5 …
Comment ? Pourquoi serait-il possible de faire de l’induction ? Est-ce qu’un exemple supplémentaire doit augmenter la confiance dans la règle induite ? Combien faut-il d’exemples ?

26 1. 1- Des scénarios Est-ce de l’apprentissage ?
Phénomène de mémoire, sans mémoire !?

27 1. 1- Des scénarios Séquences d’analogies a b c a a b a b c
i j j k k k a b d ? ? Séquences d’analogies Quelles situations sélectionner ? Dans quel ordre ? Est-ce de l’apprentissage ?

28 Formuler une description générale de ces deux exemples
1. 1- Des scénarios Soient deux exemples dont les descriptions pourraient être : E1 : Un triangle rayé au-dessus d’un carré uni noir E2 : Un carré uni blanc au-dessus d’un cercle rayé Formuler une description générale de ces deux exemples Il y a un objet rayé Il y a un carré uni Il y a deux objets, l’un au-dessus de l’autre l y a deux objets, l’un au-dessus de l’autre, celui du dessus étant un polygone Il y a un carré noir ou blanc avec un triangle ou un cercle rayé etc.

29 1. 1- Des scénarios Problème Quel est le nombre a qui prolonge la séquence : … a ?

30 1. 1- Des scénarios et que peut-être une science de l’induction ?
Solution(s). Quelques réponses valides : a = 6. Argument : c’est la suite des entiers sauf 4. a = 7. Argument : c’est la suite des nombres premiers. a = 8. Argument : c’est la suite de Fibonacci a = 2 p. (a peut être n’importe quel nombre réel supérieur ou égal à 5) Argument : la séquence présentée est la liste ordonnée des racines du polynôme : P = x 5 - (11 + a)x 4 + ( a)x 3 - ( a)x 2 + ( a)x - 30a qui est le développement de : (x - 1) . (x - 2) . (x - 3) . (x - 5) . (x - a) Généralisation Il est facile de démontrer ainsi que n’importe quel nombre est une prolongation correcte de n’importe quelle suite de nombre Mais alors … comment faire de l’induction ? et que peut-être une science de l’induction ?

31 1. 1- Des scénarios Exemples décrits par :
nombre (1 ou 2); taille (petit ou grand); forme (cercle ou carré); couleur (rouge ou vert) Les objets appartiennent soit à la classe + soit à la classe - Description Votre réponse Vraie réponse 1 grand carré rouge - 1 grand carré vert + 2 petits carrés rouges + 2 grands cercles rouges - 1 grand cercle vert + (Grand et vert) ou (petit et rouge) Et si vous aviez une question à poser : quelle question poseriez-vous ? 1 petit cercle rouge + 1 petit carré vert - 1 petit carré rouge + 2 grands carrés verts +

32 1. 1- Des scénarios Oui Oui Non

33 Mais comment faire ce choix ?
1. 1- Des scénarios Est-ce une tâche de reconnaissance de forme ? de caractères ? Comment coder les exemples ? Le choix de la représentation peut rendre l’apprentissage trivial Mais comment faire ce choix ?

34 Apprentissage supervisé
1. 1- Des scénarios Apprendre par coeur ? IMPOSSIBLE Généraliser Comment coder les formes ? Apprentissage supervisé

35 1. 1- Des scénarios Extraction de caractéristiques (descripteurs, attributs) Eliminer les descripteurs non pertinents Introduction de nouveaux descripteurs Utilisation de connaissances a priori Invariance par translation Invariance par changement d’échelle Histogrammes Combinaisons de descripteurs Ajouter des descripteurs (beaucoup) !!

36 1. 1- Des scénarios Quel critère de performance (de succès) ?
Probabilité de misclassification Risque Nombre d’erreurs Apprentissage sur un échantillon d'apprentissage Test sur une base de test "Erreur" Courbe d'apprentissage Taille échantillon

37 Introduction à l’induction
Proposer des lois générales à partir de l’observation de cas particuliers

38 Comment définir l’apprentissage ?
« Learning is any change in a system that allows it to perform better the second time on repetition of the same task or another task drawn from the same population » [Herbert Simon, 1983] « Learning is making useful changes in mind » [Marvin Minsky, 1985] « Learning is the organization of experience » [Scott, 1983] « Learning is constructing or modifying representations of what is being experienced » [Riszard Michalski, 1986]

39 1.1- Ingrédients de l’apprentissage
Espace des hypothèses H Espace des entrées X Mesure de performance Optimisation / exploration de H Protocole

40 1.1- Premières notions Protocole Critère de succès Passif ou actif ?
Incrémental (on-line) ou « tout ensemble » (off-line) ? Réponses immédiates ou après votre estimation ? Critère de succès Nombre de mauvaises réponses ? Taux de mauvaises réponses (taux d’erreur) ? Nombre d’essais avant d’avoir « identifié la solution » ? Taux d’erreur de votre estimation finale (qui peut être erronée) (« Taux d’erreur en généralisation »)

41 1.1- Notion de protocole Le protocole règle les interactions entre les acteurs Environnement : Données fournies incrémentalement ou non (apprentissage en-ligne / batch) Dans un ordre indifférent / hostile / favorable Oracle : Données semi-supervisées Apprentissage multi-instances Étiquettes vraies fournies avec les exemples ou seulement après prédiction de l’apprenant (risque mesuré par le nombre d’erreurs de l’apprenant : mistake-bound learning) (ou relativement au meilleur expert d’un comité : relative loss-bound models) Peut fournir un contre-exemple quand l’apprenant propose une hypothèse candidate h non équivalente à la fonction cible (equivalence queries) Apprenant : Complètement passif : données i.i.d. Peut poser des questions : fournir un exemple et demander son étiquette (membership queries) Peut poser des questions sur les statistiques des exemples étiquetés (statistical queries) Apprentissage actif : organise son exploration du monde

42 1.1- Questions essentielles
Données et connaissances a priori Quelles données sont disponibles ? Que sait-on du problème ? Représentation Comment représenter les exemples ? Comment représenter les hypothèses ? Méthode et estimation Quel est l’espace des hypothèses ? Comment évaluer une hypothèse en fonction des exemples connus ? Évaluation de la performance après apprentissage ? Comment reconsidérer l’espace des hypothèses ?

43 1.1- Types d’apprentissages
Apprentissage supervisé À partir de l’échantillon d’apprentissage S = {(xi, ui)}1,m on cherche une loi de dépendance sous-jacente Par exemple une fonction h aussi proche possible de f (fonction cible) tq : ui = f(xi) Ou bien une distribution de probabilités P(xi, ui) afin de prédire l’avenir

44 1.1 - L'induction supervisée
Si f est une fonction continue Régression Estimation de densité Si f est une fonction discrète Classification Si f est une fonction binaire (booléenne) Apprentissage de concept

45 1.1- Types d’apprentissages
Apprentissage non supervisé De l’échantillon d’apprentissage S = {(xi)}1,m on cherche des régularités sous-jacentes Sous forme d’une fonction : régression Sous forme de nuages de points (e.g. mixture de gaussiennes) Sous forme d’un modèle complexe (e.g. réseau bayésien) afin de résumer, détecter des régularités, comprendre …

46 1.1- Types d’apprentissages
Apprentissage par renforcement Les données d’apprentissage Une séquence de perceptions, d’actions et de récompenses : (st, at, rt)t = 1, ¥ Avec un renforcement rt rt peut sanctionner des actions très antérieures à t Le problème : inférer une application : situation perçue  action afin de maximiser un gain sur le long terme Environnement Action Perception Récompense Apprentissage de réflexes > … apprentissage de planification

47 1.1- Plusieurs niveaux d’analyse ?
1. Analyse de principe, de faisabilité : que peut-on apprendre ? Sous quelles conditions ? sans référence à un algorithme particulier !! Théories mathématiques en particulier de nature statistique 2. Niveau de la réalisation / simulation Comment apprendre ? Algorithmes Programmes Réalisations et tests empiriques

48 Cours 1: plan 1- Introduction à l’induction
Visages de l’apprentissage Des algorithmes Approche plus formelle de l’induction Apprentissage par exploration

49 1.2- Algorithme des k-plus proches voisins
K-Nearest Neighbours

50 1.2- Discrimination linéaire : le Perceptron

51 1.2- Discrimination linéaire : le Perceptron

52 1.2- Discrimination linéaire : le Perceptron

53 1.2- Discrimination linéaire : le Perceptron

54 1.2- Discrimination linéaire : le Perceptron

55 1. 2- Le perceptron : critère de performance
Critère d’optimisation (fonction d’erreur) : Nb total d’erreurs de classification : NON Critère du Perceptron : Car nous voulons pour toutes les formes d’apprentissage : Proportionnel, pour toutes les formes mal classées, à la distance à la surface de décision Fonction continue et linéaire par morceaux

56 1. 2- Le perceptron : algorithme
Méthode d’exploration de H Recherche par gradient Minimisation de la fonction d’erreur Principe : procédure d'apprentissage dans l'esprit de la règle de Hebb : ajouter à chaque connexion quelque chose de proportionnel à l'entrée et à la sortie. Apprentissage seulement si erreur de classification Algorithme : si la forme est correctement classée : ne rien faire sinon : boucler sur les formes d’apprentissage jusqu’à critère d’arrêt Convergence ?

57 1. 2- Le perceptron : Illustration
Justification de l’algorithme Réduction de l’erreur

58 1. 2- Le perceptron : convergence et capacité mémoire
Questions : Qu’est-ce qui est apprenable ? Résultat de [Minsky & Papert,68] : séparatrices linéaires Garantie de convergence ? Théorème de convergence du Perceptron [Rosenblatt,62] Fiabilité de l’apprentissage et nombre d’exemples Combien faut-il d’exemples d’apprentissage pour avoir une certaine garantie sur ce qui est appris ?

59 distribution de prob. F(x)
1.3- Le scénario de base x1, x2, ..., xm Environnement X : distribution de prob. F(x) “Oracle” Sm = (x1,u1), (x2,u2), ..., (xm,um) Apprenant : h (x) x1, x2, ..., xm y1, y2, ..., ym

60 1.3 - Définition formelle du problème
Hypothèse : les données empiriques caractérisent une dépendance probabiliste P entre l’espace X des descriptions et l’espace Y des étiquettes Z = (X, Y) : variable aléatoire sur (, B, P), où P est inconnue S = {(x1,u1), (x2,u2), … (xm,um)} (X  Y)m Échantillon d’apprentissage Les observation sont i.i.d. suivant P H : famille (éventuellement infinie) de fonctions h définies sur X Objectif : prédire l’étiquette y connaissant l’observation x

61 1.3 - Apprendre  prédiction dans X
+ - Espace des exemples : X +/- ? Méthodes par plus proches voisins Nécessité d’une notion de distance Hypothèse de continuité dans X

62 1.3- Apprendre = un jeu entre espaces
Cas particulier de l’apprentissage de concepts LH + - x h Espace des exemples : X Espace des hypothèses : H Comment choisir l’espace des hypothèses (i.e. le langage LH ) ?

63 1.3- Le critère inductif LH X H Quel critère inductif ?
+ - LH x h X H Quel critère inductif ? Qu’est-ce qu’une hypothèse optimale étant donné l’échantillon d’apprentissage ?

64 1.3- L’exploration de H ? LH X H Quelle méthode d’exploration de H ? h
+ - LH x h X H ? Quelle méthode d’exploration de H ?

65 1.3- Les interrogations fondamentales
1. Théorique : Sous quelles conditions est-il possible de résoudre le problème de l’induction ? De quelle information doit-on disposer ? Dans les entrées (les exemples) Dans l'espace d'hypothèse Quel principe inductif doit-on utiliser ? 2. Pratique : Comment explorer effectivement l’espace d’hypothèses ?

66 1.3- Trois ingrédients : trois questions
Quel critère inductif ? Quelle hypothèse devrait-on choisir étant donné l’échantillon d’apprentissage ? Quel espace d’hypothèses ? Quel espace d’hypothèses est approprié ? Comment explorer l’espace des hypothèses ? Résolution d’un problème d’optimisation

67 1.3- Critère de performance
Objectif : trouver une hypothèse h  H minimisant le risque réel (espérance de risque, erreur en généralisation) Loi de probabilité jointe sur X  Y Fonction de perte Étiquette prédite Étiquette vraie (ou désirée)

68 1.3- Exemples de fonctions de perte
Discrimination Régression Estimation de densité

69 Les grands principes inductifs
Principe de minimisation du risque empirique (ERM) Principe du maximum de vraisemblance (approche bayésienne) Principe de compression maximale

70 1.3- (i) Le principe inductif ERM
On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y). Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèse h  H minimisant le risque empirique

71 1.3- (ii) Approche bayésienne
On suppose qu’il existe une distribution de probabilités a priori sur l’espace H : pH(h) Principe du Maximum A Posteriori (MAP): On cherche l’hypothèse h la plus probable après observation des données S Exemple : le 11 septembre 2001

72 1.3- (iii) Principe de compression maximale
Inspiration : la théorie du codage de l’information Rasoir d’Occam On suppose qu’il existe : un coût associé à la transmission d’un codage (modèle des données) : L(h) un coût associé à la transmission des données brutes (E.D. h) : L(x|h) On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données

73 1.3- Choix de l’espace d’hypothèses
Apprendre (pour prédire) est impossible … … sans limitation sur l’espace des hypothèses +/- ? + - Espace des exemples : X Espace des hypothèses : H x hj hk hi

74 1.3- Notion de biais Bien choisir le biais
Toute connaissance qui restreint le champ des hypothèses que l'apprenant doit considérer à un instant donné. On ne peut pas apprendre sans biais Plus le biais est fort, plus l’apprentissage est facile Bien choisir le biais

75 1.3- Choix de l’espace d’hypothèses
Il faut contrôler l’expressivité de l’espace d’hypothèses Analyse statistique de l’induction [Vapnik, …] Terme dépendant de la « richesse » de H

76 1.3- Réponses … qualitatives
1. De quelle information doit-on disposer ? Compromis entre taille de l'échantillon d'apprentissage nécessaire ET "richesse" de l'espace d'hypothèses 1'. Quel principe inductif ? Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en pariant que l'erreur sera également minimisée sur les exemples non vus Un nouveau principe : minimiser à la fois l'erreur sur l'échantillon d'apprentissage ET une mesure de la richesse de H Donc l'étude de l'apprentissage automatique apporte un certain renouvellement du débat classique sur l'induction. D'un certain côté il suggère un compromis entre la vision empiriste de l'induction (tout vient de l'expérience) et la vision idéaliste de Kant (les catégories préexistent et sont seulement révélées)

77 1.3- Résumé : définition d’un problème d’apprentissage
Des acteurs L’environnement L’oracle L’apprenant Une tâche d’apprentissage Discrimination (ou classification multiclasses) / régression / estimation de densité Un principe inductif ERM (et dérivés) / Bayésien / compression d’information Un espace d’hypothèses (avec sélection automatique) un protocole d’apprentissage Choix d’une méthode d’apprentissage (et d’un algorithme)

78 1.4- Relation d’inclusion et relation de généralité
Vers la généralisation

79 1.4- La relation de généralité induite dans H
Relation de généralité dans H induite par la relation d'inclusion dans X

80 1.4- Le choix d’une méthode d’apprentissage
Dépend fondamentalement de l’espace des hypothèses H Structuré par une relation de généralité (ordre partiel) Toutes les méthodes guidées par cette relation Espace des versions PLI (Programmation Logique Inductive) EBL, reformulation en général et révision de théorie Inférence grammaticale Seulement une notion de voisinage dans H Méthodes de « gradient » Réseaux de neurones / SVMs Recuit simulé / algorithmes d’évolution simulée Réseaux bayésiens / HMMs Pas d’espace d’hypothèses Méthodes de plus proches voisins (Raisonnement par cas / Instance-based learning) h x H

81 1.4- Autres critères de choix
Intelligibilité des résultats (hypothèses produites) E.g. exit les réseaux de neurones Performances en généralisation Pas toujours en adéquation totale avec le point précédent Coûts de préparation (des données) coût computationnel (coût d’une passe et nombre de passes nécessaires, …) coût de l’expertise en apprentissage coût de l’expertise sur le domaine

82 Cours 1: plan 1- Introduction à l’induction
Visages de l’apprentissage Des algorithmes Approche plus formelle de l’induction Apprentissage par exploration

83 2.1- Le principe inductif ERM
On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y). Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèse h  H minimisant le risque empirique

84 2.2- Le principe ERM est-il pertinent ?
h* : hypothèse optimale dans H suivant le risque réel hSm : hypothèse optimale dans H suivant le risque empirique mesuré sur l’échantillon Sm

85 2.2- Analyse du principe de minimisation du risque empirique
Rappel : a-t-on des garanties sur le risque réel lorsque l’on choisit l’hypothèse minimisant le risque empirique sur un échantillon Sm ?

86 2.3- Les facteurs : le compromis biais-variance

87 2.3- Les facteurs : le compromis biais-variance

88 3- Analyse statistique du principe ERM
Étude de la corrélation entre : et Cette corrélation fait intervenir : RRéel(hS) - RRéel (h*) nécessairement ≥ 0 (pourquoi ?) La probabilité que cette différence soit supérieure à une borne donnée car hS dépend de la représentativité de l’échantillon d’apprentissage Sm

89 3- Analyse statistique du principe ERM (suite)

90 3- Analyse statistique du principe ERM (suite)

91 3- Analyse statistique du principe ERM (suite)

92 3- Pertinence (consistance) du principe ERM
On dit que le principe ERM est pertinent (ou consistant) si le risque réel inconnu R(hS) et le risque empirique REmp(hS) convergent vers la même limite R(h*) lorsque la taille m de l’échantillon S tend vers .

93 3.1- Le cas de la discrimination : l’analyse PAC
Contexte : Discrimination Fonction de perte l : {0,1} F = H H : espace fini L’apprentissage consiste alors à éliminer toutes les hypothèses non cohérentes avec les données et à en choisir une parmi les restantes Quelle est la probabilité qu’une hypothèse de risque empirique nul     soit de fait de risque réel ≥ e ? (0 ≤ e ≤ 1)

94 3.2- Le cas de la discrimination : l’analyse PAC
Le risque réel d’une hypothèse herr est égal à la probabilité qu’un exemple tombe dans la zone d’erreur entre herr et la fonction cible f

95 3.2- Le cas de la discrimination : l’analyse PAC
Raisonnement par l’absurde Supposons une hypothèse de risque réel > e Quelle est la probabilité que son risque empirique soit nul après observation d’un échantillon de m exemples tirés i.i.d. suivant la distribution DX ? Après observation d’un exemple, la probabilité de « survie » de herr est : 1 - e Après observation de m exemples i.i.d., elle est : (1 - e)m

96 3.2- Le cas de la discrimination : l’analyse PAC
Quelle est la probabilité qu’une hypothèse au moins dans H « survive » ? Événements disjoints : Donc borné par : |H| (1 - e)m < | H | e-em Il suffit donc d’avoir un échantillon de taille pour que le risque réel de l’hypothèse hS minimisant le risque empirique soit borné par e avec une probabilité 1 - d

97 3.2- Le cas de la discrimination : l’analyse PAC
Pourquoi PAC ? Les hypothèses qui « survivent » sont approximativement correctes (i.e. à moins de e de la fonction cible) Avec une certitude qui dépend de l’échantillon d’apprentissage tiré aléatoirement (taux 1 - d) Probablement Approximativement Correct

98 3.3- Les leçons La cardinalité de H (en un certain sens la « richesse » de H) intervient directement dans la borne d’erreur Le raisonnement implique l’ensemble des hypothèses H : argument de convergence uniforme L’idée directrice de la démonstration consiste à borner la probabilité qu’une zone d’erreur de poids > e ne soit pas atteinte par un exemple au moins de l’échantillon d’apprentissage

99 3.4- Extension : l’analyse de Vapnik
Contexte : une généralisation N’importe quel type de fonctions hypothèses N’importe quel type de fonction de perte (> 0 et bornée) F éventuellement ≠ H (apprentissage agnostique) H : espace infini Ici, on va cependant se limiter au cas de la discrimination Risque empirique :

100 3.4- Extension : l’analyse de Vapnik
Définition (Fonction de croissance) : La fonction de croissance GH d’une famille H de fonctions h à valeurs dans {0,1} associe à tout entier positif m le nombre maximal de dichotomies réalisées par les fonctions de H sur un ensemble de m points de X.

101 3.4- Extension : l’analyse de Vapnik
Théorème (Vapnik, 98) : Pour toute valeur de d dans ]0,1], simultanément pour toutes les fonctions h de H, avec une probabilité au moins de 1 - d, on a : Terme dépendant de la « richesse » de H

102 3.4- Extension : l’analyse de Vapnik
Problème angoissant : comment croît la fonction de croissance GH(m) ? Si elle croît exponentiellement : il ne peut pas y avoir de garantie sur les hypothèses sélectionnées par l’apprentissage sur la base du risque empirique (ERM) !!! Définition (Dimension de Vapnik-Chervonenkis, 1971) La dimension de Vapnik-Chervonenkis dVC(H) est le plus grand entier d vérifiant GH(d) = d, si un tel entier existe, l’infini sinon. Si la dimension de Vapnik-Chervonenkis est finie, elle correspond à la taille du plus grand sous-ensemble de X pulvérisé par H.

103 3.4- Extension : l’analyse de Vapnik

104 3.4- Un lemme sauveur : le lemme de Sauer (1972)
Si H est de dimension de Vapnik-Chervonenkis finie dH = dVC(H), alors, pour m supérieur à dH, sa fonction de croissance est bornée :

105 3.4- Qu’est-ce que cela signifie ?
Cas de fonctions de discrimination et H = F La convergence du risque empirique vers le risque réel est exponentiellement rapide, et ceci pour toutes les fonctions de H E.g. la taille de l’échantillon suffisante pour que la probabilité ci-dessus soit bornée par d est : linéaire en dH !!

106 3.4- Le « take-home » message
Pour que le principe ERM soit pertinent, il faut que la dimension de Vapnik-Chervonenkis dH soit finie Alors, l’erreur d’estimation entre RRéel(h) et REmp(h) converge vers 0 comme: dans le cas général dans le cas où H = F

107 3.4- Quelques exemples de dimensions de VC

108 3.5- Vers d’autres principes inductifs
Reconsidérons l’équation (valable pour la discrimination et H = F) Plutôt que de chercher seulement l’hypothèse minimisant le risque empirique (valable seulement si m/dH très grand), il faut aussi tenir compte des caractéristiques de l’espace des hypothèses H, et chercher une hypothèse satisfaisant au mieux un compromis entre : un risque empirique faible : bonne adéquation aux données et un espace d’hypothèse d’expressivité bien réglée

109 3.5- Les méthodes par « sélection de modèles »
Méthodes cherchant à régler le compromis par réglage automatique de l’espace d’hypothèses (modèles) Le SRM (Structural Risk Minimization) La théorie de la régularisation Le MDLp Les approches bayésiennes

110 3.5- Le SRM La procédure s’appuie sur une structure sur H définie a priori

111 3.5- La théorie de la régularisation
Issue de l’étude des problèmes « mal posés » (plusieurs solutions) Il faut imposer des conditions supplémentaires Contraindre l’espace des paramètres si H = {fonctions paramétrées} Imposer des conditions de régularité (e.g. dynamique limitée)

112 3.5- Le MDLp (Minimum Description Length principle)
On suppose qu’il existe : un coût associé à la transmission des données brutes (mesuré en bits) : L(x) un coût associé à la transmission d’un codage (modèle des données) : L(h) On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données

113 3.6- En d’autres mots … Notion de biais
Toute connaissance qui restreint le champ des hypothèses que l'apprenant doit considérer à un instant donné. Biais de représentation On ne peut pas apprendre sans biais Plus le biais est fort, plus l’apprentissage est facile Bien choisir le biais Biais de préférence Dû au contrôle de la recherche Critère de choix entre hypothèses Simplicité, complétude, intelligibilité, facilité d’évaluation, ... Dû au protocole Stratégie éducative (si apprentissage incrémental)

114 3.6- En d’autres mots … Réponses qualitatives
1. De quelle information doit-on disposer ? Compromis entre taille de l'échantillon d'apprentissage nécessaire ET "richesse" de l'espace d'hypothèses 1'. Quel principe inductif ? Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en pariant que l'erreur sera également minimisée sur les exemples non vus Un nouveau principe : minimiser à la fois l'erreur sur l'échantillon d'apprentissage ET une mesure de la richesse de H Donc l'étude de l'apprentissage automatique apporte un certain renouvellement du débat classique sur l'induction. D'un certain côté il suggère un compromis entre la vision empiriste de l'induction (tout vient de l'expérience) et la vision idéaliste de Kant (les catégories préexistent et sont seulement révélées)

115 3.7- Le no-free-lunch theorem

116 3.7- Le no-free-lunch theorem

117 Cours 1: plan 1- Introduction à l’induction
Visages de l’apprentissage Des algorithmes Approche plus formelle de l’induction Apprentissage par exploration

118 1.4- Trois questions fondamentales
Quel critère inductif ? Quelle hypothèse devrait-on choisir étant donné l’échantillon d’apprentissage ? Quel espace d’hypothèses ? Quel espace d’hypothèses est approprié : Pour la tâche Pour que l’induction soit possible Comment explorer l’espace des hypothèses ? Résolution d’un problème d’optimisation : recherche d’une bonne hypothèse dans un espace de possibilités afin de satisfaire le critère inductif

119 1.4- Apprendre = explorer un espace d’hypothèses
Comment choisir une (des) hypothèse(s) ? Notion de biais de représentation

120 1.4- Apprendre = explorer un espace d’hypothèses
+ - x ? Nouvel exemple hj hk hi Espace des exemples : X Espace des hypothèses : H Exploration de l’espace d’hypothèses Mesure de l’adéquation de l’hypothèse (critère de succès)

121 1.4- Apprendre = explorer un espace d’hypothèses
Nouvel exemple - - - hi - x ? - + + ? + - + + - + + x hk x hj - - - Espace des exemples : X Espace des hypothèses : H Exploration de l’espace d’hypothèses guidée par les relations de généralités dans H

122 1.4- Induction et généralisation
Comment corriger une hypothèse défectueuse

123 1.4- Couverture des exemples par une hypothèse
h1 : complète mais incorrecte h2 : correcte mais incomplète h3 : complète et correcte : cohérente

124 1.4- Relation d’inclusion et relation de généralité
Vers la généralisation

125 1.4- Relation d’inclusion et relation de généralité
Vers la spécialisation

126 1.4- La relation de généralité induite dans H
Relation de généralité dans H induite par la relation d'inclusion dans X

127 1.4- Treillis de généralisation dans H
Ordre partiel dans H

128 1.4- Les opérateurs Généralisation Spécialisation Reformulation
Transforme une description en une description plus générale Spécialisation Duale de la généralisation (En général : produit une description qui est une conséquence logique de la description initiale) Reformulation Transforme une description en une description logiquement équivalente

129 1.4- Opérateurs de généralisation
Règle d’abandon de conjonction A & B  C => A  C ferrari & rouge  coûteux => ferrari  coûteux Règle d’ajout d’alternative A  C => AB  C ferrari  coûteux => ferrari  rouge  coûteux Règle d’extension du domaine de référence A & [B = R]  C => A & [B = R’]  C grand & [couleur = rouge]  coûteux => grand & [couleur rouge  bleu]  coûteux

130 1.4- Opérateurs de généralisation
Règle de clôture d’intervalle A & [B=v1]  C & A & [B = v2]  C => A & [B = v1 ... v2]  C grand & [coût = 100]  à acheter && grand & [coût = 150]  à acheter => grand & [coût = ]  à acheter Règle de l’ascension dans l’arbre de hiérarchie A & [B= n1]  C && A & [B= n2]  C => A & [B= N]  C corrosif & [élément = chlorine]  toxique corrosif & [élément = bromine]  toxique => corrosif & [élément = halogène]  toxique Halogène Bromine Chlorine En représentation de type attribut-valeur

131 1.4- Opérateurs de généralisation
Règle de variabilisation F(a) & F(b) &  C =>  v, F(v)  C grand(sommet_objet) & grand(fond_objet) & ...  C =>  partie, grand(partie)  C Règle de changement de conjonction en disjonction A & B  C => AB  C grand & rouge  coûteux => grand rouge coûteux Règle d’extension du domaine de quantification  v, F(v)C => v, F(v)  C  partie, grand(partie)C => partie, grand(partie) C

132 1.4- Opérateurs de généralisation
Inversion de la résolution A & B  C && ¬A & D  C => BD  C vieux & grand  C && ¬ vieux & rouge  C => grandrouge  C Règle anti-extension A & [B=v1]  C && D & [B=v2]  ¬C => [B ≠ v2]  C Règle constructive de généralisation (modifiant les descripteurs) A & B  C && D  C => A & D  C

133 1.4- Représentation de l'espace des versions
Observation fondamentale : L'espace des versions structuré par une relation d'ordre partiel peut être représenté par : sa borne supérieure : le G-set sa borne inférieure : le S-set G-set = Ensemble de toutes les hypothèses les plus générales cohérentes avec les exemples connus S-set = Ensemble de toutes les hypothèses les plus spécifiques cohérentes avec les exemples connus

134 après chaque nouvel exemple
1.4- Apprentissage ... … par mise à jour de l'espace des versions Idée : maintenir le S-set et le G-set après chaque nouvel exemple Algorithme d'élimination des candidats

135 1.4- Algorithme d'élimination des candidats
Initialiser S et G par (resp.) : l'ensemble des hypothèses les plus spécifiques (les plus générales) cohérentes avec le 1er exemple positif connu. Pour chaque nouvel exemple (positif ou négatif) mettre à jour S mettre à jour G Jusqu'à convergence ou jusqu'à ce que S = G = Ø

136 1.4- Mise à jour de S xi est négatif xi est positif
Eliminer les hypothèses de S couvrant (indûment) xi xi est positif Généraliser les hypothèses de S ne couvrant pas xi juste assez pour qu'elles le couvrent Puis éliminer les hypothèses de S couvrant un ou plusieurs exemples négatifs plus générales que des hypothèses de S Toutes ces opérations impliquent que l'on puisse facilement : • spécialiser une hypothèse • généraliser une hypothèse • tester si il y a une relation de généralité entre 2 hypothèses

137 1.4- Mise à jour de G xi est positif xi est négatif
Eliminer les hypothèses de G ne couvrant pas xi xi est négatif Spécialiser les hypothèses de G couvrant xi juste assez pour qu'elles ne le couvrent plus Puis éliminer les hypothèses de G n'étant pas plus générales qu'au moins un élément de S plus spécifiques qu'au moins une autre hypothèse de G Toutes ces opérations impliquent que l'on puisse facilement : • spécialiser une hypothèse • généraliser une hypothèse • tester si il y a une relation de généralité entre 2 hypothèses

138 1.4- Algorithme d'élimination des candidats
Mise à jour des bornes S et G

139 1.4- Propriétés de l'AEC Incrémentalité Complexité ?
Utilisation si non convergence ? Que signifie S = G = Ø ? Possibilité d'"apprentissage actif" ? Que faire si les données sont bruitées ?

140 1.4- Exemple : le système LEX (1)

141 1.4- Exemple : le système LEX (2)

142 Ce qu'il faut retenir C'est surtout l'induction supervisée qui est étudiée Jeu entre espace des exemples et espace des hypothèses On ne peut apprendre sans biais La réalisation de l'apprentissage dépend de la structuration de l'espace des hypothèses sans structure : méthodes par interpolation notion de distance : méthodes par gradient (approximation) relation d'ordre partiel : exploration guidée (exploration)

143 1.5- Approche actuelle : les limites
L’état de l’art actuel en apprentissage: Données i.i.d. (indépendant et identiquement distribué) Distribution statique Données étiquetées Classes approximativement équilibrées Versus e.g. les besoins de la robotique Données résultant : De séquences D’un apprentissage actif Contexte changeant Pauvrement étiquetées Données non i.i.d. L’état de l’art actuel en apprentissage: Données i.i.d. (indépendant et identiquement distribué) Distribution statique Données étiquetées Classes approximativement équilibrées

144 1.5- Perspective historique (1)
Perceptron Expériences : tortues cybernétiques Reconnaissance des Formes : Théorie de la décision bayésienne Discriminant linéaire (Fisher) (naissance de Turing l'informatique) 20s 1936 50s 60s

145 1.5- Perspective historique (2)
Apprentissage artificiel : une explosion Systèmes dédiés à une tâche : inspiration psychologique Induction supervisée Arbres de décision Algorithmes génétiques Explanation-Based Learning Raisonnement par cas META-DENDRAL 2ème connexionnisme ARCH AM 1970 1976 1978 80s 70s

146 1.5- Perspective historique (2')
Systèmes à usage industriels

147 1.5- Perspective historique (3)
Apprentissage artificiel : une théorisation et une mise à l'épreuve Nouvelles méthodes : - SVMs - Boosting Data mining Text mining Théorie de Vapnik Un tournant décisif mais inconscient Trois éléments clés : Apprentissage = recherche dans un espace d'hypothèses Concept d'espace des versions => étude de l'apprentissage indépendamment d'un algorithme spécifique Irruption du second connexionnisme : mathématisation plus facile Émergence du connexionnisme Théorisation de la discipline 1995 90s 00s

148 1.5- Perspective historique (4)
Maintenant Domination sans partage du paradigme dominant Apprentissage comme estimation / approximation de fonction Données supposées tirées aléatoirement Nouveau principe inductif : toujours prendre en compte l'espace d'hypothèses Nouvelles techniques d'apprentissage issues de la théorie Séparateurs à Vastes Marges (SVM : Support Vector Machines) Boosting Prépondérance des applications de fouille dans les grandes bases de données Peu structurées Données fournies en vrac Nouvelles mesures de performance Le paradigme : Tout apprentissage peut être vu comme apprentissage d'une dépendance fonctionnelle inconnue entre variables Focalisation sur le taux d’erreur Supposition de données tirées aléatoirement suivant une distribution statique Problèmes d’estimation et de convergence statistique Techniques essentiellement numériques (et statistiques) Pas de réflexion sur: la connaissance les raisonnements la dynamique de l’apprentissage

149 1.5- Perspective historique : l'avenir ?
Demain … ? Retour vers des problèmes à données plus structurées Exploration automatique de la toile (structure à tous les niveaux : grammatical, séquence, texte, discours, culture) Nouveaux aspects Nouvelles demandes : Systèmes à longue durée de vie Aide à l'éducation Apprentissage collectif Incrémentalité Transferts d'une tâche à une autre, d'un domaine à un autre, d'un agent à un autre Nouveaux problèmes Nouvelles techniques Nouvelle nature des données : textuelles Données non distribuées aléatoirement Données structurées à toutes échelles Phénomènes de séquences Nouveaux critères de performance (≠ taux d’erreur) Intérêt, intelligibilité, fécondité, ... Systèmes à plus longue durée de vie Dynamique de l’apprentissage (oubli, effets de séquence, éducation, ...)

150 1.5 - Où en est-on ?

151 1.5- Questions ... Peut-on apprendre n'importe quoi ?
Peut-on apprendre à partir de rien (tabula rasae) ? Suffit-il d'avoir plus de neurones pour apprendre mieux ? Quel lien entre généralisation et abstraction ?

152 5- ... et programmes de recherche
Phénomènes de transition de phase en induction Vers une science du dynamique : Quels sont les systèmes dépendants de l'ordre des entrées ? Pour ceux-là, quel est l'ordre optimal de présentation des données ? Apprentissage et … oubli L'oubli peut-il être utile ? Y a-t-il des passages obligés dans l'apprentissage de connaissances complexes ? Ex : la notion d'impetus avant celle de force et d'inertie ?


Télécharger ppt "Introduction à l’Apprentissage Artificiel"

Présentations similaires


Annonces Google