La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 CSI 4506: Introduction à lintelligence artificielle Lapprentissage inductif.

Présentations similaires


Présentation au sujet: "1 CSI 4506: Introduction à lintelligence artificielle Lapprentissage inductif."— Transcription de la présentation:

1 1 CSI 4506: Introduction à lintelligence artificielle Lapprentissage inductif

2 2 Plan du Cours Survol Théorie Version Spaces Arbres de décision Réseaux neuronaux

3 3 LApprentissage inductif: Survol Il existe différents types dapprentissage inductif: – LApprentissage supervisé: le programme essaie dinférer une association entre des entrées et leur classe assignée Apprentissage de concepts Classification – LApprentissage non supervisé: le programme essaie dinférer une association entre des entrées, mais aucune classe ne leur est assignée: Apprentissage renforcé Clustering Découverte – LApprentissage Online vs. Batch Nous allons nous intéresser à lapprentissage supervisé en mode Batch

4 4 Théorie de linférence inductive (1) Soit X lensemble de tous les exemples Un concept C est un sous-ensemble de X Un ensemble dentraînement T est un sous- ensemble de X tel que certains exemples de T appartiennent a C (les exemples positifs) et certains exemples nappartiennent pas à C (les exemples négatifs)

5 5 Théorie de linférence inductive (2) Apprentissage: { } f: X Y avec i=1..n, xi T, yi Y (={0,1}) yi= 1, si x1 est positif ( C) yi= 0, si xi est négatif ( C) Objectifs de lapprentissage: f doit être tel que pour tous les xj X (pas seulement T) - f(xj) =1 si xj C - f(xj) = 0, si xj C Programme dApprentissage

6 6 Théorie de linférence inductive (3) Problème: La tache dapprentissage est mal posée car il existe un nombre infini de fonctions f qui satisfont lobjectif Il est nécessaire de trouver un moyen de contraindre la recherche de f. Définitions: – Lensemble des tous les fs qui satisfont lobjectif sappelle lespace dhypothèses – Les contraintes sur lespace dhypothèses sappellent les biais inductifs. – Il y a deux types de biais inductifs: Les biais de restriction de lespace dhypothèses Les biais de préférence

7 7 Théorie de linférence inductive (4) Biais de restriction de lespace dhypothèses On restreint le langage de lespace dhypothèses. Exemples: k-DNF: on restreint f à lensemble des formules en Forme Normale Disjonctive ayant un nombre de disjonctions arbitraire mais au plus, k conjonctif dans chaque conjonction. K-CNF: on restreint f à lensemble des formules en Forme Normale Conjonctive ayant un nombre de conjonctions arbitraire mais au plus, k disjonctif dans chaque disjonction. Propriétés de ce type de biais: – Positive: Lapprentissage sera simplifié (Computationnellement) – Négative: Le langage peut exclure la bonne hypothèse.

8 8 Théorie de linférence inductive (5) Biais de préférence: Cest un ordre ou une unité de mesure qui sert de base a une relation de préférence dans lespace dhypothèses. Exemples: Le Rasoir d Occam: On préfère une formule simple ou courte pour f. Principe de la longueur minimale de description (Une extension du rasoir dOccam): La meilleure hypothèse est celle qui minimise la taille totale de lhypothèse et de la description des exceptions à cette hypothèse.

9 9 Théorie de linférence inductive (6) Comment implémenter lapprentissage étant donné ces biais? Biais de restriction despace dhypotheses: – Étant donné: Un ensemble S dexemples dentraînement Un espace dhypothèse restreint, H – Trouver: Une hypothèse f H qui minimise le nombre dexemples dentraînement de S incorrectement classifiés.

10 10 Théorie de linférence inductive (7) Biais de Préférence: – Étant donne: Un ensemble S dexemples dentraînement Un ordre de préférence better(f1, f2) pour toutes les fonctions de lespace dhypothèses, H – Trouver: la meilleure hypothèse f H (selon la relation better) qui minimise le nombre dexemples dentraînement de S incorrectement classifies. Types de techniques de recherche utilisées: – Recherche heuristique – Hill Climbing – Simulated Annealing et recherche génétique

11 11 Théorie de linférence inductive (8) Quand peut-on croire à la réponse de notre algorithme dapprentissage? Réponse Théorique – Réponse Expérimentale Réponse théorique: PAC-Learning (Valiant 84) PAC-Learning nous donne des limites sur le nombre dexemples nécessaires (étant donne un biais particulier) qui nous permettra de croire avec grande confiance que le résultat retourne par lalgorithme dapprentissage est approximativement correct. Ce nombre dexemples sappelle la complexité déchantillon (sample complexity) du biais. Si le nombre dexemple dapprentissage excède la complexité déchantillon du biais alors on peut avoir grande confiance en nos résultats.

12 12 Théorie de linférence inductive (9): PAC-Learning Soit Pr(X) la probabilité avec laquelle les exemples sont sélectionnés de lensemble X Soit f, une hypothèse de lespace dhypothèses. Soit D lensemble de tous les exemples pour lesquels f et C sont en désaccord Lerreur associée à lhypothèse f et le concept C est: – Error(f) = x D Pr(x) – f est approximativement correct avec une exactitude de ssi: Error(f) – f est probablement approximativement correct (PAC) avec probabilité et exactitude si Pr(Error(f) > ) <

13 13 Théorie de linférence inductive (10): PAC-Learning Théorème: Un programme qui retourne nimporte quelle hypothèse consistante avec les exemples dentraînement est PAC si n, le nombre dexemples dentraînement est plus grand que ln( /|H|)/ln(1- ) ou |H| représente le nombre dhypothèses dans H. Exemples: Pour 100 hypothèses, il faut 70 exemples pour réduire lerreur au dessous de 0.1 avec une probabilité de 0.9 Pour 1000 hypothèses, il en faut 90 Pour 10,000 hypothèses, il en faut 110. ln( /|H|)/ln(1- ) grandit lentement. Tant mieux!

14 14 Théorie de linférence inductive(11) Quand peut-on croire à la réponse de notre algorithme dapprentissage? – Réponse théorique Réponse expérimentale Réponse expérimentale: estimation derreurs Supposez que vous ayez accès a 1000 exemples pour un concept f. Divisez les données en 2 ensembles: Un ensemble dentraînement Un ensemble de test Entraînez lalgorithme sur lensemble dentraînement seulement. Testez lhypothèse qui en résulte sur lensemble test afin dobtenir une estimation de la correction de cette hypothèse

15 15 Version Spaces: Définitions Soient C1 et C2, deux concepts représentes par des ensembles dexemples. Si C1 C2, alors C1 est une spécialisation de C2 et C2 est une généralisation de C1. C1 est aussi considéré plus spécifique que C2 Exemple: Lensemble de tous les triangles bleus est plus spécifique que lensemble de tous les triangles. C1 est une spécialisation immédiate de C2 sil ny a pas dautres concepts qui soit et une spécialisation de C2 et une généralisation de C1. Un version space définit un graphe dont les noeuds sont des concepts et dont les arcs spécifient quun concept est une spécialisation immédiate dun autre. (Voir exemple en classe)

16 16 Version Spaces: Survol (1) Un Version Space a deux limites: La limite générale et la limite spécifique Les limites sont modifiés après chaque présentation dun nouvel exemple. Au départ, la limite générale consiste simplement de (?,?,?); La limite spécifique consiste de toutes les feuilles de larbre de Version Space. Lorsquun nouvel exemple positif est présenté, on généralise tous les exemples de la limite spécifique jusqua ce quelle soit compatible avec lexemple Lorsquun nouvel exemple négatif est présenté, on spécialise chacun des concepts de la limite générale jusqua ce quelle ne soit plus compatible avec lexemple

17 17 Version Spaces: Survol (2) Si les limites spécifiques et générales sont maintenues selon les règles que nous venons de présenter, alors un concept est garanti dinclure tous les exemples positifs et dexclure tous les exemples négatifs sil tombe entre les limites générales et spécifiques. Limite générale Plus spécifique Plus général Limite spécifique Si f est ici, il inclut tous les exemples + Et exclut tous les exemples - (Voir exemple en classe)

18 18 Arbres de décision: Introduction La forme la plus simple dapprentissage est la mémorisation de tous les exemples dentraînement. Problème: La mémorisation nest pas utile pour de nouveaux exemples On doit trouver un moyen de généraliser au delà des exemples anciens. Solution possible: Plutôt que de mémoriser chaque attribut de chaque exemples, on peut essayer de mémoriser seulement ceux qui permettent de distinguer entre les exemples positifs et négatifs. Cest ce que font les arbres de décision. Note: Les mêmes données peuvent être représentées par des arbres différents. Le rasoir dOccam suggère que lon choisisse le plus petit. (Voir exemples en classe)

19 19 Arbres de décision: Construction Étape 1: On choisit un attribut A (= Noeud 0) et on divise les exemples selon la valeur de cet attribut. Chacun de ces groupes correspond à un enfant du noeud 0. Étape 2: Pour chaque descendant du noeud 0, si les exemples de ce descendant sont homogènes (ont la même classe), on sarrête. Étape 3: Si les exemples de ce descendent ne sont pas homogènes, alors on appelle la procédure récursivement sur ce descendent. (Voir exemple en Classe)

20 20 Arbres de décision: Choisir des attributs qui mèneront à de petits arbres (I) Pour obtenir un petit arbre, il faut choisir des attributs qui minimisent une mesure particulière de désordre dans les sous arbres quils engendrent. Le désordre et linformation son reliés de la manière suivante: plus il y a de désordre dans un ensemble S, le plus dinformation est nécessaire afin de deviner correctement un élément de cet ensemble. Information: Quelle est la meilleure stratégie pour deviner un nombre étant donné un ensemble fini S de nombres? i.e., Quel est le nombre minimal de questions nécessaires pour trouver la bonne réponse? Réponse: Log 2 |S| ou |S| représente la cardinalité de S.

21 21 Arbres de décision: Choisir des attributs qui mèneront a de petits arbres (II) Log 2 |S| peut être vu comme la valeur de linformation qui nous donne la valeur de x (le nombre à deviner) plutôt que davoir à le deviner nous même. Soit U un sous-ensemble de S. Quelle est la valeur de linformation qui nous donne la valeur de x, une fois que lon sait si x U ou pas? Log 2 |S|-[P(x U )Log 2 |U|+P(x U)Log 2 |S-U| Soit S=P N (données positives et négatives). La valeur de linformation qui nous donne la valeur de x une fois que lon sait si x est positif ou négatif est: I({P,N})=Log 2 |S|-|P|/|S|Log 2 |P|-|N|/|S|Log 2 |N|

22 22 Arbres de décision: Choisir des attributs qui mèneront a de petits arbres (III) On veut utiliser la mesure précédente afin de choisir un attribut qui minimise le désordre dans la partition quil crée. Soit {Si | 1 i n} une partition de S qui résulte dun attribut particulier. Le désordre associe a cette partition est: V({Si | 1 i n}) = i=1 n |Si|/|S| I({P(Si),N(Si)}) Avec P(Si)= ensemble des exemples positifs en Si et N(Si)= ensemble des exemples négatifs en Si (Voir exemple en classe)

23 23 Arbres de décision: Autres questions Il faut trouver un moyen de traiter les attributs qui ont comme valeurs des nombres continus ou des valeurs discrètes appartenant à un très grand ensemble. Il faut trouver un moyen de traiter les valeurs dattributs manquantes Il faut trouver un moyen de traiter le bruit (erreurs) aussi bien dans létiquetage des exemples que dans les valeurs dattributs.

24 24 Réseaux neuronaux: Introduction (I) Quest ce quun réseau neuronal? Cest un formalisme pour représenter les fonctions qui sinspire des systèmes biologiques et qui est composé dunités de calcul qui performe de simples fonctions, mais chacune en parallèle. Exemple de trois différents types dunités de calcul: – Unité dAddition – Unité de Multiplication – Unité de Seuil (Continu (exemple: la Sigmoïde) ou non) (Voir illustration en Classe)

25 25 Réseaux neuronaux: Apprentissage (I) Ces unités de base sont ensuite connectées afin de former un réseau capable de calculer des fonctions compliquées. (Voir exemple en Classe: 2 représentations) Puisque ce réseau à une sorti sigmoïdale, il implémente une fonction f(x1,x2,x3,x4) dont la sortie est dans la rangée [0,1] Ce qui nous intéresse dans les réseaux neuronaux cest quils sont capable dapprendre cette fonction. Lapprentissage consiste à chercher dans lespace de toutes les matrices possibles de valeurs de poids une combinaison de poids qui satisfait une base de données positives et négatives de quatre attributs (x1,x2,x3,x4) et deux classes (y=1, y=0)

26 26 Réseaux neuronaux: Apprentissage (II) Veuillez noter quun réseau neuronal avec un ensemble de poids ajustables représente un espace dhypothèses restreint correspondant à une famille de fonctions. La taille de cet espace peut être augmentée ou diminuée en augmentant ou diminuant le nombre dunités cachées présentes dans le réseau. Lapprentissage est fait en utilisant une approche de hill- climbing appelée BACKPROPOAGATION et basée sur le paradigme de la recherche par gradient.

27 27 Réseaux neuronaux: Apprentissage (III) Lidée de la recherche par gradient est de prendre de petits pas dans la direction qui minimise le gradient (ou dérivative) de lerreur de la fonction quon essaye dapprendre. Lorsque le gradient a la valeur zéro, on a atteint un minimum local, qui, on lespère, est également un minimum global. (Les détails de lapprentissage par réseaux neuronaux seront couvert en classe si le temps le permet)


Télécharger ppt "1 CSI 4506: Introduction à lintelligence artificielle Lapprentissage inductif."

Présentations similaires


Annonces Google