La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 CSI 4506: Introduction à lIntelligence Artificielle LApprentissage Inductif.

Présentations similaires


Présentation au sujet: "1 CSI 4506: Introduction à lIntelligence Artificielle LApprentissage Inductif."— Transcription de la présentation:

1 1 CSI 4506: Introduction à lIntelligence Artificielle LApprentissage Inductif

2 2 Plan du Cours Survol Theorie Version Spaces Arbres de Decision Reseaux Neuronneaux

3 3 LApprentissage Inductif: Survol Il existe differents types dapprentissages inductifs: – LApprentissage Supervise: le programme essaie dinferrer une association entre des entrees et leur classe assignee Apprentissage de Concepts Classification – LApprentissage Non-Supervise: le programme essaie dinferrer une association entre des entrees, mais aucune classe ne leur est assignee: Apprentissage Reinforce Clustering Decouverte – LApprentissage Online vs. Batch Nous allons nous interesser a lapprentissage Supervise en mode Batch

4 4 Theorie de lInference Inductive (1) Soit X lensemble de tous les exemples Un concept C est un sous-ensemble de X Un ensemble dentrainement T est un sous- ensemble de X tel que certains exemples de T appartiennent a C (les exemples positifs) et certains exemples nappartiennent pas a C (les exemples negatifs)

5 5 Theorie de lInference Inductive (2) Apprentissage: { } f: X Y avec i=1..n, xi T, yi Y (={0,1}) yi= 1, si x1 est positif ( C) yi= 0, si xi est negatif ( C) Objectifs de lApprentissage: f doit etre tel que pour tous les xj X (pas seulement T) - f(xj) =1 si xj C - f(xj) = 0, si xj C Programme dApprentissage

6 6 Theorie de lInference Inductive (3) Probleme: La tache dapprentissage est mal-posee car il existe un nombre infini de fonctions f qui satisfont lobjectif Il est necessaire de trouver un moyen de contraindre la recherche de f. Definitions: – Lensemble des tous les fs qui satisfont lobjectif sappelle lespace dhypotheses – Les contraintes sur lespace dhypotheses sappellent les biais inductifs. – Il y a deux types de biais inductifs: Les biais de restriction de lespace dhypotheses Les biais de preference

7 7 Theorie de lInference Inductive (4) Biais de restriction de lespace dhypotheses On restreint le langage de lespace dhypotheses. Exemples: k-DNF: on restreint f a lensemble des formules en Forme Normale Disjonctive ayant un nombre de disjonctions arbitraire mais au plus, k conjunct dans chaque conjonction. K-CNF: on restreint f a lensemble des formules en Forme Normale Conjonctive ayant un nombre de conjonctions arbitraire mais au plus, k disjunct dans chaque disjonction. Proprietes de ce type de biais: – Positive: Lapprentissage sera simplifie (Computationnellement) – Negative: Le langage peut exclure la bonne hypothese.

8 8 Theorie de lInference Inductive (5) Biais de Preference: Cest un ordre ou une unite de mesure qui sert de base a une relation de preference dans lespace dhypotheses. Exemples: Le Rasoir d Occam: On prefere une formule simple ou courte pour f. Principe de la longueur minimale de description (Une extension du rasoir dOccam): La meilleure hypothese est celle qui minimise la taille totale de lhypothese et de la description des exceptions a cette hypothese.

9 9 Theorie de lInference Inductive (6) Comment implementer lapprentissage etant donne ces biais? Biais de restriction despace dhypotheses: – Etant donne: Un ensemble S dexemples dentrainement Un espace dhypothese restreint, H – Trouver: Une hypothese f H qui minimise le nombre dexemples dentrainement de S incorrectement classifies.

10 10 Theorie de lInference Inductive (7) Biais de Preference: – Etant donne: Un ensemble S dexemples dentrainement Un ordre de preference better(f1, f2) pour toutes les fonctions de lespace dhypotheses, H – Trouver: la meilleure hypothese f H (selon la relation better) qui minimise le nombre dexemples dentrainement de S incorrectement classifies. Types de techniques de recherche utilisees: – Recherche Heuristique – Hill Climbing – Simulated Annealing et Recherche Genetique

11 11 Theorie de lInference Inductive (8) Quand peut-on croire a la reponse de notre algorithme dapprentissage? Reponse Theorique – Reponse Experimentale Reponse Theorique: PAC-Learning (Valiant 84) PAC-Learning nous donne des limites sur le nombre dexemples necessaires (etant donne un biais particulier) qui nous permettra de croire avec grande confiance que le resultat retourne par lalgorithme dapprentissage est approximativement correct. Ce nombre dexemples sappelle la complexite dechantillon (sample complexity) du biais. Si le nombre dexemple dapprentissage excede la complexite dechantillon du biais alors on peut avoir grande confiance en nos resultats.

12 12 Theorie de lInference Inductive (9): PAC-Learning Soit Pr(X) la probability avec laquelle les exemples sont selectionnes de lensemble X Soit f, une hypothese de lespace dhypotheses. Soit D lensemble de tous les exemples pour lesquels f et C sont en desaccord Lerreur associee a lhypothese f et le concept C est: – Error(f) = x D Pr(x) – f est approximativement correct avec une exactitude de ssi: Error(f) – f est probablement approximativement correct (PAC) avec probabilite et exactitude si Pr(Error(f) > ) <

13 13 Theorie de lInference Inductive (10): PAC-Learning Theoreme: Un programme qui retourne nimporte quelle hypothese consistente avec les exemples dentrainement est PAC si n, le nombre dexemples dentrainement est plus grand que ln( /|H|)/ln(1- ) ou |H| represente le nombre dhypotheses dans H. Exemples: Pour 100 hypotheses, il faut 70 exemples pour reduire lerreur au dessous de 0.1 avec une probabilite de 0.9 Pour 1000 hypotheses, il en faut 90 Pour 10,000 hypotheses, il en faut 110. ln( /|H|)/ln(1- ) grandit lentement. Tant mieux!

14 14 Theorie de lInference Inductive (11) Quand peut-on croire a la reponse de notre algorithme dapprentissage? – Reponse Theorique Reponse Experimentale Reponse Experimentale: Estimation dErreurs Supposez que vous ayez acces a 1000 exemples pour un concept f. Divisez les donnees en 2 ensembles: Un ensemble dentrainement Un ensemble de test Entrainez lalgorithme sur lensemble dentrainement seulement. Testez lhypothese qui en resulte sur lensemble test afin dobtenir une estimation de la correction de cette hypothese

15 15 Version Spaces: Definitions Soient C1 et C2, deux concepts representes par des ensembles dexemples. Si C1 C2, alors C1 est une specialisation de C2 et C2 est une generalisation de C1. C1 est aussi considere plus specifique que C2 Exemple: Lensemble de tous les triangles bleus est plus specifique que lensemble de tous les triangles. C1 est une specialisation immediate de C2 sil ny a pas dautres concepts qui soit et une specialisation de C2 et une generalisation de C1. Un version space definit un graphe dont les noeuds sont des concepts et dont les arcs specifient quun concept est une specialisation immediate dun autre. (Voir exemple en classe)

16 16 Version Spaces: Survol (1) Un Version Space a deux limites: La Limite Generale et la Limite Specifique Les limites sont modifiees apres chaque presentation dun nouvel exemple. Au depart, la limite generale consiste simplement de (?,?,?); La limite specifique consiste de toutes les feuilles de larbre de Version Space. Lorsquun nouvel exemple positif est presente, on generalise tous les exemples de la limite specifique jusqua ce quelle soit compatible avec lexemple Lorsquun nouvel exemple negatif est presente, on specialise chacun des concepts de la limite generale jusqua ce quelle ne soit plus compatible avec lexemple

17 17 Version Spaces: Survol (2) Si les limites specifique et generale sont maintenues selon les regles que nous venons de presenter, alors un concept est garanti dinclure tous les exemples positifs et dexclure tous les exemples negatifs sil tombe entre les limites generale et specifique. Limite Generale Plus specifique Plus general Limite specifique Si f est ici, il inclut tous les exemples + Et exclut tous les exemples - (Voir exemple en classe)

18 18 Arbres de Decision: Introduction La forme la plus simple daorentissage est la memorisation de tous les exemples dentrainement. Probleme: La memorisation nest pas utile pour de nouveaux exemples On doit trouver un moyen de generaliser au dela des exemples anciens. Solution Possible: Plutot que de memoriser chaque attribut de chaque exemples, on peut essayer de memoriser seulement ceux qui permettent de distinguer entre les exemples positifs et negatifs. Cest ce que font les arbres de decision. Note: Les memes donnees peuvent etre representees par des arbres differents. Le Rasoir dOccam suggere que lon choisisse le plus petit. (Voir Exemples en Classe)

19 19 Arbres de Decision: Construction Etape 1: On choisit un attribut A (= Noeud 0) et on divise les exemples selon la valeur de cet attribut. Chacun de ces groupes correspond a un enfant du Noeud 0. Etape 2: Pour chaque descendant du Noeud 0, si les exemples de ce descendant sont homogenes (ont la meme classe), on sarrete. Etape 3: Si les exemples de ce descendent ne sont pas homogenes, alors on appelle la procedure recursivement sur ce descendent. (Voir exemple en Classe)

20 20 Arbres de Decision: Choisir des Attributs qui meneront a de Petits Arbres (I) Pour obtenir un petit arbre, il faut choisir des attributs qui minimisent une mesure particuliere de desordre dans les sous-arbres quils engendrent. Le desordre et linformation son relies de la maniere suivante: plus il y a de desordre dans un ensemble S, le plus dinformation est necessaire afin de deviner correctement un element de cet ensemble. Information: Quelle est la meilleure strategie pour deviner un nombre etant donne un ensemble fini S de nombres? i.e., Quel est le nombre minimal de questions necessaires pour trouver la bonne reponse? Reponse: Log 2 |S| ou |S| represente la cardinalite de S.

21 21 Arbres de Decision: Choisir des Attributs qui meneront a de Petits Arbres (II) Log 2 |S| peut etre vu comme la valeur de linformation qui nous donne la valeur de x (le nombre a deviner) plutot que davoir a le deviner nous meme. Soit U un sous-ensemble de S. Quelle est la valeur de linformation qui nous donne la valeur de x, une fois que lon sait si x U ou pas? Log 2 |S|-[P(x U )Log 2 |U|+P(x U)Log 2 |S-U| Soit S=P N (donnees positives et negatives). La valeur de linformation qui nous donne la valeur de x une fois que lon sait si x est positif ou negatif est: I({P,N})=Log 2 |S|-|P|/|S|Log 2 |P|-|N|/|S|Log 2 |N|

22 22 Arbres de Decision: Choisir des Attributs qui meneront a de Petits Arbres (III) On veut utiliser la mesure precedente afin de choisir un attribut qui minimise le desordre dans la partition quil creee. Soit {Si | 1 i n} une partition de S qui resulte dun attribut particulier. Le desordre associe a cette partition est: V({Si | 1 i n}) = i=1 n |Si|/|S| I({P(Si),N(Si)}) Avec P(Si)= ensemble des exemples positifs en Si et N(Si)= ensemble des exemples negatifs en Si (Voir Exemple en Classe)

23 23 Arbres de Decision: Autres Questions Il faut trouver un moyen de traiter les attributs qui ont comme valeurs des nombres continus ou des valeurs discretesappartenant a un tres grand ensemble. Il faut trouver un moyen de traiter les valeurs dattributs manquantes Il faut trouver un moyen de traiter le bruit (erreurs) aussi bien dans letiquettage des exemples que dans les valeurs dattributs.

24 24 Reseaux Neuronneaux: Introduction (I) Quest ce quun Reseau Neuronneau? Cest un formalisme pour representer les fonctions qui sinspire des systemes biologiques et qui est compose dunites de calcul qui performe de simples fonctions, mais chacune en parallele. Exemple de trois differents types dunites de calcul: – Unite dAddition – Unite de Multiplication – Unite de Seuil (Continu (exemple: la Sigmoide) ou non) (Voir illustration en Classe)

25 25 Reseaux Neuronneaux: Apprentissage (I) Ces unites de base sont ensuite connectees afin de former un reseau capable de calculer des fonctions compliquees. (Voir Exemple en Classe: 2 representations) Puisque ce reseau a une sordi sigmoidale, il implemente une fonction f(x1,x2,x3,x4) dont la sortie est dans la rangee [0,1] Ce qui nous interesse dans les reseaux neuronneaux cest quils sont capable dapprendre cette fonction. Lapprentissage consiste a chercher dans lespace de toutes les matrices possibles de valeurs de poids une combinaison de poids qui satisfait une base de donnees positives et negatives de quatre attributs (x1,x2,x3,x4) et deux classes (y=1, y=0)

26 26 Reseaux Neuronneaux: Apprentissage (II) Veuillez noter quun reseau neuronneau avec un ensemble de poids ajustables represente un espace dhypotheses restreint correspondant a une famille de fonctions. La taille de cet espace peut etre augmentee ou diminuee en augmentant ou diminuant le nombre dunites cachees presentes dans le reseau. Lapprentissage est fait en utilisant une approche de hill- climbing appelee BACKPROPOAGATION et basee sur le paradigme de la recherche par gradient.

27 27 Reseaux Neuronneaux: Apprentissage (III) Lidee de la recherche par gradient est de prendre de petits pas dans la direction qui minimise le gradient (ou derivative) de lerreur de la fonction quon essaye dapprendre. Lorsque le gradient a la valeur zero, on a atteint un minimum local, qui, on lespere, est egalement un minimum global. (Les details de lapprentissage sur Reseaux Neuronneaux seront couvert en classe si le temps le permet)


Télécharger ppt "1 CSI 4506: Introduction à lIntelligence Artificielle LApprentissage Inductif."

Présentations similaires


Annonces Google