La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Classification Introduction k-NN Arbres de décision Réseaux baysiens

Présentations similaires


Présentation au sujet: "Classification Introduction k-NN Arbres de décision Réseaux baysiens"— Transcription de la présentation:

1 Classification Introduction k-NN Arbres de décision Réseaux baysiens
Réseaux de neurones Conclusion

2 1. Apprentissage supervisé
Découverte de règles ou formules (patterns) pour ranger les données dans des classes prédéfinies représentant un groupe d'individus homogènes permettant de classer les nouveaux arrivants Processus en deux étapes construction d'un modèle sur les données dont la classe est connue (training data set) utilisation pour classification des nouveaux arrivants 37

3 Applications Marketing Maintenance Assurance
comprendre les critères prépondérants dans l ’achat d ’un produit segmentation automatique des clients pour le marketing direct Maintenance aide et guidage d ’un client suite à défauts constatés Assurance analyse de risques Isolation de populations à risques médecine

4 2. k plus proches voisins (k-NN)
Basé sur l'apprentissage par analogie Collection de tuples d'apprentissage Xi=(x1i,x2i,…xni) (xji numérique) de classe connue Représente un point dans l'espace à n dimensions Classes prédéfinies C={C1,C2, …Cm} Distance et Similarité Distance Euclidienne, Cosinus, etc. Similarité = Max - Distance

5 Classement Soumission d'un tuple inconnu
Recherche des k plus proches voisins Assignation de la classe la plus représentative parmi les k voisins Vote majoritaire (classe la plus fréquente) Plus grande similarité à la classe

6 Algorithme k-NN Class (X) { // Training collection T = {X1, X2, … Xn}
// Predefined classes C ={C1,C2, …Cm} // Compute similarities For i=1..N similar[i] = Max - distance(X,Xi); SortDescending(similar[]); kNN=Select k nearest neighbors with highest similarity; // Calculer les scores des classes score[Cj] = f(Cj, kNN) ; Class(X) = Class Cj with highest score; }

7 Forces et faiblesses Les attributs ont le même poids
centrer et réduire pour éviter les biais certains peuvent être moins classant que d'autres Apprentissage paresseux rien n'est préparé avant le classement tous les calculs sont fait lors du classement nécessité de technique d'indexation pour large BD Calcul du score d'une classe peut changer les résultats; variantes possibles

8 3. Arbres de décision Définition
Arbre permettant de classer des enregistrements par division hiérarchiques en sous-classes un nœud représente une classe de plus en plus fine depuis la racine un arc représente un prédicat de partitionnement de la classe source Un attribut sert d'étiquette de classe (attribut cible à prédire), les autres permettant de partitionner

9 Génération de l'arbre Objectif: Comment choisir les attributs (Ai) ?
obtenir des classes homogènes couvrir au mieux les données Comment choisir les attributs (Ai) ? Comment isoler les valeurs discriminantes (vj) ? A1 = ? v1 v3 v2 A2 = ? A2 = ? ... v'1 v'3 v'1 v'3 v'2 v'2 C1 C2 C3 C7 C8 C9

10 Arbre = ensemble de règles
(A1=v1)&(A2=v'1)  C1 (A1=v1)&(A2=v'2)  C2 (A1=v1)&(A2=v'3)  C3 (A1=v3)&(A2=v'1)  C7 (A1=v3)&(A2=v'2)  C8 (A1=v3)&(A2=v'3)  C9 A1? v1 v3 v2 A2? A2? ... v'1 v'1 v'3 v'3 v'2 v'2 C1 C2 C3 C7 C8 C9

11 Exemple codant une table
Attributs ou variables Joueur? Joueur Note Résultat Barthés Bon Gagné Moyen Nul Henri Zidane Mauvais Henri Zidane Barthès Note? Note? Note? Bon Bon Moyen Mauvais Gagné Gagné Nul Gagné Classes cibles

12 Autre Exemple

13 Autre Exemple Faut-il vous envoyer un contrôleur fiscal ? Salaire?
<=30 >50 31..50 Etudiant? Impôts? Contrôle oui non <20% >=20% PasContrôle Contrôle Contrôle PasContrôle

14 Procédure de construction (1)
recherche à chaque niveau de l’attribut le plus discriminant Partition (nœud P) si (tous les éléments de P sont dans la même classe) alors retour; pour chaque attribut A faire évaluer la qualité du partitionnement sur A; utiliser le meilleur partitionnement pour diviser P en P1, P2, …Pn pour i = 1 à n faire Partition(Pi);

15 Procédure de Construction (2)
Processus récursif L'arbre commence à un nœud représentant toutes les données Si les objets sont de la même classe, alors le nœud devient une feuille étiqueté par le nom de la classe. Sinon, sélectionner les attributs qui séparent le mieux les objets en classes homogènes => Fonction de qualité La récursion s'arrête quand: Les objets sont assignés à une classe homogène Il n'y a plus d'attributs pour diviser, Il n'y a pas d'objet avec la valeur d'attribut Class Atr=?

16 Choix de l'attribut de division
Différentes mesures introduites il s'agit d'ordonner le désordre des indicateurs basés sur la théorie de l'information Choix des meilleurs attributs et valeurs les meilleurs tests Possibilité de retour arrière élaguer les arbres résultants (classes inutiles) revoir certains partitionnements (zoom, réduire)

17 Mesure de qualité La mesure est appelé fonction de qualité
Goodness Function en anglais Varie selon l'algorithme : Gain d'information (ID3/C4.5) Suppose des attributs nominaux (discrets) Peut-être étendu à des attributs continus Gini Index Suppose des attributs continus Suppose plusieurs valeurs de division pour chaque attribut Peut-être étendu pour des attributs nominaux

18 Mesure d'impureté (variable nominale)
Mesure des mélanges de classes d'un nœud N i(N) = i j { pi * pj } avec ij pi est la proportion d ’individus de la classe i dans N. La réduction d’impureté de chaque division du nœud N par la variable xj s’exprime par: N = i(N) - j pj * i(Nj) pj est la proportion d'individus du nœud dans le fils j Sur l ’ensemble des n variables, la division du nœud t est effectuée à l ’aide de la variable qui assure la réduction maximale de l’impureté ( minimum)

19 Mesure d'entropie Minimisation du désordre restant
pi = fréquence relative de la classe i dans le nœud N (% d ’éléments de la classe i dans N) Mesure d ’entropie d'un segment s E(N) = - pi Log2(pi) Minimiser son évolution globale [Quinlan] N = E(N) - j Pj * E(Nj)

20 Indices de Gini et Twoing
Indice de GINI Si un ensemble de données T contient des éléments de N classes gini(T) = 1- i pi2 ou pi est la fréquence relative de la classe i dans T Indice de Twoing G ( tg,td) = [(( ng/n)(nd/n))/4][i=1m | ( nig / ng ) - ( nid / ng ) |]2 tg : Sommet gauche issu de t. td : Sommet droit issu de t nd ( resp (ng) ) = card {td } ( resp card {tg }). N : La taille de l ’échantillon d ’apprentissage. M : Le nombre de classe. nid : (resp (nig): l ’effectif de la classe ci dans td ( resp (tg)).

21 Exemple: Partitions de boules (1)
Partition selon A1 (densité) Indice d'impureté : i(N) = ik jk { pi * pj} avec ij Pi est la proportion d’individus de la classe i dans N. Entropie d'un segment s : E(N) = - i pi log2(pi) A1=1 A1=3 A1=2 Vert Rouge Bleu

22 Exemple: Partitions de boules (2)
Partition selon A2 Position et 4 au plus par partition A2=1 A2=3 A2=2 Vert Rouge Bleu

23 Exemple: Partitions de boules (3)
Partition selon A3 Poids A3 < 1 A3>=1 Rouge Vert

24 Exemple: Partitions de table (1)
Atr=? Gain(Outlook) = 0.246 Gain(Temperature) = 0.029 Gain(Humidity) = 0.151 Gain(Windy) = 0.048

25 Exemple: Partitions de table (2)
outlook sunny overcast rain Atr=?

26 Exemple: Partitions de table (3)
outlook sunny overcast rain humidity high normal N P

27 Exemple: Partitions de table (4)
outlook sunny overcast rain humidity P high normal N P

28 Exemple: Partitions de table (5)
outlook sunny overcast rain humidity windy P high normal true false N P N P

29 Types de tests Binaire ou n-aire Variable nominale
plus ou moins large et profond Variable nominale un prédicat par valeur ou par liste de valeurs ? Choix par niveau ou par classe mêmes tests pour chaque nœud interne d'un niveau arbres balancés ou non Élimination de classes vides ou presque, peu représentatives

30 Problème des attributs continus
Certains attributs sont continus exemple : salaire découper en sous-ensembles ordonnés (e.g.,déciles) division en segments [a0,a1[, [a1,a2[, …., [an-1,an] utiliser moyenne, médiane, … pour représenter minimiser la variance, une mesure de dispersion … investiguer différents cas et retenir le meilleur exemple : 2, 4, 8, etc. par découpe d’intervalles en 2 successivement

31 Attributs continus: Régression
Partitionnement par droite de régression Chaque nœud est représenté par une formule de régression Séparation des données = point de non linéarité 1 ou plusieurs régresseurs Exemple : salaire = a + b*tranche_age

32 Procédure d'élagage Les arbres trop touffus sont inutiles
Intérêt d'un élagage récursif à partir des feuilles S'appuie sur un modèle de coût d'utilité Possibilité de l'appliquer sur l'ensemble des données ou sur un sous-ensemble réservé à la validation

33 Exemple d'élagage Exemple :
arbres vus comme encodage de tuples partition utile si gain supérieur à un seuil coût d'un partitionnement CP bits pour coder les prédicats de patition Entropie_Après bits pour coder chaque tuple partitionnement à supprimer si : Gain = n * Entropie_Après + CP - n * Entropie_Avant < seuil Ce test peut être appliquer lors de la création

34 Types d'arbres

35 Méthodes ID3 et C4.5 ID3 C4.5 (ID3++) Critères d'arrêt :
Le pouvoir discriminatoire (ou gain informationnel) d ’une variable <= une variation d ’« entropie de Shannon » lors de la partition de S C4.5 (ID3++) Support des variables continues Introduit un facteur «Gain ratio » visant à pénaliser la prolifération des nœuds Critères d'arrêt : Seuils de gain informationnel, d'effectif dans un nœud Test statistique d'indépendance des variables (Ki2 )

36 Méthode CART Principes Critères d ’arrêt :
si problème à 2 classes, cherche la bi-partition minimisant l’indice d’impureté de Gini si problème à N classes, cherche celle maximisant le gain d’information donné par l’indice de Towing Critères d ’arrêt : Seuil de gain informationnel Seuil d ’effectif dans un nœud Procédure d'élagage

37 Méthodes passant à l'échelle
La plupart des algorithmes de base supposent que les données tiennent en mémoire La recherche en bases de données a proposer des méthodes permettant de traiter de grandes BD Principales méthodes: SLIQ (EDBT’96 -- Mehta et al.’96) SPRINT (VLDB96 -- J. Shafer et al.’96) RainForest (VLDB98 -- J. Hekankho et al.’98) PUBLIC (VLDB’98 -- R. Rastogi et al.’98)

38 Méthode SLIQ SLIQ (EDBT’96 -- Mehta et al.’96)
Supervised Learning In Quest Classificateurs CART et C4.5 : Développe l'arbre en profondeur d'abord Tri les données de manière répétée à chaque nœud SLIQ: Remplace le tri répété par 1 seul tri par attribut Utilise une nouvelle structure de données (class-list) S'applique sur des attributs numériques ou nominaux Indicateur: maximiser ginisplit(T) = i [ni/n] gini(Ti)

39 Méthode SPRINT SPRINT (VLDB96 -- J. Shafer et al.’96)
Scalable PaRallelizable INndution of decision Tree SLIQ nécessite de garder la class-list en mémoire SPRINT Ne nécessite pas de structure résidente en mémoire Version parallèle passant à l'échelle

40 Data Structure (Attribute lists)
Sprint crée une attribute-list pour chaque attribut Une entrée contient: Valeur d'attribute Etiquette de classe Identifiant d'article (rid)

41 Evolution des listes Les listes initiales sont associées à la racine de l'arbre Au fur et à mesure du développement de l'arbre, les listes d'attributs de chaque nœud sont partitionnées et associées aux enfants

42 Data Structure (Histograms)
Attributs continus: deux histogrammes sont associés à chaque nœud : Cbelow: maintient la distribution pour les articles déjà traités Cabove: maintient la distribution pour les articles non traités

43 Data Structure (Histograms)
Pour les attributs nominaux, un seul histogramme matrice de comptage [Valeur d'attribut, Classe]

44 Choix des divisions Pendant la construction de l'arbre, l'objectif à chaque nœud est de déterminer le découpage qui divise au mieux l'ensemble de données de la feuille considérée L'indice Gini est utilisé: Gini(S)=1-pj2 où pj est la fréquence de la classe j dans S Ginisplit(S) = n1/n(S1)+n2/n(S2)

45 Exemple Continu (1) Age Class Tid 17 High 1 20 5 23 32 Low 4 43 2 68 3
32 Low 4 43 2 68 3 H L Cabove 3 Cbelow 1 2 Cursor Position 3:

46 Exemple Continu (2) Après calcul de tous les indices Gini, le plus petit est retenu Donc, on divise à la position 3 où l'age est le point médian entre 23 et 32 (i.e. Age < 27.5)

47 Exemple Nominal H L Family 2 1 Sports Truck

48 Exécution du partitionnement
Une fois le meilleur point de division trouvé, on exécute la découpe en éclatant le nœud par création des nœuds enfants qui se partage les enregistrements selon le prédicat Pour les autres listes d'attributs, (i.e. CarType), il faut retrouver les informations par jointure sur rid.

49 Comparaison avec SLIQ SPRINT peut être facilement parallélisé
SLIQ ne divise pas les listes d'attributs lors du split Repère le nœud par un pointeur dans la class-list Avantages Pas de recopie des listes d'attributs lors du split Ré-allocation d'articles par déplacement de pointeur Désavantage La liste des références (class-list) de taille le nombre d'articles doit tenir en mémoire SPRINT peut être facilement parallélisé pas de structures partagées en mémoire

50 Bilan De nombreux algorithmes de construction d'arbre de décision
SPRINT passe à l'échelle et traite des attributs nominaux ou continus Autres algorithmes proposés Encore plus rapides ?

51 4. Réseaux Bayésiens Classificateurs statistiques
Basés sur les probabilités conditionnelles Prévision du futur à partir du passé Suppose l'indépendance des attributs

52 Fondements Dérivé du théorème de Bayes
permet de calculer une probabilité à postériori P(Ci/X) d’un événement Ci sachant que X s’est produit à partir d'une probabilité à priori P(Ci) de production de l’événement Ci P(Ci/X) = P(X/Ci)*P(Ci) / P(X/Cj)*P (Cj) Plus simplement si E est l'événement: P(E/X) = P(X/E)*P(E)/P(X)

53 Bayésien Naïf Chaque enregistrement est un tuple
X= (x1, x2, …xn) sur R(A1, A2, …An) Il s'agit de classer X parmi m classes C1, …Cm L'événement Ci est l'appartenance à la classe Ci Assignation de la classe la plus probable Celle maximisant P(Ci/X) = P(X/Ci)*P(Ci)/P(X) P(X) est supposé constant (équi-probabilité des tuples) On cherche la classe maximisant : P(X/Ci)*P(Ci) pour i= 1 à m On calcule la probabilité de chaque classe étant donné le tuple X On retient la classe la plus probable

54 Calcul de P(X/Ci) P(Ci) est déduite de l'échantillon :
Comptage "training set" = Taille(Ci)/ Taille(Ech) P(X/Ci) est approchée comme suit : Indépendance des attributs  P(X/Ci) = k P(xk/Ci) P(xk/Ci) est estimé comme suit: variable nominale = Taille(t=xk de Ci)/Taille(Ci) distribution gaussienne si variable continue P(xk/Ci) est la probabilité d'avoir une valeur donnée xk pour un attribut d'un tuple dans la classe Ci ; Calculée sur le training set

55 Exemple de problème Faut-il effectuer un contrôle fiscal ?
Échantillon de contrôlés Faut-il contrôler un nouvel arrivant ?

56 Les classes nominales Sal<=30 Sal 31..50 Sal>50 2 1 2
impôts<20% impôts>=20% 1 4 Etudiant Non Etudiant 3 2 Positif Négatif 2 3

57 Calcul de Probabilités
Il s'agit de choisir Ci maximisant P(Ci/X) : P(Positif/X) = P(X/Positif)P(Positif)/P(X) P(Négatif/X) = P(X/Négatif)P(Négatif)/P(X) P(X) est supposé constant Donc, choisir le plus grand de {P(X/Positif)P(Positif), P(X/Négatif)P(Négatif)} P(X/Positif) = k P(Xk/Positif) =P(sal30..50/Positif)* P(impots<20%/Positif)*P(Etudiant/Positif) = 2/3*1*1/3=2/9; P(Positif) = 3/5  Produit = 0.13 P(X/Négatif) = k P(Xk/Négatif) =P(sal30..50/Négatif)* P(impots<20%/Négatif)*P(Etudiant/Négatif) = 1/2*1/2*1/2=1/8; P(Négatif) = 2/5  Produit = 0.05 On effectuera donc un contrôle !

58 Réseau Bayésien Nœuds = Variables aléatoires Structure
Graphe direct acyclique de dépendance X Y signifie que X est un parent de Y XY signifie que X est un descendant de Y Les variables non liées sont indépendantes Classes à déterminer Nœuds singuliers du réseau Probabilités connues à priori et conditionnelles (arcs)

59 Calculs L'instanciation des variables non classes permet de calculer la probabilité des classes Application des calculs classiques de probabilité et du théorème de bayes Apprentissage à partir d'une base d'échantillons Peut être complexe si structure inconnue

60 Exemple complet Sal<=30 Sal 31..50 Sal>50 2 1 2 impôts<20%
4 Etudiant Non Etudiant 3 2 Positif Négatif 2 3

61 Structure de connaissance
Sal<=30 Sal Sal>50 2 2 1 impôts<20% impôts>=20% 1 4 Etudiant Non Etudiant 2 3 Positif Négatif 2 3

62 Autre exemple Classification de pannes d'ordinateurs
Couleur de voyant (Rouge, Vert) Équipement défaillant (UC,MC,PE) Envoie d'un dépanneur selon la classe Calcul de probabilités sur le training set

63 Exemple de réseau Rouge Voyant Panne Dépanneur Pierre ? Paul UC PE MC
0.32 0.68 Voyant Rouge Vert 0.44 0.09 0.44 0.09 0.82 0.12 UC Panne MC PE 0.30 0.50 0.40 0.60 0.50 0.70 Dépanneur Pierre Paul ?

64 Intérêt Permet d'inférer les probabilités dans le réseau Problèmes
méthode d ’inférence du futur à partir du passé les événements Xi doivent être indépendants méthode assez peu appliquée en Data Mining Problèmes Comment choisir la structure du réseau ? Comment limiter le temps de calcul ?

65 Bilan Apprentissage Baysien naïf Réseaux baysiens
si structure connue = calculs de proba. si inconnue = difficile à inférer Baysien naïf suppose l'indépendance des variables Réseaux baysiens permettent certaines dépendances nécessitent des tables d'apprentissage réduites

66 5. Réseaux de neurones Tentative de reproduction des structures du cerveau afin de raisonner Ensemble d'unités transformant des entrées en sorties (neurones) connectées, où chaque connexion à un poids associé La phase d'apprentissage permet d'ajuster les poids pour produire la bonne sortie (la classe en classification)

67 Analogie avec le cerveau
Le cerveau humain contient environ 100 milliards de neurones, et chacun est connecté à environ autres Un neurone reçoit des impulsions électriques de ses voisins via les dendrites. Si la somme des signaux dépasse un certain seuil, il se produit une décharge électrique de type tout ou rien appelée potentiel d’action. Le potentiel d’action se propage le long de l’axone, qui se ramifie en une multitude de dendrites. La terminaison d’une dendrite est une petite usine de production chimique. Elle diffuse des neurotransmetteurs chimiques dans un espace appelé synapse, qui rejoint un autre neurone. Le cerveau humain contient environ 100 milliards de neurones, et chacun est connecté à environ autres neurones. On voit ainsi sa complexité étonnante. Un neurone reçoit des impulsions électriques de ses voisins à travers une membrane via les dendrites. Si la somme des signaux dépasse un certain seuil, il se produit une décharge électrique de type tout ou rien appelée potentiel d’action. Le potentiel d’action se propage le long de l’axone, corps assez long qui se ramifie en une multitude de dendrites. La terminaison d’une dendrite est une petite usine de production chimique. Elle diffuse des neurotransmetteurs chimiques dans un espace appelé synapse, qui rejoint un autre neurone.

68 Modélisation du neurone

69 Plus précisément … Induit une valeur en sortie à partir d'un ensemble de valeurs en entrée Les liens sont pondérés par des poids Réalise une combinaison linéaire des entrées suivie d’une fonction de transfert (fonction à seuil) Fonction Sigma (wi Ei) Biais optionnel b Fonction Sigmoïde f() = 1/(1+e- ) Entrée En wn wi Entrée Ei wi Ei +b f Sortie w1 Entrée E1 36

70 Combinaison/Activation
Entrée 1 0,5 Combinaison Activation 0,75 0,1 Entrée 2 Entrée 3 0,9 Phase de combinaison : combine les entrées et produit une valeur en sortie Phase d’activation : prend en entrée la sortie de la fonction de combinaison et déduit la valeur de sortie Les liens sont pondérés par des poids. Explication des deux phases.

71 . Combinaison Fonctions de combinaison : Produit scalaire
Entrée 1 0,5 Combinaison 0,75 0,1 Entrée 2 Entrée 3 0,9 Fonctions de combinaison : Produit scalaire Norme euclidienne minimum, maximum, majorité … Les réseaux de type MLP (Multi-Layer Perceptron) calculent une combinaison linéaire des entrées : la fonction de combinaison renvoie le produit scalaire entre le vecteur des entrées et le vecteur des poids synaptiques. Cette fonction est aussi appelée fonction de somme des poids. Les réseaux de type RBF (Radial Basis Function) calculent la distance entre les entrées : la fonction de combinaison renvoie la norme euclidienne du vecteur issu de la différence vectorielle entre les vecteurs d’entrées. Ils existent cependant d’autres fonctions de combinaison : minimum, maximum, majorité … SQL Server Fonction de combinaison : somme des poids (weighted somme) E1 E2 E3 . 0,5 0,1 0,9 E1 E2 E3

72 Activation Trois intervalles : en dessous du seuil : neurone non actif
aux alentours du seuil : phase de transition au dessus du seuil : neurone actif La fonction d’activation sert à introduire une non-linéarité dans le fonctionnement du neurone. Trois intervalles en résultat. Différentes fonctions : des fonctions de seuil : y = 0 si x<0 et y=1 si x>0 des fonctions linéaires par parties : y = -1 ou +1 au delà des bornes, y = A*x sinon Il existe cependant des fonctions plus « fines » Fonction sigmoïde

73 Organisation en réseau
Réseau multi-couches totalement connecté Entrées, Calculs (cachés), Sorties E1 E2 E3 E4 S1 S2 S3

74 Topologie Choix du nombre de couches
entrées, 1 ou 2 couches cachées, sorties Choix du nombre de neurones par couche dépend des entrées et sorties couches cachées intermédiaires Normalisation des variables d'entrées Variable continue centrée réduite [-1,+1] Variable discrète codée ou valeurs attribuées aux entrées Sorties booléenne codant les classes

75 Perceptron multicouche
Entrées Couches cachées Sorties Composé de couches Il existe plusieurs modèles de réseaux possible (liens vers la sortie, liens vers l’arrière, etc.) A chaque synapse est associé un poids Fonctionne par propagation des valeurs de l’entrée vers la sortie Apprentissage = trouver la bonne valeur des poids -- Transition vers normalisation – SQL Server: 1 couche cachée dans SQL Server, Une version sans couche cachée pour régression linéaire ou logistique, Nombre de nœuds cachés: N = C * sqrt(m*n) m = nombre de nœuds en sortie n = nombre de nœuds en entrés C = 4 par défaut

76 Apprentissage Découverte de modèles complexes avec affinage progressif
Le réseau s'adapte lors de la phase d ’apprentissage Plusieurs algorithmes possibles le plus utilisé = rétropropagation modification des poids wi par rétropropagation

77 Principe Off-Line ou Batch : après tous les exemples
On-Line ou Stochastique : après chaque exemple Jusqu’à condition d’arrêt La phase d’apprentissage est l’une des étapes les plus importantes dans la création d’un réseau de neurones. Cette phase consiste à construire des prédicateurs à partir d’exemples. Il existe deux sortes d’apprentissage : l'apprentissage « off-line »   ou « batch » : mise à jour des poids après la présentation de tous les exemples (calculs et stockages lourds si trop d’exemples) l'apprentissage « on-line » ou « stochastique » : mise à jour des poids après chaque exemple (pose des problèmes de convergence). Explication du schéma Une des méthodes d’apprentissage les plus utilisées est la méthode de rétro-propagation du gradient mais il en existe également d’autres. SQL Server: Type batch car plus robuste pour les modèles de régression Initialisation de la matrice des poids au hasard Pour chaque exemple calculer la sortie avec les poids actuels du réseau Calcul des erreurs de sortie et application de l’algorithme de mis à Jour des poids

78 Rétropropagation Initialiser les poids et les biais
tirage aléatoire sur [-1,+1] Propager les entrées en avant Un exemple est appliqué aux entrées Le réseau calcul les sorties Propager les erreurs en arrière Sortie devant délivrer T: Err = O(1-O)(T-O) Cellule cachée : Err = O(1-O) k wk*Errk Corriger poids et biais de sorte à réduire les erreurs Dwij = l*Errj*Oi ; Dbj = l*Errj

79 Forces et Faiblesses Permet d'approcher toute sorte de fonction
Coûteux en apprentissage calculs complexes possibilité d'élaguer le réseau en connexions peu applicable sur de larges BD Effet boite noire comportement difficile à expliquer Autres applications possibles prédiction, décodage, reconnaissance de formes, etc.

80 6. Bilan Classification Y-a-t-il une technique dominante ?
De nombreuses techniques dérivées de l'IA et des statistiques Autres techniques règles associatives, raisonnement par cas, ensembles flous, … Problème de passage à l’échelle arbre de décisions, réseaux Tester plusieurs techniques pour résoudre un problème Y-a-t-il une technique dominante ?


Télécharger ppt "Classification Introduction k-NN Arbres de décision Réseaux baysiens"

Présentations similaires


Annonces Google