La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Thèse de doctorat Présentée par Nathalie Girard 5/07/2013 Sous la supervision de : Karell Bertet Muriel Visani.

Présentations similaires


Présentation au sujet: "Thèse de doctorat Présentée par Nathalie Girard 5/07/2013 Sous la supervision de : Karell Bertet Muriel Visani."— Transcription de la présentation:

1 Thèse de doctorat Présentée par Nathalie Girard 5/07/2013 Sous la supervision de : Karell Bertet Muriel Visani

2 Contexte La recherche dimages : Procédé populaire : Google, Flickr, … Recherche par mots clés, par similarités La classification dimages : Classement dimages dans des groupes dimages similaires 2

3 Contexte Comment définir les groupes ? Par apprentissage dexemples : Sans classe prédéfinie classification non supervisée Avec classes prédéfinies classification supervisée 3 Ours Paysage La Rochelle

4 La classification supervisée dimages 4 Image requête Images étiquetées Classe pour limage requête K O I.1 …I.z …I.Z o1o1 v 11 v 1z v 1Z ko1ko1 ……… onon v n1 …v nz …v nZ konkon ……… oNoN v N1 v Nz v NZ koNkoN Modèle de classification v R1 …v Rz …v RZ ? Extraction de signatures Construction v R1 …v Rz …v RZ k

5 Notre objectif principal 5 Construire un modèle de classification hybride entre arbre de classification et treillis de Galois Arbre de classificationTreillis de Galois Avantages Faible espace mémoire Construction rapide Traitement de tous types dattributs Robustesse aux données bruitées Multiplicité des chemins vers un même concept terminal Lisibilité (modèles symboliques) Inconvénients Faible robustesse aux données bruitées Unicité du chemin vers une même feuilles Complexité pouvant être exponentielle Traitement des attributs quantitatifs

6 Pour cela … 6 1. Etude des modèles 1. Larbre de classification 2. Le treillis de Galois 2. Liens entre ces modèles 1. Lien en classification 2. Lien dinclusion 3. Treillis dichotomiques & lien de fusion 3. De leurs différences vers le modèle hybride 1. Une discrétisation locale pour les treillis de Galois 2. Une simplification structurelle 4. Conclusions et Perspectives

7 Les arbres de classification - Définition Définis à partir dun ensemble de données : Pouvant contenir tous types de descripteurs Construction potentiellement en deux étapes [Kass80] [Breiman84] [Qinlan93] : 1. La division : De la racine (contenant lensemble des objets) jusquaux feuilles Requiert deux critères : Critère de division (supervisé ou non) : choix de lattribut le plus discriminant Critère darrêt (supervisé ou non) : arrêt de la division pré-élagage 2. Eventuellement, le post-élagage : Suppression de nœuds ou de branches Sélection du meilleur sous-arbre 7

8 Post-élagage Les arbres de classification - Exemple 8 OK Temps I 1 Marée I 2 Saison I 3 o1o1 SoleilHauteEté Surf k 1 o2o2 SoleilHauteEté o3o3 SoleilBassePrintemps Marche k 2 o4o4 SoleilBassePrintemps o5o5 SoleilHautePrintemps Lecture k 3 o6o6 CouvertBassePrintemps o7o7 CouvertHauteAutomne Hockey k 4 o8o8 CouvertBasseAutomne Division

9 Les arbres de classification - Utilisation Utilisation en classification supervisée : Extraction dun système de règles [Quinlan90] Parcours de la structure [Breiman84][Quinlan93] 9 o R = (C,B,A) Classe = ? Classe = k 4

10 Les arbres de classification ChAID [Kass80]CART [Breiman84]C4.5 [Quinlan93] Division ² Indice de GiniGain ratio AritéM-airesBinaireM-aires Arrêt Abs division pertinente #objets/nœud Abs division pertinente #objets/nœud Post-élagagePas de post-élagage Mesure coût-complexité Base de validation (MCC) Mesure derreur par resubstitution (EBP) Avantages Gestion de grande BD Inconvénients Arbre profond Nécessite une base de validation Arbre large 10

11 Pour cela … Etude des modèles 1. Larbre de classification 2. Le treillis de Galois 2. Liens entre ces modèles 1. Lien en classification 2. Lien dinclusion 3. Treillis dichotomiques & lien de fusion 3. De leurs différences vers le modèle hybride 1. Une discrétisation locale pour les treillis de Galois 2. Une simplification structurelle 4. Conclusions et Perspectives

12 Les treillis de Galois - Définition [Barbut70] [Ganter99] 12 K SCBHEPA O o1o1 X XX k1k1 o2o2 XXX o3o3 XXX k2k2 o4o4 XXX o5o5 XXX k3k3 o6o6 XXX o7o7 XXX k4k4 o8o8 XXX O I1I1 I2I2 I3I3 K o1o1 SHE k1k1 o2o2 SHE o3o3 SBP k2k2 o4o4 SBP o5o5 CBP k3k3 o6o6 CBP o7o7 CBA k4k4 o8o8 CHA

13 Les treillis de Galois - Définition [Barbut70] [Ganter99] 13

14 Les treillis de Galois - éléments remarquables 14 T = Top = Max = Bot = Min Ensemble des majorants Ensemble des minorants Co-atomes = éléments couvrant le top

15 [Birkhoff67] 15 Irréductible = élément qui est ni borne inférieure ni borne supérieure Les treillis de Galois - éléments remarquables

16 Les treillis de Galois - Utilisation Sélection de concepts : GRAND, RULEARNER, … [Oosthuizen88], [Sahami95], [Mephu-Nguifo05],… Parcours de la structure : NAVIGALA : NAVIgation into GAlois LAttice [Guillas07] Reconnaissance de symboles Apprentissage : Extraction de signatures Transformation des attributs quantitatifs : discrétisation globale Table de données binaires Classification : Navigation dans le diagramme de Hasse Etiquetage des concepts terminaux Génération à la demande 16

17 Classe pour limage requête 0,5115 k1k1 0,5115 ? Extraction de signatures Construction du treillis Les treillis de Galois - Utilisation 17 [Guillas07] O V.1 V.2 V.3 K o1o k1k1 o2o o3o k2k2 o4o o5o k3k3 o6o O I.1 I.2 I.3 K o1o1 [0-4,5][0,8][15-18] k1k1 o2o2 [0-4,5][0,8][15-18] o3o3 [0-4,5]]8-20][15-18] k2k2 o4o4 [0-4,5]]8-20][15-18] o5o5 ]4,5-15]]8-20][15-18] k3k3 o6o6 ]4,5-15]]8-20][15-18] Discrétisation

18 Pour cela … Etude des modèles 1. Larbre de classification 2. Le treillis de Galois 2. Liens entre ces modèles 1. Lien en classification 2. Lien dinclusion 3. Treillis dichotomique & lien de fusion 3. De leurs différences vers le modèle hybride 1. Une discrétisation locale pour les treillis de Galois 2. Une simplification structurelle 4. Conclusions et Perspectives

19 Liens en classification Classification par navigation dans les structures 19 ModèlesParcoursArc = testClassement Arbre de classification Racine feuille un attributClasse de la feuille Treillis de Galois Min concept terminal un ou plusieurs attributs Classe du concept terminal

20 Liens en classification 20 La navigation dans le treillis généralise la navigation dans les arbres

21 Pour cela … Etude des modèles 1. Larbre de classification 2. Le treillis de Galois 2. Liens entre ces modèles 1. Lien en classification 2. Lien dinclusion 3. Treillis dichotomiques & lien de fusion 3. De leurs différences vers le modèle hybride 1. Une discrétisation locale pour les treillis de Galois 2. Une simplification structurelle 4. Conclusions et Perspectives

22 Liens structurels Deux liens structurels forts : 1. Lien dinclusion => cas général 2. Lien de fusion => cas des treillis dichotomiques [Guillas08a] [Guillas08b] 22

23 Lien dinclusion Tout arbre de classification est inclus dans le treillis de Galois, lorsque ces structures sont construites à partir des mêmes attributs qualitatifs. 23 [Guillas08a] [Guillas08b]

24 Pour cela … Etude des modèles 1. Larbre de classification 2. Le treillis de Galois 2. Liens entre ces modèles 1. Lien en classification 2. Lien dinclusion 3. Treillis dichotomiques & lien de fusion 3. De leurs différences vers le modèle hybride 1. Une discrétisation locale pour les treillis de Galois 2. Une simplification structurelle 4. Conclusions et Perspectives

25 Les treillis dichotomiques – Contribution Lien de fusion => cas des treillis dichotomiques : Un treillis est dichotomique lorsquil est défini pour un contexte où pour tout attribut, il existe un ou des attributs complémentaires pour lensemble des objets. [Bertet09], [Girard11a], [Girard11b], [Girard13] 25

26 AttributSCBHEPA Complémentaire{C}{S}{H}{B}{P},{A}{S,H},{A}{S,H},{P} [Bertet09], [Girard11a], [Girard11b], [Girard13] 26 SCBHPA O o1o1 XX o2o2 XX o3o3 XXX o4o4 XXX o5o5 XXX o6o6 XXX o7o7 XXX o8o8 XXX Les treillis dichotomiques – Contribution

27 Les treillis dichotomiques - Contribution [Bertet09], [Girard11a], [Girard11b], [Girard13] 27

28 Lien de fusion [Guillas08a] [Guillas08b] 28

29 Conclusions liens Deux méthodes de classification proches En fonctionnement (par navigation) En structure (fusion/inclusion) 29 Description des images => signatures quantitatives Comment les traiter au mieux ? Arbre de classificationTreillis de Galois Avantages Faible espace mémoire Construction rapide Traitement de tous types dattributs Robustesse aux données bruitées Multiplicité des chemins vers un même concept terminal Lisibilité (modèles symboliques) Inconvénients Faible robustesse aux données bruitées Unicité du chemin vers une même feuilles Complexité pouvant être exponentielle Traitement des attributs quantitatifs

30 Pour cela … Etude des modèles 1. Larbre de classification 2. Le treillis de Galois 2. Liens et différences entre ces modèles 1. Lien en classification 2. Lien dinclusion 3. Treillis dichotomique & lien de fusion 3. De leurs différences vers le modèle hybride 1. Une discrétisation locale pour les treillis de Galois 2. Une simplification structurelle 4. Conclusions et Perspectives

31 Différences Le traitement des données quantitatives : Cadre supervisé : Transformation la plus efficace : la discrétisation supervisée Arbre de classification : tous types dattributs Discrétisation locale/globale Treillis de Galois : une table binaire Discrétisation globale des données quantitatives [Dougherty95], [Quinlan96] 31 O V.1 V.2 V.3 K o1o k1k1 o2o o3o k2k2 o4o o5o k3k3 o6o o7o k4k4 o8o O I.1 I.2 I.3 K o1o1 [0-4,5][0,8][15-18] k1k1 o2o2 [0-4,5][0,8][15-18] o3o3 [0-4,5]]8-20][15-18] k2k2 o4o4 [0-4,5]]8-20][15-18] o5o5 ]4,5-16,5]]8-20][15-18] k3k3 o6o6 ]4,5-16,5]]8-20][15-18] o7o7 ]16,5-20][0,8][15-18] k4k4 o8o8 ]16,5-20]]8-20][15-18]

32 Différences Discrétisation globale : en prétraitement suppression des attributs non discrétisés prise en compte de tous les objets à chaque étape Discrétisation locale : en cours de construction meilleure prise en compte des interactions entre attributs, meilleure précision du modèle, prise en compte de sous-ensembles dobjets à chaque étape : Arbres de classification => discrétisation par nœud, indépendante dune branche à lautre 32 [Dougherty95], [Quinlan96]

33 Discrétisation locale pour les TG - Contribution [Guillas08b], [Girard13] 33 Peut-on définir une discrétisation locale pour les treillis ? En identifiant les concepts terminaux : Propriété 3 : Tout treillis de Galois défini à partir dune table de données discrétisées, est un treillis dichotomique. Utilisation des propriétés des treillis dichotomiques Co-atomes = concepts terminaux (feuilles) Co-atomes calculables sans générer le TG entier

34 34 Sélection de I 1, discrétisation au point de coupe 4,5 : I 11 = [0-4,5] I 12 = ]4,5-20] Calcul des co-atomes Sélection attribut discriminant et point de coupe Binarisation Mise à jour de la table o 1 o 2 o 3 o 4 I 11 I 2 I 3 o 5 o 6 o 7 o 8 I 12 I 2 I 3 Sélection de I 2, discrétisation au point de coupe 8 : I 21 = [0-8] I 22 = ]8-20] Choix parmi 2 o 1 o 2 I 11 I 21 I 3 o 5 o 6 o 8 I 12 I 22 I 3 o 3 o 4 I 11 I 22 I 3 o 7 I 12 I 21 I 3 Sélection de I 12, discrétisation au point de coupe 16,5 I 12 =]4,5-16,5] I 13 = ]16,5-20] Tous les co-atomes sont purs Fin de la discrétisation o 5 o 6 I 12 I 22 I 3 o 8 I 13 I 22 I 3 o 7 I 13 I 21 I 3 Discrétisation locale pour les TG - Contribution [Girard09], [Girard11a], [Girard11b], [Girard13]

35 Comment choisir le meilleur attribut à chaque étape ? Adaptation du calcul du meilleur attribut à la structure du TG 1. Calcul du meilleur attribut pour chaque co-atome Ensemble de meilleurs attributs 2. Sélection dun des meilleurs dans cet ensemble : Calcul local : Comparaison des gains par co-atome Calcul linéaire local : Comparaison selon un gain linéaire [Girard11a], [Girard11b], [Girard13] 35 Discrétisation locale pour les TG - Contribution

36 36 Exemple : il faut séparer o 1 de o 2 et o 3 de o 4,o 5 : o 3 o 4 o 5 I 11 I 22 I 3 o 1 o 2 I 11 I 21 I 3 Concept 1 Concept 2 [Girard11a], [Girard11b], [Girard13] Discrétisation locale pour les TG - Contribution Calcul local : max des gains I 21 est choisi pour séparer o 1 de o 2 => il faut refaire une étape de discrétisation pour séparer o 3 de o 4,o 5 Calcul linéaire local : somme pondérée des gains maximaux I 11 est choisi, o 1 est séparé de o 2 et o 3 est séparé o 4,o 5 => une unique étape est nécessaire

37 Discrétisation locale pour les TG - Validation Validation de lapproche Expérimentations Les bases Le meilleur critère de division La complexité structurelle La complexité algorithmique Les perfo rmances en classification [Girard11a], [Girard11b], [Girard13] 37

38 38 Expérimentations Différentes bases de données quantitatives : Images : GREC struc., GREC Radon, Image 1 Bases usuelles en classification : Glass, Iris, Breast Cancer #Objets#Attributs#Classes% BA%BTVC Image %90% GLASS %10%10 IRIS %10%10 Breast Cancer %10%10 GREC struc %90% GREC Radon %90%10 [Girard11a], [Girard11b], [Girard13] Discrétisation locale pour les TG - Validation

39 39 Choix du meilleur critère de division [Girard11a], [Girard11b], [Girard13] Discrétisation locale pour les TG - Validation

40 40 Complexité structurelle [Girard11a], [Girard11b], [Girard13] Discrétisation locale pour les TG - Validation

41 41 Complexité algorithmique Discrétisation locale pour les TG - Validation [Girard11a], [Girard11b], [Girard13]

42 42 Performances en classification Discrétisation locale pour les TG - Validation [Girard11a], [Girard11b], [Girard13]

43 Discrétisation locale pour les TG - Conclusions Comme pour les arbres de classification Discrétisation locale => souvent meilleures performances en classification De plus : Discrétisation locale => Diminution de la complexité structurelle Possibilité de génération à la demande du treillis La structure est toujours plus complexe que larbre 43 [Girard11a], [Girard11b], [Girard13]

44 Pour cela … Etude des modèles 1. Larbre de classification 2. Le treillis de Galois 2. Liens et différences entre ces modèles 1. Lien en classification 2. Lien dinclusion 3. Treillis dichotomique & lien de fusion 3. De leurs différences vers le modèle hybride 1. Une discrétisation locale pour les treillis de Galois 2. Une simplification structurelle 4. Conclusions et Perspectives

45 Simplification de la structure - Contribution Simplifications existantes – comparatifs 45 Arbre de classificationTreillis de Galois Objectif1.Le sur-apprentissage 2.La complexité structurelle (exponentielle pires cas) Mise en œuvre Parcours des nœuds/branches Evaluation contribution en classification Sélection du meilleur sous- arbre Calcul dindices par concepts Suppression de concepts selon un seuil Proposition Guider le choix dun seuil optimal pour : 1. Améliorer/conserver les performances en classification 2. Diminuer la complexité structurelle

46 Simplification de la structure 46

47 Simplification de la structure Exemple Calcul à partir du diagramme de Hasse Ex : Simplification pour un seuil de 0,36 => structure hybride [Roth06], [Kuznetsov07b], [Roth08] 47 Performances dépendantes du seuil choisi

48 Proposition Comment choisir le seuil ? Inspiration de lélagage des arbres Guider le choix du seuil par les performances en classification Définition dun seuil optimal : Parcours des seuils existants Simplification incrémentale Test de performance Taux de reconnaissance en resubstitution Choix de la structure offrant les meilleurs résultats Meilleur taux de reconnaissance … Et taille de structure la plus petite [Roth06], [Kuznetsov07b], [Roth08] 48 Simplification de la structure - Contribution

49 Simplification de la structure Nombre de concepts Taux de reconnaissance BT (%) Treillis non simplifié Modèle hybride Différence Treillis non simplifié Modèle hybride Image %91,7190,95 Glass %71,0971,83 IRIS %95,33 Breast Cancer %94,4395,01 GREC struc %73,6872,96 GREC Radon %90,6990,73 49 Expérimentations

50 Pour cela … Etude des modèles 1. Larbre de classification 2. Le treillis de Galois 2. Liens entre ces modèles 1. Lien en classification 2. Lien dinclusion 3. Treillis dichotomique & lien de fusion 3. De leurs différences vers le modèle hybride 1. Une discrétisation locale pour les treillis de Galois 2. Une simplification structurelle 4. Conclusions et Perspectives

51 Conclusions 51 modèle hybride

52 Perspectives 52

53 Développement Logiciel Un logiciel disponible Regroupant La discrétisation (#critères) Globale Locale Locale linéaire La simplification Indice de stabilité La classification Par navigation 53

54 Bibliographie 54 Arbres de classification [Kass80], [Breiman84], [Quinlan90], [Quinlan93], [Dougherty95], [Quinlan96], … Arbres de classification [Kass80], [Breiman84], [Quinlan90], [Quinlan93], [Dougherty95], [Quinlan96], … Treillis de Galois [Birkhoff67], [Barbut70], [Oosthuizen88], [Kuznetsv90], [Sahami95], [Brin97], [Ganter99], [Kuznetsv03], [Mephu-Nguifo05], [Kuznetsv07a], [Kuznetsv07b], [Roth06], [Roth08], … Treillis de Galois [Birkhoff67], [Barbut70], [Oosthuizen88], [Kuznetsv90], [Sahami95], [Brin97], [Ganter99], [Kuznetsv03], [Mephu-Nguifo05], [Kuznetsv07a], [Kuznetsv07b], [Roth06], [Roth08], … Notre modèle [Guillas07], [Guillas08a], [Visani11], CLA 2008 : [Guillas08b], SFC09: [Girard09], CLA 2011 : [Girard11a], ICTAI 2011 : [Girard11b], TS : [Bertet09], IJCSAI : [Girard13] Notre modèle [Guillas07], [Guillas08a], [Visani11], CLA 2008 : [Guillas08b], SFC09: [Girard09], CLA 2011 : [Girard11a], ICTAI 2011 : [Girard11b], TS : [Bertet09], IJCSAI : [Girard13]

55 55

56 56

57 57

58 La classification supervisée [Bayes63], [Vapnik63], [McCulloch88][Kass80],[Breiman84][Quinlan93], [Oosthuizen88], [Sahami95], [Ganter97],[Mephu-Nguifo05],[Guillas07] 58 Modèles ComplexitéRésultatsAttributs Paramétrage Lisibilité Performances Robustesse Quantitatifs Qualitatifs Bayes [Bayes63] +-+ SVM [Vapnik63] Réseaux de neurones--+++ Arbres de décision Treillis de Galois ProbabilisteStatistiquesSymboliques

59 Les treillis dichotomiques 59

60 Critère de division 60

61 Simplification de la structure [Brin97],[Kuznetsov90], [Kuznetsov03], [Kuznetsov07] 61

62 Perspectives Améliorations de Navigala2012 : Prise en compte dattributs de tous types Ajout de nouveaux critères De division Délagage 62


Télécharger ppt "Thèse de doctorat Présentée par Nathalie Girard 5/07/2013 Sous la supervision de : Karell Bertet Muriel Visani."

Présentations similaires


Annonces Google