La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Thèse de doctorat Présentée par Nathalie Girard 5/07/2013

Présentations similaires


Présentation au sujet: "Thèse de doctorat Présentée par Nathalie Girard 5/07/2013"— Transcription de la présentation:

1 Thèse de doctorat Présentée par Nathalie Girard 5/07/2013
Vers une approche hybride mêlant arbre de classification et treillis de Galois pour de l’indexation d’images Monsieur le président, Mesdames, Messieurs membres du jury, je vais vous présenter les travaux réalisés au cours des cette thèse qui s’intitule « Vers un modèle hybride mêlant arbre de CLASSIFICATION et treillis de Galois pour de l’INDEXATION d’images ». Cette thèse a été réalisée au sein du L3I SOUS LA SUPERVISION de Karell Bertet et Muriel Visani Thèse de doctorat Présentée par Nathalie Girard 5/07/2013 Sous la supervision de : Karell Bertet Muriel Visani

2 Contexte La recherche d’images : La classification d’images :
Procédé populaire : Google, Flickr, … Recherche par mots clés, par similarités La classification d’images : Classement d’images dans des groupes d’images similaires Le CONTEXTE GENERAL dans LE CADRE de la CLASSIFICATION d’images; Supposons par ex que vous ne RECONNAISSIEZ pas le contenu utiliser un MOTEUR DE RECHERCHE renvoyer un LOT d’IMAGE SIMILAIRES. POUR FAIRE CELA, LE MOTEUR DE RECHERCHE UTILISE UN MODELE DE CLASSIFICATION DONT LE PRINCIPE EST DE REGROUPER AUTOMATIQUEMENT DES IMAGES SIMILAIRES comme nous pourrions le faire manuellement avec ce lot d’images

3 Contexte Comment définir les groupes ? Par apprentissage d’exemples :
Sans classe prédéfinie  classification non supervisée Avec classes prédéfinies  classification supervisée Paysage Ours La Rochelle

4 La classification supervisée d’images
Apprentissage Classification Image requête Images étiquetées Modèle de classification vR1 vRz vRZ ? Extraction de signatures Construction Signature = description invariante et unique de chaque images K O I.1 I.z I.Z o1 v11 v1z v1Z ko1 on vn1 vnz vnZ kon oN vN1 vNz vNZ koN Classe pour l’image requête vR1 vRz vRZ k

5 Notre objectif principal
Construire un modèle de classification hybride entre arbre de classification et treillis de Galois Arbre de classification Treillis de Galois Avantages Faible espace mémoire Construction rapide Traitement de tous types d’attributs Robustesse aux données bruitées Multiplicité des chemins vers un même concept terminal Lisibilité (modèles symboliques) Inconvénients Faible robustesse aux données bruitées Unicité du chemin vers une même feuilles Complexité pouvant être exponentielle Traitement des attributs quantitatifs

6 Pour cela … Etude des modèles Liens entre ces modèles
L’arbre de classification Le treillis de Galois Liens entre ces modèles Lien en classification Lien d’inclusion Treillis dichotomiques & lien de fusion De leurs différences vers le modèle hybride Une discrétisation locale pour les treillis de Galois Une simplification structurelle Conclusions et Perspectives

7 Les arbres de classification - Définition
Définis à partir d’un ensemble de données : Pouvant contenir tous types de descripteurs Construction potentiellement en deux étapes [Kass80] [Breiman84] [Qinlan93] : La division : De la racine (contenant l’ensemble des objets) jusqu’aux feuilles Requiert deux critères : Critère de division (supervisé ou non) : choix de l’attribut le plus discriminant Critère d’arrêt (supervisé ou non) : arrêt de la division  pré-élagage Eventuellement, le post-élagage : Suppression de nœuds ou de branches Sélection du meilleur sous-arbre

8 Les arbres de classification - Exemple
K Temps I1 Marée I2 Saison I3 o1 Soleil Haute Eté Surf k1 o2 o3 Basse Printemps Marche k2 o4 o5 Lecture k3 o6 Couvert o7 Automne Hockey k4 o8 Division Post-élagage

9 Les arbres de classification - Utilisation
Utilisation en classification supervisée : Extraction d’un système de règles [Quinlan90] Parcours de la structure [Breiman84][Quinlan93] oR = (C,B,A) Classe = k4 Classe = ?

10 Les arbres de classification
ChAID [Kass80] CART [Breiman84] C4.5 [Quinlan93] Division ² Indice de Gini Gain ratio Arité M-aires Binaire Arrêt Abs division pertinente #objets/nœud Post-élagage Pas de post-élagage Mesure coût-complexité Base de validation (MCC) Mesure d’erreur par resubstitution (EBP) Avantages Gestion de grande BD Inconvénients Arbre profond Nécessite une base de validation Arbre large

11 Pour cela … Etude des modèles Liens entre ces modèles
L’arbre de classification Le treillis de Galois Liens entre ces modèles Lien en classification Lien d’inclusion Treillis dichotomiques & lien de fusion De leurs différences vers le modèle hybride Une discrétisation locale pour les treillis de Galois Une simplification structurelle Conclusions et Perspectives

12 Les treillis de Galois - Définition
K S C B H E P A O o1 X X k1 o2 o3 k2 o4 o5 k3 o6 o7 k4 o8 O I1 I2 I3 K o1 S H E k1 o2 o3 B P k2 o4 o5 C k3 o6 o7 A k4 o8 Les opérateurs de fermeture permettent de définir des rectangles maximaux dans le contexte Ces rectangles maximaux correspondent aux nœuds du treillis qui sont appelés concepts [Barbut70] [Ganter99]

13 Les treillis de Galois - Définition
Un treillis c’est donc un ensemble de concepts ordonnés par une relation d’ordre L’ensemble des concepts est DEFINI DE MANIÈRE UNIQUE à partir d’un contexte formel Les concept sont donc des couple (A,B) relié par la correspondance de Galois Dans la suite nous aurons besoin de LABELISER les ARCS avec la différence ensembliste sur les attributs [Barbut70] [Ganter99]

14 Les treillis de Galois - éléments remarquables
 = Bot = Min Ensemble des minorants La propriété de treillis se caractérise par l’existence d’éléments particuliers DE + POUR 2 CONEPTS IL EXISTE TOUJOURS une BORNE INF et une BORNE SUP, la borne inf correspond….. Ensemble des majorants Co-atomes = éléments couvrant le top T = Top = Max

15 Les treillis de Galois - éléments remarquables
Irréductible = élément qui est ni borne inférieure ni borne supérieure Les REDUCTIBLES sont les éléments bornes inférieur et supérieurs, qui peuvent s’obtenir via les OPERATEURS inf et sup, dans la suite on va exploiter les PROPRIETES DES ELEMENTS IRREDUCTIBLES A chaque inf-irréductible est le plus grand concept contenant un ou plusieurs objets [Birkhoff67]

16 Les treillis de Galois - Utilisation
Sélection de concepts : GRAND, RULEARNER, … [Oosthuizen88], [Sahami95], [Mephu-Nguifo05],… Parcours de la structure : NAVIGALA : NAVIgation into GAlois LAttice [Guillas07] Reconnaissance de symboles Apprentissage : Extraction de signatures Transformation des attributs quantitatifs : discrétisation globale Table de données binaires Classification : Navigation dans le diagramme de Hasse Etiquetage des concepts terminaux Génération à la demande Méthode de NAVIGATION STANDARD en RECHERCHE d’INFORMATION, en CLASSIFICATION SUPERVISEE, la seule méthode à notre connaissance est NAVIGALA

17 Les treillis de Galois - Utilisation
Apprentissage Classification Construction du treillis 0,5 1 15 ? Extraction de signatures O V.1 V.2 V.3 K o1 1 4 15 k1 o2 18 o3 12 16 k2 o4 3 17 o5 k3 o6 6 20 O I.1 I.2 I.3 K o1 [0-4,5] [0,8] [15-18] k1 o2 o3 ]8-20] k2 o4 o5 ]4,5-15] k3 o6 Classe pour l’image requête Discrétisation 0,5 1 15 k1 [Guillas07]

18 Pour cela … Etude des modèles Liens entre ces modèles
L’arbre de classification Le treillis de Galois Liens entre ces modèles Lien en classification Lien d’inclusion Treillis dichotomique & lien de fusion De leurs différences vers le modèle hybride Une discrétisation locale pour les treillis de Galois Une simplification structurelle Conclusions et Perspectives

19 Liens en classification
Classification par navigation dans les structures Modèles Parcours Arc = test Classement Arbre de classification Racine feuille un attribut Classe de la feuille Treillis de Galois Min concept terminal un ou plusieurs attributs Classe du concept terminal

20 Liens en classification
La navigation dans le treillis généralise la navigation dans les arbres

21 Pour cela … Etude des modèles Liens entre ces modèles
L’arbre de classification Le treillis de Galois Liens entre ces modèles Lien en classification Lien d’inclusion Treillis dichotomiques & lien de fusion De leurs différences vers le modèle hybride Une discrétisation locale pour les treillis de Galois Une simplification structurelle Conclusions et Perspectives

22 [Guillas08a] [Guillas08b]
Liens structurels Deux liens structurels forts : Lien d’inclusion => cas général Lien de fusion => cas des treillis dichotomiques Cas général = POUR TOUT les TYPES de treillis [Guillas08a] [Guillas08b]

23 [Guillas08a] [Guillas08b]
Lien d’inclusion Tout arbre de classification est inclus dans le treillis de Galois, lorsque ces structures sont construites à partir des mêmes attributs qualitatifs. [Guillas08a] [Guillas08b]

24 Pour cela … Etude des modèles Liens entre ces modèles
L’arbre de classification Le treillis de Galois Liens entre ces modèles Lien en classification Lien d’inclusion Treillis dichotomiques & lien de fusion De leurs différences vers le modèle hybride Une discrétisation locale pour les treillis de Galois Une simplification structurelle Conclusions et Perspectives

25 Les treillis dichotomiques – Contribution
Lien de fusion => cas des treillis dichotomiques : Un treillis est dichotomique lorsqu’il est défini pour un contexte où pour tout attribut, il existe un ou des attributs complémentaires pour l’ensemble des objets. [Bertet09], [Girard11a], [Girard11b], [Girard13]

26 Les treillis dichotomiques – Contribution
P A O o1 X o2 o3 o4 o5 o6 o7 o8 LA borne sup du CONCEPT contenant S et du concept contenant C ne doit pas contenir d’objet, elle correspond à l’élément maximal du treillis Attribut S C B H E P A Complémentaire {C} {S} {H} {B} {P},{A} {S,H},{A} {S,H},{P} [Bertet09], [Girard11a], [Girard11b], [Girard13]

27 Les treillis dichotomiques - Contribution
[Bertet09], [Girard11a], [Girard11b], [Girard13]

28 [Guillas08a] [Guillas08b]
Lien de fusion [Guillas08a] [Guillas08b]

29 Arbre de classification Lisibilité (modèles symboliques)
Conclusions liens Deux méthodes de classification proches En fonctionnement (par navigation) En structure (fusion/inclusion) Arbre de classification Treillis de Galois Avantages Faible espace mémoire Construction rapide Traitement de tous types d’attributs Robustesse aux données bruitées Multiplicité des chemins vers un même concept terminal Lisibilité (modèles symboliques) Inconvénients Faible robustesse aux données bruitées Unicité du chemin vers une même feuilles Complexité pouvant être exponentielle Traitement des attributs quantitatifs Description des images => signatures quantitatives Comment les traiter au mieux ?

30 Pour cela … Etude des modèles Liens et différences entre ces modèles
L’arbre de classification Le treillis de Galois Liens et différences entre ces modèles Lien en classification Lien d’inclusion Treillis dichotomique & lien de fusion De leurs différences vers le modèle hybride Une discrétisation locale pour les treillis de Galois Une simplification structurelle Conclusions et Perspectives

31 [Dougherty95], [Quinlan96]
Différences Le traitement des données quantitatives : Cadre supervisé : Transformation la plus efficace : la discrétisation supervisée Arbre de classification : tous types d’attributs  Discrétisation locale/globale Treillis de Galois : une table binaire  Discrétisation globale des données quantitatives les signatures extraites des images sont quantitatives Les modèles symboliques transforment ce type de données en données qualitatives via une discrétisation Cependant les arbres et les treillis ‘n'utilisent pas le même type de discrétisation …. O V.1 V.2 V.3 K o1 1 4 15 k1 o2 18 o3 12 16 k2 o4 3 17 o5 k3 o6 6 20 o7 k4 o8 O I.1 I.2 I.3 K o1 [0-4,5] [0,8] [15-18] k1 o2 o3 ]8-20] k2 o4 o5 ]4,5-16,5] k3 o6 o7 ]16,5-20] k4 o8 [Dougherty95], [Quinlan96]

32 [Dougherty95], [Quinlan96]
Différences Discrétisation globale : en prétraitement suppression des attributs non discrétisés prise en compte de tous les objets à chaque étape Discrétisation locale : en cours de construction meilleure prise en compte des interactions entre attributs, meilleure précision du modèle, prise en compte de sous-ensembles d’objets à chaque étape : Arbres de classification => discrétisation par nœud, indépendante d’une branche à l’autre [Dougherty95], [Quinlan96]

33 Discrétisation locale pour les TG - Contribution
Peut-on définir une discrétisation locale pour les treillis ? En identifiant les concepts terminaux : Propriété 3 : Tout treillis de Galois défini à partir d’une table de données discrétisées, est un treillis dichotomique. Utilisation des propriétés des treillis dichotomiques Co-atomes = concepts terminaux (feuilles) Co-atomes calculables sans générer le TG entier [Guillas08b], [Girard13]

34 Discrétisation locale pour les TG - Contribution
V K V.1 V.2 V.3 o1 1 4 15 k1 o2 18 o3 12 16 k2 o4 3 17 o5 k3 o6 6 20 o7 k4 o8 O K I11 [0-4,5] I12 ]4,5-16,5] I13 ]16,5-20] I21 [0-8] I22 ]8-20] I3 [15-18] o1 X k1 o2 o3 k2 o4 o5 k3 o6 o7 k4 o8 O K I1 [0-20] I2 I3 [15-18] o1 X k1 o2 o3 k2 o4 o5 k3 o6 o7 k4 o8 O K I11 [0-4,5] I12 ]4,5-20] I2 [0-20] I3 [15-18] o1 X k1 o2 o3 k2 o4 o5 k3 o6 o7 k4 o8 O K I11 [0-4,5] I12 ]4,5-20] I21 [0-8] I22 ]8-20] I3 [15-18] o1 X k1 o2 o3 k2 o4 o5 k3 o6 o7 k4 o8 Binarisation Mise à jour de la table La première étape consiste en une binarisation c’est-à-dire à la création d’intervalle couvrant les valeur observée. Lors de la classif, les intervalles contenant le min ou le max pourront être élargi pour prendre en compte des valeurs non représentées dans la BA De plus le critère d’arrêt sur la pureté est propre à l’exemple, nous pourrions aussi utiliser un SEUIL d’HOMOGENEITE Tous les co-atomes sont purs Fin de la discrétisation Sélection de I1, discrétisation au point de coupe 4,5 : I11 = [0-4,5] I12 = ]4,5-20] Sélection de I12, discrétisation au point de coupe 16,5 I12 =]4,5-16,5] I13 = ]16,5-20] o3 o4 I11 I22 I3 Sélection de I2, discrétisation au point de coupe 8 : I21 = [0-8] I22 = ]8-20] o1 o2 I11 I21 I3 o1 o2 o3 o4 I11 I2 I3 Sélection attribut discriminant et point de coupe o5 o6 I12 I22 I3 o5 o6 o8 I12 I22 I3 Calcul des co-atomes o5 o6 o7 o8 I12 I2 I3 o7 I13 I21 I3 o8 I13 I22 I3 Choix parmi 2 o7 I12 I21 I3 [Girard09], [Girard11a], [Girard11b], [Girard13]

35 Discrétisation locale pour les TG - Contribution
Comment choisir le meilleur attribut à chaque étape ? Adaptation du calcul du meilleur attribut à la structure du TG Calcul du meilleur attribut pour chaque co-atome Ensemble de meilleurs attributs Sélection d’un des meilleurs dans cet ensemble : Calcul local : Comparaison des gains par co-atome Calcul linéaire local : Comparaison selon un gain linéaire [Girard11a], [Girard11b], [Girard13]

36 Discrétisation locale pour les TG - Contribution
Exemple : il faut séparer o1 de o2 et o3 de o4,o5 : o1 o2 I11 I21 I3 o3 o4o5 I11 I22 I3 Concept 1 Concept 2 Gain Concept 1 Concept 2 Attribut le plus discriminant I11 0.3 0.4 X I21 0.5 I22 I3 0.1 Calcul local : max des gains I21 est choisi pour séparer o1 de o2 => il faut refaire une étape de discrétisation pour séparer o3 de o4,o5 Calcul linéaire local : somme pondérée des gains maximaux I11 est choisi, o1 est séparé de o2 et o3 est séparé o4,o5 => une unique étape est nécessaire [Girard11a], [Girard11b], [Girard13]

37 Discrétisation locale pour les TG - Validation
Validation de l’approche Expérimentations Les bases Le meilleur critère de division La complexité structurelle La complexité algorithmique Les performances en classification [Girard11a], [Girard11b], [Girard13]

38 Discrétisation locale pour les TG - Validation
Expérimentations Différentes bases de données quantitatives : Images : GREC struc., GREC Radon, Image 1 Bases usuelles en classification : Glass, Iris, Breast Cancer #Objets #Attributs #Classes % BA %BT VC Image 1 2310 19 7 10% 90% GLASS 214 9 6 10 IRIS 150 4 3 Breast Cancer 699 2 GREC struc. 1900 15 GREC Radon 910 50 VC à 10 paquets COMPLEXITE de la base GLASS => bcp de classes et d’attributs proportionnellement au nombre d’ex GREC Struc => CLASSES NON SEPARABLES => co-atomes non purs Mettre en avant BA et BT [Girard11a], [Girard11b], [Girard13]

39 Discrétisation locale pour les TG - Validation
Choix du meilleur critère de division [Girard11a], [Girard11b], [Girard13]

40 Discrétisation locale pour les TG - Validation
Complexité structurelle #Concepts Globale Locale Locale linéaire Image 1 12172 581 -95 ,2% 649 -94,6% GLASS 2074 2039 -1,5% 2267 +9,3% IRIS 195 40 -79,5% 41 -79% Breast Cancer 7784 2887 -62,9% 2961 -62% GREC struc. 4308 3515 -18,4% 3851 -10,6% GREC Radon 2192 69 -98,8% 90 -95,8% [Girard11a], [Girard11b], [Girard13]

41 Discrétisation locale pour les TG - Validation
Complexité algorithmique #Etapes de discrétisation Globale Locale Locale linéaire Image 1 49 16 15 GLASS 72 25 21 IRIS 27 9 Breast Cancer 26 18 GREC struc. 171 24 GREC Radon 85 11 10 [Girard11a], [Girard11b], [Girard13]

42 Discrétisation locale pour les TG - Validation
Performances en classification Comparaison à un SVM sans optimisation des paramétrages choix meilleur noyau globalement sur nos bases [Girard11a], [Girard11b], [Girard13]

43 Discrétisation locale pour les TG - Conclusions
Comme pour les arbres de classification Discrétisation locale => souvent meilleures performances en classification De plus : Discrétisation locale => Diminution de la complexité structurelle Possibilité de génération à la demande du treillis La structure est toujours plus complexe que l’arbre La discrétisation permet d’obtenir en général de meilleurs performances en classif mais surtout CES RESULTATS SONT OBTENUS AVEC DES STRUCTURES BEAUCOUP MOINS COMPLEXES [Girard11a], [Girard11b], [Girard13]

44 Pour cela … Etude des modèles Liens et différences entre ces modèles
L’arbre de classification Le treillis de Galois Liens et différences entre ces modèles Lien en classification Lien d’inclusion Treillis dichotomique & lien de fusion De leurs différences vers le modèle hybride Une discrétisation locale pour les treillis de Galois Une simplification structurelle Conclusions et Perspectives

45 Simplification de la structure - Contribution
Simplifications existantes – comparatifs Arbre de classification Treillis de Galois Objectif Le sur-apprentissage La complexité structurelle (exponentielle pires cas) Mise en œuvre Parcours des nœuds/branches Evaluation contribution en classification Sélection du meilleur sous-arbre Calcul d’indices par concepts Suppression de concepts selon un seuil Proposition Guider le choix d’un seuil optimal pour : Améliorer/conserver les performances en classification Diminuer la complexité structurelle

46 Simplification de la structure
Monotone => création de demi-treillis Non monotone => CE qui signifie si je retire un objet de A est-ce que je redéfinie un concept ou non ? L’indice de stabilité se définit à partir de TOUTES LES SOUS-PARTIES de A

47 Simplification de la structure
Exemple Calcul à partir du diagramme de Hasse Ex : Simplification pour un seuil de 0,36 => structure hybride Performances dépendantes du seuil choisi [Roth06], [Kuznetsov07b], [Roth08]

48 Simplification de la structure - Contribution
Proposition Comment choisir le seuil ? Inspiration de l’élagage des arbres Guider le choix du seuil par les performances en classification Définition d’un seuil optimal : Parcours des seuils existants Simplification incrémentale Test de performance Taux de reconnaissance en resubstitution Choix de la structure offrant les meilleurs résultats Meilleur taux de reconnaissance … Et taille de structure la plus petite Pourquoi en resubstitution => utilisation d’une BV handicape la phase d’apprentissage comme cela avait été constaté pour les arbre par Quinlan [Roth06], [Kuznetsov07b], [Roth08]

49 Simplification de la structure
Expérimentations Nombre de concepts Taux de reconnaissance BT (%) Treillis non simplifié Modèle hybride Différence Image 1 649 363 -44% 91,71 90,95 Glass 2267 1127 -50% 71,09 71,83 IRIS 41 36 -12% 95,33 Breast Cancer 2961 1939 -35% 94,43 95,01 GREC struc. 3851 1748 -55% 73,68 72,96 GREC Radon 90 68 -25% 90,69 90,73

50 Pour cela … Etude des modèles Liens entre ces modèles
L’arbre de classification Le treillis de Galois Liens entre ces modèles Lien en classification Lien d’inclusion Treillis dichotomique & lien de fusion De leurs différences vers le modèle hybride Une discrétisation locale pour les treillis de Galois Une simplification structurelle Conclusions et Perspectives Pour/AFIN de CONCLURE cette présentation, rappelons tout d’abord l’ensemble des contributions présentées précédemment

51 Conclusions modèle hybride
Les temps de calculs en apprentissage sont fréquemment longs modèle hybride

52 Perspectives Le calcul local des indices nécessite l’énumération de tout les sous-ensembles d’objets, calcul exponentiel

53 Développement Logiciel
Un logiciel disponible Regroupant La discrétisation (#critères) Globale Locale Locale linéaire La simplification Indice de stabilité La classification Par navigation

54 Bibliographie Arbres de classification Treillis de Galois Notre modèle
[Kass80], [Breiman84], [Quinlan90], [Quinlan93], [Dougherty95], [Quinlan96], … Treillis de Galois [Birkhoff67], [Barbut70], [Oosthuizen88], [Kuznetsv90], [Sahami95], [Brin97], [Ganter99], [Kuznetsv03], [Mephu-Nguifo05], [Kuznetsv07a], [Kuznetsv07b], [Roth06], [Roth08], … Notre modèle [Guillas07], [Guillas08a], [Visani11], CLA 2008 : [Guillas08b], SFC09: [Girard09], CLA 2011 : [Girard11a], ICTAI 2011 : [Girard11b], TS : [Bertet09], IJCSAI : [Girard13]

55 Merci de votre attention

56 Merci de votre attention

57 Merci de votre attention

58 La classification supervisée
Modèles Complexité Résultats Attributs Paramétrage Lisibilité Performances Robustesse Quantitatifs Qualitatifs Bayes [Bayes63] + - SVM [Vapnik63] ++ Réseaux de neurones Arbres de décision Treillis de Galois Probabiliste Statistiques Symboliques [Bayes63], [Vapnik63], [McCulloch88][Kass80],[Breiman84][Quinlan93], [Oosthuizen88], [Sahami95], [Ganter97],[Mephu-Nguifo05],[Guillas07]

59 Les treillis dichotomiques

60 Critère de division

61 Simplification de la structure
[Brin97],[Kuznetsov90], [Kuznetsov03], [Kuznetsov07]

62 Perspectives Améliorations de Navigala2012 :
Prise en compte d’attributs de tous types Ajout de nouveaux critères De division D’élagage


Télécharger ppt "Thèse de doctorat Présentée par Nathalie Girard 5/07/2013"

Présentations similaires


Annonces Google