La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

SURVOL DE LA SEGMENTATION IFT 501 Recherche d'information et forage de données Chapitre 8 : Classification automatique Section 8.1 1.

Présentations similaires


Présentation au sujet: "SURVOL DE LA SEGMENTATION IFT 501 Recherche d'information et forage de données Chapitre 8 : Classification automatique Section 8.1 1."— Transcription de la présentation:

1 SURVOL DE LA SEGMENTATION IFT 501 Recherche d'information et forage de données Chapitre 8 : Classification automatique Section 8.1 1

2 Qu’est-ce que la segmentation (clustering) ? Trouver des groupes d’objets tels que les objets d’un même groupe soient similaires et différents des objets des autres groupes 2 La distance entre les groupes est maximisée La distance entre les objets d’un groupe est minimisée

3 Classification supervisée vs non-supervisée La classification non supervisée et la classification automatique sont d’autres termes désignant la segmentation La classification supervisée ou classification ◦ s’oppose au terme classification non supervisée ◦ le modèle de classification est appris en utilisant des données dont on connait la classe (on a vu à ce sujet « les arbres de décision »). La classification non-supervisée ou segmentation ◦ est décrit en détail dans cette section du cours ◦ le modèle de classification est appris à l’aide de données dont on ne connait pas la classe 3

4 La segmentation dans le processus de KDD 4

5 Applications de l’analyse automatique Comprendre en regroupant ◦ Grouper  les documents similaires pour les survoler,  les gênes ou les protéines ayant des fonctionnalités similaires,  des actions qui fluctuent de façon similaire Résumer ◦ Compacter les données,  exemple : Remplacer un groupe d’objets par un objet représentatif du groupe Les régions d’Australie en fonction des précipitations 5

6 Application : cartes de crédit Définir des groupes d’utilisateurs de cartes. ◦ Cibler les publipostages. ◦ Caractériser les clients sans connaissance initiale Données : ◦ État civil (âge, revenu…) ◦ nombre de retraits ◦ Montant des retraits ◦ Localisation des guichets utilisés Groupes homogènes ◦ Clients aisés, retraits fréquents ◦ Clients frileux : un seul retrait important ◦ … 6

7 Biologie / Génomique Notion de distance entre animaux (gènes, protéines) Identifier les espèces proches Créer un « arbre généalogique » Deux portions d’ADN seront proches s’il faut peu de mutations pour passer de l’une à l’autre. Deux animaux seront d’autant plus proches que leur ADN (ou des portions de leur ADN) seront proches. Regrouper deux par deux les animaux les plus proches.. 7

8 Ce qui n’est pas de l’analyse automatique Classification supervisée ◦ les classes correspondent à un attribut prédéterminé Simple segmentation ◦ Regroupés les étudiants par la première lettre de leur nom de famille Obtenir le résultat d’une requête ◦ La définition des classes est définie a priori Partitionnement d’un graphe ◦ Le partitionnement d’un graphe en sous-graphe n’est pas basé sur les attributs des données, le terme est similaire, mais ce n’est pas une partie du domaine de la segmentation en forage des données 8

9 Qu’est-ce qu’un bon partitionnement 9 Pas si mal !

10 Qu’est-ce qu’un bon partitionnement 10 Ah!, c’est le bon

11 Qu’est-ce qu’un bon partitionnement 11 Sans une connaissance du domaine, il est impossible d’affirmer avec certitude, laquelle est la bonne réponse.

12 La notion de segment est ambiguë 12 Combien de segments? 4 segments2 segments 6 segments figure 8.1 page 491

13 Appartiennent-ils au même segment ? 13

14 Les caractéristiques des données déterminent la façon de segmenter La mesure de densité des données et de leur proximité ◦ Ce n’est pas une caractéristique primaire des données, mais la mesure joue un rôle fondamental dans la segmentation. La dispersion des données dans l’espace ◦ un facteur qui détermine souvent l’efficacité des algorithmes Le type des attributs ◦ la similarité impliquant des attributs continus diffère de celle impliquant des attributs catégoriques La nature des données ◦ y a-t-il des données auto-correlées ? Le nombre de dimensions Les données bruitées et/ou marginales La distribution des données 14

15 Mesures nécessaires Notion de distance entre exemples. Mesure de la compacité d’un cluster. Mesure de la séparation des clusters. Mesure de valeur de la segmentation. Mesure de la pertinence de la solution. Ces éléments seront définis dans les prochaines sections 15

16 Points importants dans le choix d’une méthode Algorithmes efficaces en fonction du ◦ nombre d’attributs, ◦ nombre de données. Les attributs considérés (continus, discrets). Forme des clusters. Le nombre de paramètres auxquels l’utilisateur doit assigner une valeur. Sensibilité au bruit et aux données marginales. Lisibilité et interprétabilité des résultats. 16

17 LES MÉTHODES DE SEGMENTATION 17

18 Segmentation Une segmentation signifie ◦ soit la méthode pour obtenir des segments ◦ soit l’ensemble des segments obtenus. Les principales méthodes : ◦ Algorithmes de partition ◦ Méthodes hiérarchiques ◦ Méthodes par densité ◦ Méthodes par grilles (discrétisation) ◦ Modélisation ◦ Segmentation floue Ces méthodes seront expliquées dans les prochaines diapositives et certaines seront vues en détails dans les prochains cours. 18

19 Méthodes de partition Méthodes de division des objets en une collection de sous- ensembles disjoints de telle sorte que ◦ chaque objet appartienne à un seul sous-ensemble (segment) ◦ segment défini par son prototype ◦ nombre de segment est souvent défini par l’usager Schéma de l’algorithme ◦ Choisir une partition initiale en k segments ◦ Améliorer itérativement la partition en changeant certains points de segment. On ne peut pas tester toutes les partitions possibles. K-moyennes, K-médoïdes et leurs variantes 19

20 La segmentation par partitionnement 20 Les données 3 segments disjoints

21 Segmentation hiérarchiques (par imbrication) : La segmentation hiérarchique ◦ Les segments forment un arbre avec la relation  Méthode par division (schéma de l’algorithme) ◦ La liste des segments contient initialement qu’un seul segment contenant tous les points. ◦ Choisir X un segment dans la liste et Y un découpage de ce segment, tel que ce choix (X Y) maximise une fonction de score (i.e. une mesure de la qualité du découpage). Méthode par agglomération (schéma de l’algorithme) ◦ Initialement, chaque point est un segment. ◦ Fusionner récursivement les deux segments les plus similaires jusqu’à l’obtention d’un seul segment comprenant toutes les données Arrêt ◦ Quand tout est divisé (regroupé). ◦ Quand le nombre de segments voulu est atteint ◦ Pour un certain seuil de la fonction de score. ◦ Coupe transversale de l’arbre obtenu (forme d’élagage) 21

22 La segmentation hiérarchique 22

23 La segmentation hiérarchique 23 Diagramme de segments imbriqués Dendogramme La hauteur représente la distance à la moyenne des données d’un segment

24 Méthodes par densité Densité d’un cluster : ◦ nombre d’exemples par unité de volume. ◦ nombre de liens reliant les nœuds d’un sous-graphe Ajouter des points à un cluster (regrouper deux clusters) si la nouvelle densité ne diminue pas (ou pas trop...). ◦ Peu (pas) de contrainte sur la forme des clusters. ◦ # de segments déterminés par l’algorithme ◦ tous les points ne sont pas classés  les points dans les régions peu denses sont catégorisés comme étant marginale ou du bruit DBSCAN 24

25 Méthodes par grilles (discrétisation) Discrétiser l’espace (rectangles). Compter le nombre d’exemples dans chaque rectangle. Travailler sur les rectangles 25

26 Modélisation On fait l’hypothèse que les exemples obéissent à une famille de modèles. On cherche les paramètres du modèle qui décrivent le mieux les données. Par exemple, la segmentation est une mixture de gaussienne 26

27 Segmentation floue Un objet appartient à chaque segment à différents degrés 27

28 LES TYPES D’ENSEMBLES DE SEGMENTS 28

29 Segment bien séparé 29 Un segment bien séparé est un ensemble de points tel que chacun de ses points est plus proche (similaire) à chacun des points de son segment que de n’importe quel point appartenant à un autre segment. 3 segments bien séparés

30 Segment défini par son prototype (son centre) Un segment défini par son centre est un ensemble de points tel que chacun est plus proche (similaire) du centre de son segment que du centre de n’importe quel autre segment. ◦ Le prototype d’un segment est  pour des attributs continus le centroïde (vecteur des moyennes)  pour des attributs catégoriques le médoïde (l’objet le plus représentatif) 30 4 segments basés sur les centres

31 Segment basé sur la contiguïté Un segment basé sur la contiguïté est un ensemble de points tel que chacun de ses points est plus proche (similaire) à au moins un des points de son segment que de n’importe quel point d’un autre segment. Dans un réseau, la distance peut être le nombre de liens. ◦ segment contigu ◦ segment des plus proches voisins 31 8 segments contigus 3 2 1 2 le bruit a réuni ces 2 segments

32 Segment défini par densité Un segment défini par densité est un sous-espace de l’espace des données ◦ chaque segment (sous-espace) contient un grand nombre de points ◦ la région hors de ces sous-espace est peu dense. Permet d’avoir des segments dans un espace de données bruitées ou contenant des valeurs marginales Permet d’avoir des segments de forme irrégulière 32 6 segments définis par densité

33 segment conceptuel un segment conceptuel est un ensemble de points partageant une ou plusieurs propriétés communes et découlant de l’ensemble des points l’algorithme a besoin d’une définition spécifique de ce qu’est un segment forme de segmentation ayant une forte ressemblance avec la reconnaissance de motifs (pattern recognition) ◦ ne sera pas vu davantage ◦ 4 segments chacun correspondant à une figure géométrique 33


Télécharger ppt "SURVOL DE LA SEGMENTATION IFT 501 Recherche d'information et forage de données Chapitre 8 : Classification automatique Section 8.1 1."

Présentations similaires


Annonces Google