SURVOL DE LA SEGMENTATION IFT 501 Recherche d'information et forage de données Chapitre 8 : Classification automatique Section 8.1 1.

Slides:



Advertisements
Présentations similaires
Regroupement (clustering)
Advertisements

Regroupement (clustering)
1 Bases de donn é es relationnelles. 2 Introduction au mod è le relationnel les donn é es sont repr é sent é es par des tables, sans pr é juger de la.
La segmentation
RECONNAISSANCE DE FORMES
Interprétation automatique
PIF-6003 Sujets spéciaux en informatique I
Rémi BRISSIAUD MC de Psychologie — Université de Cergy-Pontoise — IUFM de Versailles Équipe “ Compréhension, Raisonnement et Acquisition de Connaissances.
1 Comment préparer un plan Document No. 2.1 Gestion des activités conjointes de lutte contre la tuberculose et le VIH: cours de formation pour responsables.
ABF Améliorer nos formations pour une microfinance plus sociale.
 Les sémioticiens étendent le concept de signe à toute chose porteuse de signification. Pour qu’il y ait signe, il faut quelqu’un pour interpréter. 
1 TECHNOLOGIE EN SEGPA Objets techniques instrumentés, didactisés et maquettisés que préconisent les nouveaux programmes Stage 10SEGDES2 du 14 et 15 décembre.
1) Qu’est-ce que BCDI? BCDI est un logiciel informatique de recherche documentaire : C’est le catalogue informatique du CDI. Au collège on travaille principalement.
Mediator 9 - Un outil de développement multimédia 3AC Techno/Informatique.
Lycée Albert Camus _ Nantes C2I au BO n°15 du 14 avril 2005.
1 PréAO LMD - Support de cours. 2 Qu'est un logiciel de PréAO ? Outil de création de présentation Multimédia –Texte –Image / Photo –Son –Vidéo –Autres.
Géomatique Systèmes de projection Types de données Applications Qu’est-ce qu’un SIG ? Présentation de la géomatique La géomatique regroupe l'ensemble des.
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 1 Support de cours rédigé par Bernard COFFIN Université.
Initiation aux bases de données et à la programmation événementielle Outil de création des tables Support de TD rédigé par Bernard COFFIN Université Paris.
La création des données d’exemplaire pour un exemplarisateur Sudoc.
Management  Définitions  Catégories  Compétences  Étapes  Évaluation de la performance  9 Responsabilités  Habiletés personnelles  Pyramide - organigramme.
Les méthodes de tests Les grands principes pour réaliser des tests efficaces.
Chapitre 6 Déploiement et gestion des logiciels à l'aide d'une stratégie de groupe Module S44.
Analyse des tâches en ergonomie
Les « enquêtes d’analyse critique » en études sociales sur
UML : méthode Processus. Introduction(1) ● Cycles ● Spécification par cas d'utilisation ● Identifier les besoins ● Analyse par cas d'utilisation ● Affiner.
Introduction à la Programmation Orientée Objet H.GATI.
1 Journées Scientifiques novembre 2003 MoMaS EDF Electricité de France Multi Domaines Simulation Multi Domaines Laurent Loth - Andra.
Thème TIPE 2016 Structures : organisation, complexité, dynamique. L'adéquation du sujet choisi par l'étudiant au thème de l'année s'opérera par l'une ou.
Formation à l’utilisation de K-Sup V5 février 2009 CRISI - COM.
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 7 Support de cours rédigé par Bernard COFFIN Université.
Faculté Polytechnique Cours 5: introduction à la géométrie analytique spatiale Géométrie et communication graphique Edouard.
1 Fouille visuelle de dissimilarités à l’aide de matrices de scatterplots pseudo-euclidiennes Sébastien AUPETIT, Nicolas MONMARCHE, Mohamed SLIMANE
Chapitre 5 Interprétation des données d’enquête 1.
Chapitre 2 Résolution de Programmes Linéaires. La méthode graphique Cette méthode est simple et s’applique à des problèmes de programmation linéaire à.
Modes de Marches et d’Arrêts
Profilage de textes Pierre Luc Carrier IFT6010. Problèmes typiques Catégorisation de documents Sujet Type (roman, texte journalistique, …) Niveau de langue.
On the analysis of CMMN expressiveness: revisiting workflow patterns Renata Carvalho Hafedh Mili.
Les limites de l’UML Présenté par : Samah Dekhil 1.
Communication du SGG sur le canevas de présentation d’une politique nationale et d’un plan stratégique à l’atelier national de révision de la politique.
Évaluation – Panorama 16 À l’étude…. Unité 16.1 Tu dois être capable de déterminer le caractère étudié d’une recherche de données :  qualitatif  quantitatif.
UQÀM DDL-8430 didactique de la grammaire Analyse de matériel didactique Nouvelle grammaire pratique : 2ème année du 1 er cycle du secondaire Myriam Laporte.
Enseignement d’exploration : Présentation MONTAGNE Anthony GALLOT Valentin SHIH Chaima HENINI Amina Lycee Joliot Curie.
1 Classification des enseignants d’éducation physique et sportive en 3 niveaux inclusifs distincts Maxime Tant Arras, le 27 avril 2016
La spécialité mathématique en TS. Les mathématiques sont une science qui se construit elle-même grâce à la démonstration. Axiomes et définitions Théorèmes.
Prochaine évolution de nos modèles bibliographiques : FRBR-LRM Pat Riva Présidente, FRBR Consolidation Editorial Group Séminaire.
Compétences: Capacité d’analyse et de recherche Présentation/Discussion Adjoints des commissions des finances - WAAPAC.
Projet de session Cours SCG Réalisation d’application en SIG Présenté par Nidhal Ben Othmen.
Présenté par  Samira BELHORMA  Imane ZEHHAF. Introduction I. Définitions II. Quand et comment évaluer une compétence? III. Le contexte d’évaluation.
Étude des émissions diffuses avec l’expérience H.E.S.S. Tania Garrigoux.
Marketing international
Les Statistiques.
Réalisé par : Sébastien Lachance MATHS 3 E SECONDAIRE LesSTATISTIQUES.
Notions de déformations et déplacements
Chapitre 9 Gestion des maîtres d'opérations
II. Les variables quantitatives
Les dossiers patients d’un hôpital contiennent les attributs suivants : – nom – code postal – pression systolique en mm de mercure. – s’il est porteur.
INSCRIPTIONS SPORTIVES
1 Initiation aux bases de données et à la programmation événementielle Construction d’un état Support de TD rédigé par Bernard COFFIN Université Paris.
Chapitre 5 Interprétation des données d’enquête 1.
Eléments de correction. Exercice 1. Méthodes d’interpolation et cartes de températures (7 points) Présentation de la carte et des enjeux de la représentation.
PARTIE 2 : LE PROJET.
Colloque LCG France14-15 mars SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)
Chapitre 5 Administration des accès aux objets dans les unités d'organisation Module S42.
BACCALAUREAT PROFESSIONNEL 3 ANS REPARATION DES CARROSSERIES Quelques points clés.
Un projet pour tous, un engagement pour chacun Cette épreuve de « compte est bon » permet à tous les élèves, quel que soit leur compétence, de participer.
Apprentissages géométriques
Techniques du Data Mining
Explorer le monde Se repérer dans le temps et dans l'espace
Reconnaissance de formes: lettres/chiffres
Transcription de la présentation:

SURVOL DE LA SEGMENTATION IFT 501 Recherche d'information et forage de données Chapitre 8 : Classification automatique Section 8.1 1

Qu’est-ce que la segmentation (clustering) ? Trouver des groupes d’objets tels que les objets d’un même groupe soient similaires et différents des objets des autres groupes 2 La distance entre les groupes est maximisée La distance entre les objets d’un groupe est minimisée

Classification supervisée vs non-supervisée La classification non supervisée et la classification automatique sont d’autres termes désignant la segmentation La classification supervisée ou classification ◦ s’oppose au terme classification non supervisée ◦ le modèle de classification est appris en utilisant des données dont on connait la classe (on a vu à ce sujet « les arbres de décision »). La classification non-supervisée ou segmentation ◦ est décrit en détail dans cette section du cours ◦ le modèle de classification est appris à l’aide de données dont on ne connait pas la classe 3

La segmentation dans le processus de KDD 4

Applications de l’analyse automatique Comprendre en regroupant ◦ Grouper  les documents similaires pour les survoler,  les gênes ou les protéines ayant des fonctionnalités similaires,  des actions qui fluctuent de façon similaire Résumer ◦ Compacter les données,  exemple : Remplacer un groupe d’objets par un objet représentatif du groupe Les régions d’Australie en fonction des précipitations 5

Application : cartes de crédit Définir des groupes d’utilisateurs de cartes. ◦ Cibler les publipostages. ◦ Caractériser les clients sans connaissance initiale Données : ◦ État civil (âge, revenu…) ◦ nombre de retraits ◦ Montant des retraits ◦ Localisation des guichets utilisés Groupes homogènes ◦ Clients aisés, retraits fréquents ◦ Clients frileux : un seul retrait important ◦ … 6

Biologie / Génomique Notion de distance entre animaux (gènes, protéines) Identifier les espèces proches Créer un « arbre généalogique » Deux portions d’ADN seront proches s’il faut peu de mutations pour passer de l’une à l’autre. Deux animaux seront d’autant plus proches que leur ADN (ou des portions de leur ADN) seront proches. Regrouper deux par deux les animaux les plus proches.. 7

Ce qui n’est pas de l’analyse automatique Classification supervisée ◦ les classes correspondent à un attribut prédéterminé Simple segmentation ◦ Regroupés les étudiants par la première lettre de leur nom de famille Obtenir le résultat d’une requête ◦ La définition des classes est définie a priori Partitionnement d’un graphe ◦ Le partitionnement d’un graphe en sous-graphe n’est pas basé sur les attributs des données, le terme est similaire, mais ce n’est pas une partie du domaine de la segmentation en forage des données 8

Qu’est-ce qu’un bon partitionnement 9 Pas si mal !

Qu’est-ce qu’un bon partitionnement 10 Ah!, c’est le bon

Qu’est-ce qu’un bon partitionnement 11 Sans une connaissance du domaine, il est impossible d’affirmer avec certitude, laquelle est la bonne réponse.

La notion de segment est ambiguë 12 Combien de segments? 4 segments2 segments 6 segments figure 8.1 page 491

Appartiennent-ils au même segment ? 13

Les caractéristiques des données déterminent la façon de segmenter La mesure de densité des données et de leur proximité ◦ Ce n’est pas une caractéristique primaire des données, mais la mesure joue un rôle fondamental dans la segmentation. La dispersion des données dans l’espace ◦ un facteur qui détermine souvent l’efficacité des algorithmes Le type des attributs ◦ la similarité impliquant des attributs continus diffère de celle impliquant des attributs catégoriques La nature des données ◦ y a-t-il des données auto-correlées ? Le nombre de dimensions Les données bruitées et/ou marginales La distribution des données 14

Mesures nécessaires Notion de distance entre exemples. Mesure de la compacité d’un cluster. Mesure de la séparation des clusters. Mesure de valeur de la segmentation. Mesure de la pertinence de la solution. Ces éléments seront définis dans les prochaines sections 15

Points importants dans le choix d’une méthode Algorithmes efficaces en fonction du ◦ nombre d’attributs, ◦ nombre de données. Les attributs considérés (continus, discrets). Forme des clusters. Le nombre de paramètres auxquels l’utilisateur doit assigner une valeur. Sensibilité au bruit et aux données marginales. Lisibilité et interprétabilité des résultats. 16

LES MÉTHODES DE SEGMENTATION 17

Segmentation Une segmentation signifie ◦ soit la méthode pour obtenir des segments ◦ soit l’ensemble des segments obtenus. Les principales méthodes : ◦ Algorithmes de partition ◦ Méthodes hiérarchiques ◦ Méthodes par densité ◦ Méthodes par grilles (discrétisation) ◦ Modélisation ◦ Segmentation floue Ces méthodes seront expliquées dans les prochaines diapositives et certaines seront vues en détails dans les prochains cours. 18

Méthodes de partition Méthodes de division des objets en une collection de sous- ensembles disjoints de telle sorte que ◦ chaque objet appartienne à un seul sous-ensemble (segment) ◦ segment défini par son prototype ◦ nombre de segment est souvent défini par l’usager Schéma de l’algorithme ◦ Choisir une partition initiale en k segments ◦ Améliorer itérativement la partition en changeant certains points de segment. On ne peut pas tester toutes les partitions possibles. K-moyennes, K-médoïdes et leurs variantes 19

La segmentation par partitionnement 20 Les données 3 segments disjoints

Segmentation hiérarchiques (par imbrication) : La segmentation hiérarchique ◦ Les segments forment un arbre avec la relation  Méthode par division (schéma de l’algorithme) ◦ La liste des segments contient initialement qu’un seul segment contenant tous les points. ◦ Choisir X un segment dans la liste et Y un découpage de ce segment, tel que ce choix (X Y) maximise une fonction de score (i.e. une mesure de la qualité du découpage). Méthode par agglomération (schéma de l’algorithme) ◦ Initialement, chaque point est un segment. ◦ Fusionner récursivement les deux segments les plus similaires jusqu’à l’obtention d’un seul segment comprenant toutes les données Arrêt ◦ Quand tout est divisé (regroupé). ◦ Quand le nombre de segments voulu est atteint ◦ Pour un certain seuil de la fonction de score. ◦ Coupe transversale de l’arbre obtenu (forme d’élagage) 21

La segmentation hiérarchique 22

La segmentation hiérarchique 23 Diagramme de segments imbriqués Dendogramme La hauteur représente la distance à la moyenne des données d’un segment

Méthodes par densité Densité d’un cluster : ◦ nombre d’exemples par unité de volume. ◦ nombre de liens reliant les nœuds d’un sous-graphe Ajouter des points à un cluster (regrouper deux clusters) si la nouvelle densité ne diminue pas (ou pas trop...). ◦ Peu (pas) de contrainte sur la forme des clusters. ◦ # de segments déterminés par l’algorithme ◦ tous les points ne sont pas classés  les points dans les régions peu denses sont catégorisés comme étant marginale ou du bruit DBSCAN 24

Méthodes par grilles (discrétisation) Discrétiser l’espace (rectangles). Compter le nombre d’exemples dans chaque rectangle. Travailler sur les rectangles 25

Modélisation On fait l’hypothèse que les exemples obéissent à une famille de modèles. On cherche les paramètres du modèle qui décrivent le mieux les données. Par exemple, la segmentation est une mixture de gaussienne 26

Segmentation floue Un objet appartient à chaque segment à différents degrés 27

LES TYPES D’ENSEMBLES DE SEGMENTS 28

Segment bien séparé 29 Un segment bien séparé est un ensemble de points tel que chacun de ses points est plus proche (similaire) à chacun des points de son segment que de n’importe quel point appartenant à un autre segment. 3 segments bien séparés

Segment défini par son prototype (son centre) Un segment défini par son centre est un ensemble de points tel que chacun est plus proche (similaire) du centre de son segment que du centre de n’importe quel autre segment. ◦ Le prototype d’un segment est  pour des attributs continus le centroïde (vecteur des moyennes)  pour des attributs catégoriques le médoïde (l’objet le plus représentatif) 30 4 segments basés sur les centres

Segment basé sur la contiguïté Un segment basé sur la contiguïté est un ensemble de points tel que chacun de ses points est plus proche (similaire) à au moins un des points de son segment que de n’importe quel point d’un autre segment. Dans un réseau, la distance peut être le nombre de liens. ◦ segment contigu ◦ segment des plus proches voisins 31 8 segments contigus le bruit a réuni ces 2 segments

Segment défini par densité Un segment défini par densité est un sous-espace de l’espace des données ◦ chaque segment (sous-espace) contient un grand nombre de points ◦ la région hors de ces sous-espace est peu dense. Permet d’avoir des segments dans un espace de données bruitées ou contenant des valeurs marginales Permet d’avoir des segments de forme irrégulière 32 6 segments définis par densité

segment conceptuel un segment conceptuel est un ensemble de points partageant une ou plusieurs propriétés communes et découlant de l’ensemble des points l’algorithme a besoin d’une définition spécifique de ce qu’est un segment forme de segmentation ayant une forte ressemblance avec la reconnaissance de motifs (pattern recognition) ◦ ne sera pas vu davantage ◦ 4 segments chacun correspondant à une figure géométrique 33