Analyses typologiques

Slides:



Advertisements
Présentations similaires
Centre d'Enseignement et de Recherche en Environnement Atmosphérique Classification de situations pour l'étude de la pollution chronique Stéphanie Lacour.
Advertisements

Introduction à l’analyse
Les distances.
ANALYSE GÉOMÉTRIQUE DES DONNÉES
Licence pro MPCQ : Cours
Distance inter-locuteur
Regroupement (clustering)
Regroupement (clustering)
RECONNAISSANCE DE FORMES
Organisation et gestion de données, fonctions
Formation en Analyse des Données
Comparaison de plusieurs moyennes Analyse de variance
1. Les caractéristiques de dispersion. 11. Utilité.
Les classifications hiérarchiques
Analyse et structuration thématiques
E-Motion Group © Olivier Aycard (E. Gaussier) Université Joseph Fourier Méthodes de classification.
Comparaison de plusieurs moyennes Analyse de variance
Analyse Factorielle des Correspondances
Analyse des proximités, des préférences et typologie
Analyse en Composantes Principales
Concepts avancés en mathématiques et informatique appliquées
Chapitre 2: Les régularités et les relations
Heuristiques A. Introduction B. Recherche d ’une branche
Méthode des k plus proches voisins
La segmentation
RECONNAISSANCE DE FORMES
Comprendre la variation dans les données: Notions de base
Commentaires sur les biais écologiques et les échelles non emboîtées
Principes de programmation (suite)
Tableau de distribution
Probabilités géométriques
Position en fonction du temps
Akoka & Wattiau1 J. Akoka & I. Comyn-Wattiau. Akoka & Wattiau2 PLAN Introduction : le problème Critères de classification Techniques de classification.
Modélisation de la formation de bancs de poissons
Aire d’une figure par encadrement
Écart moyen et écart type
Méthodes de prévision (STT-3220)
Sous-espaces vectoriels engendrés
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
Structures de données IFT-10541
l’algorithme du simplexe
SCHEMA 1 MECANISME On appelle mécanisme un ensemble de composants (mécaniques, électriques, électroniques) assemblés entre eux par des liaisons dans le.
« Analyses descriptives multidimensionnelles »
Évolution de schémas par classification automatique dans les entrepôts de données 3ème journée francophone sur les Entrepôts de Données et l'Analyse en.
ECOLE DES HAUTES ETUDES COMMERCIALES
Classification automatique
ETUDE D’UNE ECHELLE DE DOULEUR MUSCULOSQUELETTIQUE PAR AFC ET CAH Jean-Baptiste LANFRANCHI Universit é de Metz Laboratoire de Psychologie de la Sant é.
Cours de Dynamique Partie 1 Géométrie des masses b Inerties.
Cours 3 : Classification
LES ANALYSES MULTIVARIÉES EN BIOLOGIE
Introduction à l’analyse statistique
Potentiel électrostatique
Cours 4: Analyse discriminante (AFD)
Rappels de statistiques descriptives
Biostatistiques Quand on souhaite étudier une (ou des) caractéristique(s) sur un ensemble d’individus ou d’objets, il est difficile, voir impossible, d’observer.
Fabienne BUSSAC STATISTIQUES 1. VOCABULAIRE
Outils mathématiques pour le datamining
PRINCIPE DES TESTS D’HYPOTHÈSE
Cours 3 : Classification
Sommaire Rappel introductif sur la définition de l’ACP
Micro-intro aux stats.
Séance 8 30 novembre 2005 N. Yamaguchi
Présentation de l’ACP à travers un exemple
NUAGES ET PRECIPITATIONS
D. Steinberg, N. Monmarché, M. Slimane, G. Venturini
Statistiques à 2 variables
ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions.
Classification-Segmentation
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Transcription de la présentation:

Analyses typologiques But : Classer en groupes (les plus homogènes possibles) des unités statistiques en partant d’un ensemble de variables. Supposition préalable : Les regroupements existent ou peuvent exister. Remarque : La typologie, une fois constituée, peut devenir un nouveau critère de description et/ou d’analyse. Méthodes hiérarchiques Deux grands types de méthodes typologiques : Méthodes non-hiérarchiques

La Classification Hiérarchique Représenter les individus par un ensemble de parties hiérarchiquement emboîtées. Méthode « descendante » Méthode « ascendante » Du groupe aux individus Des individus au groupe Les différents regroupements peuvent être représentés graphiquement à l’aide d’un dendrogramme.

Classification Hiérarchique Méthode « descendante » Méthode « ascendante »

Classification Hiérarchique Méthode « ascendante » Etape n°1 Etape n°2 Etape n°3 1 3 4 2 5 1 3 4 2 5 1 3 4 2 5 Etape n°4 Etape n°5 1 3 4 2 5 1 3 4 2 5

Classification Hiérarchique On ne définit pas a priori le nombre de classes Utilisation du dendrogramme Remarque : ® le nombre d’individus doit au moins être deux fois supérieur au nombre de variables.

Exemple élémentaire 1 2 3 4 5 6 Cinq points dans un plan Distances euclidiennes 1 2 3 4 5 6 Regroupement : 1 et 3 Nouvel individu 6 Iintra = 0 Iintra = 1

Distances euclidiennes Regroupement 2 et 5 Distances euclidiennes 1 2 3 4 5 6 7 Iintra = 0 Iintra = 2 Regroupement : 2 et 5 Nouvel individu 7

Distances euclidiennes Regroupement 4 et 6 Distances euclidiennes 1 2 3 4 5 6 7 Iintra = 2 Iintra = 6 8 Regroupement : 4 et 6 Nouvel individu 8

Regroupement 7 et 8 et dendrogramme 1 3 4 2 5 6 7 8 9 13 1 2 3 4 5 6 7 Iintra = 6 Iintra = 13 8

INERTIE TOTALE = INERTIE INTER + INERTIE INTRA Si on regroupe x (de poids m) et x’ (de poids m’) en y = Contribution de y à l’inertie Contribution du couple x x’ à l’inertie

4 individus : A B C D 4 POINTS dans un espace de dimension 4 4 variables : V1 V2 V3 V4 Coordonnées du centre de gravité du nuage : V1 V2 V3 V4 A 5 10 13 4 B 16 7 6 1 C 8 15 14 3 D 9 2 11 12 9,5 8,5 11 5 4,5²+1,5²+2²+1² 6,5²+1,5²+5²+4² Inertie totale : 262 1,5²+6,5²+3²+2² 0,5²+6,5²+0²+7² Carré de la distance entre A et B : 188 11² + 3² + 7² + 3² Perte d’inertie consécutive au regroupement de A et B : 94 EXEMPLE Poids de A Poids de B

On regroupe A et C en une classe notée E de poids 2 DISTANCES A B C D 188 36 148 196 220 260 On regroupe A et C en une classe notée E de poids 2 PERTES D’INERTIE A B C D 94 18 74 98 110 130

Carré de la distance entre E et F : 134 V1 V2 V3 V4 A 5 10 13 4 B 16 7 6 1 C 8 15 14 3 D 9 2 11 12 E : 6,5 12,5 13,5 3,5 DISTANCES B D E 220 183 195 Carré de la distance entre E et F : 134 On regroupe E et F en G Perte d’inertie : 134 PERTES B D E 110 122 130 F : 12,5 4,5 8,5 6,5

1 2 3 18 110 134 24 92

CLASSIFICATION NON HIERARCHIQUE Méthode des « nuées dynamiques » Agrégation autour de centres mobiles Dans cette méthode, on définit au préalable le nombre de classes qu’on veut obtenir dans la partition finale EXEMPLE 6 individus (ABCDEF) et 2 variables A B C D E F Var 1 2 3 6 8 7 9 Var 2 1 5 On décide d’une partition en 2 classes On choisit au hasard les deux premiers « centres » : C et F

Carré de la distance à C Carré de la distance à F Centre le + proche A B C D E F Var 1 2 3 6 8 7 9 Var 2 1 5 ABCE ABC Poids :4 Poids :3 G1 : 4,5 3,5 G’1 DEF DF Poids :2 Poids :3 G2 : 8,5 6,5 G’2 Et ainsi de suite… Centres initiaux : C et F Carré de la distance à C Carré de la distance à F Centre le + proche A B C D E F Carré de la distance à G1 Carré de la distance à G2 12,5 32 72,5 74 G1 C 4,5 18 50,5 52 G1 C G1 4,5 8,5 10 C 24,5 0,5 G2 F 8 2 12,5 2 2,5 4 G2 C 26,5 10 0,5 G2 F