Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Analyse des Données M.H. ZAIEM
2
Données statistiques : ensemble de mesures ou d'observations qui se rapportent à une population statistique dont les éléments sont des individus ou des unités statistiques. Chaque individu est décrit par une ou plusieurs variables, ou caractères statistiques. variables individus
3
Exemple Simple Numero MATHS PHYSIQUE 1 10,5 11,0 2 14,5 14,0 3 8,0
10,0 4 15,0 13,0 5 12,5 6 12,0 °°° 46 15,5 5,5 47 16,0 48 5,0 49 50 13,5
4
Représentation des 50 élèves en fonction de leurs notes
5
Représentation des 50 élèves en fonction de leurs notes
6
Représentation des 50 élèves en fonction de leurs notes
7
Représentation des 50 élèves en fonction de leurs notes
8
Représentation des 50 élèves en fonction de leurs notes
9
Représentation des 50 élèves en fonction de leurs notes centrées
10
Représentation des 50 élèves en fonction de leurs notes centrées
11
Projection sur l’axe1
12
Projection sur l’axe2
13
Analyse factorielle Mean Std. Deviation Maths 11 3,5 Physique 2,1
14
Matrice des corrélations
Maths Physique Correlation 1 0,34 Sig. V1 = 0,01 V2
15
Valeurs propres et information expliquée
Valeur propre Total % Variance expliquée 1 1,3 67 2 0,7 33
16
Facteurs Elève Maths11 Physique FAC1_1 FAC2_1 1 10,5 11,0 0,10 0,17 2
14,5 14,0 1,68 0,41 3 8,0 10,0 -0,63 0,39 4 15,0 13,0 1,47 -0,13 5 12,5 1,33 -0,33 6 12,0 1,09 -0,42 7 1,24 -0,21 8 1,91 0,49 9 11,5 0,86 -0,50 10
18
L’ACP s’applique à des tableaux individus x variables quantitatives
19
Les objectifs de l’ACP Décrire et représenter les ressemblances entre les individus par rapport à l’ensemble des variables Décrire et représenter les corrélations linéaires entre les variables Réduire l’ensemble p variables (en résumant et donc, en simplifiant => perte d’information) à un ensemble f de facteurs (transformations linéaires des p variables d’origine), indépendants et plus pertinents On sélectionnera, après analyse, un nombre adéquat de facteurs de manière à réaliser un « bon compromis » entre simplicité de la représentation et perte d’l’information.
20
Géométriquement: deux nuages de points
Les lignes:
21
Géométriquement: deux nuages de points
X(n,p) R n liaisons entre les variables p ressemblance des individus i i' α α '
22
Notion d’inertie Inertie par rapport à un point
23
Exemple: Elèves*Notes
INDIVIDU SEXE Prof père physique art philo maths sciences geo histoire '017' 1 4,25 10 7 11 4 '028' 4,75 9 8,5 5 '012' 2 7,5 12 '014' 8 9,5 '016' 3 17,25 6,5 '024' 10,5 '007' 14 6 '027' 10,25 11,5 '009'
24
ANALYSE EN COMPOSANTES PRINCIPALES
STATISTIQUES SOMMAIRES DES VARIABLES CONTINUES EFFECTIF TOTAL : POIDS TOTAL : | NUM . IDEN - LIBELLE EFFECTIF POIDS | MOYENNE ECART-TYPE | MINIMUM MAXIMUM | | PHYS - PHYSIQUE | | | | ART - ART | | | | PHIL - PILO | | | | MATH - MATHS | | | | SNAT - SCIENCES | | | | GEO - GEO | | | | HIST - HIST | | | | | | | MOY - MOYENNE | | | MATRICE DES CORRELATIONS | PHYS ART PHIL MATH SNAT GEO HIST PHYS | ART | PHIL | MATH | SNAT | GEO | HIST |
25
VALEURS PROPRES et information expliquée
HISTOGRAMME DES 7 PREMIERES VALEURS PROPRES | NUMERO | VALEUR | POURCENT.| POURCENT.| | | PROPRE | | CUMULE | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |
26
COORDONNEES DES VARIABLES SUR LES AXES 1 A 5
VARIABLES ACTIVES VARIABLES | COORDONNEES | IDEN - LIBELLE COURT | | PHYS - PHYSIQUE | | ART - ART | | PHIL - PILO | | MATH - MATHS | | SNAT - SCIENCES | | GEO - GEO | | HIST - HIST | |
27
Représentation des deux premiers facteurs
28
Représentation des élèves
29
L’analyse factorielle des correspondances (AFC)
Benzécri (1964) Analyser les liens entre variables qualitatives à partir d’un tableau de contingence ou un tableau disjonctif.
30
L’analyse factorielle des correspondances (AFC)
Simple (Tableau de contingence) Variable 1 Modalité a Modalité b Modalité c … Modalité z Variable 2 Modalité 1 N1a N1b N1c N1z Modalité 2 N2a N2b Modalité 3 N3a N3b Modalité n Nna Nnb Nnz
31
Liaison entre deux variables qualitatives
EFFECTIFS OBSERVES Faible Moyen Bon TOTAL Masculin 135 225 90 450 Feminin 105 465 180 750 240 690 270 1200 PROFILS LIGNES 30,0% 50,0% 20,0% 100,0% 14,0% 62,0% 24,0% 57,5% 22,5% PROFILS COLONNES 56,3% 32,6% 33,3% 37,5% 43,8% 67,4% 66,7% 62,5%
32
Tableau théorique en cas d’indépendance
EFFECTIFS Faible Moyen Bon TOTAL Masculin 90 259 101 450 Feminin 150 431 169 750 240 690 270 1200 PROFILS LIGNES 20,0% 57,5% 22,5% 100,0% PROFILS COLONNES 37,5% 62,5%
33
Khi-deux Calcul du Khi-deux Faible Moyen Bon TOTAL Masculin 15,0 5,1
Faible Moyen Bon TOTAL Masculin 15,0 5,1 1,4 21,5 Féminin 19,3 2,4 0,7 22,4 34,3 7,5 2,1 43,9
34
L’analyse factorielle des correspondances Multiples (AFCM)
(Tableau disjonctif) Variable 1 Variable 2 Variable 3 Modalité a Modalité b Modalité c Modalité a’ Modalité b’ Modalité a’’ Modalité b’’ Individus 1 2 3 … n
35
L’analyse factorielle des correspondances multiples: une illustration
Données: Enquête VEF (Bagbag-Belhaj) Échantillon de 470 femmes
36
L’analyse factorielle des correspondances: une illustration
Objectif: établir des profils de femmes violentées (ou non) Variables indépendantes: âge, sexe, situation, niveau d’instruction, région… Variables dépendantes: Violence subie aucours de la vie, violence subie au cours de l’année,…
37
Méthodes de classification automatique
38
Plan 1 Introduction Différentes méthodes de classification Classification Ascendante Hiérarchique La méthode des nuées dynamiques Comparaison entre CAH et la méthode des nuées dynamiques Classification mixte 2 3 4 5 6
39
Introduction Soit une population E de n individus sur lesquels on a observé p variables. Objectif : Regrouper les individus de cette population en un nombre réduit de classes : Homogènes : les individus sont les plus similaires possibles au sein d'une classe (critère de compacité), Différenciés : les classes sont aussi dissemblables que possible (critère de séparabilité).
40
Introduction Partitionnement d’un ensemble : Réalisation d’une partition sur cet ensemble, c’est-à-dire un ensemble de parties deux à deux disjointes et dont la réunion constitue l’ensemble lui-même. Classification sur un ensemble : Définition sur cet ensemble d’une chaîne de partitions contenant la partition discrète P° c’est-à-dire la partition où chaque individu constitue une classe à part.
41
Différentes méthodes de classification
De point de vue algorithmique, on distingue : Les méthodes hiérarchiques: Les méthodes ascendantes: Elles partent des individus et opèrent par regroupements successifs jusqu’à ce que l’on ait regroupé toute le population en un seul groupe, (exemple: CAH).
42
Différentes méthodes de classification
Les méthodes non hiérarchiques: Les méthodes aglomératives: Elles permettent d’obtenir directement une partition d’un ensemble, (exemple: la méthode des nuées dynamiques).
43
Classification Ascendante Hiérarchique: Algorithme
Calcul des distances entre les n éléments de E Regroupement des deux éléments les plus proches On obtient un nouvel ensemble des n-1 éléments Sinon n est-il égal à 1? n=n-1 Si oui FIN Un élément: soit un individu non agrégé soit un agrégat d’individus constitué lors d’une étape précédente.
44
Classification Ascendante Hiérarchique: Exemple
4 3 5 d2 d1 7 6 2 8 1 2 3 1 4 5 La hiérarchie est dite indicée si à chacune de ses parties h est associée une valeur numérique v(h) telle que, quelles que soient les parties h1 et h2: Si alors
45
Méthode des nuées dynamiques: Algorithme
Tirer de E au hasard, un système de k parties (noyaux) contenant chacune q individus Partition de E en k classes (i=1,…,k) constituée chacune par les individus «les plus proches» du noyau Générer un nouveau système de noyaux (i=1,…,k) formés chacun des q individus de E «les plus proches» de Sinon Tous les sont identiques aux ? = Si oui FIN
46
Méthode des nuées dynamiques: Exemple
Formes fortes:
47
Comparaison entre CAH et la méthode des nuées dynamiques
Méthode CAH Méthode des nuées dynamiques Elle fournit un grand nombre de partitions parmi lesquelles on doit choisir une. Le nombre de classes est fixé a priori. L’arbre hiérarchique obtenu n’est pas optimal puisque la partition construite à un niveau donné dépend de la partition obtenue à l’étape précédente. Les classes obtenues sont, dans une certaine mesure, fonction des noyaux de départ; ce qui relativise ces classes. Solution: utilisation conjointe des 2 méthodes (classification mixte) qui permet de consolider la partition et d’obtenir une partition fiable sinon optimale.
48
Classification mixte 3. Partition finale et consolidation: La partition finale de la population est définie par coupure de l’arbre de CAH. L’homogénéité des classes obtenues peut être optimisée par réaffectations par la technique des nuées dynamiques. 2. Agrégation hiérarchique des classes obtenues: Effectuer une CAH où les éléments terminaux de l’arbre sont les k classes de la partition préliminaire. L’objectif est de reconstituer des classes qui ont été fragmentées et d’agréger des éléments apparemment dispersés autour de leur centre d’origine. 1. Partitionnement préliminaire: Agrégation autour des centres mobiles (ou nuées dynamiques) et application des formes fortes afin d’obtenir des groupements stables. Ces groupes d’individus qui apparaissent toujours dans les mêmes classes seront les éléments de base de l’étape suivante.
49
Classification mixte: Illustration
50
Interprétation d’une classe
V.TEST PROBA ---- POURCENTAGES MODALITES CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES CLASSE 1 / 5 beaucoup beaucoup beaucoup La modalité représente 84% de la classe contre 36,5% dans la population.
51
Interprétation d’une classe
V.TEST PROBA ---- POURCENTAGES MODALITES CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES CLASSE 1 / 5 beaucoup beaucoup beaucoup La classe contient 64% des individus présentant cette modalité alors qu’elle ne contient que 27,94% de la population.
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.