La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique.

Présentations similaires


Présentation au sujet: "ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique."— Transcription de la présentation:

1 ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA

2 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique est fondée sur les nuages. Tableau de données Nuage de points Nuage ( & )

3 2. Trois paradigmes de lAGD Les méthodes de lAGD furent introduites par Benzécri, avec lanalyse des correspondances (AC). Elles sont bien connues en France sous lappellation « Analyse des données » Tableau individus x variables variables numériques analyse en composantes principales (ACP) variables catégorisées analyse des correspondances multiples Tableau de contingence analyse des correspondances Tableau de donnéesNuage de pointsInterprétation statistique

4 3. Trois idées clés Courant normal de la statistiqueAGD Quantitative Approche matricielle Orientée échantillonnage Géométrique Algèbre linéaire Inductive

5 4. Panorama historique Précurseurs Karl Pearson (1901): Goemetric Display of Data Hirschfeld (1935), Fisher (1940): équations de lanalyse des correspondances sans développements géométriques Guttman (1941): équations de lanalyse des correspondances multiples Points de repères pour lAGD : Émergence. Benzécri et al., 1973: Analyse des données (T.I, Taxinomie, T.II, Analyse des correspondances) : Âge dor en France et splendide isolement Depuis 1981: reconnaissance limitée: Greenacre (1984), Lebart et al. (1984), Benzécri (1992).

6 5. Points forts méthodologiques LAGD comme modèle cadre Homogénéité : toutes les grandeurs recensées dans le tableau sont des quantités de même nature. Exhaustivité : les marges du tableau représente un inventaire complet dun dossier réel dont le cadre nest guère discutable Construction de lespace Accent mis sur les individus Schèmes explicatifs; analyse géométrique de questionnaires

7 6. Analyse des donnée structurées Facteurs structurants Données structurées = données avec facteurs structurants DONNÉESNUAGE DE POINTS ANALYSE DES DONNÉES STRUCTURÉES

8 7. Inférence statistique en AGD Linférence statistique doit être effectuée comme une analyse inductive des données, cest-à-dire dans lesprit de lanalyse des données, cest-à-dire comme prolongement naturel de lanalyse descriptive. DonnéesNuage de pointsStructurationInduction Le modèle doit suivre les données, non linverse !

9 8. En résumé: quest-ce que lAGD ? Tableau de données Nuage de points Interpré- tation des Axes Analyse des données structurées Analyse inductive des données

10 9. À propos des logiciels

11 Un exemple commenté

12 Du tableau vers les nuages

13 Classification

14

15 Analyse en composantes principales Cas général de lACP ACP pondérée ACP simple ACP standard Méthodologie et interprétation

16 Cas général de lACP On part dun protocole multivarié de K variables (initiales), et on cherche à remplacer ces K variables par L nouvelles variables, résumant au mieux le protocole. Ce problème amène à étudier la structure des liaisons entre les variables. Soit x JK un protocole multivarié Le profil dun individu peut être représenté dans un espace à K dimensions. Pour avoir un nuage euclidien, on définit une distance entre profils. Effectuer lACP du protocole x JK, cest déterminer les variables principales (directions principales) du nuage euclidien précédemment construit. À larrivée on aura : lespace des variables (initiales), lespace des individus.

17 ACP pondérée Les variables sont toutes sur une même échelle, affectées de poids (exemple notes au BAC, avec coefficients). On a un protocole de notes, avec pondération sur les variables, et mesure-effectifs sur les individus. On définit une distance entre profils : Σ ώ k (x jk – x jk )² Variance du nuage : Σ ώ k Var x Jk LACP dun tel protocole est lACP pondérée.

18 ACP simple Les variables sont toutes sur une même échelle. Les variables sont affectées de poids tous égaux à 1. On a toujours une mesure-effectifs. Distance entre profils : Σ (x jk – x jk )² Variance du nuage : Σ Var x Jk = (Σ λ l ) LACP dun tel protocole est lACP simple.

19 ACP standard Protocole multivarié avec variables hétérogènes. On solidarise les échelles (en réduisant). Doù un protocole de notes. Les variables ont des poids égaux à 1. ACP standard = ACP simple des variables initiales réduites. Variance du nuage : nombre de variables.

20 Méthodologie et interprétation Résumé dune acp ώkώk x jk n j ACP λ l coordonnées contributions qualité de repr. des individus coordonnées contributions qualité repr. des variables initiales

21 Étapes dune ACP en tant quanalyse géométrique 1. Une distance est définie entre individus, avec pondération éventuelle sur les variables. 2. Détermination des axes principaux; on retient un sous espace restreint. 3. Étude géométrique du nuage des variables, illustrant leurs corrélations approximatives. 4. Étude géométrique du nuage des individus, illustrant les distances approximatives entre eux.

22 Démarche 1.Examen des statistiques élémentaires : moyennes, variances, corrélations; diagramme (distribution) pour chaque variable; diagramme (corrélations) pour chaque paire de variables. 2.ACP la mieux appropriée : acp simple ou acp standard ? 3.Analyse globale du nuage : contributions des axes; contributions des variables; contributions des individus. 4.Interprétation des axes : à partir des variables initiales; à partir des individus extrêmes; facteur de taille; 5.Analyses complémentaires (classification, etc.)

23 Introduction à lAnalyse des Correspondances Multiples (ACM)

24 1. Introduction Langage des questionnaires Tableau de base : Individus x Questions Les questions sont des variables catégorisées, cest-à-dire, des variables avec un nombre fini de catégories, appelées modalités. Questionnaire au « format standard » : pour chaque question, chaque individu choisit une et une seule modalité.

25 I : ensemble de n individus Q : ensemble des questions K : ensemble des modalités de la question q K : ensemble des modalités de toutes les questions question q Individu i (i,q)

26 2. Principes de lACM nuage des individus ACM nuages des modalités Distance entre deux individus i et i pour la question q i choisit la modalité k; i choisit la modalité k k : 1 1 d 2 (i,i) = n k /n n k /n Distance entre deux modalités k et k : n k + n k – 2n kk d 2 (k,k) = n k n k /n n k = nombre dindividus ayant choisi la modalité k (resp. k); n kk = nombre dindividus ayant choisi à la fois k et k.

27 Axes principaux, valeurs propres et contributions Propriétés fondamentales : Les axes principaux du nuage des individus sont en correspondances un à un avec ceux du nuage des modalités, Les deux nuages ont les mêmes valeurs propres. Aides à linterprétation : Contribution globale dune question q : K q – 1 / K – Q (Kq: nombre de modalités de la question q) Contribution dun point à un axe : p y² /λ (y : coordonnée du point sur laxe; p : poids relatif) La contribution dune question est la somme des contributions de ses modalités

28 3. Étapes de lanalyse 1.Choisir les individus actifs, les questions actives (et le codage). 2.Choisir le nombre daxes à retenir et interpréter les axes retenus. 3.Étudier le nuage des individus.

29 Choisir les individus actifs, les questions actives (et le codage) Modalités rares, non-réponses, modalités « bidons » les modalités rares (< 5% de leffectif) peuvent être regroupées avec dautres quand cest faisable, ou bien être mises en « passif » (ACM spécifique); recodage des variables continues (à partir de leur distribution). Technique des éléments supplémentaires distinguer questions supplémentaires et modalités supplémentaires; individus supplémentaires (réels ou fictifs (repères)).

30 Résultats de base Variances des axes (valeurs propres) Coordonnées des modalités et des individus Contributions des modalités aux axes Représentation géométrique des deux nuages (modalités et individus)

31 Caractéristiques ou spécificités Variance du nuage : Φ² du tableau disjonctif= K/Q - 1 Le sous-nuage des modalités dune question a pour point moyen le point moyen du nuage. Plus une modalité est rare, plus elle contribue à la variance. Contribution dune question : plus le nombre de modalités dune question est grand, plus la question contribue à la variance. Taux modifiés : on retient les λ l > 1/Q on calcule λ l = (Q/(Q-1))² (λ l – 1/Q)² enfin τ = λ l / Σ λ l

32 Interpréter les axes Cela se fait dans le nuage des modalités Fondé sur les modalités dont les contributions dépasse une valeur seuil (par exemple la contribution moyenne) Parallèlement examen des contributions des questions

33 Sous-nuages et points moyens modalité Pour un sous-nuage des individus ayant choisi une modalité : son point moyen est appelé point moyen modalité Propriété fondamentale : la coordonnée du point moyen modalité = λy (y est la coordonnée de la modalité dans lespace des modalités)

34 Ellipses de concentration

35 Pour conclure… LACM est la méthode de prédilection pour lanalyse géométrique des questionnaires Étudier le nuage des individus est primordial : les individus « portent » toute linformation !


Télécharger ppt "ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA. 1. Quest-ce que lAGD ? Les données sont représentées sous forme de nuages de points. Linterprétation statistique."

Présentations similaires


Annonces Google