ANALYSE GÉOMÉTRIQUE DES DONNÉES

Slides:



Advertisements
Présentations similaires
5. Statistiques.
Advertisements

Eléments d'algèbre linéaire
Corrélation Position du problème Définition covariance (X,Y) r =
Les distances.
Cours d‘Analyse de Données
GESTION DE PORTEFEUILLE chapitre n° 7
Formation en Analyse des Données
C1 Bio-statistiques F. KOHLER
Licence 3ème année de sociologie Semestre 1
CHAPITRE II Caractéristiques géométriques des sections planes
Régression -corrélation
Analyse en Composantes Principales
Traitement de données socio-économiques et techniques d’analyse :
Séminaire dAnalyses comparatives et enquête sociologique Séances 8 et 9 Lanalyse des résultats.
Géométrie vectorielle
Les principaux résumés de la statistique
Chapitre 2: Les régularités et les relations
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Comprendre la variation dans les données: Notions de base
Vers la dimension 3. La géométrie dans l'espace ne fait qu'étendre les concepts qui vous sont familiers en dimension 2 à la dimension 3. Le plus difficile.
Examen partiel #3 Mercredi le 15 décembre de 15h30 à 17h20
ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD.
Séminaire d’Analyses comparatives et enquête sociologique
Riadh Ben Messaoud Kamel Aouiche Cécile Favre
Structure discriminante (analyse discriminante)
LE SCHEMA CINEMATIQUE.
Les analyses multivariées
La régression multiple
« Analyses descriptives multidimensionnelles »
Mesures de position Ils s’expriment dans la même unité que les observations Moyenne et moyenne pondérée Exemple : on dispose du nombre moyen d’enfants.
Statistique Descriptive Analyse des données
Thème: statistiques et probabilités Séquence 3: Statistique descriptive Utiliser un logiciel (par exemple, un tableur) ou une calculatrice pour étudier.
Rappels de statistiques descriptives
STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE
Sommaire Rappel introductif sur la définition de l’ACP
REPRESENTATION DE L’INFORMATION
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
TD4 : « Lois usuelles de statistiques »
Séance 8 30 novembre 2005 N. Yamaguchi
STATISTIQUES – PROBABILITÉS
Intervalles de confiance pour des proportions L’inférence statistique
Que sont les fichiers de mobilité de l’INSEE?
Présentation de l’ACP à travers un exemple
Sériation et traitement de données archéologiques
CHAPITRE III Calcul vectoriel
Introduction à une analyse statistique de données
Outils d’analyse: la méthode des moindres carrées
1 Licence Stat-info CM1 b 2004Christophe Genolini 2.1. Vocabulaire Individu : objet étudié Population : Ensemble des individus Variable : nom donné à ce.
- Exemple de détermination de tolérance de localisation
Analyse de données Cours 3 Analyse en composantes principales (ACP)
La proportionnalité Au cycle 3.
Post-optimisation, analyse de sensibilité et paramétrage
STATISTIQUES.
Les dangers des drogues
Statistique Descriptive Les Paramètres de Tendance Centrale
Seconde 8 Chapitre 4: Les statistiques
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
Analyse de données avec R
Corrélation et causalité
ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions.
BIOSTATISTIQUES Définitions.
Classification-Segmentation
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien
Bienvenue au cours MAT-350 Probabilités et statistiques.
STATISTIQUE DESCRIPTIVE
Analyse Factorielle des Correspondances Généralisation de l’A.C.P. adaptée au traitement de données qualitatives se présentant sous la forme d’un tableau.
Transcription de la présentation:

ANALYSE GÉOMÉTRIQUE DES DONNÉES GDA

1. Qu’est-ce que l’AGD ? Les données sont représentées sous forme de nuages de points. L’interprétation statistique est fondée sur les nuages. Nuage de points Tableau de données Nuage ( & ) 326 688 343 98 38 116 84 48 241 584 909 403 110 188 412 681 3 4 26 85

2. Trois paradigmes de l’AGD Les méthodes de l’AGD furent introduites par Benzécri, avec l’analyse des correspondances (AC). Elles sont bien connues en France sous l’appellation « Analyse des données » Tableau individus x variables variables numériques analyse en composantes principales (ACP) variables catégorisées analyse des correspondances multiples Tableau de contingence analyse des correspondances Tableau de données Nuage de points Interprétation statistique

3. Trois idées clés Courant normal de la statistique AGD Quantitative Approche matricielle Orientée échantillonnage Géométrique Algèbre linéaire Inductive

4. Panorama historique Précurseurs Karl Pearson (1901): Goemetric Display of Data Hirschfeld (1935), Fisher (1940): équations de l’analyse des correspondances sans développements géométriques Guttman (1941): équations de l’analyse des correspondances multiples Points de repères pour l’AGD 1963-1973: Émergence. Benzécri et al., 1973: Analyse des données (T.I, Taxinomie, T.II, Analyse des correspondances) 1973-1980: Âge d’or en France et splendide isolement Depuis 1981: reconnaissance limitée: Greenacre (1984), Lebart et al. (1984), Benzécri (1992).

5. Points forts méthodologiques L’AGD comme modèle cadre Homogénéité : toutes les grandeurs recensées dans le tableau sont des quantités de même nature. Exhaustivité : les marges du tableau représente un inventaire complet d’un dossier réel dont le cadre n’est guère discutable Construction de l’espace Accent mis sur les individus Schèmes explicatifs; analyse géométrique de questionnaires

6. Analyse des donnée structurées Facteurs structurants Données structurées = données avec facteurs structurants ANALYSE DES DONNÉES STRUCTURÉES DONNÉES NUAGE DE POINTS

7. Inférence statistique en AGD L’inférence statistique doit être effectuée comme une analyse inductive des données, c’est-à-dire dans l’esprit de l’analyse des données, c’est-à-dire comme prolongement naturel de l’analyse descriptive. Données Nuage de points Structuration Induction Le modèle doit suivre les données, non l’inverse !

8. En résumé: qu’est-ce que l’AGD ? Tableau de données Nuage de points Analyse des données structurées Analyse inductive des données Interpré- tation des Axes

9. À propos des logiciels

Un exemple commenté

Du tableau vers les nuages

Classification

Analyse en composantes principales Cas général de l’ACP ACP pondérée ACP simple ACP standard Méthodologie et interprétation

Cas général de l’ACP On part d’un protocole multivarié de K variables (initiales), et on cherche à remplacer ces K variables par L’ nouvelles variables, résumant au mieux le protocole. Ce problème amène à étudier la structure des liaisons entre les variables. Soit xJK un protocole multivarié Le profil d’un individu peut être représenté dans un espace à K dimensions. Pour avoir un nuage euclidien, on définit une distance entre profils. Effectuer l’ACP du protocole xJK, c’est déterminer les variables principales (directions principales) du nuage euclidien précédemment construit. À l’arrivée on aura : l’espace des variables (initiales), l’espace des individus.

ACP pondérée Les variables sont toutes sur une même échelle, affectées de poids (exemple notes au BAC, avec coefficients). On a un protocole de notes, avec pondération sur les variables, et mesure-effectifs sur les individus. On définit une distance entre profils : Σ ώk (xjk – xj’k)² Variance du nuage : Σ ώk Var xJk L’ACP d’un tel protocole est l’ACP pondérée.

ACP simple Les variables sont toutes sur une même échelle. Les variables sont affectées de poids tous égaux à 1. On a toujours une mesure-effectifs. Distance entre profils : Σ (xjk – xj’k)² Variance du nuage : Σ Var xJk = (Σ λl ) L’ACP d’un tel protocole est l’ACP simple.

ACP standard Protocole multivarié avec variables hétérogènes. On solidarise les échelles (en réduisant). D’où un protocole de notes. Les variables ont des poids égaux à 1. ACP standard = ACP simple des variables initiales réduites. Variance du nuage : nombre de variables.

Méthodologie et interprétation Résumé d’une acp coordonnées contributions qualité de repr. des individus ώk nj xjk λl ACP coordonnées contributions qualité repr. des variables initiales

Étapes d’une ACP en tant qu’analyse géométrique 1. Une distance est définie entre individus, avec pondération éventuelle sur les variables. 2. Détermination des axes principaux; on retient un sous espace restreint. 3. Étude géométrique du nuage des variables, illustrant leurs corrélations approximatives. 4. Étude géométrique du nuage des individus, illustrant les distances approximatives entre eux.

Démarche Examen des statistiques élémentaires : moyennes, variances, corrélations; diagramme (distribution) pour chaque variable; diagramme (corrélations) pour chaque paire de variables. ACP la mieux appropriée : acp simple ou acp standard ? Analyse globale du nuage : contributions des axes; contributions des variables; contributions des individus. Interprétation des axes : à partir des variables initiales; à partir des individus extrêmes; facteur de taille; 5. Analyses complémentaires (classification, etc.)

Introduction à l’Analyse des Correspondances Multiples (ACM)

1. Introduction Langage des questionnaires Tableau de base : Individus x Questions Les questions sont des variables catégorisées, c’est-à-dire, des variables avec un nombre fini de catégories, appelées modalités. Questionnaire au « format standard » : pour chaque question, chaque individu choisit une et une seule modalité.

I : ensemble de n individus Q : ensemble des questions K<q> : ensemble des modalités de la question q K : ensemble des modalités de toutes les questions question q Individu i (i,q)

2. Principes de l’ACM nuage des individus ACM nuages des modalités Distance entre deux individus i et i’ pour la question q i choisit la modalité k; i’ choisit la modalité k’  k : 1 1 d2 (i,i’) = nk/n nk’/n Distance entre deux modalités k et k’ : nk + nk’ – 2nkk’ d2 (k,k’) = nk nk’/n nk = nombre d’individus ayant choisi la modalité k (resp. k’); nkk’ = nombre d’individus ayant choisi à la fois k et k’ .

Axes principaux, valeurs propres et contributions Propriétés fondamentales : Les axes principaux du nuage des individus sont en correspondances un à un avec ceux du nuage des modalités, Les deux nuages ont les mêmes valeurs propres. Aides à l’interprétation : Contribution globale d’une question q : Kq – 1 / K – Q (Kq: nombre de modalités de la question q) Contribution d’un point à un axe : p y² /λ (y : coordonnée du point sur l’axe; p : poids relatif) La contribution d’une question est la somme des contributions de ses modalités

3. Étapes de l’analyse Choisir les individus actifs, les questions actives (et le codage). Choisir le nombre d’axes à retenir et interpréter les axes retenus. Étudier le nuage des individus.

Choisir les individus actifs, les questions actives (et le codage) Modalités rares, non-réponses, modalités « bidons » les modalités rares (< 5% de l’effectif) peuvent être regroupées avec d’autres quand c’est faisable, ou bien être mises en « passif » (ACM spécifique); recodage des variables continues (à partir de leur distribution). Technique des éléments supplémentaires distinguer questions supplémentaires et modalités supplémentaires; individus supplémentaires (réels ou fictifs (repères)).

Résultats de base Variances des axes (valeurs propres) Coordonnées des modalités et des individus Contributions des modalités aux axes Représentation géométrique des deux nuages (modalités et individus)

Caractéristiques ou spécificités Variance du nuage : Φ² du tableau disjonctif= K/Q - 1 Le sous-nuage des modalités d’une question a pour point moyen le point moyen du nuage. Plus une modalité est rare, plus elle contribue à la variance. Contribution d’une question : plus le nombre de modalités d’une question est grand, plus la question contribue à la variance. Taux modifiés : on retient les λl > 1/Q on calcule λ’l = (Q/(Q-1))² (λl – 1/Q)² enfin τ’ = λ’l / Σ λ’l

Interpréter les axes Cela se fait dans le nuage des modalités Fondé sur les modalités dont les contributions dépasse une valeur seuil (par exemple la contribution moyenne) Parallèlement examen des contributions des questions

Sous-nuages et points moyens modalité Pour un sous-nuage des individus ayant choisi une modalité : son point moyen est appelé point moyen modalité Propriété fondamentale : la coordonnée du point moyen modalité = λy (y est la coordonnée de la modalité dans l’espace des modalités)

Ellipses de concentration

Pour conclure… L’ACM est la méthode de prédilection pour l’analyse géométrique des questionnaires Étudier le nuage des individus est primordial : les individus « portent » toute l’information !