Section 4 : Analyse descriptive. En 1901, Karl Pearson publie son papier sur l’Analyse en Composante Principale dans : “On lines and planes of closest.

Slides:



Advertisements
Présentations similaires
Analyse en Composantes Principales
Advertisements

Présentation de l’ACP à travers un exemple
Analyse de données Cours 3 Analyse en composantes principales (ACP)
Les dangers des drogues
 ISO 9001:2000  Interprétation  Article 5 Responsabilité de la Direction.
LES FRANÇAIS ET L’ONU. © Harris Interactive 2 SOMMAIRE > Méthodologie d’enquêteP.3 > Regard général sur l’ONUP.4 > Perception de l’action de l’ONU et.
Analyse de données avec R
ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions.
LA 2 NDE GENERALE ET TECHNOLOGIQUE AU LYCEE ROSA PARKS DE MONTGERON.
Bonjour Portugal! L’échange etwinning des enfants de 4 ème année.
ABF Améliorer nos formations pour une microfinance plus sociale.
Enquête québécoise sur la qualité des services de garde éducatifs.
1 TECHNOLOGIE EN SEGPA Objets techniques instrumentés, didactisés et maquettisés que préconisent les nouveaux programmes Stage 10SEGDES2 du 14 et 15 décembre.
Développement d’application avec base de données Semaine 3 : Modifications avec Entité Framework Automne 2015.
Réglementation concernant la maturité Séance d'information du 27 août 2015 Collège de Saussure.
Comment écrire un article scientifique Olivier MIMOZ DAR.
La Nouvelle Économie Quantique de l’Être
Lycée Albert Camus _ Nantes C2I au BO n°15 du 14 avril 2005.
Maths en Jean : Nager dans le brouillard. Présentation du sujet Une personne part du bord de la plage et nage 500 mètres en ligne droite dans une direction.
Plans d'expérience Méthode Taguchy Analyse de la variance Anavar.
Bloodcurdling movies and measures of coagulation: Fear Factor crossover trial BMJ Noël 2015 Article thématique du 26/01/2016 André Gillibert Banne Nemeth.
Paramétrisation adaptative pour l’estimation des paramètres hydrodynamiques dans un milieu poreux non saturé MOMAS-Thème E: Problèmes inverses et analyse.
LCA UFR SMBH (DCEM)1 Analyse critique d ’articles évaluant l ’intérêt de nouveaux tests à visée diagnostique Alain Venot UFR SMBH Campus virtuel SMBH
Chap.V RSA. I. Rappels Mathématiques La congruence Définition 1 a et b sont congrus modulo n s’ils ont même reste par la division par n. On note a≡b[n]
1 M2 Biomatériaux- Cours n°4 1 - Rappels du cours n°1 et 2 et Introduction au principe des test statistiques.
Géomatique Systèmes de projection Types de données Applications Qu’est-ce qu’un SIG ? Présentation de la géomatique La géomatique regroupe l'ensemble des.
S’orienteR en fin de 3 ème c’est choisir S’orienteR en fin de 3 ème c’est choisir une voie TOUTES DIRECTIONS STOP !
1 M1 MQSE 1 - L’outil statistique pour tirer des conclusions dans un monde de variabilité 2 - Utiliser la statistique: se confronter au hasard 3 - La statistique:
Elaboration d’un socle de compétences dans le système éducatif luxembourgeois Constats et Ambitions Démarche Implémentation Evaluation Communication Chantiers.
Les « enquêtes d’analyse critique » en études sociales sur
Du panier à la commande client Créer un panier Identification Validation de la commande Paiement Formulaire de création de compte Etats de la commande.
Mathématiques Mise à jour – Élaboration de l’examen en vue du diplôme – Mathématiques 30-1 et 30-2 (Cet atelier est la traduction d’un atelier en anglais.
Chapitre 2 Variables aléatoires 1. Variables aléatoires : définition Résultat d’une expérience dont l’issue est multiple (VARIABLE) et imprévisible (ALÉATOIRE)
Chapitre 6 Les tests d ’ hypoth è se 2 – Les tests du  2 (chi 2)
Présentation du document d’accompagnement cycle 4 24 Mars 2016 Inscrire son enseignement dans une démarche de cycle N° 1.
DROIT. Grille d’Examen Objectifs, contenu, critères et modalités d’évaluation Sujet zéro Conclusion.
6.2. Le modèle de Bohr.
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 7 Support de cours rédigé par Bernard COFFIN Université.
Faculté Polytechnique Cours 5: introduction à la géométrie analytique spatiale Géométrie et communication graphique Edouard.
1 Fouille visuelle de dissimilarités à l’aide de matrices de scatterplots pseudo-euclidiennes Sébastien AUPETIT, Nicolas MONMARCHE, Mohamed SLIMANE
Chapitre 5 Interprétation des données d’enquête 1.
Nouveaux programmes de mathématiques cycles 3 et 4
Chapitre 2 Résolution de Programmes Linéaires. La méthode graphique Cette méthode est simple et s’applique à des problèmes de programmation linéaire à.
Profilage de textes Pierre Luc Carrier IFT6010. Problèmes typiques Catégorisation de documents Sujet Type (roman, texte journalistique, …) Niveau de langue.
LARRAS CHAFIKA ENSEIGNANTE CHERCHEUSE Approche systémique.
ENCG de Fès DU Finance et Ingénierie Bancaire Décisions d'investissement et de financement Chapitre 2 - Evaluation et choix d'investissements en situation.
RAPPORT DE INITION Sien de la société:
Evaluation des élèves Du CP à la troisième.  A la fin de chaque trimestre : un bulletin  A la fin de chaque cycle (CE2, 6°, 3°): une fiche dressant.
Mardi 17 Mai 2016 Réunion d’informations Présentation de la 5 e.
GESTION DE PORTEFEUILLE chapitre n° 6 Risque diversifié et risque diversifiable Le MEDAF.
Réalisé par : Sébastien Lachance MATHS 3 E SECONDAIRE LesSTATISTIQUES.
Paramètres S Rappels de théorie des circuits
II. Les variables quantitatives
ACCUEIL DES PARENTS D ’ELEVES DE 3° Lycée du Castella - 30 avril 2010.
Régression linéaire (STT-2400) Section 3 Préliminaires, Partie II, La loi multinormale Version: 8 février 2007.
Test de compréhension sur l’éducation centrée sur l’élève.
Chapitre 5 Interprétation des données d’enquête 1.
Reprise du cours ( ) Chapitre 5 : interprétation des données d’enquêtes hasard  prudence  incertitude et imprécision formules : marge et fourchette.
REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTRE DE L’ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE LARBI BEN M’HIDI OUM EL.
AUTOMATISME Chapitre 2: Le GRAFCET.
Le système éducatif français. L’école maternelle 3 → 4 ans: Première section 4 → 5 ans: Deuxième section 5 → 6 ans: Troisième section.
Réunion d’information sur la Réforme du Collège Collège P. et M. Curie.
Apprentissages géométriques
Rapports et proportions
Nouveau DNB 2017.
Analyse en Composantes Principales A.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).
Le Diplôme National du Brevet
REUNION D’INFORMATION POUR LES FAMILLES DES ELEVES DE SECONDE GENERALE ET TECHNOLOGIQUE Lundi 28 et mardi 29 janvier 2019.
La 2de générale & technologique
Projet de fin d’études – Semestre 10
Transcription de la présentation:

Section 4 : Analyse descriptive

En 1901, Karl Pearson publie son papier sur l’Analyse en Composante Principale dans : “On lines and planes of closest fit to systems of points in space” En 1904, Spearman publie son paper sur l’analyse factorielle dans “Factor analysis: General intelligence, objectively determined and measured”, American Journal of Psychology, 15, (article téléchargeable à spearman.pdf). L’introduction des méthodes d’analyse factoriel

Qui est cette personne ?

Différences entre Homme et Femme ?

Analyse en Composantes Principales

Introduction n L’ACP, introduite par K. Pearson et Thurston (début du 20 ème siècle), est une technique des statistiques descriptives destinée à l’analyse des données multidimensionnelles. n Elle permet de réduire la dimension de l’espace des descripteurs. n On cherche à réduire le nombre de descripteurs (variables) avec le minimum de perte d’information et préservant les relations existant déjà avec entre les différents descripteurs.

Analyse en composantes principales Données : Elément de cette matrice : x ij n p Variables Individu ou observation

Principes –Technique multivariée –Objectif : Réduire le nombre de dimensions d’un ensemble de variables en préservant autant que possible l’information contenue dans ces variables –Méthode statistique non probabiliste –On a observé p variables sur n individus. Dans la pratique cela représente un tableau à np entrées qu’il est difficile, voire impossible à lire, pour extraire les informations les plus pertinentes.

Principaux résultats d’une ACP Coordonnées factorielles ou scores n p Variables n p k Valeurs propres k Vecteurs propres (transposés) k Individus

Visualiser

Bulletins des élèves Facteurs littéraire scientifique langue sportCréativité Français Philosophie Histoire Géographie Mathématique Biologie Physique Chimie Technologie Anglais Espagnol Allemand Sport Art plastique Musique Valeur propre On conserve les axes avec des valeurs propres supérieures à 1 F1 F2 F3 F4 F5 Trouver un nom aux facteurs Exemple : Réalisation d’une ACP Problème de loading<0.5 Virer la technologie et recommencer l’acp 3 facteurs expliquent 80% de la variance (évaluation niveau lycéen)

12 on enlève les matières qui sont mal représentées et on relance l’acp les loadings doivent dépasser 0.5 (si possible 0.7)

Un exemple d’ ACP sur les caractéristiques d’une auto Variables Facteur F1 F2F3F4 Puissance Vitesse Accélération Sièges Volume Ergonomie Ligne Style Couleur Airbags ABS Renforts

14 Une ACP sur les caractéristiques d’une auto Variables Facteur TechniqueconfortDesignSécurité Puissance Vitesse Accélération Sièges Volume Ergonomie Ligne Style Couleur Airbags ABS Renforts

15 Un exemple de Mapping Plaisir très sucréattiré A original C D Cher E qualité enfant adulte Gâteau enfant nourrissant Gâteau adulte B fade naturel Santé

16 n ACP peut conduire à une représentation sur un mapping. Les produits sont plus ou moins proches des uns et des autres selon qu’ils soient plus ou moins similaires. n Le 1er axe explique 55% de la variance (donc de l’information) n Le 2nd axe explique 35% n Toute l’information n’a pas été retenue par les 2 axes n L’analyse devient plus simple car les informations ont été simplifiées

Rappels n Matrice de variance-covariance : mesure la liaison entre les différents descripteurs Σ= où cov(X i, X i ) = Var(X i ). n Matrice de corrélation : même chose que Σ sauf qu’il s’agit d’un paramètre sans dimension R = (R ij ) i,j

Matrice de corrélation 10,970-0,0640, ,1020, ,

Commentaires Le tableau 1 est difficile à lire (en particulier lorsqu’on a plusieurs variables et sujets). n Par conséquent les relations entre les différents descripteurs sont indécelables à première vue. n La matrice de corrélation (matrice de liaison sans dimension) montre que la variable 1 est fortement corrélée avec la variable 2 ; il en est de même pour les variables 3 et 4.

Comment se fait la réduction de la dimension tout en préservant les liaisons entre les différents descripteurs ? n Les variables de départ sont remplacées par « des vecteurs propres » de la matrice Σ ou de la matrice R, appelés Composantes principales. n Y-a-t-il un critère d’arrêt ? généralement on s’arrête quand au moins 75% de la variance est expliquée par la variance cumulée par les CP.

Qu’est-ce qu’un vecteur propre ? n est une valeur propre de la matrice A si et seulement si Av = v n Le vecteur v dans la relation ci-dessus est appelé vecteur associé à n Les valeurs propres s’obtiennent en résolvant le système d’équations det(A- I) = 0. n Le nombre de valeurs propres, 1 > … > p, est égal au nombre de lignes = nombre de colonnes de la matrice A n Important : La somme des valeurs propres de A est égale à la variance contenue dans l’ensemble des données.

Expression des composantes principales n D’un point de vue pratique les composantes principales s’écrivent F j = 1 X 1 +….+ p X p c’est-à-dire que F j est une combinaison linéaire des variables initiales X 1,…, X p. En plus de cet aspect calculatoire on doit pouvoir faire des affirmations sur la qualité de la réduction et la qualité de la représentation graphique.

Représentation graphique n Lorsque les différentes CP ont été trouvées on peut représenter les différentes variables et les différents individus dans le plan CP1, CP2 comme illustré ci-dessous

Interprétation n Chaque valeur propre représente la variance prise en compte par la composante principale correspondante. n Pour l’exemple on obtient : n Ici les deux premières composantes rendent compte de 0,5003+0,4917 = 0,9920 = 99,2 % de la variance totale. n Ce qui veut dire que les 4 descripteurs peuvent être remplacés par les 2 premières composantes tout en préservant la quasi-totalité de l’information (réduction).

Résultats des calculs n Scores des individus : il s’agit des valeurs prises par les composantes principales sur les individus. n Ici

Résultats (suite I) n Saturations des variables : il s’agit des coefficients de corrélation entre les variables et les composantes principales. n La première composante est surtout corrélée avec les deux derniers descripteurs

Résultats (suite II) n Contribution (relative) d’un individu à la formation d’une composante principale : n CTR(sujet 1, CP1)= n Qualité de la représentation : pour sujet 1 et CP2 QLT =

Résultats (suite II) n Qualité de la représentation d’une variable à la formation d’une CP : contribution de la première variable à la formation de la première composante principale CTR =