Analyse de données avec R

Slides:



Advertisements
Présentations similaires
Tu es comment??.
Advertisements

Pr. Abdelkrim EL MOUATASIM EST de Guelmim Maroc
Les distances.
ANALYSE GÉOMÉTRIQUE DES DONNÉES
Logiciel De Visu INRP IFE ( ).
Les descriptions physiques
ANALYSE CONJOINTE 29/06/07- Analyse conjointe.
ASSOCIATION entre caractères qualitatifs
ASSOCIATION entre caractères qualitatifs
Dr DEVILLE Emmanuelle J D V 12/07/2006
Modélisation des systèmes non linéaires par des SIFs
Analyse Factorielle des Correspondances
variable aléatoire Discrète
Indépendance & Khi-deux ²
Cours du dix-huit novembre
Psychologie, Première année, Questionnaire.
Analyse en Composantes Principales
Traitement de données socio-économiques et techniques d’analyse :
ANALYSE FACTORIELLE DES CORRESPONDANCES
Séminaire dAnalyses comparatives et enquête sociologique Séances 8 et 9 Lanalyse des résultats.
la statistique descriptive se compose de 3 domaines distincts :   
Initiation à la conception de systèmes d'information
Statistiques Séance 9 – 6 décembre 2005 N. Yamaguchi.
Ce sont des enfants de 7 ans qui ont donné les réponses !
Groupe 1: Classes de même intervalle
La segmentation
Clique sur la souris ou sur la flèche en bas
Séminaire d’Analyses comparatives et enquête sociologique
Les variables statistique s. Étude statistique Une étude statistique permet de mieux connaître les caractéristiques dune population Ex: La consommation.
Le forage de données ou data mining
Structure discriminante (analyse discriminante)
Les Expressions Physiques et Les Nationalités. Lâge Jai 12 ans Il a 12 ans Elle a 12 ans
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Introduction: DEFINITION
Des variables et des données. Dans le domaine de la statistique le mot variable signifie une idée différente de celle dans l’algèbre ou les fonctions.
Thème: statistiques et probabilités Séquence 3: Statistique descriptive Utiliser un logiciel (par exemple, un tableur) ou une calculatrice pour étudier.
COURS STATISTIQUE - DESCRIPTIVE DEFINITIONS
ANALYSE DE DONNEES TESTS D’ASSOCIATION
STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
Séance 8 30 novembre 2005 N. Yamaguchi
Sériation et traitement de données archéologiques
TABLEAUX CROISES.
Le Sonneur de Cloche Le 9 novembre Qu’est qu’ils portent?
Cours LCS N°4 Présenté par Mr: LALLALI
Statistiques descriptives-Distributions expérimentales à une dimension
Thème: statistiques et probabilités Séquence 6: Probabilités (Partie 1) Capacités : Déterminer la probabilité d’événements dans des situations d’équiprobabilité.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Analyse de données Cours 3 Analyse en composantes principales (ACP)
Thème 4 : Les éléments naturels. Cours 2 : L’eau dans la nature et chez les êtres vivants. Français Guide du Maître Thème 2 : Les personnes et les choses.
Test 2.
Chapitre 2 La statistique descriptive I
Les distributions de fréquences et de pourcentages
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
DESCRIPTIONS.
Opération et systèmes de décision Faculté des Sciences de l ’administration MQT Probabilités et statistique Les statistiques descriptives.
ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions.
BIOSTATISTIQUES Définitions.
STRUCTURE D ’ UN ARTICLE ORIGINAL Pr Ganry.
Classification-Segmentation
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Hadrien Commenges Université Paris 7, Géographie-cités Hélène Mathian CNRS – Géographie-cités Claude Grasland Université Paris 7, Géographie-cités Introduction.
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
Double entrée Reprise du cours ( semaine du 18 au 21 novembre 2014 ; Gr. 1 à 5 ) Exemple : le naufrage du Titanic La question : o influence de la classe.
STATISTIQUE DESCRIPTIVE
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Analyse Factorielle des Correspondances Généralisation de l’A.C.P. adaptée au traitement de données qualitatives se présentant sous la forme d’un tableau.
Des variables et des données. Dans le domaine de la statistique le mot variable signifie une idée différente de celle dans l’algèbre ou les fonctions.
Analyse en Composantes Principales A.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).
Transcription de la présentation:

Analyse de données avec R R. Aloui 2015/2016 Disponible sur https://riadhaloui.wordpress.com/

Analyse de données Introduction Lors de toute étude statistique, il est nécessaire de décrire et explorer les données avant d’en tirer de quelconques lois ou modèles prédictifs. Dans beaucoup de situations, les données sont trop nombreuses pour pouvoir être visualisables (nombre de caractéristiques trop élevées) ADD = ensemble de méthodes descriptives ayant pour objectif de Résumer et visualiser l’information pertinente contenue dans un grand tableau de données. Fournissez une brève vue d’ensemble de la présentation. Décrivez l’objectif principal de la présentation et expliquez son importance. Présentez chaque sujet principal. Pour fournir une feuille de route à votre audience, vous pouvez répéter cette diapositive de vue d’ensemble tout au long de la présentation afin de mettre en évidence le sujet suivant.

Analyse de données Fournissez une brève vue d’ensemble de la présentation. Décrivez l’objectif principal de la présentation et expliquez son importance. Présentez chaque sujet principal. Pour fournir une feuille de route à votre audience, vous pouvez répéter cette diapositive de vue d’ensemble tout au long de la présentation afin de mettre en évidence le sujet suivant.

Analyse Factorielle de Correspondance Cette technique s'applique à des tableaux de contingence croisant deux variables qualitatives avec de nombreuses modalités chacun, Variable qualitative : des valeurs non numériques (sauf des numéros) appelé classe ou modalité. Exemple : catégorie SP: cadre/Ouvrier/commerçant, sexe : Mâle/femelle… Fournissez une brève vue d’ensemble de la présentation. Décrivez l’objectif principal de la présentation et expliquez son importance. Présentez chaque sujet principal. Pour fournir une feuille de route à votre audience, vous pouvez répéter cette diapositive de vue d’ensemble tout au long de la présentation afin de mettre en évidence le sujet suivant.

Analyse Factorielle de Correspondance Fournissez une brève vue d’ensemble de la présentation. Décrivez l’objectif principal de la présentation et expliquez son importance. Présentez chaque sujet principal. Pour fournir une feuille de route à votre audience, vous pouvez répéter cette diapositive de vue d’ensemble tout au long de la présentation afin de mettre en évidence le sujet suivant.

Analyse Factorielle de Correspondance Exemple: Fournissez une brève vue d’ensemble de la présentation. Décrivez l’objectif principal de la présentation et expliquez son importance. Présentez chaque sujet principal. Pour fournir une feuille de route à votre audience, vous pouvez répéter cette diapositive de vue d’ensemble tout au long de la présentation afin de mettre en évidence le sujet suivant.

Tableau de contingence Un TC (2 variables) est un tableau croisant les modalités de 2 variables, l’ensemble des lignes correspond aux modalités de la 1ère variable et l’ensemble des colonnes aux modalités de la 2ème (la distribution des valeurs). Fournissez une brève vue d’ensemble de la présentation. Décrivez l’objectif principal de la présentation et expliquez son importance. Présentez chaque sujet principal. Pour fournir une feuille de route à votre audience, vous pouvez répéter cette diapositive de vue d’ensemble tout au long de la présentation afin de mettre en évidence le sujet suivant.

Tableau de contingence Fournissez une brève vue d’ensemble de la présentation. Décrivez l’objectif principal de la présentation et expliquez son importance. Présentez chaque sujet principal. Pour fournir une feuille de route à votre audience, vous pouvez répéter cette diapositive de vue d’ensemble tout au long de la présentation afin de mettre en évidence le sujet suivant.

Tableau de fréquence Fournissez une brève vue d’ensemble de la présentation. Décrivez l’objectif principal de la présentation et expliquez son importance. Présentez chaque sujet principal. Pour fournir une feuille de route à votre audience, vous pouvez répéter cette diapositive de vue d’ensemble tout au long de la présentation afin de mettre en évidence le sujet suivant.

Objectifs de l'AFC Pour une variable donnée, certaines modalités sont-elles proches ou éloignées? Exple: yeux bleus et verts sont proches si les deux groupes ont les mêmes distributions de couleurs de cheveux. Entre les deux variables, certaines modalités « s'attirent-elles» davantage ou au contraire « se repoussent »? Exple: les yeux bleus et les cheveux blond « s'attirent », au contraire des yeux noirs et des cheveux blond. Fournissez une brève vue d’ensemble de la présentation. Décrivez l’objectif principal de la présentation et expliquez son importance. Présentez chaque sujet principal. Pour fournir une feuille de route à votre audience, vous pouvez répéter cette diapositive de vue d’ensemble tout au long de la présentation afin de mettre en évidence le sujet suivant.

Test d’indépendance L'AFC n'a d'intérêt que si il y a dépendance entre les deux variables, en cas contraire elle n'apporte pas d'information Fournissez une brève vue d’ensemble de la présentation. Décrivez l’objectif principal de la présentation et expliquez son importance. Présentez chaque sujet principal. Pour fournir une feuille de route à votre audience, vous pouvez répéter cette diapositive de vue d’ensemble tout au long de la présentation afin de mettre en évidence le sujet suivant.

Illustration Installer le package FactoMineR. Importer les données dans le fichier AFC_DonTraF.csv Présentation des données: 1724 femmes ont répondu à différentes questions à propos du travail des femmes, parmi lesquelles : Quelle est selon vous la famille parfaite ? L'homme et la femme travaillent L'homme travaille plus que la femme Seul l'homme travaille Quelle activité est la meilleure pour une mère quand les enfants vont à l'école ? Rester à la maison Travailler à mi-temps Travailler à temps complet

Illustration > Res.acf<-read.table("AFC_DonTraF.csv", header=TRUE, sep=“;", row.names=1) > Res.acf<-CA(women_work) Pour voir les nuages des lignes et des colonnes séparément, tapez : > plot(Res.acf, invisible="col") > plot(Res.acf, invisible="row")

Le nuage des colonnes montre que le premier axe oppse « rester au foyer" et « trav.plein temps«  -> oppose deux profils de femmes. Les femmes qui ont répondu " rester au foyer " ont répondu « seul le mari trav." plus souvent que l'ensemble de la population.

> summary(Res.acf) Valeurs propres % d’inertie (variance) associé à chaque dimension (la 1ere dimension explique 86% de l’inertie Les résultats sur les lignes actives (cord de chaque ligne sur la 1ere dimension, la contri. De cette ligne à la construction de la 1ere dimension et la qualité de representation qui varie entre 0 et 1 (cos2) proche de 1 le point est parfaitement representé sur l’axe Les résultats sur les colonnes

Microsoft Excellence en ingénierie Annexe Votre présentation est-elle aussi claire que possible ? Pensez à placer du contenu supplémentaire dans l’annexe. Utilisez des diapositives en annexe pour y placer du contenu auquel vous pouvez faire référence pendant la diapositive relative aux questions ou que les participants peuvent approfondir ultérieurement. Microsoft Confidentiel