Exploration et nettoyage des données sur le logiciel STATA

Slides:



Advertisements
Présentations similaires
Été INF1025 Driouch Elmahdi
Advertisements

Abes agence bibliographique de l’enseignement supérieur Les scripts.
1 : Léditeur 2 : Le traitement dimages. 3 : La visionneuse dimage. FRONTPAGE PAINT SHOP PRO ACD SEE.
Courbes de fonctions avec Excel
Courbes de fonctions avec Excel
PROGRAMMATION LOGICIEL PL7 MICRO Consignes
Organisation de Nations Unis pour léducation, la science et la culture IDAMS Logiciel développé internationalement pour la gestion et lanalyse de données.
Vocabulaire pour la passage du modèle conceptuel des données au modèle relationnel des données. MCDMRD EntitéTable PropriétésChamps, attribut IdentifiantClé
Université la Sorbonne Nouvelle - Paris III Commandes de base
! 1 CREATION D'UNE MAQUETTE EXPORT / IMPORT
La fonction Style Permet de créer des types de texte, par exemple
Initiation au logiciel SPSS 18.0 Formation pratique
EXCEL et base de données
Traitements Donne accès Aux bordereaux de remises en banque Aux remises d'espèces en banque Calcul des commissions de CB À la gestion des écritures répétitives.
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
La gestion de fichiers Le travail sur un ordinateur pour traiter des données aboutit à la création de fichiers qui peuvent devenir nombreux. Pour pouvoir.
Retour sur l'allocation d'espace Exemple sur une table facture (sans les tables associées) N° fact, N° Client, N° Cde, date Cde, date fact, date réglement,
OMNIDIA 5.3. OMNIDIA 5.3 OMNIDIA 5.3 OMNIDIA 5.3.
Université de La Rochelle Saisie et Mise à jour des fiches ECTS le 05/12/2001.
Traitement de texte ++.
Le traitement des résultats
Apprendre à mieux se servir de L’explorateur de Windows
Permet d'accéder Aux divers journaux et documents comptables Aux éditions fiscales annuelles À une représentation graphique de l'ensemble de vos comptes.
LOGICIEL PL7 MICRO PROGRAMMATION MISE AU POINT Consignes?
Publispostage Menu Outils / Lettres et publipostage
Université de La Rochelle Saisie et Mise à jour des fiches ECTS le 01/12/2000.
Scripts Scilab de visualisation “Quicklook” des données de la P.M.A.
A la découverte de la bureautique et des fichiers.
Module 4 : Création et gestion de comptes d'utilisateur
Création et gestion de comptes d'utilisateur
Conception de la mise en page
FICHIERS : Définition : Algorithme général:
Les devis Les devis texte.
Conversion de fichiers
Rechercher, appliquer créer et enregistrer un modèle sur WORD
Gestion des fichiers et dossiers
PROGRAMMATION INFORMATIQUE D’INGÉNIERIE II
PERSONNALISATION D’AUTOCAD 2006
Traitement de son Chapitre 2 : Exploitation de logiciels Leçon1:
LE TABLEUR-GRAPHEUR Séquence 1 Compétences visées :
TICE 2 ième Semestre TD6 - Récapitulatif. Mars 2006TICE 2ième Semestre - Révisions2 Evaluation La semaine prochaine Deux demi groupes, minutes d’examen.
INITIATION À UN LOGICIEL DE PRESENTATION (POWERPOINT) Concevoir un diaporama.
L’enregistrement d’un classeur 1. Activer le menu « Fichier », 2. Choisir la commande « Enregistrer sous… », 3. Dans la boite du dialogue qui s’affiche,
1 Tutoriel SPIP Rédacteur. 2 Sommaire Connexion Interface SPIP Menu SPIP Rédiger un article Interface de création d’un article Fonctionnalités de base.
LE TABLEUR-GRAPHEUR Séquence 5 Compétences visées :
Comprendre le SGBDR Microsoft Access – partie 2
Formation Xnview-1 Première heure mise à niveau informatique
Conception des pages Web avec
LOGICIEL PL7 MICRO PROGRAMMATION MISE AU POINT Consignes?
Projet 2 Mantelle Nicolas D3.5.
La version électronique du matériel est la seule copie valide. Afficher le congé de préretraite futur Gestion du temps 2008/12/17.
Initiation aux bases de données et à la programmation événementielle
Accès à distance en temps réel Comparaison du SAS et de SPSS David Price Juin 2014.
LES TABLEAUX Définition: Création d’un tableau:
Initialisation au logiciel (Statistical Analysis System)
Tutoriel V_Stage Cliquez pour continuer.
Utilisation des formules de base
Dreamweaver Séance 1.
1 Présentation de DREAMWEAVER (1) Gaël TREMEAU GI05 Printemps 2006.
Commander des cartes de visite dans l’application I-Procurement CARTES DE VISITE.
© Fujitsu Canada Introduction à Minitab Version 14 - Anglais Formation Black Belt Lean Six Sigma.
ClubService, C’est un logiciel accessible de partout, Où chaque personne de votre club se connecte avec ses identifiants Et qui est disponible en plusieurs.
Utilisation du logiciel EduStat © Analyse classique d’items Compilations.
Abes agence bibliographique de l’enseignement supérieur Les scripts.
1 Tableur Excel. 2 Introduction Un tableur est un logiciel permettant de manipuler des données numériques et d'effectuer automatiquement des calculs sur.
Le Tableur, MS Excel Cours de Dominique Meganck – ICC - IFC Diaporama proposé par FST et adapté par D. Meganck.
Présentation Excel Microsoft Excel est le tableur de la suite bureautique propriétaire « Office System ». Développé pour les plateformes Windows et Macintosh.
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 4 Support de cours rédigé par Bernard COFFIN Université.
Utilisation du logiciel EduStat © Analyse de sondages Les compilations.
Formation SGA Module Saisie des Demandes d’achat Durée : 0,5 jour.
Transcription de la présentation:

Exploration et nettoyage des données sur le logiciel STATA

Présentation du software STATA STATA est un logiciel statistique pour : Manipuler Analyser Représenter graphiquement des données Il propose des procédures statistiques avancées : méthodes d’estimation robustes, analyse de survie, analyse de séries temporelles, table d’épidémiologie, etc

Environnement STATA Interface STATA Fenêtre résultats Fenêtre historique Fenêtre variables Fenêtre commandes

Fichiers STATA Fichiers données (*.dta) : incluent toutes les données et créés à partir des bases de données d’origine (excel, texte, etc….) Fichier de données (*.dta) sur STATA Différentes variables

Fichiers STATA Fichier (*.do) : à partir desquels, on peut saisir et exécuter les commandes STATA qui permettent de décrire, modifier, fusionner et analyser les fichiers de données. Ils sont particulièrement utiles : Pour conserver une trace des modifications ou analyses apportées à un fichier de données Pour exécuter une longue série de commandes à plusieurs reprises dans le temps Fichier (*.do) Titres et commentaires Commandes STATA

Fichiers STATA Fichiers résultats (*.log) : permettent de conserver toutes les sorties à l’écran (commandes, commentaires et résultats) Fichier résultat STATA

Fichier graphique (*.gph) : sauvegarde d’un graphique afin Fichiers STATA Fichier graphique (*.gph) : sauvegarde d’un graphique afin d’y accéder rapidement sans faire tourner l’ensemble d’un programme .do de le combiner avec d’autres graphiques pour les insérer dans des présentations, des articles… Fichier (*.graph) STATA

Exemple pratique : Base de données incluant les analyses biochimiques d’un groupe d’atteints et d’un groupe témoin Statut Age, poids, taille, BMI Glycémie Cholestérol Triglycérides Créatinine Hb1c (hémoglobine glyquée)  Etc…

Importation des données sur STATA Préparation d’un fichier excel incluant toutes les variables étudiées : Le fichier doit comporter une seule feuille Attribuer un identifiant numérique à chaque ligne de la base de données (individu, laboratoire, etc…) Les données manquantes doivent être sous forme de cases vides Les variables catégorielles doivent être codifiées

Codification de la base de données Codification selon le statut :Atteint (1) Témoin sain (0) Codification du sexe : Masculin(1) Féminin(2) Codification de l’origine géographique :Grand Tunis(1) Bizerte(2) Nabeul(3) etc….. Etc…..

Importation des données sur STATA Toutes les variables doivent être de type « numérique » (éviter les variables en type « texte », « formule », etc…) Enregistrer ce fichier en format .txt tabulation (séparateur tabulation) Création d’un fichier texte (séparateur tabulation)

Importation des données sur STATA Création d’un fichier de données STATA (*.dta) à partir du fichier texte créé précédemment Commandes : cd "C:\Stata » ( Indiquer l’arborescence) insheet using "Database BIOCH integrée topo.txt", names tab (Importation du fichier texte) save "Database BIOCH integrée topo.dta",replace (création d’un fichier de données STATA réutilisable) Rq: Enregistrer cette série de commande sur un fichier (*.do) (fichier insheet)

Exploration d’un fichier de données sur STATA Description d’un fichier .dta (commande describe) Libellés des variables Taille de l’échantillon Nbre des variables Nom des variables Type des variables Libellés des valeurs (variables catégorielles)

Exploration d’un fichier de données sur STATA Ouvrir un fichier de données (*.dta) (use) Fermer un fichier de données (clear) Lister des variables (commande list) Visualiser des variables (browse) (variables numériques en noir et alphanumériques en rouge) Trier la base de données selon une ou plusieurs variables (sort) Renommer une variable (rename) (éviter les espaces) Attribuer un libellé à une variable (label)

Exploration d’un fichier de données sur STATA Attribuer un libellé à une catégorie d’une variable catégorielle (utilisation des dictionnaires) Créer de nouvelles variables à partir d’anciennes variables (generate)

Exploration d’un fichier de données sur STATA Supprimer des variables (commande drop) Transformer une variable continue en variable catégorielle Redéfinir les catégories d’une variable (recode) Ordonner les variables (order)

Nettoyage de données sur STATA (Data Management) Contrairement à d’autres logiciels statistiques (SPSS) on peut procéder sur STATA à un contrôle de qualité des fichiers de données afin de : Identifier les doublons (données redondantes) Repérer les données manquantes (commande codebook) Repérer les incohérences (exemple homme enceinte) Identifier des valeurs aberrantes (exemple âge=1000ans)

Création d’un fichier résultat (log) (rapport des résultats) On peut capturer l’ensemble ou une partie des résultats obtenus sur Stata dans un fichier résultat (*.log) qui est en format texte et compatible avec l’environnement Windows (word, excel, etc…)