Télécharger la présentation
Publié parAglaë Barret Modifié depuis plus de 9 années
1
Exploration et nettoyage des données sur le logiciel STATA
2
Présentation du software STATA
STATA est un logiciel statistique pour : Manipuler Analyser Représenter graphiquement des données Il propose des procédures statistiques avancées : méthodes d’estimation robustes, analyse de survie, analyse de séries temporelles, table d’épidémiologie, etc
3
Environnement STATA Interface STATA Fenêtre résultats
Fenêtre historique Fenêtre variables Fenêtre commandes
4
Fichiers STATA Fichiers données (*.dta) : incluent toutes les données et créés à partir des bases de données d’origine (excel, texte, etc….) Fichier de données (*.dta) sur STATA Différentes variables
5
Fichiers STATA Fichier (*.do) : à partir desquels, on peut saisir et exécuter les commandes STATA qui permettent de décrire, modifier, fusionner et analyser les fichiers de données. Ils sont particulièrement utiles : Pour conserver une trace des modifications ou analyses apportées à un fichier de données Pour exécuter une longue série de commandes à plusieurs reprises dans le temps Fichier (*.do) Titres et commentaires Commandes STATA
6
Fichiers STATA Fichiers résultats (*.log) : permettent de conserver toutes les sorties à l’écran (commandes, commentaires et résultats) Fichier résultat STATA
7
Fichier graphique (*.gph) : sauvegarde d’un graphique afin
Fichiers STATA Fichier graphique (*.gph) : sauvegarde d’un graphique afin d’y accéder rapidement sans faire tourner l’ensemble d’un programme .do de le combiner avec d’autres graphiques pour les insérer dans des présentations, des articles… Fichier (*.graph) STATA
8
Exemple pratique : Base de données incluant les analyses biochimiques d’un groupe d’atteints et d’un groupe témoin Statut Age, poids, taille, BMI Glycémie Cholestérol Triglycérides Créatinine Hb1c (hémoglobine glyquée) Etc…
9
Importation des données sur STATA
Préparation d’un fichier excel incluant toutes les variables étudiées : Le fichier doit comporter une seule feuille Attribuer un identifiant numérique à chaque ligne de la base de données (individu, laboratoire, etc…) Les données manquantes doivent être sous forme de cases vides Les variables catégorielles doivent être codifiées
10
Codification de la base de données
Codification selon le statut :Atteint (1) Témoin sain (0) Codification du sexe : Masculin(1) Féminin(2) Codification de l’origine géographique :Grand Tunis(1) Bizerte(2) Nabeul(3) etc….. Etc…..
11
Importation des données sur STATA
Toutes les variables doivent être de type « numérique » (éviter les variables en type « texte », « formule », etc…) Enregistrer ce fichier en format .txt tabulation (séparateur tabulation) Création d’un fichier texte (séparateur tabulation)
12
Importation des données sur STATA
Création d’un fichier de données STATA (*.dta) à partir du fichier texte créé précédemment Commandes : cd "C:\Stata » ( Indiquer l’arborescence) insheet using "Database BIOCH integrée topo.txt", names tab (Importation du fichier texte) save "Database BIOCH integrée topo.dta",replace (création d’un fichier de données STATA réutilisable) Rq: Enregistrer cette série de commande sur un fichier (*.do) (fichier insheet)
13
Exploration d’un fichier de données sur STATA
Description d’un fichier .dta (commande describe) Libellés des variables Taille de l’échantillon Nbre des variables Nom des variables Type des variables Libellés des valeurs (variables catégorielles)
14
Exploration d’un fichier de données sur STATA
Ouvrir un fichier de données (*.dta) (use) Fermer un fichier de données (clear) Lister des variables (commande list) Visualiser des variables (browse) (variables numériques en noir et alphanumériques en rouge) Trier la base de données selon une ou plusieurs variables (sort) Renommer une variable (rename) (éviter les espaces) Attribuer un libellé à une variable (label)
15
Exploration d’un fichier de données sur STATA
Attribuer un libellé à une catégorie d’une variable catégorielle (utilisation des dictionnaires) Créer de nouvelles variables à partir d’anciennes variables (generate)
16
Exploration d’un fichier de données sur STATA
Supprimer des variables (commande drop) Transformer une variable continue en variable catégorielle Redéfinir les catégories d’une variable (recode) Ordonner les variables (order)
17
Nettoyage de données sur STATA (Data Management)
Contrairement à d’autres logiciels statistiques (SPSS) on peut procéder sur STATA à un contrôle de qualité des fichiers de données afin de : Identifier les doublons (données redondantes) Repérer les données manquantes (commande codebook) Repérer les incohérences (exemple homme enceinte) Identifier des valeurs aberrantes (exemple âge=1000ans)
18
Création d’un fichier résultat (log) (rapport des résultats)
On peut capturer l’ensemble ou une partie des résultats obtenus sur Stata dans un fichier résultat (*.log) qui est en format texte et compatible avec l’environnement Windows (word, excel, etc…)
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.