EXCEL et base de données 1. Variables et données 2. Saisie de données: quelques règles 3. EXCEL et saisie des données 4. Exemple de tableau EXCEL 5. Éviter d’éventuels problèmes Paul-Marie Bernard Université Laval
Paul-Marie Bernard Université Laval 1.1 Variables et données Les données correspondent aux valeurs des variables mesurées pour chacun des individus (ou patients). Les variables sont celles déjà prévues et décrites dans le protocole de recherche. Paul-Marie Bernard Université Laval
1.2 Variables et données (suite) Les variables sont pertinentes (si possible, éviter d’ajouter des variables autres que celles prévues dans le protocole) définies au plan opérationnelle instruments de mesures codes pour les valeurs les codes sont déjà établis. Par exemple: AGE: en années (37, 64, …) SEXE: F pour féminin, M pour masculin Symboles pour valeurs N/A et valeurs manquantes Etc. Paul-Marie Bernard Université Laval
Paul-Marie Bernard Université Laval 1.3 Variables et données SOURCES DES DONNÉES: les individus et/ou les dossiers (médicaux ou autres) Paul-Marie Bernard Université Laval
Paul-Marie Bernard Université Laval 2. Saisie des données Pour constituer la base des données, celles-ci peuvent être saisies à l’aide de fiches ou formulaires en papier à l’aide de logiciel Paul-Marie Bernard Université Laval
2.1 Quatre petites règles (suite) S’assurer de la fiabilité de la saisie des données: Pratiquer, si possible, une double saisie, en vérifiant les données qui sont non concordantes d’une saisie à l’autre. Simplifier le processus de saisie des données de sorte que la première phase de la saisie soit le plus près possible de la base de données finale. Éviter les transcriptions manuelles de transcriptions. Chaque transcription manuelle amène son lot d’erreurs. Par contre, les transcriptions électroniques, elles, sont sans erreur. Paul-Marie Bernard Université Laval
2.2 Saisie des données quatre petites règles Recueillir l’information la plus fine possible Exemple: si l’âge est mesuré en années, préférer enregistrer 36, 42, 53, etc. plutôt que entre 35 et 39 entre 40 et 45 entre 50 et 54 etc. Paul-Marie Bernard Université Laval
2.3 Quatre petites règles (suite) S’en tenir à l’information sur les variables de base Exemple: pour la variable IMC, les valeurs du poids et de la taille suffisent à sa mesure. Il n’est pas nécessaire de recueillir directement les valeurs de l’IMC ou d’en calculer sa valeur au moment de la cueillette de l’information. Paul-Marie Bernard Université Laval
2.4 Quatre petites règles (suite) Pour les variables qui réfèrent à la durée d’un phénomène, il est préférable d’enregistrer directement les dates (ou temps) de début et de fin de ce phénomène, si ces dates (ou temps) sont disponibles plutôt que de calculer la durée puis d’enregistrer cette durée. Paul-Marie Bernard Université Laval
3.1 EXCEL et saisie des données En vertu de la petite règle 4, il nous apparaît préférable d’utiliser un logiciel pour la saisie des données. Plusieurs logiciels sont disponibles: SAS, SPSS, ACCESS, LOTUS, DBASE, SPHYNX, EXCEL, etc. Notre préférence : EXCEL Paul-Marie Bernard Université Laval
Paul-Marie Bernard Université Laval 3.2 Logiciel EXCEL Logiciel simple d’utilisation (contexte WINDOWS) universellement connu accessible tableur efficient Nous limitons la présentation d’EXCEL au contexte de la saisie de données Paul-Marie Bernard Université Laval
Paul-Marie Bernard Université Laval 3.3 Logiciel EXCEL EXCEL se prête très bien à la saisie des données la transcription (exportation ou importation) des données en format SAS, DBASE, SPSS, etc. la création de tableaux interactifs des analyses statistiques la création de graphiques Paul-Marie Bernard Université Laval
Paul-Marie Bernard Université Laval 3.4 Tableau EXCEL Paul-Marie Bernard Université Laval
Paul-Marie Bernard Université Laval 3.5 Tableau EXCEL (suite) Chaque ligne représentera un individu pour qui sont mesurées les variables. (La première ligne est réservée aux noms des variables) Chaque colonne représentera les valeurs de la variable unique, identifiée à la première ligne et mesurée pour chaque individu (La première colonne, de préférence à toute autre, est réservée à une nécessaire variable-identification des individus: numéro de dossier, numéro de randomisation, numéro séquentiel ou autre.) Paul-Marie Bernard Université Laval
Paul-Marie Bernard Université Laval 3.6 Tableau EXCEL (suite) La cellule au croisement d’une LIGNE et d’une COLONNE donne la valeur de la variable (correspondant à la colonne) pour l’individu (correspondant à la ligne) Paul-Marie Bernard Université Laval
Paul-Marie Bernard Université Laval 4.1 EXEMPLE Tableau EXCEL Paul-Marie Bernard Université Laval
Paul-Marie Bernard Université Laval 4.2 Exemple (suite) Dans le tableau: 8 variables : IDN: identification de l’individu AGE: âge SEXE: sexe TD: tension diastolique TS: tension systolique FUME: le fait de fumer DATE: la date d’observation HEURE: l’heure d’observation 10 patients: IDN=1, 2, 3, 4,…,10 On remarque deux cellules vides: une pour TD du patient IDN= 5 et l’autre pour FUME du patient IDN=7 Paul-Marie Bernard Université Laval
5.1 Éviter d’éventuels problèmes Pour désigner les variables: utiliser des noms évocateurs: (TD pour tension artérielle diastolique) caractères alphanumériques et _ (TD1 ou TD_1 pour tension artérielle diastolique au temps 1) éviter tous caractères spéciaux, accents, tels !, « , /, $, %, ?, &, *, (, ), +, =, <, >, ^, ç, #, {, etc. (Ne pas écrire ÂGE mais plutôt AGE) Paul-Marie Bernard Université Laval
Paul-Marie Bernard Université Laval 5.2 Éviter … (suite) Pour coder les valeurs d’une variable: si la variable est quantitative, le code est la valeur numérique: AGE=37, TD=70, … chaque valeur a un code unique: (pour la variable SEXE, F et f sont considérés comme deux codes distincts) une valeur manquante est désignée par une cellule vide (voir diapositives 15 et 16) on s’assure du format de la cellule pour inscrire le type de donnée (voir dans le menu Format Cellule Standard, Nombre, Date, …) Paul-Marie Bernard Université Laval
Paul-Marie Bernard Université Laval 5.3 Éviter … (suite) Paul-Marie Bernard Université Laval
Paul-Marie Bernard Université Laval 5.4 Éviter … (suite) Les formats de cellule les plus utilisés: STANDARD pour les valeurs alphanumériques NOMBRE pour les valeurs numériques (décimales et valeurs négatives comprises) DATE pour les dates (format suggéré: 2009-10-27) (L’entrée 27 oct 2009 sera automatiquement convertie en 2009-10-27) HEURE pour le temps (format suggéré: 15:20 pour 15 heures 20 minutes ou 15:20:35 pour 15 heures 20 minutes 35 secondes) Paul-Marie Bernard Université Laval
Paul-Marie Bernard Université Laval 5.5 Éviter … (suite) Pour corriger la donnée d’une cellule, simplement retaper la donnée dans cette même cellule Pour changer les codes d’une variable, utiliser dans Edition la fonction Remplacer Pour ordonner les observations suivant une variable, cliquer sur la cellule où apparaît le nom de cette variable, puis dans le menu Données, cliquer sur Trier. (Le tri pour cette variable est automatiquement étendu à toutes les variables). Dans la petite fenêtre qui s’ouvre, on peut faire son choix sur le type de triage, croissant ou décroissant. On peut aussi choisir une deuxième, et même une troisième, variable pour un tri subordonné au premier. Puis, on clique sur OK. (Voir exemple de tri ci-après) Paul-Marie Bernard Université Laval
Paul-Marie Bernard Université Laval 5.6 Éviter … (suite) En présence de plusieurs variables, on peut utiliser plusieurs feuilles-excel pour un même fichier, ce qui facilite la visualisation des données. Dans ce cas, répéter sur chaque feuille la variable-identification des individus. Cette précaution facilitera une fusion éventuelle des feuilles en une même base de données Paul-Marie Bernard Université Laval
Paul-Marie Bernard Université Laval 5.7 Éviter … (suite) Ne pas oublier d’enregistrer régulièrement le fichier des données recueillies de faire quelques copies de sécurité de la base de données Paul-Marie Bernard Université Laval
Paul-Marie Bernard Université Laval Exemple de tri Référer à la base de données décrite à la diapo #16. Tri projeté: Trier les données suivant la variable TS en ordre décroissant, puis suivant la variable AGE en ordre croissant. Étendre ce tri à l’ensemble des données. (En d’autres termes il faut que le tri exercé sur ces deux variables tiennent compte de toutes les autres variables). Paul-Marie Bernard Université Laval
Exemple … (suite) 1. Choix de la cellule de la variable TS Paul-Marie Bernard Université Laval
Exemple … (suite) Choix du type de tri pour TS et de la variable AGE Paul-Marie Bernard Université Laval
Exemple… (suite) Résultat Paul-Marie Bernard Université Laval
Exemple … (suite) Observations On observe dans ce nouveau tableau que les valeurs de TS sont disposée en ordre décroissant que, pour les deux sujets (IDN=3 et 9) ayant 144 pour TS, la variable AGE est en ordre croissant, 37 puis 40 que les valeurs de toutes les autres variables ont bougé en fonction de ces deux tris, (conservant ainsi intégralement les observations faites sur chacun des individus) Paul-Marie Bernard Université Laval
Paul-Marie Bernard Université Laval Enfin, Vous découvrirez bien d’autres trucs! Pour commentaires, suggestions et questions, me rejoindre à: Paul-Marie Bernard Paul-Marie Bernard Université Laval