Introduction aux Données Biologiques et Médicales
Plan 1. Mesures biologiques et médicales 2. Données (variables) quantitatives 3. Données (variables) qualitatives 4. Données (variables) censurées 5. Description des données
1. Données Biologiques et Médicales permettent d’étudier des phénomènes biologiques/médicaux distinguer le “normal” du “pathologique” mesurer/prévoir l’évolution d’une maladie
Ces mesures sont dites des « variables » car elles varient d’un individu à l’autre variable : « Any quantity that varies. Any attribute, phenomenon, or event that can have different values » A dictionary of Epidemiology (JM Last, Oxford University Press, 1995)
Données/variables de plusieurs types :. quantitatives. qualitatives Données/variables de plusieurs types : quantitatives qualitatives censurées
2. Données (variables) quantitatives mesurables sur une échelle … avec une unité de valeurs réelles : donnée continue poids, taille, âge, PA, glycémie, ... de valeurs isolées : donnée discrète dilutions, nombres d’enfants, de métastases, âge au dernier anniversaire...
Notion de “continuité” relative à l’échelle de mesure et à la précision de la mesure : Age Échelle continue Échelle discrète (ans) : 10, 15, 65 Taille Échelle discrète (cm) : 115, 165, 187
Données continues ou discrètes ? On peut grouper une donnée continue ou discrète en classes de valeurs : donnée ordinale ex : âge < 20, 20-25, 25-30, 30 ex : nb cigarettes/j = 0, 1-10, 11-20, > 20 ex : PAS (mm Hg) < 140 ou 140 binarisation mais au prix d’une perte d’information
3. Données (variables) qualitatives non mesurables sur une échelle (notion de jugement), mais ... avec relation d’ordre : données ordinale (semi-quantitative) intensité d’une douleur (0, +, ++, +++) stades d ’un cancer : I, II, III, IV consommation de tabac : absence, modéré, important
sinon : données catégorique (nominale) homme/femme marié/célibataire fumeur/non fumeur localisations tumorales groupes sanguins : A/B/AB/O
Notion d’espacement inter-classes Attention : une donnée ordinale n’est pas une donnée quantitative discrète ex : intensité d’une douleur (0, +, ++, +++) Nombre d’enfants : 1, 2, 3, 4, 5+ Notion d’espacement inter-classes On ne peut pas dire que le stade IV est deux fois plus mauvais que le stade II, que la différence entre le stade I et II est la même que la différence entre le stade III et IV. Par contre 3 enfants est le triple de 1 et une différence de un veut dire la même chose tout le long de l ’échelle des valeurs
4. Données (variables) censurées Abusivement appelée « données de survie » Elles définissent le délai de survenue d’un événement en « tout ou rien » “Survival analysis is the phrase used to describe the analysis of data that correspond to the time from a well-defined time origin until the occurrence of some particular event or end-point. ”Collett D. Modelling survival data in medical research, Chapman & Hall, 1994
Une date origine ex : date de diagnostic homogénéité nécessaire sur l’ensemble des patients
Un événement binaire (en “ tout ou rien ”) ex : décès, rechute … événement parfaitement défini et reproductibilité inter-centres délai : entre la date origine et la survenue de l’événement le plus précis possible suivi ad hoc des patients
Date de point : date à laquelle on fait le point Tout sujet chez qui l’événement d’intérêt n’a pas été observé à la date de point est censuré à cette date Un sujet perdu de vue à la date de point sera censuré à la date de dernière nouvelle
Sujet 5 Sujet 4 Sujet 3 Sujet 2 Sujet 1 01/01/01 01/01/02
Sujet 5 Sujet 4 Sujet 3 Sujet 2 Sujet 1 Diagnostic 6 mois 1 an
Durée de survie de patients atteints d’un lymphome malin non Hodgkinien (Diagnostic décès) Durée d’attente d’une nouvelle transfusion de plaquettes chez des patients en aplasie post chimiothérapie en onco-hématologie (Transfusion de plaquettes nombre de plaquettes en deçà d’une valeur seuil)
Durée de survenue d’une récidives locales post reconstruction mammaire Durée de survenue d’une aggravation d’une occlusion veineuse rétinienne (Hémodilution faisant suite à un diagnostic d’hémodilution passage d’une forme non ischémique de l’occlusion à une forme ischémique) Durée de survenue d’une récidives locales post reconstruction mammaire (Reconstruction mammaire récidive locale)
5. Description des données Variables continues mesures de position/centralité mesures de la variabilité/dispersion Variables qualitatives Distributions de fréquence Variables censurées Courbes de survie
5.1 Histogramme Données quantitatives continues Suite de rectangles dont la surface est proportionnelle aux fréquences dans des intervalles de valeurs (classes) s h l
Si toutes les classes ont même largeur (l), la hauteur des rectangles est directement proportionnelle à l’effectif de la classe (h = n) s h l
Distribution de la créatinine plasmatique dans le PR
Si toutes les classes n’ont pas la même largeur (l), seule la surface des rectangles est directement proportionnelle à l’effectif de la classe (h = n/l) s h l
a b S = h x l h = S/l = n/l Classes l h 0-4 5 28/5=5.6 5-9 5 46/5=9.2 0-4 5 28/5=5.6 5-9 5 46/5=9.2 10-15 6 58/6=9.7 16 1 20 17 1 31 18-19 2 64/2=32 20-24 5 149/5=29.8 25-59 35 316/35=9.0 60-79 20 103/20=5.1 b
L’”histogramme” a (incorrect) suggère la classe 25-59 comme étant la plus concernée par les accidents de la route alors que l’histogramme b (correct) indique que ce sont les classes 17, 18-19, 20-24. En effet, la fréquence des accidents de la route par année d’âge est plus importante dans ces dernières classes!
5.2 Caractéristiques des distributions Distributions synthétisées par des quantités de tendance centrale Mode/classe modale Médiane Moyenne de dispersion Etendue Intervalle inter-quartiles Variance, écart-type
Mode(s) Définition valeur(s) la (les) plus fréquente(s) sommet(s) de la distribution le plus facile à calculer dépend du regroupement (arbitraire) en classes parfois non unicité
Mode : regroupement en classes Mode : classe [71 - 97] Mode : classe [45 - 97]
Mode : non unicité
Médiane (50ème percentile) Définition valeur centrale de la distribution partage la distribution en 2 parties égales peu sensible aux valeurs extrêmes difficile à manipuler mathématiquement
Exemple : âge de 5 étudiants (n = 5) {19, 20, 22, 20, 21} âge effectif effectif cumulé 19 1 1 20 2 3 21 1 4 22 1 5 médiane = 20
Exemple : âge de 5 étudiants (n = 5) âge effectif effectif cumulé 19 1 1 20 2 3 21 1 4 42 1 5 médiane = 20
Moyenne (expérimentale) Définition moyenne arithmétique des observations centre de gravité utilise toute l’information sensible aux valeurs extrêmes manipulation mathématique
{19, 20, 20, 21, 22} Exemple : âge des 5 étudiants (n = 5) valeur non observée sensible aux valeurs extrêmes
n = 5 {19, 20, 20, 21, 42} {19, 20, 20, 21, 15}
Positions relatives mode, médiane, moyenne Si distribution unimodale, symétrique les 3 coïncident Mode = Médiane = Moyenne 18 22 23 25 27
Si distribution dissymétrique à droite à gauche mode < médiane < moyenne moyenne < médiane < mode Mode Mode Médiane 2 4 6 8 10 Notes Histogramme Médiane Moyenne Moyenne
Etendue Définition différence entre les valeurs extrêmes (minimale, maximale) observées étendue = valeur maximale - valeur minimale dépend entièrement de 2 observations n’est pas manipulable mathématiquement
Valeur min = 45µmol/l Valeur max = 939 µmol/l Etendue = 894 µmol/l Valeur min = 45µmol/l Valeur max = 572 µmol/l Etendue = 527 µmol/l
Variance Estimation estimée à partir des carrés des écarts à la moyenne (écart quadratique moyen)
Exemple : âge de 5 étudiants
Ecart-type Estimation : racine carrée positive de la variance mesure l’écart à la moyenne s’exprime avec la même unité que la variable
68% 95% Min: 18.7 1st Qu.: 23.7 Mean: 25.0 Median: 25.0 3rd Qu.: 26.3 - 2DS - 1DS + 1DS + 2DS Min: 18.7 1st Qu.: 23.7 Mean: 25.0 Median: 25.0 3rd Qu.: 26.3 Max: 30.8 Std Dev.: 2.0 68% 95%
5.3 Box-and-Whisker plot IQR = Q3 - Q1 = 0.8 Min : 36.6 Max 25ème percentile ou Q1 Médiane 75ème percentile ou Q1 Max Min : 36.6 1er Qu. : 36.9 Moyenne : 37.3 Médiane : 37.1 3em Qu. : 37.7 Max : 38.6 écart-type:0.54481 IQR = Q3 - Q1 = 0.8
Box-and-Whisker plot : distribution symétrique Min: 18.7 1st Qu.: 23.7 Mean: 25.0 Median: 25.0 3rd Qu.: 26.3 Max: 30.8 Std Dev.: 2.0 IQR = 26.3 - 23.7 = 2.6 Age
5.4 Distributions de fréquence Figure (ou distribution de fréquence) qui donne le nombre (le %) d’individus selon les valeurs de la mesure Moyen le plus simple de caractériser les variables qualitatives Fréquences relatives ou cumulées
Motif d’admission en réanimation Motif Fréquence Fréquence % % relative cumulée relatif cumulé Respiratoire 25 25 36.2% 36.2% Neurologique 14 39 20.3% 56.5% Hémodynamique 12 51 17.4% 73.9% Métabolique 10 61 14.5% 88.4% Traumatologique 5 66 7.2% 95.6% Divers 3 69 4.3% 100% Total 69 69 100% 100%
Distribution de fréquence : effectifs Diagramme en bâtons Motif : n Respiratoire : 25 Neurologique : 14 Hémodynamique : 12 Métabolique : 10 Traumatologique : 5 Divers : 3 n total = 69
Distribution de fréquence : % Diagramme en bâtons Motif (%) Respiratoire (36%) Neurologique (20%) Hémodynamique (17%) Métabolique (14%) Traumatologique (7%) Divers (4%)
Diagramme en secteurs
5.5 Courbe de survie Estimation de la fonction de “ survie ” = fonction de non-survenue de l’événement considéré au cours du temps (“ survival curve ”) Approche classique : estimateur de Kaplan-Meier (1958) (“ the product-limit estimate ”) Fonction en escalier
Courbe de survie globale à partir du début de la première ligne de chimiothérapie chez des patients atteints de cancer colorectal (86 patients - 76 décès) Patients à risque M0 M12 M24 M36 M48 M60 M72 86 69 42 26 17 10 5
Paramètres de survie Estimation de statistiques descriptives : médiane de “ survie ” taux de survie à une date donnée
Médiane de survie = 24 mois Taux de survie à 3 ans = 37,5%