La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Introduction aux Données Biologiques et Médicales

Présentations similaires


Présentation au sujet: "Introduction aux Données Biologiques et Médicales"— Transcription de la présentation:

1 Introduction aux Données Biologiques et Médicales

2 Plan 1. Mesures biologiques et médicales
2. Données (variables) quantitatives 3. Données (variables) qualitatives 4. Données (variables) censurées 5. Description des données

3 1. Données Biologiques et Médicales
permettent d’étudier des phénomènes biologiques/médicaux distinguer le “normal” du “pathologique” mesurer/prévoir l’évolution d’une maladie

4 Ces mesures sont dites des « variables »
car elles varient d’un individu à l’autre variable : « Any quantity that varies. Any attribute, phenomenon, or event that can have different values » A dictionary of Epidemiology (JM Last, Oxford University Press, 1995)

5 Données/variables de plusieurs types :. quantitatives. qualitatives
Données/variables de plusieurs types : quantitatives qualitatives censurées

6 2. Données (variables) quantitatives
mesurables sur une échelle … avec une unité de valeurs réelles : donnée continue poids, taille, âge, PA, glycémie, ... de valeurs isolées : donnée discrète dilutions, nombres d’enfants, de métastases, âge au dernier anniversaire...

7 Notion de “continuité” relative à l’échelle de mesure et à la précision de la mesure :
Age Échelle continue Échelle discrète (ans) : 10, 15, 65 Taille Échelle discrète (cm) : 115, 165, 187

8 Données continues ou discrètes ?
On peut grouper une donnée continue ou discrète en classes de valeurs : donnée ordinale ex : âge < 20, 20-25, 25-30,  30 ex : nb cigarettes/j = 0, 1-10, 11-20, > 20 ex : PAS (mm Hg) < 140 ou  140  binarisation mais au prix d’une perte d’information

9 3. Données (variables) qualitatives
non mesurables sur une échelle (notion de jugement), mais ... avec relation d’ordre : données ordinale (semi-quantitative) intensité d’une douleur (0, +, ++, +++) stades d ’un cancer : I, II, III, IV consommation de tabac : absence, modéré, important

10 sinon : données catégorique (nominale)
homme/femme marié/célibataire fumeur/non fumeur localisations tumorales groupes sanguins : A/B/AB/O

11 Notion d’espacement inter-classes
Attention : une donnée ordinale n’est pas une donnée quantitative discrète ex : intensité d’une douleur (0, +, ++, +++) Nombre d’enfants : 1, 2, 3, 4, 5+ Notion d’espacement inter-classes On ne peut pas dire que le stade IV est deux fois plus mauvais que le stade II, que la différence entre le stade I et II est la même que la différence entre le stade III et IV. Par contre 3 enfants est le triple de 1 et une différence de un veut dire la même chose tout le long de l ’échelle des valeurs

12 4. Données (variables) censurées
Abusivement appelée « données de survie » Elles définissent le délai de survenue d’un événement en « tout ou rien  » “Survival analysis is the phrase used to describe the analysis of data that correspond to the time from a well-defined time origin until the occurrence of some particular event or end-point. ”Collett D. Modelling survival data in medical research, Chapman & Hall, 1994

13 Une date origine ex : date de diagnostic
 homogénéité nécessaire sur l’ensemble des patients

14 Un événement binaire (en “ tout ou rien ”)
ex : décès, rechute … événement parfaitement défini et reproductibilité inter-centres  délai : entre la date origine et la survenue de l’événement le plus précis possible  suivi ad hoc des patients

15 Date de point : date à laquelle on fait le point
Tout sujet chez qui l’événement d’intérêt n’a pas été observé à la date de point est censuré à cette date Un sujet perdu de vue à la date de point sera censuré à la date de dernière nouvelle

16 Sujet 5 Sujet 4 Sujet 3 Sujet 2 Sujet 1 01/01/01 01/01/02

17 Sujet 5 Sujet 4 Sujet 3 Sujet 2 Sujet 1 Diagnostic 6 mois 1 an

18 Durée de survie de patients atteints d’un lymphome malin non Hodgkinien
(Diagnostic  décès) Durée d’attente d’une nouvelle transfusion de plaquettes chez des patients en aplasie post chimiothérapie en onco-hématologie (Transfusion de plaquettes  nombre de plaquettes en deçà d’une valeur seuil)

19 Durée de survenue d’une récidives locales post reconstruction mammaire
Durée de survenue d’une aggravation d’une occlusion veineuse rétinienne (Hémodilution faisant suite à un diagnostic d’hémodilution  passage d’une forme non ischémique de l’occlusion à une forme ischémique) Durée de survenue d’une récidives locales post reconstruction mammaire (Reconstruction mammaire  récidive locale)

20 5. Description des données
Variables continues mesures de position/centralité mesures de la variabilité/dispersion Variables qualitatives Distributions de fréquence Variables censurées Courbes de survie

21 5.1 Histogramme Données quantitatives continues
Suite de rectangles dont la surface est proportionnelle aux fréquences dans des intervalles de valeurs (classes) s h l

22 Si toutes les classes ont même largeur (l), la hauteur des rectangles est directement proportionnelle à l’effectif de la classe (h = n) s h l

23 Distribution de la créatinine plasmatique dans le PR

24

25 Si toutes les classes n’ont pas la même largeur (l), seule la surface des rectangles est directement proportionnelle à l’effectif de la classe (h = n/l) s h l

26 a b S = h x l h = S/l = n/l Classes l h 0-4 5 28/5=5.6 5-9 5 46/5=9.2
/5=5.6 /5=9.2 /6=9.7 /2=32 /5=29.8 /35=9.0 /20=5.1 b

27 L’”histogramme” a (incorrect) suggère la classe comme étant la plus concernée par les accidents de la route alors que l’histogramme b (correct) indique que ce sont les classes 17, 18-19, En effet, la fréquence des accidents de la route par année d’âge est plus importante dans ces dernières classes!

28 5.2 Caractéristiques des distributions
Distributions synthétisées par des quantités de tendance centrale Mode/classe modale Médiane Moyenne de dispersion Etendue Intervalle inter-quartiles Variance, écart-type

29 Mode(s) Définition valeur(s) la (les) plus fréquente(s)
sommet(s) de la distribution le plus facile à calculer dépend du regroupement (arbitraire) en classes parfois non unicité

30 Mode : regroupement en classes
Mode : classe [ ] Mode : classe [ ]

31 Mode : non unicité

32 Médiane (50ème percentile)
Définition valeur centrale de la distribution partage la distribution en 2 parties égales peu sensible aux valeurs extrêmes difficile à manipuler mathématiquement

33 Exemple : âge de 5 étudiants (n = 5)
{19, 20, 22, 20, 21} âge effectif effectif cumulé médiane = 20

34 Exemple : âge de 5 étudiants (n = 5)
âge effectif effectif cumulé médiane = 20

35 Moyenne (expérimentale)
Définition moyenne arithmétique des observations centre de gravité utilise toute l’information sensible aux valeurs extrêmes manipulation mathématique

36 {19, 20, 20, 21, 22} Exemple : âge des 5 étudiants (n = 5)
valeur non observée sensible aux valeurs extrêmes

37 n = 5 {19, 20, 20, 21, 42} {19, 20, 20, 21, 15}

38 Positions relatives mode, médiane, moyenne
Si distribution unimodale, symétrique les 3 coïncident Mode = Médiane = Moyenne

39 Si distribution dissymétrique à droite à gauche
mode < médiane < moyenne moyenne < médiane < mode Mode Mode Médiane 2 4 6 8 10 Notes Histogramme Médiane Moyenne Moyenne

40 Etendue Définition différence entre les valeurs extrêmes (minimale, maximale) observées étendue = valeur maximale - valeur minimale dépend entièrement de 2 observations n’est pas manipulable mathématiquement

41 Valeur min = 45µmol/l Valeur max = 939 µmol/l Etendue = 894 µmol/l Valeur min = 45µmol/l Valeur max = 572 µmol/l Etendue = 527 µmol/l

42 Variance Estimation estimée à partir des carrés des écarts à la moyenne (écart quadratique moyen)

43

44 Exemple : âge de 5 étudiants

45 Ecart-type Estimation : racine carrée positive de la variance
mesure l’écart à la moyenne s’exprime avec la même unité que la variable

46 68% 95% Min: 18.7 1st Qu.: 23.7 Mean: 25.0 Median: 25.0 3rd Qu.: 26.3
- 2DS - 1DS + 1DS + 2DS Min: 18.7 1st Qu.: 23.7 Mean: 25.0 Median: 25.0 3rd Qu.: 26.3 Max: 30.8 Std Dev.: 2.0 68% 95%

47 5.3 Box-and-Whisker plot IQR = Q3 - Q1 = 0.8 Min : 36.6 Max
25ème percentile ou Q1 Médiane 75ème percentile ou Q1 Max Min : 36.6 1er Qu. : 36.9 Moyenne : 37.3 Médiane : 37.1 3em Qu. : 37.7 Max : 38.6 écart-type: IQR = Q3 - Q1 = 0.8

48 Box-and-Whisker plot : distribution symétrique
Min: 18.7 1st Qu.: 23.7 Mean: 25.0 Median: 25.0 3rd Qu.: 26.3 Max: 30.8 Std Dev.: 2.0 IQR = = 2.6 Age

49 5.4 Distributions de fréquence
Figure (ou distribution de fréquence) qui donne le nombre (le %) d’individus selon les valeurs de la mesure Moyen le plus simple de caractériser les variables qualitatives Fréquences relatives ou cumulées

50 Motif d’admission en réanimation
Motif Fréquence Fréquence % % relative cumulée relatif cumulé Respiratoire % 36.2% Neurologique % 56.5% Hémodynamique % 73.9% Métabolique % 88.4% Traumatologique % 95.6% Divers % 100% Total % 100%

51 Distribution de fréquence : effectifs Diagramme en bâtons
Motif : n Respiratoire : 25 Neurologique : 14 Hémodynamique : 12 Métabolique : 10 Traumatologique : 5 Divers : 3 n total = 69

52 Distribution de fréquence : % Diagramme en bâtons
Motif (%) Respiratoire (36%) Neurologique (20%) Hémodynamique (17%) Métabolique (14%) Traumatologique (7%) Divers (4%)

53 Diagramme en secteurs

54 5.5 Courbe de survie Estimation de la fonction de “ survie ” = fonction de non-survenue de l’événement considéré au cours du temps (“ survival curve ”) Approche classique : estimateur de Kaplan-Meier (1958) (“ the product-limit estimate ”) Fonction en escalier

55 Courbe de survie globale à partir du début de la première ligne de chimiothérapie chez des patients atteints de cancer colorectal (86 patients - 76 décès) Patients à risque M0 M12 M24 M36 M48 M60 M72

56 Paramètres de survie Estimation de statistiques descriptives :
médiane de “ survie ” taux de survie à une date donnée

57 Médiane de survie = 24 mois
Taux de survie à 3 ans = 37,5%


Télécharger ppt "Introduction aux Données Biologiques et Médicales"

Présentations similaires


Annonces Google