Introduction aux Données Biologiques et Médicales

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
Licence pro MPCQ : Cours
Additions soustractions
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Association entre variables
INSTITUT DE VEILLE SANITAIRE
Statistique descriptive
Les numéros 70 –
Les numéros
Chapitre 5. Description numérique d’une variable statistique.
ACTIVITES Les fractions (10).
Les identités remarquables
Estimation de la survie comparaison des courbes de survie
1. Les caractéristiques de dispersion. 11. Utilité.
Sirop de Liège « industriel »
Statistique et probabilités au collège
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Estimation de la survie comparaison des courbes de survie FRT C3.
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Etienne Bertaud du Chazaud
La méthodologie………………………………………………………….. p3 Les résultats
Les principaux résumés de la statistique
Présentation générale
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Session 7 1 IST/VIH/SIDA.
Le Concours de Conaissance Francais I novembre 2012.
Si le Diaporama ne s'ouvre pas en plein écran Faites F5 sur votre clavier.
Titre : Implémentation des éléments finis sous Matlab
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
Tableaux de distributions
Tableaux de distributions
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
LES NOMBRES PREMIERS ET COMPOSÉS
CLL11 : chlorambucil (CLB) versus CLB + rituximab (R)
Les chiffres & les nombres
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
1 INETOP
RACINES CARREES Définition Développer avec la distributivité Produit 1
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
La statistique descriptive
La Distribution des Données
1 Licence dinformatique Algorithmique des graphes Problèmes dordonnancement. Utilisation de ce document strictement réservée aux étudiants de l IFSIC dans.
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Titre : Implémentation des éléments finis en Matlab
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Influenza: le modèle épidémiologique belge 29 Mai 2009
Aire d’une figure par encadrement
Écart moyen et écart type
Comment rendre une femme heureuse…
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Nom:____________ Prénom: ___________
L’élotuzumab, un anticorps monoclonal dans le myélome multiple
Direction de santé publique de la Montérégie PORTFOLIO THÉMATIQUE EXPÉRIENCE DE SOINS DES ANGLOPHONES DE LA MONTÉRÉGIE Direction de santé publique Surveillance.
Annexe Résultats provinciaux comparés à la moyenne canadienne
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
Les Chiffres Prêts?
Rappels de statistiques descriptives
STATISTIQUES DESCRIPTIVES
BIOSTATISTIQUES Définitions.
BIOSTATISTIQUES Définitions.
Mesures de description des valeurs des variables
Transcription de la présentation:

Introduction aux Données Biologiques et Médicales

Plan 1. Mesures biologiques et médicales 2. Données (variables) quantitatives 3. Données (variables) qualitatives 4. Données (variables) censurées 5. Description des données

1. Données Biologiques et Médicales permettent d’étudier des phénomènes biologiques/médicaux distinguer le “normal” du “pathologique” mesurer/prévoir l’évolution d’une maladie

Ces mesures sont dites des « variables » car elles varient d’un individu à l’autre variable : « Any quantity that varies. Any attribute, phenomenon, or event that can have different values » A dictionary of Epidemiology (JM Last, Oxford University Press, 1995)

Données/variables de plusieurs types :. quantitatives. qualitatives Données/variables de plusieurs types : quantitatives qualitatives censurées

2. Données (variables) quantitatives mesurables sur une échelle … avec une unité de valeurs réelles : donnée continue poids, taille, âge, PA, glycémie, ... de valeurs isolées : donnée discrète dilutions, nombres d’enfants, de métastases, âge au dernier anniversaire...

Notion de “continuité” relative à l’échelle de mesure et à la précision de la mesure : Age Échelle continue Échelle discrète (ans) : 10, 15, 65 Taille Échelle discrète (cm) : 115, 165, 187

Données continues ou discrètes ? On peut grouper une donnée continue ou discrète en classes de valeurs : donnée ordinale ex : âge < 20, 20-25, 25-30,  30 ex : nb cigarettes/j = 0, 1-10, 11-20, > 20 ex : PAS (mm Hg) < 140 ou  140  binarisation mais au prix d’une perte d’information

3. Données (variables) qualitatives non mesurables sur une échelle (notion de jugement), mais ... avec relation d’ordre : données ordinale (semi-quantitative) intensité d’une douleur (0, +, ++, +++) stades d ’un cancer : I, II, III, IV consommation de tabac : absence, modéré, important

sinon : données catégorique (nominale) homme/femme marié/célibataire fumeur/non fumeur localisations tumorales groupes sanguins : A/B/AB/O

Notion d’espacement inter-classes Attention : une donnée ordinale n’est pas une donnée quantitative discrète ex : intensité d’une douleur (0, +, ++, +++) Nombre d’enfants : 1, 2, 3, 4, 5+ Notion d’espacement inter-classes On ne peut pas dire que le stade IV est deux fois plus mauvais que le stade II, que la différence entre le stade I et II est la même que la différence entre le stade III et IV. Par contre 3 enfants est le triple de 1 et une différence de un veut dire la même chose tout le long de l ’échelle des valeurs

4. Données (variables) censurées Abusivement appelée « données de survie » Elles définissent le délai de survenue d’un événement en « tout ou rien  » “Survival analysis is the phrase used to describe the analysis of data that correspond to the time from a well-defined time origin until the occurrence of some particular event or end-point. ”Collett D. Modelling survival data in medical research, Chapman & Hall, 1994

Une date origine ex : date de diagnostic  homogénéité nécessaire sur l’ensemble des patients

Un événement binaire (en “ tout ou rien ”) ex : décès, rechute … événement parfaitement défini et reproductibilité inter-centres  délai : entre la date origine et la survenue de l’événement le plus précis possible  suivi ad hoc des patients

Date de point : date à laquelle on fait le point Tout sujet chez qui l’événement d’intérêt n’a pas été observé à la date de point est censuré à cette date Un sujet perdu de vue à la date de point sera censuré à la date de dernière nouvelle

 Sujet 5 Sujet 4  Sujet 3 Sujet 2 Sujet 1 01/01/01 01/01/02

Sujet 5 Sujet 4 Sujet 3  Sujet 2 Sujet 1 Diagnostic 6 mois 1 an

Durée de survie de patients atteints d’un lymphome malin non Hodgkinien (Diagnostic  décès) Durée d’attente d’une nouvelle transfusion de plaquettes chez des patients en aplasie post chimiothérapie en onco-hématologie (Transfusion de plaquettes  nombre de plaquettes en deçà d’une valeur seuil)

Durée de survenue d’une récidives locales post reconstruction mammaire Durée de survenue d’une aggravation d’une occlusion veineuse rétinienne (Hémodilution faisant suite à un diagnostic d’hémodilution  passage d’une forme non ischémique de l’occlusion à une forme ischémique) Durée de survenue d’une récidives locales post reconstruction mammaire (Reconstruction mammaire  récidive locale)

5. Description des données Variables continues mesures de position/centralité mesures de la variabilité/dispersion Variables qualitatives Distributions de fréquence Variables censurées Courbes de survie

5.1 Histogramme Données quantitatives continues Suite de rectangles dont la surface est proportionnelle aux fréquences dans des intervalles de valeurs (classes) s h l

Si toutes les classes ont même largeur (l), la hauteur des rectangles est directement proportionnelle à l’effectif de la classe (h = n) s h l

Distribution de la créatinine plasmatique dans le PR

Si toutes les classes n’ont pas la même largeur (l), seule la surface des rectangles est directement proportionnelle à l’effectif de la classe (h = n/l) s h l

a b S = h x l h = S/l = n/l Classes l h 0-4 5 28/5=5.6 5-9 5 46/5=9.2 0-4 5 28/5=5.6 5-9 5 46/5=9.2 10-15 6 58/6=9.7 16 1 20 17 1 31 18-19 2 64/2=32 20-24 5 149/5=29.8 25-59 35 316/35=9.0 60-79 20 103/20=5.1 b

L’”histogramme” a (incorrect) suggère la classe 25-59 comme étant la plus concernée par les accidents de la route alors que l’histogramme b (correct) indique que ce sont les classes 17, 18-19, 20-24. En effet, la fréquence des accidents de la route par année d’âge est plus importante dans ces dernières classes!

5.2 Caractéristiques des distributions Distributions synthétisées par des quantités de tendance centrale Mode/classe modale Médiane Moyenne de dispersion Etendue Intervalle inter-quartiles Variance, écart-type

Mode(s) Définition valeur(s) la (les) plus fréquente(s) sommet(s) de la distribution le plus facile à calculer dépend du regroupement (arbitraire) en classes parfois non unicité

Mode : regroupement en classes Mode : classe [71 - 97] Mode : classe [45 - 97]

Mode : non unicité

Médiane (50ème percentile) Définition valeur centrale de la distribution partage la distribution en 2 parties égales peu sensible aux valeurs extrêmes difficile à manipuler mathématiquement

Exemple : âge de 5 étudiants (n = 5) {19, 20, 22, 20, 21} âge effectif effectif cumulé 19 1 1 20 2 3 21 1 4 22 1 5 médiane = 20

Exemple : âge de 5 étudiants (n = 5) âge effectif effectif cumulé 19 1 1 20 2 3 21 1 4 42 1 5 médiane = 20

Moyenne (expérimentale) Définition moyenne arithmétique des observations centre de gravité utilise toute l’information sensible aux valeurs extrêmes manipulation mathématique

{19, 20, 20, 21, 22} Exemple : âge des 5 étudiants (n = 5) valeur non observée sensible aux valeurs extrêmes

n = 5 {19, 20, 20, 21, 42} {19, 20, 20, 21, 15}

Positions relatives mode, médiane, moyenne Si distribution unimodale, symétrique les 3 coïncident Mode = Médiane = Moyenne 18 22 23 25 27

Si distribution dissymétrique à droite à gauche mode < médiane < moyenne moyenne < médiane < mode Mode Mode Médiane 2 4 6 8 10 Notes Histogramme Médiane Moyenne Moyenne

Etendue Définition différence entre les valeurs extrêmes (minimale, maximale) observées étendue = valeur maximale - valeur minimale dépend entièrement de 2 observations n’est pas manipulable mathématiquement

Valeur min = 45µmol/l Valeur max = 939 µmol/l Etendue = 894 µmol/l Valeur min = 45µmol/l Valeur max = 572 µmol/l Etendue = 527 µmol/l

Variance Estimation estimée à partir des carrés des écarts à la moyenne (écart quadratique moyen)

Exemple : âge de 5 étudiants

Ecart-type Estimation : racine carrée positive de la variance mesure l’écart à la moyenne s’exprime avec la même unité que la variable

68% 95% Min: 18.7 1st Qu.: 23.7 Mean: 25.0 Median: 25.0 3rd Qu.: 26.3 - 2DS - 1DS + 1DS + 2DS Min: 18.7 1st Qu.: 23.7 Mean: 25.0 Median: 25.0 3rd Qu.: 26.3 Max: 30.8 Std Dev.: 2.0 68% 95%

5.3 Box-and-Whisker plot IQR = Q3 - Q1 = 0.8 Min : 36.6 Max 25ème percentile ou Q1 Médiane 75ème percentile ou Q1 Max Min : 36.6 1er Qu. : 36.9 Moyenne : 37.3 Médiane : 37.1 3em Qu. : 37.7 Max : 38.6 écart-type:0.54481 IQR = Q3 - Q1 = 0.8

Box-and-Whisker plot : distribution symétrique Min: 18.7 1st Qu.: 23.7 Mean: 25.0 Median: 25.0 3rd Qu.: 26.3 Max: 30.8 Std Dev.: 2.0 IQR = 26.3 - 23.7 = 2.6 Age

5.4 Distributions de fréquence Figure (ou distribution de fréquence) qui donne le nombre (le %) d’individus selon les valeurs de la mesure Moyen le plus simple de caractériser les variables qualitatives Fréquences relatives ou cumulées

Motif d’admission en réanimation Motif Fréquence Fréquence % % relative cumulée relatif cumulé Respiratoire 25 25 36.2% 36.2% Neurologique 14 39 20.3% 56.5% Hémodynamique 12 51 17.4% 73.9% Métabolique 10 61 14.5% 88.4% Traumatologique 5 66 7.2% 95.6% Divers 3 69 4.3% 100% Total 69 69 100% 100%

Distribution de fréquence : effectifs Diagramme en bâtons Motif : n Respiratoire : 25 Neurologique : 14 Hémodynamique : 12 Métabolique : 10 Traumatologique : 5 Divers : 3 n total = 69

Distribution de fréquence : % Diagramme en bâtons Motif (%) Respiratoire (36%) Neurologique (20%) Hémodynamique (17%) Métabolique (14%) Traumatologique (7%) Divers (4%)

Diagramme en secteurs

5.5 Courbe de survie Estimation de la fonction de “ survie ” = fonction de non-survenue de l’événement considéré au cours du temps (“ survival curve ”) Approche classique : estimateur de Kaplan-Meier (1958) (“ the product-limit estimate ”) Fonction en escalier

Courbe de survie globale à partir du début de la première ligne de chimiothérapie chez des patients atteints de cancer colorectal (86 patients - 76 décès) Patients à risque M0 M12 M24 M36 M48 M60 M72 86 69 42 26 17 10 5

Paramètres de survie Estimation de statistiques descriptives : médiane de “ survie ” taux de survie à une date donnée

Médiane de survie = 24 mois Taux de survie à 3 ans = 37,5%