Données chiffrées : résumé et représentation selon le type de variables Optionnel de Statistique appliquée À la lecture critique d’articles Cours n°1 FRT 2007
Plan Paramètres résumant la distribution d’une variable qualitative à 2 ou + classes d’une variable quantitative à loi de distribution symétrique à loi de distribution asymétrique Représentation sous forme de tableaux Représentations sous forme de graphes ce qu’il faut faire, ce qu’il ne faut pas faire
Variables qualitatives À 2 classes : en présent/absent Succès/échec Homme/femme Cas/témoin Traitement de référence/nouveau traitement = variable dichotomique
Variables qualitatives À 2 classes : variable dichotonique À plusieurs classes : Ordonnées : importance croissante dans un ordre déterminé : Rang de naissance Stade histologique d’une tumeur : I, II, III, IV tabagisme :0 pa, ] 0-10 pa], ]10 – 20 pa ], > 20 pa Toujours le cas pour une variable quantitative transformée en variable qualitative à plusieurs classes
Variables qualitatives À 2 classes : variable dichotomique À plusieurs classes : Ordonnées : importance croissante dans un ordre déterminé Non ordonnées : non croissantes génotypes du VHC :types 1, 2, 3, 4/5 Localisation IDM : antérieur, septal, postérieur Origine géographique : Europe, Afrique du nord, Afrique sub-saharienne, Asie ..
Variables qualitatives Se représentent sous forme de ratios, de proportions ou pourcentages : Exemple : 150 malades inclus, 90 hommes, 60 femmes : Ratio H:F : 90:60 ou 1,5:1 (correspond au rapport 90/60) Proportion d’hommes : 90/150 (0,60) Pourcentage d’hommes : 90/150 (60 %)
Variables qualitatives Se représentent sous forme de ratios, de proportions ou pourcentages : Exemple : 150 malades inclus, 90 hommes, 60 femmes : Ratio H:F : 90:60 ou 1,5:1 (correspond au rapport 90/60) Proportion d’hommes : 90/150 (0,60) Pourcentages d’hommes : 90/150 (60 %) -Toujours noter les numérateurs et dénominateurs - pour une variable dichotomique, donner un % sans son complémentaire - pour une variable à plusieurs classes, donner tous les % !
Variables qualitatives Le % observé représente une estimation faite sur un échantillon de taille n Pour estimer la précision de l’estimation : associer l’intervalle de confiance du % IC 95 % = p pq/n (condition np, nq >5) Inutile pour toutes les variables descriptives Indispensable pour les “évènements” étudiés
Quelques exemples d’IC à 95 % La précision d’une estimation dépend de la taille de l’échantillon : « le taux d’infections nosocomiales était de 10 % »
Quelques exemples d’IC à 95 % La précision d’une estimation dépend de la taille de l’échantillon : « le taux d’infections nosocomiales était de 10 % » taille de l’échantillon IC 95 % 30 2,1 – 26,5 % 80 4,4 – 18,8 % 150 5,8 – 15,8 % 600 7,6 – 12,4 % 1200 8,3 – 11,7 % L’IC est plus important qu’une précision numérique illusoire 12/65 (18,4615 %) IC 95 % : 9,9 – 30,0 %
Variables quantitatives Quelle que soit la distribution, normale ou quelconque 1 DS 1 DS X On définit sur un échantillon de taille N : - la moyenne m : nixi/N - la variance s² : [xi² - (xi)²/n] / n-1 - et l’écart-type : s²(déviation standard)
Variables quantitatives Pour décrire des variables quantitatives dont la distribution est normale ou au moins symétrique : m ± 1 DS [extrêmes] mêmes unités En cas de distribution normale, cela veut dire que 2/3 de l’échantillon ont une valeur comprise entre m – 1 DS et m + 1 DS L’écart-type de la moyenne (sem = s/n) est une mesure de précision de la moyenne, pas une mesure de la variabilité des données
Variables quantitatives Pour décrire des variables quantitatives dont la distribution est normale ou au moins symétrique : m ± 1 DS [extrêmes] L’écart-type de la moyenne (sem = s/n) est une mesure de précision de la moyenne, pas une mesure de la variabilité des données Pour décrire la variabilité de mesures biologiques : coefficient de variation (CV) : CV écart-type x 100 exprimé en % moyenne =
Variables quantitatives Pour décrire des variables quantitatives dont la distribution est normale ou au moins symétrique : m ± 1 DS [extrêmes] L’écart-type de la moyenne (sem = s/n) est une mesure de précision de la moyenne, pas une mesure de la variabilité des données Pour décrire la variabilité de mesures biologiques : coefficient de variation (CV) : En cas de distribution asymétrique : médiane et interquartiles
Variables quantitatives, distribution asymétrique Graphe de proportions cumulatives F(X) 1 0,50 0 médiane k X Médiane : P(X médiane) = 0,50
Variables quantitatives, distribution asymétrique Graphe de proportions cumulatives F(X) 1 0,75 0,50 0,25 IQR 0 1erIQ médiane 3èIQ k X Médiane : P(X médiane) = 0,50 Interquartile : 1er Q : P(X 1er Q) = 0,25 3è Q : P(X 3è Q) = 0,75
Variables quantitatives, distribution asymétrique % malades médiane 1er IQ moyenne 3ème IQ Vitesse de progression de la fibrose (Points Metavir/durée de la maladie en ans)
Variables quantitatives, distribution asymétrique Comment reconnaître ? 10,5 4,8 UI 10,5 9,7 UI 10,5 11,6 UI
Variables quantitatives, distribution asymétrique Comment reconnaître ? La transformation de la variable en Log peut normaliser la distribution Intéressant pour les tests statistiques Interprétation clinique difficile
Variables quantitatives, distribution asymétrique Comment reconnaître ? La transformation de la variable en Log peut normaliser la distribution Intéressant pour les tests statistiques Interprétation clinique difficile Cas « extrême » de variables dont l’étendue des valeurs va de 0 à 1012 ou + Exemple : les charges virales : ADN du VHB ARN du VIH Transformation en log10 réduit l’étendue : valeurs de 0 à 12
Variables quantitatives censurées Variable censurée = variable qui évolue avec le temps : vie/décès, rechute de la maladie Au moment de l’analyse : Si le malade est décédé, on connaît sa durée de vie Si le malade est encore vivant, on ne connaît pas sa durée de vie qui est > durée de l’étude
Variables quantitatives censurées Variable censurée = variable qui évolue avec le temps : vie/décès, rechute de la maladie Au moment de l’analyse : Si le malade est décédé, on connaît sa durée de vie Si le malade est encore vivant, on ne connaît pas sa durée de vie qui est > durée de l’étude On ne peut donc pas calculer la moyenne de survie Médiane de survie si survie connue pour au moins 50 % Quartile si médiane non atteinte Probabilité de survie à xx mois ou années : calcul permettant de prendre en compte toutes les informations, y compris celles apportées par la durée de suivi des « exclus-vivants »
Variables quantitatives transformées en variables qualitatives Recueillir de préférence l’information comme variable quantitative Transformer pour l’analyse en variable qualitative à 2 classes Plus souvent en variable ordinale Donner le rationnel du choix des classes Seuil = médiane (puissance maximale) ou moyenne Pertinence clinique Seuils acceptés dans la littérature
Evolution des données Mesures « avant-après », exprimées en : Différence entre 2 mesures Différence relative : (mesure après – mesure avant) / mesure avant x100 = diminution si valeur négative = augmentation si valeur positive Toujours donner au moins une mesure en valeur absolue pour évaluer l’ordre de grandeur de la modification 50 % de diminution d’une complication taux initial 42 % ≠ taux initial 3 % Données résumées : moyenne 1 DS de la différence
Présentation des résultats sous forme de tableaux Description de la population de l’étude Analyse selon la variable de regroupement Traitement Caractéristique épidémiologique à l’étude Critère de jugement Les tableaux doivent être clairs (lisibles) complets informatifs complémentaires du texte
Table 2: Characteristics of patients according to cannabis use Non cannabis users n=141 Occasional n=40 Daily n=89 P* Cannabis use (cigarettes/month) median (IQR) 8 (4-10) 60 (30-122) <0.001 Gender Men, n (%) 75 (53.2%) 30 (80.0%) 79 (88.8%) Age at exposure, mean (SD) 27.6 (12.0) 20.6 (3.8) 21.1 (4.4) Age at liver biopsy, mean (SD) 48.0 (11.1) 37.2 (6.5) 38.3 (6.3) Route of transmission Blood transfusion, n (%) Intravenous drug use, n (%) Nosocomial exposure, n (%) 95 (67.4%) 26 (18.4%) 20 (14.2%) 4 (10.0%) 35 (87.5%) 1 (2.2%) 5 (5.6%) 83 (93.3%) 1 (1.1 %) Duration of HCV exposure (yrs) mean (SD) 20.4 (8.9) 16.7 (6.9) 17.1 (5.4) 0.02 Disease-time tobacco use (packs-yrs) 0 (0-15) 13 (8-20) 15 (10-22) Disease-time alcohol intake g/day, median (IQR) >30 g/day (%) 3 (1-13) 18 (12.8) 18 (4-42) 14 (35.0) 27 (10-49) 43 (48.3) * p value of the global test. Significant results of two-by-two comparisons are reported in the text. †: occasional versus daily smokers ; ‡ Information missing in 3 patients; SD: standard deviation; BMI : body mass index;
Methadone/buprenorphine use, n (%) 1 (1.2 %) 4 (10.0%) 20 (22.5%) 0.10† HCV genotype, n (%)‡ 1 2 3 4,5 90 (64.8) 18 (13.0) 17 (12.2) 14 (10.1) 25 (62.5) 0 (0) 12 (30.0) 3 (7.5) 42 (47.7) 2 (2.3) 37 (42.1) 7 (8.0) <0.001 Fasting glycemia <6.1 mmol/L, n (%) 125 (88.7%) 39 (97.5%) 85 (95.5%) 0.15 BMI (kg/m2), mean (SD) 25.4 (4.9) 23.3 (2.5) 23.4 (3.8) 0.002 Steatosis, n (%) Absent Mild Moderate Marked 39 (27.7%) 60 (42.6%) 18 (12.8%) 24 (17.0%) 12 (30.0%) 23 (57.5%) 2 (5.0%) 3 (7.5%) 23 (25.8%) 37 (41.6%) 8 (9.0%) 21 (23.6%) 0.24 Metavir activity grade, n (%) A1 A2 A3 65 (46.1%) 71 (50.4%) 5 (3.6%) 18 (45.0%) 21 (52.5%) 1 (2.5%) 33 (37.1%) 50 (56.2%) 6 (6.7 %) 0.53 Metavir fibrosis stage, n (%) F0 F1 F2 F3 F4 8 (5.7%) 84 (59.6%) 26 (18.4%) 7 (5.0%) 16 (11.4%) 28 (70.0%) 2 (2.3%) 42 (47.2%) 16 (18.0%) 13 (14.6%) 0.004 Fibrosis progression rate (Metavir units/year), median (Q1-Q3) 0.06 (0.04-0.11) 0.07 (0.05-0.12) 0.11 (0.07-0.17) 0.001 Fibrosis progression rate >0.15 (%) 28 (19.9%) 6 (15.0%) 30 (33.7%) 0.02
Fibrosis progression rate > 0.074 U/year, n (%) Univariate analysis of factors associated with fibrosis progression rate >0.074 Metavir units/year Fibrosis progression rate > 0.074 U/year, n (%) p Gender Male (n=186) Female (n =84) 100 (53.8 %) 34 (40.5 %) 0.04 Age at exposure < 20 (n=111) 21-40 (n=136) > 40 (n=23) 46 (41.4%) 72 (52.9%) 16 (70%) 0.023 Route of transmission Blood transfusion (n=104) IVDU (n=144) Nosocomial (n=22) 42 (40.4 %) 82 (56.9 %) 10 (45.5 %) 0.034 Genotype* 1 (n=157) 2 (n=20) 3 (n=66) 4/5 (n=24) 66 (42.0 %) 7 (35.0 %) 49 (74.2%) 11 (45.8 %) <0.001† Disease-time cannabis use Non smokers (n=141) Occasional smokers (n=40) Daily smokers (n=89) 56 (39.7%) 17 (42.5%) 61 (68.5%) <0.001‡ * Information missing in 3 patients ; † Due to differences between genotype 3 and other genotypes ; ‡ Due to differences between daily cannabis smokers and occasional and non cannabis smokers
Analyse univariée (suite) Disease-time alcohol intake < 30 g/day (n=195) > 30 g/day (n=75) 82 (42.1%) 52 (69.3%) 0.001 Disease-time tobacco (packs-yrs) None (n=80) 0-10 (n=59) 11-20 (n=87) >20 (n=44) 34 (42.5 %) 32 (54.2 %) 43 (49.4 %) 25 (56.8 %) 0.39 Methadone/buprenorphine treatment Absent (n=245) Present (n=25) 118 (48.2 %) 16 (64.0 %) 0.13 BMI (kg/m2), ≤ 27 (n=212) > 27 (n=58) 106 (48. 3%) 28 (50.0 %) 0.82 Fasting serum glucose (mmol/L) ≤ 6.1 (n=249) > 6.1 (n=21) 119 (47.8%) 15 (71.4%) 0.038 Steatosis Absent-mild (n=194) Moderate-severe (n=76) 79 (40.7%) 55 (72.4%) <0.001 Metavir activity grade A1 (n=116) A2-A3 (n=154) 30 (25.9%) 104 (67.5%)
Représentation graphique Des variables qualitatives : Histogrammes en bâtons, groupés, empilés Secteurs (« camembers ») Aires sous la courbe Courbes …. Des variables quantitatves Histogrammes en bâtons Barres Boîtes « à moustaches »
HCV genotypes and routes of transmission (2000-2001) (C Payan, F Roudot-Thoraval et al, J viral Hepatitis, 2005)
Relation entre génotypes et périodes de contamination (2000-01, n=985) C Payan, F Roudot-Thoraval et al, J viral Hepatitis, 2005)
Relationship between genotypes and age at referral (2000-01) % Age (years) (C Payan, F Roudot-Thoraval et al, J viral Hepatitis, 2005)
Lésions hépatiques à la biopsie du foie (1999) 11% 2% 34% lésions non spécifiques 12% HCA minime HCA modérée HCA sévère cirrhose 41% Réseau Hépatite C Val de Marne-Essonne
Premiers résultats de la notification obligatoire du VIH, France Modes de contamination 51 % 42 % 6 % 32 % 64 % 4 % 98 % InVS, juin 2003
Age à la prise en charge de l’hépatite C en milieu spécialisé Réseau Hépatite C Val-de-Marne-Essonne, 1996-2000
Evolution de la PAS sous traitement sem PAS (mmHg) n = 84 n = 79
Données appariées T3 libre (mUI) 30 – 20 – 10 – 0 - l l Avant Après
Données appariées T3 libre (mUI) T3 libre (mUI) 30 – 20 – 10 – 0 - 0 - 30 – 20 – 10 – 0 - l l l l Avant Après Avant Après
Représentation en « boites » 5 10 15 20 25 30 35 40 45 50 Score de fibrose Metavir F4 F3 F2 F1 F0 Elasticité du foie au Fibroscan ® (Kpa) F0 F1 F2 F3 F4
Représentation en « boites » 5 10 15 20 25 30 35 40 45 50 Score de fibrose Metavir F4 F3 F2 F1 F0 médiane Elasticité du foie au Fibroscan ® (Kpa)
Représentation en « boites » 5 10 15 20 25 30 35 40 45 50 Score de fibrose Metavir F4 F3 F2 F1 F0 médiane 1er et 3ème interquartiles Elasticité du foie au Fibroscan ® (Kpa)
Représentation en « boites » 5 10 15 20 25 30 35 40 45 50 Score de fibrose Metavir F4 F3 F2 F1 F0 10ème et 90ème percentiles médiane 1er et 3ème interquartiles Elasticité du foie au Fibroscan ® (Kpa)
Représentation en « boites » 5 10 15 20 25 30 35 40 45 50 Score de fibrose Metavir F4 F3 F2 F1 F0 10ème et 90ème percentiles médiane 1er et 3ème interquartiles Valeurs extrêmes Elasticité du foie au Fibroscan ® (Kpa)
Evolution of causes of death in HIV infected patients % deaths 14.3% 6.6% 1.5% Rosenthal E et al, AIDS 2003
Evolution of causes of death in HIV infected patients % deaths (number of deaths) (1307) (459) (129) (98) (38) (36) (48) (99) (21) Rosenthal E et al, AIDS 2003