BIOSTATISTIQUES Définitions
1 - Population ( en médecine) un ensemble de personnes dans une étude est appelé population ( ex : population de diabétiques) en médecine: les unités statistiques de la population sont des individus (= malades) souvent effectif important ++++
2- Echantillon Echantillon = partie de la population Afin de faire des inférences au niveau de la population : échantillon « représentatif » Constitution de l ’échantillon : le plus souvent : tirage au sort +++
3- Variable on appelle « variable » une caractéristique pouvant prendre une valeur différente selon les individus étudiés et décrivant ces individus. La taille, le poids Le taux de cholestérol ou de glycémie La durée d’une maladie modalité = valeur que peut prendre cette variable
Il existe deux types de variables : 1- Variables qualitatives : Les données mesurées se rapportent à des qualités : ex sexe : H ou F 2- Variables quantitatives: Les données mesurées se rapportent à une quantité : ex poids ou taille
Variables qualitatives 1- Variables ordinales : s’expriment en classes, ordonnées selon une échelle de valeur = présence d ’une relation d’ordre 2 - Variables nominales : variables qui sont codées en classe, exprimables par des noms mais non ordonnées 3- Variables binaires : cas particulier de variables nominales qui ne prennent que deux valeurs
Caractéristiques communes des variables qualitatives : Ne permettent pas les calculs arithmétiques (moyenne…) mais donnent lieu à des dénombrements (fréquences absolues) et des pourcentages (fréquences relatives)
Variables quantitatives Variable mesurable + + Caractérisées par des valeurs numériques permettent des calculs arithmétiques (moyenne, écart-type…)
1 - Quantitative discrète - variables numériques discontinues - en général les données ne prennent que des valeurs entières, non négatives 2 - Quantitative continue : Il existe une infinité de valeurs théoriques possibles
STATISTIQUES DESCRIPTIVES
But : présenter les données pour que l'on puisse en prendre connaissance facilement
la présentation brute des données Utilise : la présentation brute des données les tableaux : distributions de fréquences les graphiques : diagrammes et histogrammes résumés numériques fournis par un petit nombre de paramètres ( position ou dispersion) 12
Variable qualitatives: effectifs et fréquences Soit une série statistique portant sur n individus sur lesquels on a observé une variable qualitative X celle-ci prend C modalités (a1, a2,….,ac) Effectif total : nombre d’individus de la série statistique : on le note n ou N Fréquence absolue : nombre d’individus ni pour la modalité Ci Fréquence relative : fi = ni/n
Effectifs et fréquences: illustration variable X prenant C modalités: ai ac total Effectifs (fréquence absolue) n1 ni nc n = ∑ni Fréquences relatives f1 fi fc ∑ fi =1
Effectifs et fréquences: illustration La fréquence absolue = nombre d’individus ni ayant comme caractéristique la modalité Ci ( en effectif) 15
Fréquences relatives : Les fréquences relatives sont, pour chaque classe, le rapport de son effectif au nombre total d'individus de la série des mesures. Fi = ni / n
Fréquences relatives cumulées: illustration Les fréquences cumulées sont utilisées pour les variables qualitatives ordonnées+++ Ex : 92% des malades ont un stade peu évolué ( stade 1 et 2)
Représentation graphique des variables qualitatives : diagramme sectoriel (camembert) diagramme en bâtons diagramme en barre ou histogramme (variables quantitatives représentées en classes) diagramme de Pareto
Diagramme sectoriel : Autres 5% l ’angle du secteur est proportionnel aux fréquences. Pour définir l ’angle, on multiplie par 360° la fréquence. ex: homo / bisexuels : 360 x 0.31 = 120° Hétérosexuels 15% Transfusion 2% Homo/ bisexuels 31% Hémophiles 2% Homo/bi Toxico IV 1% Toxico IV 29%
Diagramme en bâtons : On peut représenter les fréquences absolues, relatives ou cumulées (diagramme cumulatif) avec un diagramme en bâtons. Exemple: stade de la maladie chez 500 patients
Diagramme en barre ou histogramme (1) : Ordre de présentation en fonction des fréquences Les proportions en ordonnée 40% 35% 30% 25% 20% 15% 10% 5% 0% Toxico IV Autres Transfusion Hémophiles Homo/bisexuels Hétérosexuels Homo/bi Toxico IV
Diagramme de Pareto : Histogramme représentant des données classées par ordre décroissant d'importance. Il permet de se concentrer sur les actions qui auront le plus grand effet. Très utilisé en économie, ou dans les démarches qualité
ligne de cumul
Problème des variables quantitatives continues : infinité de valeurs : difficile à représenter création de classes = discrétiser +++ Représentation possible : diagramme en barre ou en secteur , tableaux
variables quantitatives continues ( discrétisées) : ex : âge des enfants atteints par la varicelle = 200 cas attention : les classes choisies ne sont pas toujours égales +++
Répartition de l ’âge à l’attaque de la varicelle Fréquence par an (%) Répartition de l ’âge à l’attaque de la varicelle 15 10 5 Age 1 2 4 6 8 12 16 Histogramme (1)
Histogramme (2) classes égales
Mesures de description des valeurs des variables d’un échantillon Définition
Tout ensemble de données mesurées sur des variables quantitatives est caractérisé par 2 types de paramètres : Paramètres de position : moyenne, médiane, mode, quantiles Paramètres de dispersion : variance, écart-type, extrêmes, étendue..
Caractéristiques de tendance centrale: 31
Moyenne arithmétique: règles
Moyenne arithmétique: règles 33
Paramètres de position Moyenne arithmétique : Soit un échantillon de n valeurs (x1, x2,......, xn) d’une variable quantitative (continue ou discontinue) X xi m = n
å 1- La variable discontinue : données réparties en k classes ex : moyenne du nombre d ’enfants par famille ? échantillon de 120 familles (N) Modalités x1....x2 .........xk Effectifs n1 .... n2 ........nk Fréquence f1 .... f2 .........fk n x å f m= i i = x N i i 20x0 . + 60x1 . 1 + 30x2 . 2 + 10x3+4 . 3 0x4 . 4 m = 20 + 60 + 30 + 10 m = 0,16 x 0 + 0,5 x 1 + 0,25 x 2 + 0,085 x 3
åx i ni = 2-La variable continue discrétisée (I): approximation de la moyenne +++ - Les valeurs de X sont placées dans des classes définies préalablement - On utilise alors le centre de chaque classe 167,5 åx i ni = 167,5 m = 45
Médiane : valeur qui partage la série de données en deux groupes de même effectif indicateur de position insensible aux variations extrêmes de la variable COURS N°1
b) Grand échantillon: variable discontinue Valeur x1.....x2.................xk Effectifs n1.....n2.................nk Fréquence cumulée f1….f2………….fk valeur de rang = 1 + N 2
Variable continue discrétisée : Cas où l’on ne dispose que d’un tableau de fréquence • La classe médiane est la classe où est située la médiane = la classe pour laquelle les fréquences cumulées: avant celle-ci sont <50% après celle-ci > 50%
ei-1 = borne inf de la classe médiane a = largeur de la classe médiane Calcul de M par interpolation linéaire : M = ei-1 + a (0.5 – Fi-1) / fi ei-1 = borne inf de la classe médiane a = largeur de la classe médiane Fi-1 = fréquence cumulée de la classe inférieure fi = fréquence relative de la classe médiane
Mode Valeur la plus fréquente (ou classe la plus fréquente) Si toutes les valeurs sont différentes = mode n’existe pas C ’est le seul paramètre utilisable pour les données qualitatives nominales distribution symétrique des valeurs : mode = moyenne = médiane
Quantiles et quartiles: les quartiles partagent la distribution des valeurs en 4 portions égales médiane : 2 portions égales = 2ème quartile qème quantile : valeur en dessous de laquelle se trouvent q% des observations
Quartiles
Quantiles et quartiles : poids 300 hommes 1er quartile Q1: 25ème quantile Médiane : 2ème quartile Q2 , 50ème quantile 3ème quartile Q3 : 75ème quantile Fréquence cumulée Histogramme cumulatif 1 0,75 0,5 0,25 poids 1er quartile = 67 médiane = 69,5 3èmequartile = 72 58,5 61,5 64,5 67,5 70,5 73,5 76,5 79,5
Percentiles : Sont les valeurs qui partagent la distribution en 100 groupes de taille égale Le 10ème percentile = 1er décile Le 25ème percentile = 1er quartile Le 50ème percentile = médiane
Indice de masse corporelle = Poids en kg/ (taille en m)2
Paramètres de dispersion
48
quantifient la variabilité des valeurs dans un échantillon Variance - Ecart type : quantifient la variabilité des valeurs dans un échantillon plus la variabilité d’une valeur est grande par rapport à la moyenne de la valeur dans l ’échantillon, plus la variance et l’écart-type de cette valeur seront grands +++ 49
Variance = paramètre de dispersion des valeurs autour de la moyenne (= écart par rapport à la moyenne) Variance = moyenne du carré des « écarts à la moyenne » n ( ) 2 å X - X i S 2 = i = 1 n COURS N°1
Exemple variance avec classes
racine carré de la variance Ecart-type racine carré de la variance la majorité des valeurs biologiques sont situées dans un intervalle formé par la moyenne ± 2 écarts types +++ COURS N°1
Aspect graphique
Autres paramètres de dispersion : Extrêmes = valeurs minimale et maximale Etendue = valeur maximale – valeur minimale Coefficient de variation : CV = S / m ( exprimé en%) Etendue inter-quartile: IQR = Q3 -Q1 (englobe 50% des observations)
Box – plot Box plots (ou boîte de distribution) représentation graphique +++ permet une comparaison rapide des résultats évaluation distribution symétrique ou non
Exemple: analyse descriptive de la durée d ’incubation de 3 maladies virales A,B,C ( en jours)
Histogramme des durées d ’incubation en jours 0,16 0,10 0,06 0,00 10 15 20 0,08 0,04 0,02 25 30 35 40 45 50 55 0,14 0,12 30 35 40 45 50
Boxplots des durées d ’incubation en jours Q3+1,5 (Q3-Q1) 50 40 30 20 10 Q3 médiane Nombre de jours d ’incubation Q1 Q1-1,5 (Q3-Q1) 50% des valeurs A B C COURS N°1
Intérêt des boxplots Représentation synthétique extrêmement efficace des principales caractéristiques d’une variable 5 synthèses numériques ( médiane, quartiles, limites) sont représentées de façon à visualiser les informations essentielles ( position, dispersion, asymétrie) de l’échantillon