La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Quelques notions de base de statistiques appliquées à la biologie Etienne Roux Laboratoire de Physiologie Cellulaire Respiratoire INSERM U 885 UFR des.

Présentations similaires


Présentation au sujet: "Quelques notions de base de statistiques appliquées à la biologie Etienne Roux Laboratoire de Physiologie Cellulaire Respiratoire INSERM U 885 UFR des."— Transcription de la présentation:

1 Quelques notions de base de statistiques appliquées à la biologie Etienne Roux Laboratoire de Physiologie Cellulaire Respiratoire INSERM U 885 UFR des Sciences de la Vie Université Victor Segalen Bordeaux 2 contact: support de cours : e-fisio.net Master Biologie cellulaire et physiopathologie UE initiation à la communication scientifique

2 quelques définitions généralités Qu est-ce que les statistiques ? La statistique : ensemble des instruments et de recherches mathématiques permettant de déterminer les caractéristiques d'un ensemble de données. Une statistique : un nombre calculé à partir d'observations. Les statistiques : produit des analyses reposant sur l'usage de la statistique. « There are three kinds of lies: lies, damned lies, and statistics. » attribué par Mark Twain à Benjamin Disraeli

3 Caractéristiques en biologie de la mesure dun certain nombre de facteurs – variabilité des réponses en biologie exemples : concentration cytosolique en calcium dune cellule niveau dexpression dune protéine valeur de la glycémie taille dune personne – mesure à partir déchantillons principe du sondage : on travaille sur un échantillon que lon suppose représentatif. exemples : prélèvement dun échantillon de sang étude dune population de cellules généralités Pourquoi utiliser les statistiques ? caractéristiques des données biologiques décrire mathématiquement la réalité observée d é crire = r é sumer et repr é senter les donn é es

4 Types de questions que lon se pose en recherche : – quest-ce qui produit un effet ? – à quoi est due lamplitude de cet effet ? – quest-ce qui produit leffet le plus important ? généralités Pourquoi utiliser les statistiques ? types de questions que lon se pose exemples: répondre à la question posée à partir des données observées

5 trois étapes principales : 1 - la collecte des données 2 - le traitement des données collectées caract é riser la relation entre variables Statistiques descriptives 3 - l'interprétation des données à partir des donn é es obtenus sur l é chantillon, inf é rer les caract é ristiques de la population d origine estimer si plusieurs é chantillons proviennent ou non d une même population Statistiques inf é rentielles ou inf é rences statistiques s'appuie sur la th é orie des sondages et la statistique math é matique généralités Pourquoi utiliser les statistiques ? la démarche danalyse statistique

6 individu (définition statistique) = unité statistique: élément de lensemble étudié ex : un patient recevant un traitement à lhôpital un étudiant isncrit dans la licence Biotechnologie une cellule en culture pour chaque individu, on dispose dun ou plusieurs paramètres. la définition statistique de lindividu est différence de sa définition courante la définition de lindividu dépend des paramètres étudiés exemple 1 : paramètre étudié : note dun étudiant dans un groupe de TD un individu = un étudiant exemple 2 : paramètre étudié : note moyenne de chaque groupe de TD détudiant inscrit dans une licence. un individu = un groupe de TD les données statistiques individu, population, variable la notion dindividu (statistique) : unité statistique

7 population (définition statistique) = ensemble dindividus sur lequel on étudie des paramètres ex : ensemble des patients recevant un traitement à lhôpital ensemble des étudiants isncrits dans la licence Biotechnologie ensemble de cellules on peut ne pas connaitre tous les individus qui composent une population exemple : population humaine les globules rouges de souris notion déchantillon : échantillon = partie dune population exemple : 1000 personnes humaines on connait tous les individus qui composent un é chantillon les données statistiques individu, variable, population la notion de population

8 une variable (définition statistique) = paramètre étudié sur un individu ex : âge des patients recevant un traitement à lhôpital sexe des patients recevant un traitement à lhôpital maladie des patients reçus à lhôpital traitement des patients reçus à lhôpital réussite du traitement des patients reçus à lhôpital une ou plusieurs variables peuvent être associées sur un individu les variables peuvent être de nature variée : Variables qualitatives et quantitatives Variables ind é pendantes et variables d é pendantes Variables contrôl é es et non contrôl é es les données statistiques individu, variable, population la notion de variable

9 variable qualitative = variable statistique dont les valeurs s'expriment de fa ç on litt é rale (ou par un codage), sur lesquelles les op é rations arithm é tiques comme le calcul de la moyenne n'ont pas de sens. les données statistiques individu, variable, population la notion de variable Variables qualitatives et quantitatives exemples : mortalit é dans une population de cellules, par la coloration au bleu trypan. sexe des patients recevant un traitement à l hôpital. codage: la qualité de la variable peut être exprimée par un codage. exemple : cellule morte : M cellule vivante : V cellule morte : 1 cellule vivante : 0 attention! un codage chiffr é en transforme pas une variable qualitative en variable quantitative. Un chiffre n est pas forc é ment un nombre ex : sudoku

10 variable quantitative = variable statistique dont les valeurs s'expriment par des nombres, sur lequel les op é rations arithm é tiques comme le calcul de la moyenne ont un sens. les données statistiques individu, variable, population la notion de variable Variables qualitatives et quantitatives exemples : concentration calcique cytosolique d une cellule âge des patients recevant un traitement à l hôpital dose d un traitement administr é à des patients attention! une variable chiffr é e n est pas forc é ment une variable quantitative (le chiffre peut être un codage) On peut transformer une variable quantitative en variable qualitative, avec une perte d information. ex: dose d un traitement administr é à des patients en fonction de la dose, classement en cat é gories : tr è s faible dose, faible dose, dose normale, forte dose, tr è s forte dose. variable continue : peut prendre toute valeur r é elle exemple : concentration calcique cytosolique d une cellule variable discr è te : ne peut prendre d un nombre fini de valeurs exemple : nombre d enfants par femme

11 variable indépendante = variable statistique dont les valeurs sont ind é pendantes des autres variables é tudi é es variable ind é pendante = variable statistique dont les valeurs sont d é pendantes des autres variables é tudi é es les données statistiques individu, variable, population la notion de variable Variables ind é pendantes et variables d é pendantes exemples : on é tudie l effet de deux substances potentiellement cytotoxiques sur des cellules canc é reuses en culture, et on mesure la survie des cellules en fonction de la substance administr é e. variabled é pendante : survie de la cellule variable ind é pendante : substances cytotoxiques applisu é e à la cellule

12 variable contrôlée = variable statistique dont les valeurs sont impos é es par l exp é rimentateur les données statistiques individu, variable, population la notion de variable Variables contrôl é es et non contrôl é es expérimentation (experiment) Dans les études dexpérimentation, les variables indépendantes sont contrôlées exemples : - effet de ladrénaline sur la fréquence cardiaque. - détermination sur la souris de la quantité minimale contaminante de cerveau de bovin atteint dESB.

13 variable non contrôl é e = variable statistique dont les valeurs d é pendent pas de l exp é rimentateur les données statistiques individu, variable, population la notion de variable Variables contrôl é es et non contrôl é es observation (survey) Dans les études dobservations, les variables indépendantes ne sont pas contrôlées. exemples : - fréquence des cancers de la thyroïde après laccident de Tchernobyl, dans une zone géographique donnée. - admission aux urgences pour problèmes respiratoires en fonction de lintensité de la pollution atmosphérique

14 les données statistiques individu, variable, population exercices donn é es statistiques : individu, variable, population dans chacun des exercices suivants, d é terminer : l individu (statistique) la population (statistique) la ou les variables le caract è re de chaque variable : qualitatif ou quantitatif; ind é pendant ou d é pendant, contrôl é ou non contrôl é. exercice 1 : r é ponse calcique de cellules isol é es stimul é es position du probl è me : on analyse la r é ponse calcique de cellules à une stimulation par la caf é ine. On mesure l amplitude du pic calcique grâce à une sonde fluorescente, dont l intensit é de fluorescence d é pend du calcium. Apr è s calibration, la concentration en calcium est calcul é e en nM. La mesure rest effectu é e sur 39 cellules.

15 les données statistiques individu, variable, population exercices s é rie A exercice 2 : d é termination par Western blot du niveau d expression de la prot é ine P sur culture de cellules position du probl è me : sur des cellules en culture, on analyse par Western blot le niveau d expression de la prot é ine P. Les suspensions de cellules sont broy é es et les prot é ines extraites par centrifugation. Le niveau d expression estr é valu é par l intensit é de la bande correspondante à la prot é ine P, normalis é e à par rapport à l actine. Les mesures sont r é p é t é es sur 6 lots de cellules. exercice 3 : influence du Ca 2+ extracellulaire sur la r é ponse contractile d anneaux de bronches position du probl è me : on analyse la r é ponse contractile d anneaux de bronches à une stimulation par l ac é tylcholine. Chasue anneau est reli é à un transducteur de force qui mesure la force d é velopp é e par l anneau, (exprim é e en % d une r é ponse de r é f é rence), lorsque l ac é tylcholine est introduite dans la cuve. Pour d é terminer le rôle possible du Ca 2+ extracellulaire dans la r é ponse, des mesures sont faites sur 7 anneaux avec du Ca 2+ extracellulaire et sur 8 anneaux sans Ca 2+ extracellulaire.

16 les données statistiques individu, variable, population exercices s é rie A exercice 4 : relation entre la dose d'un m é dicament et la pression art é rielle position du probl è me : on analyse l effet de 4 doses diff é rentes d un même traitement sur la pression art é rielle d un lot de 23 rats. La pression art é rielle est mesur é e au niveau de la carotide, et est exprim é e en mmHg. exercice 5 : analyse de la fr é quence cardiaque au repos et à l'effort dans un groupe H/F position du probl è me : on mesure la fr é quence cardiaque d un groupe de 31 é tudiants, en effectuant sur chaque individu, dont on note le sexe, une mesure au repos et apr è s effort.

17 statistiques descriptives variabilit é des processus biologiques caract é ristiques g é n é rales la variabilité est la règle la variabilité est non prévisible la variabilité des résultats est différente de lerreur instrumentale la « marge dimprécision » destimation de la tendance centrale est un intervalle de probabilité time (sec) force (% max) ex : tension développé par un anneau de trachée de rat en réponse à une stimulation cholinergique

18 statistiques descriptives variabilit é des processus biologiques décrire la réalité biologique en elles-mêmes, les donn é es brutes donnent peu d informations utiles. exemple : contraction d anneaux de bronches de rat individu : anneau de bronche de rat variable : amplitude de la contraction donn é es « brutes » : ensemble des valeurs mesur é es sur chaque individu anneauforce (g) 1er1, e1,0461 3e0, e0, e1, e0, e1, e0, e1, e0, e0, e0, e0, e1,32689 d é crire math é matiquement la r é alit é observ é e d é crire = r é sumer et repr é senter les donn é es

19 statistiques descriptives variabilit é des processus biologiques décrire la réalité biologique statistiques descriptives : r é sum é math é matique de la r é alit é e observ é e exemple : contraction d anneaux de bronches de rat individu : anneau de bronche de rat variable : amplitude de la contraction « La force mesur é e é tait de 1,21 0,08 g (n = 29) » 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 contraction (g) r é sum é math é matique en 3 valeurs. NB : code ASCII pour : alt +0177

20 statistiques descriptives variabilit é des processus biologiques notion et types de distribution distribution dune variable : ensemble des valeurs, modalités ou classes d'une variable statistique, et des effectifs ou fréquences associées exemple : contraction d anneaux de bronches de rat anneauforce (g) 1er1, e1,0461 3e0, e0, e1, e0, e1, e0, e1, e0, e0, e0, e0, e1,32689 force (g)fréquence 0,52 0,75 0,92 1,16 1,34 1,54 1,74 1,90 2,11 2,31 2,50 On peut d é crire math é matiquement certains types de distribution ,50,70,91,11,31,51,71,92,12,3 fréquence force (g)

21 statistiques descriptives variabilit é des processus biologiques notion et types de distribution distribution dune variable : ensemble des valeurs, modalités ou classes d'une variable statistique, et des effectifs ou fréquences associées exemple : contraction d anneaux de bronches de rat On peut d é crire math é matiquement certains types de distribution pour les variables continues, l analyse de la distribution n é cessite de regrouper les valeurs en classes ,50,70,91,11,31,51,71,92,12,3 fréquence force (g)

22 La variable peut prendre deux valeurs – pas forcément numériques. femmeshommes nombre répartition hommes/femmes dans une population * % of responding cells droitiersgauchers types de réponses cellulaires proportion de gauchers dans une population statistiques descriptives variabilit é des processus biologiques notion et types de distribution distribution binomiale

23 ,0 0,1 0,2 0,3 0,4 0,5 loi de distribution de probabilité, définie par une fonction de densité de probabilité de la forme : fréquence pression artérielle systolique ex : valeur de la pression artérielle systémique systolique dans une population statistiques descriptives variabilit é des processus biologiques notion et types de distribution distribution « normale » ou gaussienne distribution « normale » ou gaussienne : courbe « en cloche »

24 répartition des notes de TP à un examen de licence BCP durée de vie des genres fossiles (daprès D. M. Raup, De lextinction des espèces, Gallimard, Paris, 1993) durée de vie (en millions dannées) nombre de genres statistiques descriptives variabilit é des processus biologiques notion et types de distribution autres types de distributions les distributions ne sont pas forc é ment gaussiennes (les variables ne suivent pas forc é ment une « courbe en cloche » )

25 statistiques descriptives variabilit é des processus biologiques r é sum é math é matique de la r é alit é e observ é e : mesure math é matique de la tendance centrale et de la dispersion des valeurs de la variable é tudi é e exemple : contraction d anneaux de bronches de rat « La force mesurée était de 1,21 0,08 g (n = 29) » 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 Force (g) ,50,70,91,11,31,51,71,92,12,3 fréquence force (g) tendance centrale et dispersion

26 moyenne arithmétique : somme des valeurs de la variable divisée par le nombre de valeurs = centre de gravité de la distribution intérêts et limites : très utilisée en statistiques descriptive et inférentielle souvent, pas toujours, la mesure la plus pertinente de la tendance centrale (pour éviter les biais par simplification, faire le calcul avec une décimale supplémentaire par rapport au nombre de décimales de la valeur exprimée de la moyenne) statistiques descriptives mesure de la tendance centrale moyenne arithm é tique (arithmetic mean) ,50,70,91,11,31,51,71,92,12,3 fréquence force (g) médiane moyenne = 1,21 g

27 médiane : valeur de part et dautre de laquelle se distribue par moitié les valeurs de la variable (50 % des valeurs sont inférieures à la médiane, et 50 % sont supérieures). intérêts et limites : intérêt théorique : dans certains cas, « bonne » manière de décrire la tendance centrale peu utilisée pour les calculs de signification statistique ,50,70,91,11,31,51,71,92,12,3 fréquence force (g) médiane = 1,16 g moyenne = 1,21 g statistiques descriptives mesure de la tendance centrale m é diane

28 mode : valeur de la variable qui survient avec la plus grande fréquence variables discrètes (discontinues ) : valeur exacte variables continues : dépend du mode de calcul intérêts et limites : facile à déterminer difficile à manipuler mathématiquement (pour tester statistiquement des hypothèses) intérêt théorique : dans certains cas, « bonne » manière de décrire la tendance centrale statistiques descriptives mesure de la tendance centrale mode ,50,70,91,11,31,51,71,92,12,3 fréquence force (g) médiane = 1,16 g moyenne = 1,21 g mode = 1,1 g

29 fréquence notes mode médiane moyenne statistiques descriptives mesure de la tendance centrale choix de la mesure dépend de la loi de distribution dépend de la question posée si la distribution est symétrique, moyenne, médiane et mode sont similaires ,50,70,91,11,31,51,71,92,12,3 fréquence force (g) médiane = 1,16 g moyenne = 1,21 g mode = 1,1 g

30 dans la plupart des cas : moyenne médiane et mode intéressants dans certains cas fréquence pression artérielle diastolique moyenne, mode, médiane durée de vie (en millions dannées) nombre de genres statistiques descriptives mesure de la tendance centrale choix de la mesure dépend de la loi de distribution dépend de la question posée si la distribution est symétrique, moyenne, médiane et mode sont similaires

31 écart : différence entre la plus petite et la plus grande valeur. intérêt et limites : facile à calculer très instable (une seule valeur extrème modifie fortement la valeur de lécart) statistiques descriptives mesure de la dispersion é cart (range) meanminmaxrangen exemple : contraction d anneaux de bronches de rat ,50,70,91,11,31,51,71,92,12,3 fréquence force (g)

32 statistiques descriptives mesure de la dispersion d é viation moyenne (mean deviation) déviation moyenne : moyenne arithmétique de la différence, en valeur absolue, entre chaque valeur et la moyenne arithmétique. intérêt et limites : mesure très rarement utilisée principe : 1 – pour chaque point, on calcule la diff é rence avec la moyenne plus le point s é carte de la moyenne, plus la diff é rence est grande, mais elle peut être n é gative) 2 – pour chaque point, on prend la valeur absolue de cette diff é rence plus le point s é carte de la moyenne, plus la diff é rence est grande, et elle est toujours positive 3 – on fait la somme de la valeur absolue des diff é rence plus les points s é cartent de la moyenne, plus la somme des carr é s est grande, mais elle d é pend aussi du nombre de valeurs 4 – on divise cette somme par la taille de la population d é viation moyenne plus les points s é cartent de la moyenne, plus la d é viation moyenne est grande, ind é pendamment du nombre de valeurs é tudi é es. Elle a la même unit é que la variable é tudi é e

33 écart-type (standard deviation) : racine carrée de la variance statistiques descriptives mesure de la dispersion é cart-type (standard deviation) principe : 1 – pour chaque point, on calcule la diff é rence avec la moyenne plus le point s é carte de la moyenne, plus la diff é rence est grande, mais elle peut être n é gative) 2 – pour chaque point, on prend le carr é de cette diff é rence plus le point s é carte de la moyenne, plus le carr é diff é rence est grand, et il est toujours positif) 3 – on fait la somme de ces carr é s plus les points s é cartent de la moyenne, plus la somme des carr é s est grande, mais elle d é pend aussi du nombre de valeurs 4 – on divise la somme des carr é s par la taille de la population variance plus les points s é cartent de la moyenne, plus la variance est grande, ind é pendamment du nombre de valeurs é tudi é es 4 – on prend la racine carr é de la variance é cart-type plus les points s é cartent de la moyenne, plus l é cart-type est grand, ind é pendamment du nombre de valeurs. L é cart-type a la même unit é que la variable é tudi é e.

34 écart-type (standard deviation) : racine carrée de la variance statistiques descriptives mesure de la dispersion é cart-type (standard deviation) Force (g) F – mF (g) (F-mF) 2 (g 2 ) 1, ,070, ,0461-0,170, mF1,21374 (F-mF) 2 5,849 5,849/29 = 0,202 (g 2 ) variance (5,849/29) =0,449 (g) é cart-type L é cart-type est donn é par la formule : exemple : contraction d anneaux de bronches de rat

35 écart-type (standard deviation) : racine carrée de la variance intérêts et limites : Après standardisation, permet de comparer la position de plusieurs variables entre elles, même si les unités de mesure de ces variables sont différentes. quasiment la seule mesure de la dispersion utilisée cas particulier : loi normale ,0 0,1 0,2 0,3 0,4 0,5 m attention : signification de lécart-type unité de lécart-type influence de changement de variable statistiques descriptives mesure de la dispersion é cart-type (standard deviation) L é cart-type est donc donn é par la formule :

36 statistiques descriptives expression des donn é es population é tudi é e variable(s) é tudi é e(s) et unit é (s) taille de la population mesure de la tendance centrale (moyenne le plus souvent) mesure de la dispersion ( é cart-type le plus souvent) exemple : « L é tude a port é e sur la contraction d anneaux de bronches de rats. La contraction a é t é d é termin é e par la mesure de la force g é n é r é e par les anneaux, en g. Les valeurs sont donn é es sous la forme moyenne é cart- type, avec n = nombre d anneaux é tudi é s. La force mesur é e é tait de 1,21 0,08 g (n = 29) » 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 contraction (g) figure 1 : mesure de la contraction danneaux de bronches de rats (en g). La colonne noire est la moyenne de 29 anneaux. La barre derreur représente lécart-type.

37 estimation des caractéristiques dune population à partir dun échantillon fréquence de distribution moyenne et écart-type de la population précision de lestimation intervalle de confiance comparaison des différences entre plusieurs populations, à partir déchantillons comparaison à une population théorique comparaison de plusieurs (2 ou plus) échantillons entre eux tests statistiques estimation des erreurs risque de première espèce (a) risque de deuxième espèce (b) statistiques inférentielles types de questions

38 femmeshommes nombre exemple : répartition hommes/femmes dans un échantillon dune population échantillon (mesure) : n = 31 femmes = 18 homme = 13 fréquence (observée) femmes = 58,06 % homme = 41,94 % population (estimation) : femmes = 58,06 % homme = 41,94 % statistiques inférentielles estimation variables qualitatives estimation de la fr é quence de distribution la fr é quence estim é e de la variable dans la population est la fr é quence observ é e dans l é chantillon

39 statistiques inférentielles estimation variables quantitatives estimation de la moyenne la moyenne estim é e de la variable dans la population est la moyenne observ é e dans l é chantillon exemple : mesure de la fréquence cardiaque sur un échantillon de 31 étudiants de lUFR des Sciences de la vie moyenne de léchantillon (mesurée) : 86 battements/min « la fréquence cardiaque moyenne mesurée sur un échantillon de 31 étudiants de lUFR des Sciences de la vie était de 86 battements/min » moyenne de la population (estimée) : 86 battements/min « la fréquence cardiaque moyenne estimée des é tudiants de l UFR des Sciences de la vie est de 86 battements/min »

40 écart-type estimé de la population : S écart-type calculé de léchantillon : n-1 : degré de liberté exemple : mesure de la fréquence cardiaque sur un échantillon de 31 personnes moyenne de léchantillon (mesurée) : 86 battements/min écart-type de léchantillon (mesuré) : 13,04 battements/min moyenne de la population (estimée) : 86 battements/min écart-type de la population (estimé) : 13,25 battements/min statistiques inférentielles estimation variables quantitatives estimation de l é cart-type l é cart-type estim é de la variable dans la population est l é cart-type observ é dans l é chantillon augment é d un facteur de correction é cart-type estim é de la population ~> é cart-type calcul é de l é chantillon

41 statistiques inférentielles estimation pr é cision de l estimation variable quantitative : la pr é cision de l estimation de la moyenne d une variable à partir d un é chantillon d é pend de la fluctuation de la moyenne de l é chantillon principes généraux exemple : on mesure 2 variables A et B sur une s é rie d é chantillons de plusieurs individus. On r é p è te ces mesures sur 6 é chantillons diff é rents. On obtient les valeurs suivantes : Moins, dun échantillon à un autre, la valeur moyenne fluctue, plus grande est la précision de lestimation de la moyenne de la population. n° lot A B 112,3618,94 210,108,93 37,286,51 47,909,36 510,1617,70 68,994,16 moyenne9,4710,93 écart-type de la moyenne 1,67 5,50 la fluctuation est plus faible pour la variable A. La pr é cision de son estimation à partir d un é chantillon est plus grande que pour B

42 statistiques inférentielles estimation pr é cision de l estimation principes généraux variable qualitative : la pr é cision de l estimation de la fr é quence d une variable à partir d un é chantillon d é pend de la fluctuation de la fr é quence de l é chantillon Moins, dun échantillon à un autre, la valeur de la fréquence fluctue, plus grande est la précision de lestimation de la fr é quence de la population. exemple : on mesure 2 variables A et B sur 2 s é ries d é chantillons. Pour chaque variable, on r é p è te ces mesures sur 7 é chantillons diff é rents. On obtient les valeurs suivantes : n° Lot A B 140 % %253 % 360 %347 % 460 %473 % 520 %560 % 680 %633 % 740 %753 % moyenne57 % moyenne51 % écart-type de la moyenne 25 % 12 % la fluctuation de la fr é quence est plus faible pour la variable B. La pr é cision de son estimation à partir d un é chantillon est plus grande que pour A.

43 Moins, dun échantillon à un autre, la valeur moyenne fluctue, plus grande est la précision de lestimation de la moyenne de la population. statistiques inférentielles estimation pr é cision de l estimation variable quantitative : la pr é cision de l estimation de la moyenne à partir d un é chantillon d é pend de la fluctuation de la moyenne de l é chantillon principes généraux Moins, dun échantillon à un autre, la valeur de la fréquence fluctue, plus grande est la précision de lestimation de la fréquence de la population. variable qualitative : la pr é cision de l estimation de la fr é quence à partir d un é chantillon d é pend de la fluctuation de la moyenne de l é chantillon La pr é cision de l estimation de la moyenne ou de la fr é quence d une variable d é pend de l é cart-type de la moyenne de la variable.

44 statistiques inférentielles estimation pr é cision de l estimation principes généraux la pr é cision de l estimation de la moyenne ou de la fr é quence d une variable à partir d un é chantillon d é pend de la fluctuation de la moyenne de l é chantillon la fluctuation de la moyenne (ou de la fréquence) entre plusieurs échantillons dépend : de la fluctuation individuelle de la variable plus lécartype est petit, plus la précision est bonne de la taille de léchantillon plus léchantillon est gros, plus la précision est bonne la fluctuation de la moyenne (ou de la fr é quence) est mesur é e par l é cart-type de la moyenne

45 statistiques inférentielles estimation pr é cision de l estimation principes généraux la pr é cision de l estimation de la moyenne ou de la fr é quence d une variable à partir d un é chantillon d é pend de la fluctuation de la moyenne de l é chantillon pb : comment calculer lécart-type de la moyenne - répéter lexpériences sur plusieurs échantillons - estimer lécart-type de la moyenne sur un seul échantillon loi de probabilité de la moyenne ? la fluctuation de la moyenne (ou de la fréquence) entre plusieurs échantillons dépend : de la fluctuation individuelle de la variable de la taille de léchantillon la fluctuation de la moyenne (ou de la fr é quence) est mesur é e par l é cart-type de la moyenne

46 si la loi de probabilité des variables des individus suit une loi normale, alors la loi de probabilité de la moyenne est également une loi normale si la loi de probabilité des variables des individus nest pas une loi normale, la loi de probabilité de la moyenne est une loi normale, si la taille de léchantillon est assez grande (n > 30 ) femmeshommes nombre ,00 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0,16 probabilité nombre de femmes dans un groupe de 30 personnes, pour un sex ratio théorique de 50 % ex : loi binomiale statistiques inférentielles estimation pr é cision de l estimation loi de probabilité de la moyenne

47 estimation de la fluctuation de la moyenne : écart-type de la moyenne = standard error of the mean (SEM) NB : la précision dépend de la taille de léchantillon, pas de la taille de la population statistiques inférentielles estimation pr é cision de l estimation variable quantitative é cart-type estim é sur l é chantillon ( fluctuation de la variable) taille de l é chantillon exemple : fréquence cardiaque moyenne de la population (estimée) : 86 battements/min écart-type de la population (SD) (estimé) : 13,25 battements/min SEM = 3,38 battements/min écart-type de la moyenne (SEM)

48 estimation de la fluctuation de la moyenne : écart-type de la moyenne = standard error of the mean (SEM) exemple : sex ratio population (estimation) : femmes = 58,06 % homme = 41,94 % SEM = 8,86 % NB : la précision dépend de la taille de léchantillon, pas de la taille de la population statistiques inférentielles estimation pr é cision de l estimation écart-type de la moyenne (SEM) variable qualitative p : fr é quence estim é e de la variable dans l é chantillon q = 1-p taille de l é chantillon

49 intervalle autour de la moyenne calculée de léchantillon dans lequel la moyenne de la population a une probabilité donnée de se trouver. exemple : intervalle de confiance à 95 % : la valeur moyenne de la population dont est issu léchantillon a 95 chances sur 100 de se trouver dans lintervalle. dépend : de la SEM du % de confiance voulu du degré de liberté (ddl) loi normale ,0 0,1 0,2 0,3 0,4 0,5 m SEM ex : ddl > 30 intervalle de confiance à 95 % = m ± 1,96 SEM statistiques inférentielles estimation pr é cision de l estimation intervalle de confiance (confidence interval) risque alpha : probabilité que la valeur de la population (vraie valeur) soit en dehors de lintervalle de confiance IC 95

50 exemple : fréquence cardiaque mesurée sur 31 personnes (n = 31) moyenne de léchantillon (mesurée) : 86 battements/min écart-type de léchantillon (mesuré) : 13,04 battements/min moyenne de la population (estimée) : 86 battements/min écart-type de la population (estimé) : 13,25 battements/min SEM = 3,38 battements/min n = 31 (ddl = 30) intervalle de confiance à 95 % (IC 95 %) = 86 ± 6,7 battements/min statistiques inférentielles estimation pr é cision de l estimation intervalle de confiance (confidence interval) variable quantitative

51 calcul avec les fonctions dExcel ou dOpenOffice : moyenne de léchantillon (mesurée) : fonction « MOYENNE » écart-type de léchantillon (mesuré) : fonction « ECARTTYPEP » moyenne de la population (estimée) : fonction «MOYENNE » écart-type de la population (estimé) : fonction «ECARTTYPE» SEM = pas de fonction disponible : calculer en utilisant la formule : = ECARTTYPE(données)/RACINE(taille) intervalle de confiance à 95 % (IC 95 %) : fonction « INTERVALLE.CONFIANCE » indiquer alpha : 0,05 indiquer lécartype estimé indiquer la taille de léchantillon statistiques inférentielles estimation pr é cision de l estimation intervalle de confiance (confidence interval) variable quantitative vrai si n>30

52 exemple : sex ratio mesuré sur un échantillon de 31 personnes sex ratio de léchantillon (mesure) : femmes = 18 (58,06 %) homme = 13 (41,94 %) sex ratio de la population (estimation) : femmes = 58,06 % homme = 41,94 % SEM = 8,86 % (n = 31 ; ddl = 30) intervalle de confiance à 95 % (IC 95 %) = femmes = 58,06 % ± % hommes = 41,94 ± % statistiques inférentielles estimation pr é cision de l estimation intervalle de confiance (confidence interval) variable qualitative vrai si n>30

53 calcul avec les fonctions dExcel ou dOpenOffice : sex ratio de léchantillon (mesure) : femmes = 18 homme = 13 n = 31 (ddl = 30) calcul des proportions : femmes : 0,5806 (p) hommes : 0,4194 (q = 1-p) sex ratio de la population (estimation) : femmes = 58,06 % homme = 41,94 % SEM = pas de fonction disponible : calculer en utilisant la formule : = RACINE((p*(1-p)/n)) intervalle de confiance à 95 % (IC 95 %) = fonction « INTERVALLE.CONFIANCE » NB : calcul préliminaire : écart-type estimé = RACINE((p*(1-p)) indiquer alpha : 0,05 indiquer lécartype estimé (voir calcul préliminaire) indiquer la taille de léchantillon statistiques inférentielles estimation pr é cision de l estimation intervalle de confiance (confidence interval) variable qualitative vrai si n>30

54 statistiques inférentielles comparaisons statistiques principe des tests Les statistiques inférentielles permettent dassigner une probabilité à lobtention dun résultat pour une hypothèse donnée. exemple : intervalle de confiance à 95 % on fait lhypothèse que la moyenne ou la fréquence dune variable se trouve dans lintervalle de confiance, dont on a calculé que la probabilité était de 0,95 (95 %). (exemple des sondages dopinion) Si cette probabilité est trop faible, on rejette lhypothèse. exemple : on rejette lhypothèse que la moyenne ou la fréquence de la variable est en dehors de lintervalle de confiance. application aux comparaisons statistiques

55 hypothèse nulle (null hypothesis) Le principe des tests statistiques est de postuler lhypothèse nulle : on fait lhypothèse que les différences observées – entre des valeurs observées ou entre une valeur observées et une valeur théorique – est due aux fluctuations déchantillonnage. exemple : effet de la pr é sence de calcium extracellulaire sur la contraction d anneau de bronche. hypoth è se nulle : le calcium extracellulaire n a pas d effet. = les deux échantillons danneaux de bronches proviennent de la même population le test statistique calcule la probabilité que les différences de valeur de contraction entre les deux échantillons soient dues aux fluctuations d é chantillonnage dans une même population statistiques inférentielles comparaisons statistiques principe des tests lhypothèse nulle

56 conditions de rejet de lhypothèse nulle Si la probabilité de lhypothèse nulle est trop faible, on la rejette, et on accepte lhypothèse non nulle : les échantillons comparés proviennent de populations différentes. exemple : le calcium extracellulaire a un effet sur la contraction (les anneaux avec calcium proviennent dune population différente des anneaux sans calcium) On dit alors quil existe une différence statistiquement significative. statistiques inférentielles comparaisons statistiques principe des tests lhypothèse nulle hypothèse nulle (null hypothesis) Le principe des tests statistiques est de postuler lhypothèse nulle : on fait lhypothèse que les différences observées – entre des valeurs observées ou entre une valeur observées et une valeur théorique – est due aux fluctuations déchantillonnage.

57 statistiques inférentielles comparaisons statistiques principe des tests lhypothèse nulle exemples : a) comparaison de la répartition homme/femme observée et de la valeur théorique du sex ratio de 50 % a) formulation de lhypothèse nulle : la population théorique dont le groupe détudiants est un échantillon représentatif nest pas différente de la population « générale » dont on connaît les valeurs théoriques : sex ratio de 50 % sex ratio mesuré sur un échantillon de 31 étudiants de biologie sex ratio de léchantillon (mesure) : femmes = 18 (58,06 %) homme = 13 (41,94 %) question : y a-t-il significativement plus de femmes que dhommes en licence de biologie, par rapport à lensemble de la population?

58 statistiques inférentielles comparaisons statistiques principe des tests lhypothèse nulle exemples : b) comparaison des fréquences cardiaques de groupes détudiants à la fréquence théorique « normale » de 70 battements/minute exemple : fréquence cardiaque mesurée sur 31 personnes (n = 31) moyenne : 86 battements/min écart-type (estimé) : 13,25 battements/min SEM = 3,38 battements/min n = 31 (IC 95 %) = 86 ± 6,7 battements/min question : la fréquence cardiaque des étudiants en biologie est-elle significativement différente de celle de lensemble de la population? b) formulation de lhypothèse nulle : la population théorique dont le groupe détudiants est un échantillon représentatif nest pas différente de la population « générale » dont on connaît les valeurs théoriques : fréquence cardiaque de 70 batt/min.

59 statistiques inférentielles comparaisons statistiques principe des tests lhypothèse nulle exemples : c) comparaison des fréquences cardiaques des hommes et des femmes dans un groupe détudiants. c) formulation de l hypoth è se nulle : la population théorique dont les étudiants masculins sont un échantillon représentatif est identique à la population théorique dans les étudiants féminins sont un échantillon représentatif. exemple : fréquence cardiaque mesurée sur 31 étudiants en biologie (n = 31), 18 femmes et 13 hommes. On calcule la fréquence cardiaque chez les hommes et chez les femmes question : la fréquence cardiaque des étudiantes en biologie est-elle significativement différente de celle des étudiantes en biologie ?

60 Si la probabilité de lhypothèse nulle est trop faible, on la rejette, et on accepte lhypothèse non nulle : les échantillons comparés proviennent de populations différentes. Il existe une différence statistiquement significative. Par convention, on fixe en général le seuil de signification à 5 % p<0,05 : différences statistiquement significatives p<0,01 : différences statistiquement hautement significatives p<0,001 : différences statistiquement très hautement significatives le seuil de signification est déterminé avant deffectuer le test ; le degré de signification est déterminé par le test (= probabilité de rejeter lhypothèse nulle si elle est vraie). La différence est significative si le degré de signification est inférieur au seuil de signification. statistiques inférentielles comparaisons statistiques principe des tests conditions de rejet de lhypothèse nulle

61 question : la contraction danneaux de bronches dépend-elle du calcium extracellulaire ? statistiques inférentielles comparaisons statistiques principe des tests conditions de rejet de lhypothèse nulle exemple : « On a mesur é l effet de la pr é sence de calcium extracellulaire sur la contraction d anneaux de bronche. Les valeurs, exprim é es en % d une valeur de r é f é rence, sont donn é es sous la forme : moyenne SEM (n = taille de l é chantillon). Les diff é rences sont consid é r é es comme significatives si P<0,05. r é sultats: En pr é sence et en absence de calcium extracellulaire, la contraction é tait de 13,66 1,53 (n = 8) et de 7,95 1,71 (n = 7), respectivement. Le degr é de signification (P) é tait de 0,029. »

62 risque (risque de 1 re esp è ce) (type 1 error) risque de rejeter lhypothèse nulle si est est vraie. Il est connu : seuil (à priori) ou degré (à postériori) de signification du test risque (risque de 2 e espèce) (type 2 error) risque daccepter lhypothèse nulle alors quelle est fausse. Le risque de 2 e espèce correspond au défaut de puissance dun test Il est en général indéterminé (on ne connaît pas les caractéristiques des populations théoriques). statistiques inférentielles comparaisons statistiques principe des tests risques derreur

63 risque a (risque de 1 re espèce) (type 1 error) risque de rejeter lhypothèse nulle si est est vraie. risque b (risque de 2 e espèce) (type 2 error) risque daccepter lhypothèse nulle alors quelle est fausse. Les deux types de risques sont antagonistes. Si on diminue le risque de 1 re espèce, on augmente le risque de 2 e espèce. Étant donné que le risque de 2 e espèce nest pas connu – à la différence du risque de 1 re espèce – en absence de différence significative, on ne peut pas conclure à labsence de différence, car on ne contrôle pas le risque derreur attaché à cette conclusion. Il y a une différence souvent oubliée entre ne pas conclure quil existe une différence, et conclure quil nexiste pas de différence. statistiques inférentielles comparaisons statistiques principe des tests risques derreur

64 poser une question émettre une hypothèse élaborer une procédure expérimentale de test de lhypothèse (NB : test confirmation) « un protocole expérimental nest pas une manière de prouver quune explication donnée est correcte, mais plutôt un système par lequel les explications alternatives sont éliminées ». Lumley & Benjamin. Research: some grounds rules = crit è re de r é futation (Karl Popper. La logique de la d é couverte scientifique, Conjectures et r é futations) statistiques inférentielles comparaisons statistiques m é thodologie

65 constitution dun ou de plusieurs échantillons « les techniques statistiques dépendent de la sélection au hasard de sujets (échantillon) dans une population définie. » Lumley & Benjamin !attention au biais dans la constitution des échantillons! choix des procédures expérimentales choix des procédures statistiques définition de lhypothèse nulle choix du seuil de signification choix du test « Le choix de la procédure statistique appropriée est une partie importante de la procédure expérimentale et ne devraît jamais être fait après la récolte des données. » Lumley & Benjamin statistiques inférentielles comparaisons statistiques proc é dure exp é rimentale

66 constitution dun ou de plusieurs échantillons « les techniques statistiques dépendent de la sélection au hasard de sujets (échantillon) dans une population définie. » Lumley & Benjamin !attention au biais dans la constitution des échantillons! choix des procédures expérimentales choix des procédures statistiques définition de lhypothèse nulle choix du seuil de signification choix du test « Le choix de la procédure statistique appropriée est une partie importante de la procédure expérimentale et ne devraît jamais être fait après la récolte des données. » Lumley & Benjamin statistiques inférentielles comparaisons statistiques proc é dure exp é rimentale

67 types de variables qualitatives / quantitatives nombre de variables taille de léchantillon loi de répartition « normale » ou non (+égalité des variances...) mesures répétées ou non / nombre de facteurs statistiques inférentielles comparaisons statistiques choix du test

68 comparaison de deux moyennes comparaison de deux moyennes observ é es comparaison d un moyenne observ é e à une moyenne th é orique options du test : - comparaison d un moyenne observ é e et d une moyenne th é orique (one population) ou de deux moyennes observ é es (two populations) - mesures appari é es (paired) ou non appari é es (unpaired) - comparaison unilat é rale (one-tailed) ou bilat é rale (two-tailed) statistiques inférentielles comparaisons statistiques choix du test liens entre variables qualitatives et quantitatives

69 comparaison de deux moyennes les effectifs sont suffisamment grands (n>30) ou la loi de r é partition est normale (faire é ventuellement un test de normalit é ) test t de Student one population / two population appari é / non appari é tests non param é triques options : s é ries non appari é es : test W de Wilcoxon = test U de Mann et Whitney test C1 de Fisher-Yates-Terry s é ries appari é es : test T de Wilcoxon Les effectifs sont faibles et la r é partition n est pas normale (faire é ventuellement un test de normalit é ) tests non param é triques statistiques inférentielles comparaisons statistiques choix du test liens entre variables qualitatives et quantitatives

70 comparaison de plusieurs ( 2) moyennes é tape 1 : on effectue une comparaison globale, pour tester l existence d une diff é rence significative entre certains é chantillons é tape 2 : si l é tape 1 montre l existence d uen diff é rence significative, on effetue des comparaisons 2 à 2 pour d é terminer entre quels é chantillons se trouvent ces diff é rences. tests « post-hoc » statistiques inférentielles comparaisons statistiques choix du test liens entre variables qualitatives et quantitatives NB: on ne doit pas faire de comparaisons 2 à 2 sans comparaison globale initiale

71 comparaison de plusieurs ( 2) moyennes la loi de r é partition de probabilit é est normale pour la variable mesur é e (faire é ventuellement un test de normalit é ) Analyse de la variance (ANOVA) tests non param é triques Kruskall-Wallis : non appari é Friedman : appari é e options : ANOVA à plusieurs facteurs tests « post-hoc » : M é thode de Bonferonni (test t) M é thode de Tukey (test t) M é thode de Dunnet M é thode de Sheff é (test F) statistiques inférentielles comparaisons statistiques choix du test liens entre variables qualitatives et quantitatives

72 comparaison de plusieurs ( 2) moyennes la loi de r é partition de probabilit é est normale pour la variable mesur é e (faire é ventuellement un test de normalit é ) Analyse de la variance (ANOVA) tests non param é triques la loi de r é partition de probabilit é n est pas normale pour la variable mesur é e tests non param é triques statistiques inférentielles comparaisons statistiques choix du test liens entre variables qualitatives et quantitatives

73 échantillon de taille normale (effectifs calculés > 5) : test du 2 (chi 2 ). échantillon de taille réduite (effectifs calculés > 3) : 2 corrigé (correction de Yates) échantillon de taille très réduite (effectifs calculés < 3) : « test exact » statistiques inférentielles comparaisons statistiques liens entre variables qualitatives choix du test

74 variable indépendante (UA) variable dépendante (UA) Linear Regression Y = A + B * X ParameterValueError A70,944,39668 B1,4160, RSDN ,941335, exemple une des deux distributions li é es au moins est normale avec une variance constante test de corr é lation (ou de r é gression) d é termine si la pente est statistiquement significative de 0 si aucune des variables li é es n est normale et de variance constante (petits é chantillons) test non param é trique de corr é lation des rangs (test de Spearman) statistiques inférentielles comparaisons statistiques choix du test liens entre 2 variables quantitatives

75 Que faire quand on ne sait pas quoi faire ? demander à quelquun qui sait faire appel à un statisticien (au moment de concevoir les protocoles) statistiques inférentielles comparaisons statistiques choix du test

76 Statistiques : éléments de bibliographie P. Lazar & D. Schwartz. É l é ments de probabilit é s et statistiques, Flammarion, Paris, petit livre de base, avec exercices, pour s initier de mani è re pratique aux probabilit é s et statistiques (BU) R. Salamon. Statistique m é dicale, Masson, Paris, Petit livre de base contenant l essentiel des notions en statistiques, et une introduction au calcul des probabilit é s (BU) D. Schwartz. M é thodes statistiques à l usage des m é decins et des biologistes, 4 e é dition, Flammarion, Paris, ouvrage fran ç ais de r é f é rence (BU) T. H. Wonnacot & R. J. Wonnacot. Statistique, 4e ed, Economica, Paris, Ouvrage d é taill é (900 p) sur la statistique en é conomie, gestion, sciences et m é decine, avec exercices d applications (BU) J. S. P. Lumley & W. Benjamin. Resarch: some ground rules, Oxford University Press, Oxford, guide pour savoir comment mener un travail de recherche. N est pas consacr é particuli è re ­ ment aux statistiques, mais une section est consacr é e à l analyse des r é sultats, avec une approche utilitaire des statistiques. (BU)

77 Statistiques : éléments de bibliographie J. Fowler, L. Cohen & P. Jarvis. Practical statistics for field biology, Wiley, Chichester, Bonne introduction aux statistiques en g é n é ral, bien qu ax é plutôt sur les statistiques de biologie d observation. S. J. Gould, L é ventail du vivant, Seuil, Paris, (titre original : Full House) ouvrage de vulgarisation sur l analyse des tendances das l é volution biologique, pr é sente de mani è re claire les biais possibles et les pi è des à é viter dans l analyse des r é partitions asym é triques (en annexe, une introduction au jeu de base-ball). D. M. Raup. De l extinction des esp è ces, Gallimard, Paris, 1993 (titre original : Extinction. Bad genes or bad luck?) Par un sp é cialiste de pal é ontologie statistique, l analyse de la part du hasard dans les extinctions. Contient une pr é sentation claire de quelques questions d ordre statistique.


Télécharger ppt "Quelques notions de base de statistiques appliquées à la biologie Etienne Roux Laboratoire de Physiologie Cellulaire Respiratoire INSERM U 885 UFR des."

Présentations similaires


Annonces Google