Eléments de Statistiques Professeur Philippe Corten Université Libre de Bruxelles Ho Chi Min Ville – Mars 2004
Plan Général Notions de probabilité et de statistique Qu’est-ce qu’une probabilité? Impact du nombre d’essais et de classes Probabilité et causalité Paramètres de base en statistiques
Notions de probabilité Qu’est-ce qu’une probabilité? La probabilité est la chance qu’un phénomène x se produise, étant donné que l’occurrence du phénomène répond à la loi du hasard. On ne pourra faire de calcul de probabilité que si l’on se trouve dans une situation expérimentale dichotomique où le résultat est soit juste (1), soit faux (0). Il ne peut pas y avoir de résultats à moitié justes ou à moitié faux (principe de falsifiabilité)
Notions de probabilité Exemples: Le jet de dé Le jet d’une pièce de monnaie Concrètement: Un dé a six faces et si les chances de tomber sur une face sont identiques (dé non biaisé) la chance de tomber sur une quelconque de ces faces (par exemple 5) est a priori de 1/6 et la probabilité de tomber sur n’importe quelle autre face est de (1-1/6)= 5/6 Un pièce de monnaie a deux faces et si elle est non biaisée la chance a priori de tomber sur face est de ½ et la probabilité de ne pas tomber sur face (tomber sur pile) est de (1-1/2)= 1/2
Notions de probabilité « Urne » finie ou infinie? Si l’on se trouve dans le cas d’une urne infinie (tirage de loterie où l’on remet la boule dans l’urne, jet de dé, jet de pièce de monnaie), à chaque tirage la chance a priori reste la même Concrètement: une urne contient 12 boules. On a déjà fait 11 tirages et j’ai perdu. Au douzième tirage j’ai toujours autant de chances a priori, ni plus, ni moins. Si l’on se trouve dans le cas d’une urne finie (tirage où l’on ne remet pas la boule dans l’urne), à chaque tirage la chance a priori augmente Concrètement: une urne contient 12 boules. On a déjà fait 11 tirages et l’on n’a toujours pas tiré ma boule, fatalement au dernier tirage je suis sûr que c’est ma boule (p=1) Application: courbes de survie
Notions de probabilité Est-ce qu’en toutes circonstances, la probabilité est égale au nombre de chances a priori ? NON La probabilité va dépendre du nombre de fois où l’on effectue une expérience du nombre de permutations possibles
Notions de probabilité Nombre de répétitions de l’expérience: plus souvent je jette la pièce, plus ma moyenne va s’approcher de la chance a priori. Conséquence: on ne peut faire de statistiques que sur un grand nombre
Notions de probabilité Nombre de classes ou de permutations possibles: plus j’ai de classes moins grande est la probabilité de tomber spécifiquement sur telle ou telle permutation.
Notions de probabilité Donc deux paramètres influencent la notion de probabilité La fréquence La dispersion
Notions de probabilité Concrètement Plus je répète une expérience, ou plus le nombre d’individus dans mon échantillon est grand plus j’ai de chances d’avoir un test statistique significatif => réduire mon seuil de probabilité Si échantillon = 50 : p=0,05 Si échantillon =100 : p=0,01 Si échantillon = 1.000 : p=0,001 Si échantillon = 10.000 : p=0,0001 Etc…
Notions de probabilité Le seuil de signification est le degré de tolérance que j’admets dans le fait de rejeter ou non un résultat. Si p=0,05 j’admets que dans 5% des cas je déclare un test faux alors qu’il ne l’est pas (et vice versa) Si p=0,01 je tolère 1% d’erreur Etc… Concrètement: si avec une même variable je fais 100 tests statistiques et que j’ai admis un p=0,05. Au moins 5x je vais déclarer le test significatif alors que c’est un pur fruit du hasard! Donc plus je répète un test, plus je dois être exigeant dans le seuil de signification.
Notions de probabilité !!! NE PAS CONFONDRE TEST STATISTIQUE SIGNIFICATIF ET CAUSALITE Un test statistique définit un lien d’ indépendance entre deux variables et en rien un lien de causalité
Notions de probabilité Ce lien (ou l’absence de lien) peut être dû au hasard (exemple: il y a une corrélation entre le nombre de moustachus à Washington et le nombre de Rabbins en Pennsylvanie, ou cf supra le seuil statistique) à une tautologie (exemple quels sont les critères d’inclusion pour être dans la catégorie femme: avoir des seins et des ovaires?) à une variable supérieure (exemple: en Alsace il y a une corrélation entre le nombre de cigognes sur une maison et le nombre d’enfants. Mais plus il y a d’enfants, plus la maison est grande et plus la maison est grande plus elle a de cheminées) L’absence de lien peut être dû au fait que vous n’avez pas mis les bonnes variables dans votre questionnaire. On ne fait de statistiques que sur les questions qui ont été posées.
Notions de probabilité Quoiqu’il en soit un test ne donne jamais le sens du lien! Exemple1: il y a lien entre délinquance et toxicomanie. Cela ne dit pas que parce qu’on est toxicomane on devient délinquant ou si quand on est délinquant on a plus de risque de devenir toxicomane. Exemple 2: il y a un lien entre dépression et alcoolisme. Cela ne dit pas si on devient alcoolique parce qu’on est déprimé ou si on se déprime parce qu’on devient alcoolique
Plan général Notions de probabilité et de statistique Paramètres de base en statistiques Distribution paramétrique ou non paramétrique Tendance centrale: mode, moyenne, médiane Dispersion: Déviation standard Forme de distribution: asymétrie, bimodale…
Paramètres de base en statistiques Tests paramétriques ou non paramétriques? Non paramétriques: genre, oui - non, différents types de maladies… Paramétriques: poids, taille, âge… Quasi-paramétriques: Nombre d’enfants (avoir 1,15 enfants n’existe pas) Jamais – parfois – souvent – toujours Quotidien – hebdomadaire – mensuel – annuel Classes d’âge Classes de durée de séjour…
Paramètres de base en statistiques Tendance centrale: mode Surtout non paramétriques Nombre d’enfants par famille (moyenne = 3,44), mode = 2 Tendance centrale: moyenne. Tests paramétriques Poids moyen de 10 patients (moyenne= 69,2 kg)
Paramètres de base en statistiques Tendance centrale: médiane Surtout lorsque courbe exponentielle décroissante (courbe de survie) Aussi appelée demi- vie Exemple nombre de sortants soins intensifs: Médiane: 50% sortis en moins de 24 h Moyenne: 2 jours
Paramètres de base en statistiques Mesure de la dispersion: la déviation standard Entre -1 et + 1 sd : 68% des observations sont contenues Entre -2 et +2 sd: 95% des observations sont contenues Entre -3 et + 3sd: 99.8% des observations sont contenues
Paramètres de base en statistiques Asymétrie Plus une distribution est asymétrique plus on risque que le mode, la moyenne et la médiane ne se superposent pas. Mesure le Skewness Attention distributions bimodales et en U! Quel est le sens de la moyenne dans ce cas? Toujours faire les statistiques descriptives