Cours de Biostatistique Benjamin BIRENE Responsable Matière Biostatistique Association du Tutorat de PSA Samedi 5 Mars 2011
Qu’est-ce qu’on va faire pendant tout ce temps ?! Vous donner quelques trucs Revenir sur les définitions qui posent problème Réapprendre à utiliser certaines formule Reprendre les bases des choses fondamentales Parler un peu de l’épreuve de Biostat au concours
Les Ensembles (Chap. 2 et 3) Poly de la fac : « on appelle ensemble toute liste ou collection d’objets bien définis, explicitement ou implicitement » … donc un ensemble = un truc. Merci. Ensemble = un évènement, quel qu’il soit Représente avec les aires la probabilité d’un évènement Permet de dessiner pour mieux comprendre les opérations !!
Les Ensembles (Chap. 2 et 3) Exemple : Evènement A : le PAES va dans l’amphi D pour le Tutorat Evènement B : le PAES va dans l’amphi E pour le Tutorat Evènement C : le PAES va dans l’amphi C pour le Tutorat Ensemble E : tout qu’est-ce qu’il est possible qu’il se passe
Les Ensembles (Chap. 2 et 3) Complémentaires : Evènement A : le PAES va dans l’amphi D pour le Tutorat Evènement D : le PAES ne va pas dans l’amphi D pour le Tutorat 𝑃 𝐷 =1 −𝑃(𝐴)
Les Ensembles (Chap. 2 et 3) Union : Evènement A : le PAES va dans l’amphi D pour le Tutorat Evènement D : le PAES ne va pas dans l’amphi D pour le Tutorat Evènement D : Union évènement B et C → l’évènement D se produit si l’évènement B se produit OU SI l’évènement C se produit 𝑃 𝐷 =𝑃 𝐵∪C =𝑃 𝐵 +𝑃 𝐶 −𝑃(𝐵∪𝐶)
Les Ensembles (Chap. 2 et 3) Différence : Evènement A : le PAES va dans l’amphi D pour le Tutorat Evènement E : le PAES écoute le cours de son RM Biostat préféré Evènement F : le PAES écoute le cours de son RM Biostat préféré et est dans l’amphi D Evènement F : Différence (intersection) évènement A et E → l’évènement F se produit si l’évènement A se produit ET SI l’évènement E se produit 𝑃 𝐹 =𝑃 𝐵∩C
Les Ensembles (Chap. 2 et 3) « Sachant que » : réduction de l’ensemble étudié Evènement A : le PAES va dans l’amphi D pour le Tutorat Evènement E : le PAES écoute le cours de son RM Biostat préféré Evènement G : le PAES qui écoute le cours de son RM Biostat préféré va dans l’amphi D Evènement G : Probabilité de l’évènement A dans l’ensemble formé par l’évènement E Il manque le « ET » dans la phrase , donc c’est un « sachant que » ! 𝑃 𝐺 = 𝑃 𝐴 Pr 𝐸/𝐴 𝑃 𝐸
Indépendance Poly de la fac : « Deux évènements A et B sont indépendants si la probabilité pour que A soit réalisé n’est pas modifiée par le fait que B se soit produit » Ou alors : « Vazy fé sketuve jmenfou tfaçon » Exemple : Indépendant si le résultat du test A ne prend pas en compte le résultat du test B Je lance deux dés l’un à la suite de l’autre : que le premier fasse 1, 2, 3, etc… n’affecte pas le résultat que fera le second → Ils sont INDEPENDANTS
Indépendance Ils ne sont pas indépendants Quand est-ce que deux choses ne sont PAS indépendantes ? …Dès que le résultat de l’un perturbe le résultat de l’autre ! Deux évènements incompatibles (ou s’excluent l’un l’autre) : Ils ne peuvent pas arriver ensemble (leur intersection est nulle) Exemple : Un dentiste ne peut pas entrer dans la même pièce qu’un médecin (mais non, je plaisante !) Probabilité qu’un dentiste dépose un gros paquet d’argent à la banque : 0,99 Probabilité qu’un médecin dépose un gros paquet d’argent à la banque : 0,91 Quand le médecin rentre dans la banque, la probabilité que le dentiste y soit devient nulle → la probabilité du premier a été modifiée par le second évènement. Ils ne sont pas indépendants
LA RECIPROQUE EST FAUSSE !!!!! Indépendance Quand est-ce que deux choses ne sont PAS indépendantes ? …Dès que le résultat de l’un perturbe le résultat de l’autre ! Deux évènements inclus l’un dans l’autre : Si A est inclus dans B → lorsque l’évènement A se produit, B se produit forcément. Exemple : Evènement B : le soleil se lève et évènement A : le soleil se lève à l’Est. Si le soleil se lève à l’Est, il se lève forcément (vous avez un doute ?!) → la probabilité du premier a été modifié par le second évènement. Ils ne sont pas indépendants LA RECIPROQUE EST FAUSSE !!!!!
Valeurs prédictives, Sensibilité et Spécificité (Chap. 5) Valeurs prédictives : j’ai le résultat du test, je veux deviner la réalité Sensibilité/spécificité : j’ai la réalité, je veux deviner le résultat du test Le test est positif → Est-ce que le patient est malade ? => VPP Capacité de faire confiance au test Le test est négatif → Est-ce que le patient est sain ? => VPN Le patient est malade → Est-ce que le test sera positif ? => Sensibilité Capacité du test de découvrir la maladie Le patient est sain → Est-ce que le test sera négatif ? => Spécificité Capacité du test à ne trouver rien d’autre que la maladie
Fonction de répartition et densité de probabilité (Chap. 6) Une fonction f(x) (et pas F(X) !!!) se trouve malencontreusement sur votre sujet de concours. Comment savoir ce que c’est ?! Fonction de répartition Densité de probabilité Courbe en escalier Variable discrète On additionne à chaque échelon la probabilité Probabilité d’un évènement x obtenu en soustrayant f(x-1) à f(x) 𝑃 𝑋 ≠𝑓 𝑋 Aire de la courbe infinie Courbe en cloche Variable continue Probabilité d’une valeur précise nulle (car infinité de valeur) Probabilité = aire de la courbe (et non la courbe elle-même !) → Intégrale 𝑃 𝑎≤𝑋<𝑏 = 𝐹 𝑋 𝑏 − 𝐹 𝑋 (𝑎) Aire de la courbe égale à 1
Fonction de répartition et densité de probabilité (Chap. 6) Une fonction f(x) (et pas F(X) !!!) se trouve malencontreusement sur votre sujet de concours. Comment savoir ce que c’est ?! Fonction de répartition Courbe en escalier Variable finie On additionne à chaque échelon la probabilité Probabilité d’un évènement x obtenu en soustrayant f(x-1) à f(x) 𝑃 𝑋 ≠𝑓 𝑋 Aire de la courbe infinie f(8) f(6) 𝑃 8 =𝑓 8 −𝑓(6)
Fonction de répartition et densité de probabilité (Chap. 6) Une fonction f(x) (et pas F(X) !!!) se trouve malencontreusement sur votre sujet de concours. Comment savoir ce que c’est ?! Densité de probabilité Courbe en cloche Variable continue Probabilité d’une valeur précise nulle (car infinité de valeur) Probabilité = aire de la courbe (et non la courbe elle-même !) → Intégrale 𝑃 𝑎≤𝑋<𝑏 = 𝐹 𝑋 𝑏 − 𝐹 𝑋 (𝑎) Aire de la courbe égale à 1 f(6) f(8) 𝑃 [6≤𝑋<8] =𝐹(8)−𝐹(6)
Lois discrètes et continues (Chap. 7) Calculer la probabilité d’un évènement X quelconque : laquelle choisir ? Loi discrète : les variables prennent des valeurs précises (nombres entier) Loi de Bernoulli Deux résultats possibles Pile ou face Réussite ou échec Un truc ou son contraire Calculer la probabilité que l’un ou l’autre arrive 1 (réussite, le truc, pile) ou 0 (échec, contraire, face) Une seule épreuve On veut savoir la probabilité d’avoir 1 ou 0 Loi Binomiale Deux résultats possibles Pile ou face Réussite ou échec Un truc ou son contraire Calculer la probabilité que l’un ou l’autre arrive 1 (réussite, le truc, pile) ou 0 (échec, contraire, face) Un nombre n d’épreuves indépendantes On veut savoir combien de fois on aura 1 ou 0 → Reviens à n loi de Bernoulli à la suite Loi de Poisson Probabilité d’un évènement RARE Calcul sur un nombre d’épreuve donnée Comme une loi Binomiale (un accident arrive → 1, il n’arrive pas → 0), mais rare Paramètre λ : nombre de succès qu’on pense avoir
Lois discrètes et continues (Chap. 7) Calculer la probabilité d’un évènement X quelconque : laquelle choisir ? Loi continue : les variables ne prennent pas de valeurs précises (on ne peut parler qu’en intervalles) Loi Normale Savoir le nombre de fois qu’un évènement va arriver Grand nombre de possibilités Grande population Probabilité se lit avec la table de la loi normale centrée réduite (il faut donc centrer et réduire la variable avant de l’utiliser) Loi du χ² Savoir le nombre de fois qu’un évènement va arriver Ne sert que pour les test du χ² (variable qualitative) Probabilité se lit avec la table de la loi du χ²
Lois discrètes et continues (Chap. 7) Calculer la probabilité d’un évènement X quelconque : laquelle choisir ? Loi continue : les variables ne prennent pas de valeurs précises (on ne peut parler qu’en intervalles) Comment lire une table de loi de la loi Normale centrée réduite : α est la probabilité qu’on recherche (un évènement X arrive entre a et b fois) Définir Uα (valeur absolue des bornes de l’intervalle dans lequel X doit être compris) : a = - Uα b = Uα α est la probabilité que X soit comprise entre – Uα et Uα Pour χ² c’est la même chose mais les bornes sont [K;∞[ , K nombre qu’on veut dépasser → α se trouve avec le nombre de degrés de liberté Penser à centrer et à réduire les variables avant d’utiliser la table de la loi Normale centrée réduite ! On centre (sous entendu « on centre sur 0 ») : on soustrait à la variable son espérance : μ = 0 On réduit : on divise la variable par son ecart-type : σ = 1 Lorsqu’on a le résultat il faut décentrer et déréduire !
Lois discrètes et continues (Chap. 7) Calculer la probabilité d’un évènement X quelconque : laquelle choisir ? Loi de Bernoulli Nombre d’éclipses qui arriveront sur le millénaire Nombre de PAES dans un amphithéâtre Probabilité de faire dix-huit fois un 6 en lancer 32 dés Probabilité de casser une machine Loi Binomiale Loi de Poisson Loi Normale
Lois discrètes et continues (Chap. 7) Approximation d’une loi par une autre On peut approximer une loi par une autre très facilement : Loi Binomiale ↔ Loi de Poisson : Probabilité de réussite faible et nombre d’épreuve grand (évènement RARE !) Loi Binomiale ↔ Loi Normale : Respecte les conditions de validité de la loi normale Loi de Poisson↔ Loi Normale : Respecte les conditions de validité de la loi normale (paramètre grand)
« Observée », « Théorique », « Vraie » ?! (Chap. 8) Variable Observée Variable Théorique ou Vraie Donnée par l’expérience Ne donne pas la vérité divine Données statistiques Exemple : moyenne observée 𝑚= 𝑥 1 + 𝑥 2 + 𝑥 3 3 C’est une moyenne à partir des résultats de l’expérience, ça pourrait changer le jour d’après si les x avaient d’autres valeurs ! Donnée par des probabilités Vérité divine Ce sont des probabilités Exemple : moyenne vraie 𝑚=1 Pr 𝑋=1 +2𝑃𝑟 𝑋=2 + 3Pr 𝑋=3 Les probabilités restent toujours les mêmes, demain on aura la même moyenne !
Principe des tests (communs à tous) : Tests (Chap. 11, 12 et 13) Principe des tests (communs à tous) : Si jamais mon hypothèse nulle était vraie, j’aurais une distribution comme ça. Je regarde la distribution que j’ai effectivement. Est-ce cohérent de dire que la distribution que j’ai effectivement et celle que je devrais avoir sont semblables ? (Intervalle de Pari) Conclusion (ou pas !)
Les erreurs bêtes à éviter avec les tests : Tests (Chap. 11, 12 et 13) Les erreurs bêtes à éviter avec les tests : On ne conclue JAMAIS que l’hypothèse nulle est vraie, juste qu’on ne peut pas dire qu’elle est fausse (qui sait si un nouvel élément ne viendra pas prouver qu’elle en fait fausse?!) « il suffit d’un cas pour prouver qu’une généralité est fausse, mais on ne peut pas prouver qu’elle est vraie ». Degré de signification : ne se calcule pas si l’hypothèse nulle est rejetée dès le début… Il revient à pousser le vice le plus loin possible : Sachant que l’hypothèse nulle est rejetée avec 5% de risque d’erreur, jusqu’à combien je peux descendre mon risque d’erreur pour qu’elle soit toujours rejetée ? VERIFIER LES CONDITIONS DE VALIDITE AVANT TOUTES CHOSES !!!!!!!!!!!
Tests (Chap. 11, 12 et 13) Le test de Mann-Whitney-Wilcoxon : à quoi donc il sert ? « Test d’égalité de deux distributions (ou test de comparaison de deux distributions observées) » On se pose la question de savoir si une variable a tendance à être plus grande ou plus petite selon la loi qu’elle suit (A ou B). Par exemple, si on prend la variable Y : Sous A : Pr(Y=X)=eX Sous B : Pr(Y=X) = X X aura évidemment tendance à être plus grande quand elle suivra la loi A. Mais ça n’est pas toujours si simple !
Tests (Chap. 11, 12 et 13) Les test du χ² : à quoi donc il sert ? Ce sont des tests qui permettent de comparer les distributions de variables qualitatives ! Il en existe plusieurs dans votre poly : χ² d’ajustement : comparaison d’une répartition donnée à une répartition observée « est-ce qu’il y a autant de roux dans l’amphi D et dans l’amphi C ? » : la répartition de l’amphi D est donnée χ² d’homogénéité: comparaison de plusieurs répartitions observées « est-ce qu’il y a autant de roux dans l’amphi D et dans l’amphi C ? » : on ne donne pas la répartition de l’amphi D Test d’indépendance entre deux variables qualitatives Attention à ne pas vous planter ! L’hypothèse nulle est : « les deux variables sont INDEPENDANTES » ! On se sert de la table du χ² et non de la loi normale centrée réduite pour résoudre les problèmes et établir l’intervalle de pari. A part ça, c’est exactement comme les autres tests !
Corrélation (Chap. 14) Etabli un lien linéaire entre deux variables. « A quel point une variable est-elle dépendante d’une autre ? » Il s’agit d’un lien linéaire, mesuré par le coefficient de corrélation r. Si les deux variables sont très corrélées, r sera grand. Attention, la réciproque est fausse : un coefficient de corrélation r nul signifie qu’il n’y a pas de lien linéaire et non qu’il n’y a pas de lien tout court !
L’épreuve de Biostatistique au concours Elle sera longue (20 QCM pour 1h) A.J. Valleron a précisé de nombreuses fois qu’il n’y aura pas de piège Attention tout de même aux définitions… Les questions porteront beaucoup sur les points qu’il a indiqué comme important dans son diaporama ! Utilisez votre logique et non votre mémoire (comme pour la Physique =D)
N’hésitez pas à venir poser vos questions en bas de l’amphi ! ET VOILA !! Avec un peu de chance j’ai fini à l’heure… J’espère que j’ai pu vous être utile ! N’hésitez pas à venir poser vos questions en bas de l’amphi !