Probabilités (Probability) Définitions Définition classique Une expérience est dite aléatoire (random experiment-random trial) lorsqu'on ne peut pas en prévoir exactement les résultats du fait que tous les facteurs qui déterminent ce résultat ne sont pas maîtrisés ou contrôlés. Un événement aléatoire est un événement qui peut ou ne pas se réaliser au cours d'une expérience aléatoire. Exemple : expérience aléatoire "traverser la route" - événement aléatoire "se faire écraser". Si m résultats peuvent se produire avec des chances égales et si k résultats correspondent à la réalisation de l'événement, la probabilité de l'événement est le rapport k/m : nombre de cas favorables sur nombre de cas possibles. Par exemple dans un jeu de 52 cartes on a 13 coeurs, si toutes les cartes ont des chances égales d'être tirées, la probabilité d'extraire un cœur est 13/52 = 0,25.
Probabilités Définitions Définition fréquentielle Si une expérience a été répétée un grand nombre de fois dans des conditions uniformes, on constate généralement que la fréquence relative d'un événement (fi) se stabilise. Ce phénomène est connu sous le nom de régularité statistique. Ce nombre fixe est par définition la probabilité mathématique de l'événement considéré. La probabilité ainsi définie est une forme idéalisée de la fréquence relative. Une estimation pragmatique de la probabilité d’un événement est fournie par la fréquence relative, la précision de cette estimation peut être fournie par son intervalle de confiance pour un risque donné. Dans de nombreux cas la probabilité peut être modélisée par une loi.
Exemple : Kerrich 1946 a réalisé 10 000 jets d'une pièce de monnaie a observé l'apparition de <<face>>. Après chaque jet, il a déterminé la fréquence absolue et relative de l'événement. n ni fi n ni fi n ni fi 1 0 0,000 60 29 0,483 1200 596 0,497 2 0 0,000 70 32 0,457 1400 704 0,503 3 0 0,000 80 35 0,438 1600 810 0,506 4 1 0,250 90 40 0,444 1800 918 0,510 5 2 0,400 100 44 0,440 2000 1013 0,506 6 3 0,500 120 53 0,442 2500 1272 0,509 7 3 0,429 140 65 0,464 3000 1510 0,503 8 4 0,500 160 74 0,462 3500 1772 0,506 9 4 0,444 180 86 0,478 4000 2029 0,507 10 4 0,400 200 98 0,490 4500 2293 0,510 12 6 0,500 250 125 0,500 5000 2533 0,507 14 8 0,571 300 146 0,487 6000 3009 0,502 16 9 0,562 350 173 0,494 7000 3516 0,502 18 10 0,556 400 199 0,498 8000 4034 0,504 20 10 0,500 450 226 0,502 9000 4538 0,504 25 13 0,520 500 255 0,510 10000 5067 0,507 30 17 0,567 600 312 0,520 35 18 0,514 700 368 0,526 40 21 0,525 800 413 0,516 45 22 0,489 900 458 0,509 50 25 0,500 1000 502 0,502
Représentation graphique Expérience du jet de pièce fi 0,1 0,2 0,3 0,4 0,5 0,6 1 10 000 Log(n)
Axiomes de base Axiomes élémentaires Evénements mutuellement exclusifs 0 < P(A) < 1 P(A) = 1 événement toujours réalisé P(A) = 0 événement impossible Evénements mutuellement exclusifs Les événements A et B ne peuvent se produire simultanément. Pour tous couples (A,B) l'ensemble A* B est vide. P(A ou B) = P(A + B) = P(A U B) = P(A) + P(B) Exemple probabilité d'extraire un cœur ou un carreau = P(Cœur ou Carreau) = 0,25 + 0,25 = 0,5. Généralisation P(A+B+C) = P(A)+P(B)+P(C) Si 2 événements sont mutuellement exclusifs (mort-vivant) on a P(A)+P(B) = 1 => P(A) = 1-P(B). La probabilité de survie à un moment donné est égale à 1 moins la probabilité de décéder à ce moment.
Evénements non nécessairement exclusifs : Les événements peuvent se produire simultanément exemple « avoir un infarctus du myocarde », « être diabétique ». P(A ou B) = P(B ou A) = P(A) + P(B) - P(A et B) Ceci se déduit des relations : P(A ou B) = P(A sans B) + P(B sans A) + P(A et B) P(A sans B) = P(A) - P(A et B) P(B sans A) = P(B) - P(A et B) En conclusion P(A ou B) < P(A) + P(B) P(A ou B ou C) = P(A) + P(B) + P(C) - P(A et B) - P(B et C) - P(A et C) + P(A et B et C)
Probabilités conditionnelles Soit deux événements non exclusifs A et B : par exemple avoir un signe clinique (douleur de la fosse iliaque droite) et avoir une maladie (avoir une appendicite) Soit une expérience pouvant conduire à la réalisation ou non de A et B, à l'issue de N répétitions de l'expérience on a le tableau suivant : Malades Non Malades Tot. (A+) (A-) Test Positif 80 20 100 (B+) VP FP Test Négatif 40 160 200 (B-) FN VN Tot. 120 180 300 P(A+/B+) = P(A+ et B+) / P(B+) P(A+ et B+) = P(A+/B+)*P(B+) = P(B+/A+)*P(A+)
Probabilités Conditionnelles (Suite) Prévalence Sensibilité, Spécificité L’étude porte sur un échantillon représentatif Malades Non Malades Tot. (A+) (A-) Test Pos. 80 20 100 (B+) Test Nég. 40 160 200 (B-) Tot. 120 180 300 Prévalence = fréquence de la maladie = P( A+) = 120 / 300 P(A-) = 1 - P(A) = Fréquence des Non Malades. Attention ceci nécessite un échantillon représentatif. La prévalence ne peut pas être estimée dans une étude cas/témoins Sensibilité = fréquence des tests positifs chez les malades = = P(B+/A+) = P(A+ et B+) / P(A+) = 80 / 120 = 0,66 Spécificité = fréquence des test négatifs chez les non malades = P(B-/A-) = P(A- et B-) / P(A-)= 160 / 180 = 0,88
Probabilités Conditionnelles (Suite) Valeur Prédictive Positive VPP, Valeur Prédictive Négative VPN L’étude porte sur un échantillon représentatif Malades Non Malades Tot. (A+) (A-) Test Pos. 80 20 100 (B+) Test Nég. 40 160 200 (B-) Tot. 120 180 300 Valeur prédictive positive (VPP) = Probabilité d’être malade si le test est positif = P(A+/B+) = P(A+ et B+) / P(B+) = 80 / 100 = VPP Valeur prédictive négative (VPN) = Probabilité de ne pas être malade si le test est négatif = P(A-/B-) = P(A- et B-) / P(B-) = 160 / 200 = VPN
Sensibilité, Spécificité, Valeurs Prédictives Les caractéristiques intrinsèques du test : Sensibilité = Probabilité d'observer un test positif chez les malades Spécificité = Probabilité d'observer un test négatif chez les non malades Les éléments de décision pour le médecin : VPP (valeur prédictive positive) = Probabilité d'être malade quand on a un test positif VPN (valeur prédictive négative) = Probabilité de ne pas être malade quand le test est négatif VPP et VPN dépendent des caractéristiques intrinsèques du test (sensibilité et spécificité) et de la prévalence de la maladie => Le même test diagnostique du paludisme ne donnera pas les mêmes VPP et VPN en France et en Afrique du fait de prévalences fort différentes . Test Positif Sensibilité Malade Prévalence 1 - Sensibilité Test Négatif Test Positif 1 - Prévalence 1 - Spécificité Non Malade Spécificité Test Négatif
Remarques sur la sensibilité et la spécificité Si le résultat du test biologique ou du signe clinique est qualitatif (douleur de la fosse iliaque droite - appendicite), on prend les pourcentages. Si le résultat du test biologique ou du signe clinique est une variable quantitative (glycémie - diabète; tension artérielle systolique - hypertension ...), la sensibilité et la spécificité vont dépendre du seuil que l'on choisit pour dire que le test est positif ou négatif. Ceci conduit à la courbe de ROC. P(T+ / M-) = 1- P(T-/M-) Nombre de sujets Sujets non diabétiques Sujets diabétiques 1 g/l 2,1 g/l Valeur de la glycémie Limite L de la glycémie au-delà de laquelle on dit le test positif P(T- / M+) = 1- P(T+/M+)
Courbe de ROC Initialement réalisée pour les radars Sensibilité 1 1-spécificité 1 Pour chaque valeur de la limite L du critère quantitatif, on a une valeur de la sensibilité et de la spécificité. On obtient ainsi 1 point de la courbe. En faisant varier la limite L on obtient d’autres points. La courbe joignant les points est la courbe de ROC Les valeurs de sensibilité et spécificité en fonction de L peuvent être obtenues par l’observation ou par la modélisation du phénomène par une loi de probabilité
Probabilités conditionnelles et indépendance L'événement A est dit indépendant de B si la probabilité de voir se réaliser A ne dépend pas de la réalisation ou de la non réalisation de B. P(A/B) = P(A/non B) = P(A) Si, et seulement si, A et B sont indépendants, on a : P(A et B) = P(A) * P(B) Exemple de phénomènes a priori indépendants : Etat des pneus de la voiture et pluie. Exemple de phénomènes a priori liés : Etat des pneus de la voiture et accident. Hypothèse nulle du Khi 2 = indépendance. C'est sous cette hypothèse que sont calculés les effectifs théoriques.
Application à la reproductibilité entre juge Kappa On a deux juges A et B qui jugent le même sujet. Par exemple deux médecins qui examinent les mêmes patients et qui jugent de l ’opportunité d’une intervention chirurgicale. On obtient le tableau Médecin A Oui Non Total Oui 10 20 30 Non 5 45 50 Total 15 65 80 Médecin B Concordance observée Po = (10+45)/80= 0,6875 Si il y a indépendance on devrait avoir : Oui-Oui = 15*30/80 = 5,625 Non-Non = 65*50/80 = 40,625 Concordance théorique Pth = 46,25/80 = 0,578 Kappa = (0,6875-0,578125)/(1-0,578125) = 0,259 Concordance bonne si Kappa > +0,6
Application à la survie Soit les événements Morts-Vivants P(Vivant) = 1 - P(Mort) Être vivant au jour J+1 est indépendant d'être vivant au jour J. Donc la probabilité d'être vivant au jour J et au jour J+1 est égale au produit des probabilités d'être vivant au jour J et J+1. Jour Exposés DCD PDV P(DCD) P(Viv.) Pcum(Viv) 0 100 0 0 0 1 1 1 100 3 0 0,03 0,97 1*0,97 6 97 2 0 2/97=0,0206 0,9794 0,97*0,9794 = 0,95002 7 95 0 3 0 1 0,95002 10 92 … … … … … Jour = délai en jours entre l'entrée dans l'étude et la survenue de l'événement. Exposés = nombre de personnes exposées au risque au jour j DCD = Nombre de décès (événements) constatés au jour J PDV = Nombre de perdus de vue au jour J P(DCD) = probabilité de mourir au jour J (Nombre de décès parmi les exposés au jour j) P(Viv) = Probabilité au jour j d'être en vie = 1-P(DCD) Pcum(Viv) = Probabilité cumulée de survie au jour J = Probabilité d'être en vie au jour J0 et J1 … et Jn.
Probabilités Conditionnelles : Théorème de Bayes Soit un test dont on connaît la sensibilité et la spécificité et une maladie dont on connaît la prévalence. A partir de ces éléments, calculez les valeurs prédictives. P(T et M) P(T/M) = connu P(M) P(M) connu P(nonT / nonM) = P( non T et Non M) P( non M) connu P( non M) = 1 - P(M) P(T / non M) = 1 - P(T/ non M) P(M/T) = P(T et M) P(T) = P(T/M) * P(M) P(T) = P(T/M) * P(M) + P(T/ non M) * P( non M) = P(T/M) * P(M) + (1 - P(non T/ non M))*(1 - P(M)) d'où : P(T/M) * P(M) P(M/T) = P(T/M) * P(M) + (1 - P(non T/ non M))*(1 - P(M))
Probabilités Conditionnelles : Théorème de Bayes Utilisation de l'arbre Test Positif Sensibilité Malade Prévalence 1 - Sensibilité Test Négatif Test Positif 1 - Prévalence 1 - Spécificité Non Malade Spécificité Test Négatif Application en médecine : Aide au diagnostic ou à la thérapeutique. (Flamant douleurs abdominales; Sultan diagnostic des anémies....) 13
Valeurs prédictives : influence de la prévalence Le paludisme a une prévalence de 90% en Afrique et de 0,001 en France. Un test biologique est utilisé pour le diagnostic avec une sensibilité de 95% et une spécificité de 85%. Quelles seront les probabilités pour des patients Africain et Français d’avoir le paludisme quand le test est positif et inversement de ne par avoir la maladie quand le test est négatif ? Conclusion : si le test est positif en Afrique, on est quasiment certain que le patient a le paludisme alors qu’en France on ne peut rien conclure. Par contre si le test est négatif, on est quasiment certain qu’en France le patient n’a pas de palu alors qu’en Afrique on ne peut rien dire. => Attention au transfert d’expérience.
Variables aléatoires et distributions théoriques Variable aléatoire et distributions discontinues à une dimension Une variable aléatoire (random variate) X est une variable associée à une expérience ou à un groupe d'expériences aléatoires et servant à caractériser le résultat. Exemple, variable aléatoire X correspondant à la naissance d'un garçon lors d'une grossesse, jet d'une pièce de monnaie, jet de dés.... A chaque valeur que peut prendre la variable aléatoire (garçon/fille, pile/face, nombre de 1 à 6....) correspond une probabilité P(X=garçon), P(X=fille) ou encore P(garçon)... On note P(X=x) = Px = P(x).
Variables aléatoires et distributions théoriques Variable aléatoire et distributions discontinues à une dimension L'ensemble des couples [valeurs admissibles – probabilité correspondante] constitue la distribution de probabilité. La relation existant entre x et P(x) est appelée loi de probabilité tandis que la distribution cumulée des probabilités donne naissance à la fonction de répartition. S1pP(x) = 1 (p = nombre de valeurs admissibles) La somme des probabilités de tous les événements possibles vaut 1 F(x) = P(X<x) 0<F(x)<1 Si X ne peut prendre que des valeurs positives ou nulles (jet de dés…) F(x) = 0 pour tout x < 0 et F(infini) =1
Distribution de probabilité du jet d'un dé parfait Le résultat du jet d'un dé peut être caractérisé par une VA X dont les valeurs 1 à 6 sont associées à chacune des faces. Pour un dé parfait, une probabilité de 1/6 peut être associée à chacune de ces valeurs. x P(x) F(x) 1 1/6 0/6 2 1/6 1/6 3 1/6 2/6 4 1/6 3/6 5 1/6 4/6 6 1/6 5/6 1 6/6 F(x) 1 x 1 2 3 4 5 6
VA et distributions continues à une dimension Si une VA peut prendre n'importe quelle valeur réelle appartenant à un intervalle donné par exemple de moins l'infini à plus l'infini, elle est dite continue. Par exemple le poids d'un individu est une variable continue ne pouvant prendre que des valeurs réelles positives. P(X=68) = 1/ infini => tend vers 0 On peut, dans certains cas, déterminer la probabilité d'observer une valeur comprise dans l'intervalle x + x. Cette probabilité, en général, tend vers zéro quand x devient petit. La probabilité d'obtenir exactement un résultat donné est généralement considérée comme nulle, bien que cet événement ne soit pas strictement impossible. La notion de distribution de probabilité n'a pas de sens. Par contre la fonction de réparation F(x) permet de caractériser complètement la loi de probabilité. P(x < X < x+ x) = F(x+ x) - F(x) Si F(x) est dérivable, la fonction f(x) est appelée fonction de densité de probabilité (probability density fonction, frequency function). Le produit f(x) * dx est appelé élément de probabilité (probability element) et joue, pour les variables continues, le même rôle que les probabilités Px pour les variables discontinues. 16
VA et distributions continues à une dimension (suite) Propriétés F(x) f(x) 17
VA et distributions continues à une dimension (suite) L'histogramme normé, quand n est grand, le nombre de classes très élevé, l'amplitude de classe faible tend à se rapprocher d'une ligne régulière dont l'équation correspond à f(x) la fonction de densité de probabilité. Dans les mêmes conditions, le polygone des fréquences relatives cumulées tend à se rapprocher d'une ligne régulière dont l'équation est la fonction répartition F(x).
Loi uniforme Soit un segment de droite donné sur lequel on choisit un point au hasard. La probabilité que le point se trouve dans tout intervalle donné de ce segment est proportionnelle à la longueur de cet intervalle. Le choix d'un tel point est équivalent au choix d'un nombre quelconque dans l'intervalle (0,1). La probabilité de choisir un nombre compris dans un sous intervalle ( 0,2 par exemple) est différente de 0 et est indépendante de la position de cet intervalle sur le segment. Dans ces conditions on a : F(x) = 0 si x < 0 F(x) = x si 0 < x < 1 F(x) = 1 si x > 1 La distribution uniforme continue correspond au temps d'attente entre un instant quelconque et la première réalisation d'un événement qui se réalise de façon régulière à intervalle constant. (feux circulation à périodicité constante et arrivée aléatoire des véhicules) 0 0,5 1 1 0,5 F(x) x 18
Espérance mathématique Espérance mathématique (expression venant de la théorie des jeux = valeur attendue = valeur moyenne) d'une variable aléatoire X : VA discontinue VA continue 19
Espérance mathématique Joue un rôle analogue pour les distributions théoriques à celui de la moyenne arithmétique pour les distributions observées. Propriétés : E( a + b*X) = a + b*E(X) Soit X et Y deux VA indépendantes ou non (résultats du jets de 2 dés Z -somme des résultats- = X+Y); on a : E(X ± Y) = E(X) ± E(Y) Soit X et Y deux VA indépendantes; on a : E(X * Y) = E(X) *E(Y)
Paramètres des distributions théoriques Moyenne = Espérance mathématique = m Médiane est la valeur telle que F(médiane) = 0,5 Mode = valeur correspondant au maximum de la probabilité ou de la densité de probabilité. Si distribution symétrique unimodale alors Mode = Médiane = Moyenne. Moments centrés d'ordre k Moment k = E( X - m ) Variance = moment centré d'ordre 2 écart type = racine carrée de la variance Coefficient de variation = écart type / moyenne Variable centrée réduite : Soit Y = Y a comme écart type 1 et comme moyenne 0. Elle est dite variable centrée réduite (standardized variable) Y = a + b X => Var(Y) = b2 Var(X) Si X et Y sont indépendantes : Variance (X + Y) = Var (X - Y) = Var(X) + Var(Y) k X - m
Inégalité de Bienaymé - Tchebychev Propriété de l'écart type qui permet de donner une interprétation générale Quelle que soit la distribution de la variable X de moyenne m et d'écart type s, et quelle que soit la quantité positive k, on démontre que la probabilité d'être à l'extérieur de l'intervalle m + k * s est inférieure à 1/k2. Ainsi, il y a au plus 25% des individus qui ont des valeurs supérieures à la moyenne + 2 écarts type ou inférieures à la moyenne - 2 écarts type (qui sont à l’extérieur de l’intervalle m + k * s ) Si la loi de probabilité du phénomène est connue, cette proportion est plus faible. P( | X - m | > k * ) = P( | X - m | > k) < 1 k 2