La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Probabilit és et statistiques dans le traitement de donn ées expérimentales premier cours : rappel de probabilités second cours : estimation de paramètres,

Présentations similaires


Présentation au sujet: "Probabilit és et statistiques dans le traitement de donn ées expérimentales premier cours : rappel de probabilités second cours : estimation de paramètres,"— Transcription de la présentation:

1 Probabilit és et statistiques dans le traitement de donn ées expérimentales premier cours : rappel de probabilités second cours : estimation de paramètres, tests dhypothèses Jacques Bouchez CEA-Saclay E2phy Nantes 22-25/8/2006

2 Un cas concret illustrant le type de questions que lon se pose θ histogramme N loi suivie par la population de chaque bin ? corr élations entre bins? distribution plate ? dN/dcos θ =1/2 + a cosθ compatible avec les données? estimation de a a b a b cos θ

3 Rappel de probabilit és Notion de variable al éatoire Définition et propriétés des probabilités lois de probabilités :cas discret et continu caractérisation des lois: moyenne, variance, covariance changement de variables somme de variables indépendantes lois des grands nombres lois usuelles

4 variable al éatoire, probabilité Lorsque le résultat dune observation ne peut pas être prédit avec certitude, celui- ci est décrit par une variable aléatoire X (dont les valeurs, ou réalisations, sont notées x) prenant ses valeurs dans Ω. Les sous-ensembles de Ω, appelés événements, sont munis dune mesure P (pour probabilité). A Ω : P(A) est la probabilité que x A (lévénement A a eu lieu, sest produit…) P(A) [0,1] pour tout A P(Ω) = 1 P(Ø) =0 P(A B) = P(A) + P(B) – P(A B) si A B =Ø (evenements exclusifs) alors P(A B) = P(A) + P(B) A B Ω

5 probabilité conditionnelle, indépendance P(A|B) est la probabilité que x A sachant que x B (probabilité de A conditionnée par B) Formule de Bayes: P(A|B) = P(A B) /P(B) [satisfait à tous les axiomes lorsquon restreint Ω à B] définition: A est indépendant de B si P(A|B) =P(A) alors : P(A B) = P(A) x P(B) et P(B|A) =P(B) : A et B sont indépendants IL NY A FACTORISATION DES PROBABILITES QUE POUR DES EVENEMENTS INDEPENDANTS exemple (m étéo à Nantes et ailleurs)

6 lois de probabilit é une variable al éatoire peut etre uni- ou multi- dimensionnelle, prendre des valeurs discrètes (en nombre fini ou infini dénombrable) ou continues Cas discret: X prend des valeurs x i P( x i ) = p i [0,1] p i = 1 Cas continu: F(x) = P(X x) F fonction cumulative P(X [x, x+dx]) = F(x+dx) – F(x) = F (x) dx = f(x) dx f densité de probabilité F(x) f(x) 1 1

7 cas continu, multidimensionnel: densité de probabilit é multidimensionnelle f(x,y,z…) P(X [x, x+dx] Y [y, y+dy Z [z, z+dz]) = f(x,y,z) dx dy dz densité de probabilité réduite: f X (x)= dy dz f(x,y,z) densite de probabilite conditionnelle: f C (x|y 0 ) = f(x, y 0 ) / dx f(x,y 0 ) Si X et Y sont indépendantes, alors f(x,y) = f X (x) f Y (y) (factorisation indépendance sous certaines conditions) f(cosθ, φ ) = (1 + cosθ sinφ ) / 4π non factorisable, non indépendants f(cosθ, φ) = 3 cos 2 θ sin 2 φ / 2π = [3/2 cos 2 θ] [sin 2 φ / π] factorisation, indépendance

8 changement de variable al éatoire y = H(x) : y nouvelle variable al éatoire liée fonctionnellement à la variable aléatoire x (par exemple variable initiale x = θ, nouvelle variable y= cosθ ) si x a pour densite de probabilite f(x), quelle est la densite de probabilite g(y) ? si la correspondance x y est biunivoque, f(x) dx = g(y) dy g(y) = f(x) /H (x) x et y multidimensionnels : H(x) remplacé par le determinant de la matrice des derivees partielles | y/ x| (Jacobien du changement de variables) si correspondance non univoque, plus compliqué (exemple y=x 2 g(y) = [f(x) + f(-x)]/2|x| g(y) = [ f( y) + f(- y) ] /(2 y)

9 Caractéristiques des lois de probabilité variable aléatoire x de densité de probabilité f(x) valeur moyenne (espérance mathématique) x,, E(x) discret : = p i x i continu : x = x f(x) dx ne pas confondre avec x médian, ou x max (maximum de f(x) variance, notée σ 2 σ est appelé sigma, écart quadratique moyen, incertitude, erreur, resolution….. σ 2 = = (x-E(x)) 2 f(x) dx = - 2 σ x Pile ou face : pile x=0 face x=1 = 0.5 σ = 0.5

10 Cas multidimensionnel : covariance densité de probabilité f(x,y) : on définit,, σ 2 (x),σ 2 (y) et C(x,y) = covariance de x et y coefficient de correlation r(x,y) = C(x,y) /( σ(x) σ(y)) inégalite de Schwartz -1 r +1 x et y indépendants C(x,y) = 0 ATTENTION: réciproque fausse !! Matrice de variance-covariance : ( σ 2 (x) C(x,y) ) V = ( ) ( C(x,y) σ 2 (y) ) changement lineaire de variable Z = M X + C (M et C matrices constantes): V Z = M V X M T cas non lineaire : Formule fausse, approximation parfois dangereuse

11 Somme de variables aléatoires indépendantes s = x + y f(x,y) = f X (x) f Y (y) = + ( vrai même si x et y corrélés ) σ 2 (s) = σ 2 (x) + σ 2 (y) les variances sajoutent (remarque d = x - y σ 2 (d) = σ 2 (x) + σ 2 (y) ) application: N tirages ind é pendants x i selon f(x): s = x i σ 2 (s) = N σ 2 (x) = N σ 2 m = s/N = et σ 2 (m) = σ 2 /N premiere loi des grands nombres: m tend vers avec une variance qui d é cro î t en 1/N (la pr é cision augmente comme N )

12 Théorème « central limit » N tirages indépendants x i dont on fait la moyenne m: lorsque N, la densité de probabilité de m tend vers une loi universelle, la loi normale (ou loi de Gauss) de moyenne et de variance σ 2 (x)/N: G aσ (x) = 1/[σ(2π) 1/2 ] exp[- (x-a) 2 /2σ 2 ] ou si lon préfère, z = N ½ (m - ) a pour densité de probabilité asymptotique G 0,1 (z) illustration loi de tirage RNDM des ordinateurs:

13 Quelques lois usuelles

14 loi binomiale N observations(N fixé): la probabilité que lévénement A soit vrai est p n observations satisferont lévénement A. n est une variable aléatoire (discrète) Sa loi de probabilité sera: P(n) = B N,p (n) = C N n p n (1-p) N-n exercice: = Np σ 2 (n) =Np(1-p) événements exclusifs A (probabilité p A ) et B (probabilité p B ): n A satisfont A, n B satisfont B calculer C(n A,n B )

15 Loi de Poisson Limite de la loi binomiale lorsque N, p 0, Np a exemple: Nombre dexplosions de SN par siècle dans notre galaxie n observations satisfaisant le critère demande: exercice : p(n) = P a (n) = exp(-a) a n / n! = a σ 2 (n) = a la fluctuation dune loi de Poisson de moyenne a est la racine de a application : fluctuations sur le nombre daccidents proprietes: la somme de 2 variables aleatoires independantes suivant chacune une loi de Poisson (de moyennes respectives m et n) suivra une loi de Poisson de moyenne m+n Consequence (theoreme central limit): une loi de Poisson ressemblera dautant plus a une loi de Gauss que sa moyenne est grande.

16 loi exponentielle exemple typique : temps de désintégration dune particule instable f(t) = 1/ ځexp (-t/ ځ) = ځ σ 2 (t) = ځ 2

17 Probabilit és et statistiques dans le traitement de donn ées expérimentales premier cours : rappel de probabilités second cours : estimation de paramètres, tests dhypothèses Jacques Bouchez CEA-Saclay E2phy Nantes 22-25/8/2006

18 Un cas concret illustrant le type de questions que lon se pose θ histogramme N loi suivie par la population de chaque bin ? corr élations entre bins? distribution plate ? dN/dcos θ =1/2 + a cosθ compatible avec les données? estimation de a a b a b cos θ

19 Estimation de paramètres X variable aléatoire dont la densité de probabilité f(x;θ) dépend dun paramètre inconnu θ. Etant donné N tirages x i de X, que peut-on dire de θ ? But de lexercice: construire une variable aléatoire, fonction des x i, dont lespérance mathématique sera (au moins asymptotiquement) θ (et dont la variance sera la plus faible possible). [une telle variable est appelée estimateur, ou encore statistique !] Biais dun estimateur de θ = différence entre son espérance et θ Un estimateur sera convergent si le biais B N et sa variance σ 2 N tendent vers 0 comme 1/N lorsque N Les propriétés de convergence des estimateurs usuels découlent de la loi des grands nombres (démonstration plus ou moins facile) Un estimateur qui a une variance plus faible que les autres est dit optimal; et si sa variance est le minimum théorique (théorie de linformation), il est dit efficace. [il nexiste pas forcément destimateur efficace pour N fini]

20 Estimation par méthode des moments distribution angulaire dune collision: la densité de probabilité pour x=cosθ est de la forme f(x; a 0, a 1,…,a k ) =Σ 0 k a l P l (x) : a i paramètres inconnus P l (x) polynôme de Legendre de degré l propriété de ces polynômes P m (x) P n (x) dx =δ mn Je considère la variable aléatoire z = P l (x) sa valeur moyenne est par construction a l, et sa variance V est calculable Depuis mes N observations x i, je détermine N valeurs z i et je construis la moyenne des z i r = 1/N Σ z i r a pour espérance a l et pour variance 1/N V r est un estimateur non biaisé, convergent du paramètre inconnu a l r nest pas optimal

21 Estimation par moindres carrés Exemple : je dispose de plusieurs mesures dune règle à diverses températures T i, et je veux estimer son coefficient de dilatation α. Je suppose mes diverses mesures L i indépendantes, chacune affectée dune incertitude σ i Je dispose dun modèle théorique L(T) = L 0 (1 + α T) avec 2 paramètres inconnus L 0 et α Problème : Estimer au mieux ces 2 paramètres depuis les observations T L Jestime les paramètres inconnus en prenant pour valeurs celles qui minimisent la somme Ҳ 2 = Σ [L i –L(T i )] 2 /σ i 2 Cas général: estimation biaisée, convergente Variance-covariance des estimateurs donnée asymptotiquement par 2 fois linverse de la matrice des dérivées secondes au minimum

22 Cas particulier : le modèle linéaire Le modèle est dit linéaire si la prédiction théorique dépend linéairement des paramètres inconnus, et si les variances des observations ne dépendent pas de ces parametres. Dans ce cas: la recherche du minimum se fait analytiquement (équations linéaires) lestimation des paramètres est non biaisée et optimale la matrice de variance-covariance des estimateurs est exactement V = 2 D 2 -1 subtilité de lexemple précédent: le modèle nest pas linéaire pour L 0 et α mais il est linéaire pour L 0 et (L 0 α) !! L 0 et L 0.α sont estimés de manière optimale, mais pas α Autre subtilité: Lestimation de paramètres par ajustement dun histogramme par moindres carres nest jamais linéaire car les variances des populations de chaque bin dépendent des paramètres inconnus

23 méthode du maximum de vraisemblance f(x;θ) θ parametre inconnu. N observations x i f(x;θ 1 ) f(x;θ 2 ) les observations xi tombent préférentiellement là où la densité de probabilité est élevée estimation de θ : valeur maximisant le produit Π f(x i ) ou de manière équivalente la somme Σ log[ f(x i )] Cas général: estimateur biaisé, convergent. Asymptotiquement efficace variance de lestimateur donnée asymptotiquement par linverse de la dérivée seconde au maximum

24 cas particulier : Théorème de Darmois Si f(x;θ) est de la forme exp[ a(x) + b(θ) + c(x) d(θ) ] et si le domaine de variation de x ne dépend pas de la valeur de θ, alors: La méthode du maximum de vraisemblance fournit une estimation efficace à échantillon fini du paramètre μ = b(θ)/d(θ) application: le maximum de vraisemblance donne un estimateur efficace du temps de vie dune particule et lestimation est tout simplement la moyenne des temps de vie observés Mais le théorème de Darmois est rarement vérifié (efficacités de détection, présence de bruits de fond,….)

25 Incertitudes statistiques et systématiques La variance des estimateurs décroît comme 1/N Mais il peut exister dautres sources dincertitude indépendantes du nombre N dobservations. Exemple: masse dune résonance en formation Taux dinteraction en fonction de lénergie 100 événements observes : m =100 +/- 8 GeV 400 événements observes : m = 102 +/- 4 GeV mais si les ingénieurs de la machine me disent quils connaissent lénergie du faisceau avec une incertitude de 5%: 100 événements m=100 +/- 8 (stat) +/- 5 (syst) GeV = 100 +/- 9.5 GeV 400 événements m=103 +/- 4(stat) +/- 5 (syst) GeV = 103 +/- 6.4 GeV événements: m=101 +/- 0.8 (stat) +/- 5 (syst) =101 +/- 5.1 GeV

26 Estimateurs gaussiens et degrés de confiance si, en vertu du théorème central limit, je peux supposer quun estimateur est distribue gaussiennement, et comme je connais sa variance, je peux donner des intervalles de confiance sur le paramètre inconnu m = 100 +/- 5 GeV veut alors dire lestimateur m de m 0 est distribué gaussiennement avec comme valeur moyenne m 0 et comme écart quadratique 5 GeV P(m [m 0 -5 GeV, m 0 +5 GeV]) = 0.68 P(m [m GeV, m GeV]) = P(m [m GeV, m GeV]) = quon ecrit plus souvent: (puisque lestimateur m = 100 GeV) P(95GeV

27 test dhypothese (I): classification en 2 catégories les observations appartiennent a 2 classes différentes: catégorie A: densité de probabilité f A (x) catégorie B: densité de probabilité f B (x) je veux sélectionner au mieux des événements de la catégorie A: ce qui veut dire que pour une efficacité de sélection donnée, je veux la contamination la plus faible venant de la catégorie B (ou vice versa) exemples: 1. classer des particules entre protons et muons selon leur pouvoir ionisant 2. mettre en évidence un signal hypothétique faible parmi un bruit de fond important Le critère le plus puissant est le rapport de vraisemblance r = f A (x) /f B (x) r> r 0 je classe dans A r< r 0 jexclus de A (je classe dans B) je choisis la valeur de r 0 selon le niveau de contamination ou defficacité voulu

28 en pratique: il est souvent très difficile de connaitre complètement f A et f B on remplace x (multidimensionnel) par un jeu plus restreint de variables discriminantes (tout lart du physicien! ) on essaie de déterminer au mieux les densités de probabilité pour ces nouvelles variables pour les 2 catégories : méthodes de Monte-Carlo. On construit un pseudo-rapport de vraisemblance (qui sera moins puissant que le vrai). On peut utiliser des réseaux de neurones

29 test dhypothese (II) test dhypothèse simple: mes observations x sont-elles compatibles avec lhypothèse H complètement spécifiée ? exemple: distribution angulaire plate Test du chi2: on construit Ҳ 2 = Σ(n k –y k ) 2 /σ 2 (y k ) on détermine (si nécessaire par Monte Carlo) la densité de probabilité de cette variable Ҳ 2 lorsque H est vraie. On en déduit que dans 90% des cas, la valeur de Ҳ 2 est inferieure à r Si la valeur mesurée pour Ҳ2 est supérieure à r, alors je rejette lhypothèse H a 90% de confiance

30 Il existe des tests plus puissants que le test du chi2 (tests de Kolmogorov, de Smirnov) on peut aboutir a des paradoxes apparents: une hypothèse acceptée (distribution plate) peut être rejetée lors de lestimation de la pente (ou vice versa) la raison en est quon répond de manière différente à des questions différentes

31 CONCLUSIONS Les statistiques constituent un outil indispensable et fondamental des physiciens Il est bon de connaitre les propriétés des outils statistiques utilisés Mais si linterprétation dun résultat amène à des polémiques infinies (ce qui arrive souvent), cest que le résultat en cause est marginal, et il vaut mieux concevoir une nouvelle expérience plus performante plutôt que dessayer (par des moyens qui, même inconsciemment, peuvent apporter des biais) de grappiller quelques pourcents sur tel estimateur ou tel niveau de confiance.


Télécharger ppt "Probabilit és et statistiques dans le traitement de donn ées expérimentales premier cours : rappel de probabilités second cours : estimation de paramètres,"

Présentations similaires


Annonces Google