E2phy Nantes 22-25/8/2006 Jacques Bouchez CEA-Saclay

Slides:



Advertisements
Présentations similaires
L’échantillonnage & Ses Fluctuations
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
Probabilités et statistiques au lycée
GESTION DE PORTEFEUILLE chapitre n° 4 C. Bruneau
GESTION DE PORTEFEUILLE 3 Catherine Bruneau
STATISTIQUE INFERENTIELLE L ’ESTIMATION
RECONNAISSANCE DE FORMES
Incertitudes lors d’un dosage acide base
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Variable aléatoire, estimation ponctuelle et par intervalle
Les TESTS STATISTIQUES
Les TESTS STATISTIQUES
Échantillonnage-Estimation
4 Les Lois discrètes.
5 La Loi de Laplace Gauss ou loi Normale
Corrélations et ajustements linéaires.
Moyenne, écart type et incertitude de mesure.
Les tests d’hypothèses
Maria-João Rendas CNRS – I3S Novembre 2006
Régression -corrélation
variable aléatoire Discrète
Programmes du cycle terminal
Chapitre 2 Les indices.
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Probabilités et Statistiques
Régression linéaire simple
Groupe 1: Classes de même intervalle
DEA Perception et Traitement de l’Information
Comprendre la variation dans les données: Notions de base
TECHNIQUES QUANTITATIVES APPLIQUEES A LA FINANCE
Corrélation et régression linéaire simple
Méthodes de prévision (STT-3220)
Modeles Lineaires.
La corrélation et la régression
La corrélation et la régression
Régression linéaire (STT-2400)
Filtrage de Kalman et aperçu probabiliste
Régression linéaire (STT-2400)
Probabilités et variables aléatoires
Méthodes de Biostatistique
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
LA REGRESSION LINEAIRE
Probabilités et Statistiques
Probabilités et Statistiques Année 2009/2010
Micro-intro aux stats.
Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011
TD4 : « Lois usuelles de statistiques »
Échantillonnage (STT-2000)
Probabilités (suite).
Probabilités et Statistiques Année 2010/2011
Chapitre 3: Variables aléatoires réelles continues
Étude de l’écoulement moyen
Probabilités et Statistiques Année 2009/2010
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Méthode des moindres carrés (1)
Chapitre 4 Variables aléatoires discrètes
Rappel de statistiques
Interpolation et Approximation
Échantillonnage (STT-2000)
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Remise à niveau en statistique Eric Marcon – Module FTH 2006.
Probabilités et Statistiques
1_Introduction Toute mesure est entachée d’erreur. Il est impossible d’effectuer des mesures rigoureusement exactes. Pour rendre compte du degré d’approximation.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
Introduction aux statistiques Intervalles de confiance
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
Transcription de la présentation:

E2phy Nantes 22-25/8/2006 Jacques Bouchez CEA-Saclay Probabilités et statistiques dans le traitement de données expérimentales premier cours : rappel de probabilités second cours : estimation de paramètres, tests d’hypothèses

Un cas concret illustrant le type de questions que l’on se pose histogramme a N θ b a b -1 0 1 cos θ loi suivie par la population de chaque bin ? corrélations entre bins? distribution plate ? dN/dcosθ =1/2 + a cosθ compatible avec les données? estimation de a

Rappel de probabilités Notion de variable aléatoire Définition et propriétés des probabilités lois de probabilités :cas discret et continu caractérisation des lois: moyenne, variance, covariance changement de variables somme de variables indépendantes lois des grands nombres lois usuelles

variable aléatoire, probabilité Lorsque le résultat d’une observation ne peut pas être prédit avec certitude, celui-ci est décrit par une variable aléatoire X (dont les valeurs, ou réalisations, sont notées x) prenant ses valeurs dans Ω. Les sous-ensembles de Ω, appelés événements, sont munis d’une mesure P (pour probabilité). A  Ω : P(A) est la probabilité que x  A (l’événement A a eu lieu, s’est produit…) P(A)  [0,1] pour tout A P(Ω) = 1 P(Ø) =0 P(A  B) = P(A) + P(B) – P(A  B) si A  B =Ø (evenements exclusifs) alors P(A  B) = P(A) + P(B) Ω A B

probabilité conditionnelle, indépendance P(A|B) est la probabilité que x  A sachant que x  B (probabilité de A conditionnée par B) Formule de Bayes: P(A|B) = P(A  B) /P(B) [satisfait à tous les axiomes lorsqu’on restreint Ω à B] définition: A est indépendant de B si P(A|B) =P(A) alors : P(AB) = P(A) x P(B) et P(B|A) =P(B) : A et B sont indépendants IL N’Y A FACTORISATION DES PROBABILITES QUE POUR DES EVENEMENTS INDEPENDANTS exemple (météo à Nantes et ailleurs)

lois de probabilité une variable aléatoire peut etre uni- ou multi- dimensionnelle, prendre des valeurs discrètes (en nombre fini ou infini dénombrable) ou continues Cas discret: X prend des valeurs xi P(xi ) = pi  [0,1] ∑ pi = 1 Cas continu: F(x) = P(X ≤ x) F fonction cumulative P(X [x, x+dx]) = F(x+dx) – F(x) = F’ (x) dx = f(x) dx f densité de probabilité 1 f(x) 1 F(x)

Si X et Y sont indépendantes, alors f(x,y) = fX(x) fY(y) cas continu, multidimensionnel: densité de probabilité multidimensionnelle f(x,y,z…) P(X[x, x+dx]  Y[y, y+dy  Z[z, z+dz]) = f(x,y,z) dx dy dz densité de probabilité réduite: fX(x)= ∫ dy dz f(x,y,z) densite de probabilite conditionnelle: fC (x|y0) = f(x, y0) / ∫ dx f(x,y0) Si X et Y sont indépendantes, alors f(x,y) = fX(x) fY(y) (factorisation → indépendance sous certaines conditions) f(cosθ, φ ) = (1 + cosθ sinφ ) / 4π non factorisable, non indépendants f(cosθ, φ) = 3 cos2θ sin2φ / 2π = [3/2 cos2θ] [sin2φ / π] factorisation, indépendance

changement de variable aléatoire y = H(x) : y nouvelle variable aléatoire liée fonctionnellement à la variable aléatoire x (par exemple variable initiale x = θ, nouvelle variable y= cosθ ) si x a pour densite de probabilite f(x), quelle est la densite de probabilite g(y) ? si la correspondance x ↔ y est biunivoque, f(x) dx = g(y) dy g(y) = f(x) /H’ (x) x et y multidimensionnels : H’(x) remplacé par le determinant de la matrice des derivees partielles |y/x| (Jacobien du changement de variables) si correspondance non univoque, plus compliqué (exemple y=x2 g(y) = [f(x) + f(-x)]/2|x| g(y) = [ f(y) + f(-y) ] /(2y)

Caractéristiques des lois de probabilité variable aléatoire x de densité de probabilité f(x) valeur moyenne (espérance mathématique) x , <x> , E(x) discret : <x> =∑ pi xi continu : x = ∫ x f(x) dx ne pas confondre avec x médian, ou x max (maximum de f(x) variance, notée σ2 σ est appelé sigma, écart quadratique moyen, incertitude, erreur, resolution….. σ2 = <(x-E(x))2> = ∫ (x-E(x))2 f(x) dx = <x2> - <x>2 σ Pile ou face : pile x=0 face x=1 <x> = 0.5 σ = 0.5 x

Cas multidimensionnel : covariance densité de probabilité f(x,y) : on définit <x>, <y>, σ2(x) ,σ2(y) et C(x,y) = < (x-E(x)) (y-E(y)> covariance de x et y coefficient de correlation r(x,y) = C(x,y) /( σ(x) σ(y)) inégalite de Schwartz -1  r  +1 x et y indépendants → C(x,y) = 0 ATTENTION: réciproque fausse !! Matrice de variance-covariance : ( σ2(x) C(x,y) ) V = ( ) ( C(x,y) σ2(y) ) changement lineaire de variable Z = M X + C (M et C matrices constantes): VZ = M VX MT cas non lineaire : Formule fausse, approximation parfois dangereuse

Somme de variables aléatoires indépendantes s = x + y f(x,y) = fX(x) fY(y) <s> = <x> + <y> (vrai même si x et y corrélés) σ2(s) = σ2(x) + σ2(y) les variances s’ajoutent (remarque d = x - y σ2(d) = σ2(x) + σ2(y) ) application: N tirages indépendants xi selon f(x): s = ∑xi σ2(s) = N σ2(x) = N σ2 m = s/N <m> = <x> et σ2(m) = σ2/N premiere loi des grands nombres: m tend vers <x> avec une variance qui décroît en 1/N (la “précision” augmente comme N )

Théorème « central limit » N tirages indépendants xi dont on fait la moyenne m: lorsque N   ,la densité de probabilité de m tend vers une loi universelle, la loi normale (ou loi de Gauss) de moyenne <x> et de variance σ2(x)/N: Gaσ (x) = 1/[σ(2π)1/2] exp[- (x-a)2/2σ2] ou si l’on préfère, z = N ½ (m -<x>) a pour densité de probabilité asymptotique G 0,1 (z) illustration loi de tirage RNDM des ordinateurs:

Quelques lois usuelles

loi binomiale N observations(N fixé): la probabilité que l’événement A soit vrai est p n observations satisferont l’événement A. n est une variable aléatoire (discrète) Sa loi de probabilité sera: P(n) = B N,p(n) = CNn pn (1-p) N-n exercice: <n> = Np σ2(n) =Np(1-p) événements exclusifs A (probabilité pA) et B (probabilité pB): nA satisfont A, nB satisfont B calculer C(nA,nB)

Loi de Poisson Limite de la loi binomiale lorsque N  , p  0, Np  a exemple: Nombre d’explosions de SN par siècle dans notre galaxie n observations satisfaisant le critère demande: exercice : p(n) = Pa (n) = exp(-a) an / n! <n> = a σ2(n) = a la fluctuation d’une loi de Poisson de moyenne a est la racine de a application : fluctuations sur le nombre d’accidents proprietes: la somme de 2 variables aleatoires independantes suivant chacune une loi de Poisson (de moyennes respectives m et n) suivra une loi de Poisson de moyenne m+n Consequence (theoreme central limit): une loi de Poisson ressemblera d’autant plus a une loi de Gauss que sa moyenne est grande.

loi exponentielle exemple typique : temps de désintégration d’une particule instable f(t) = 1/ ځexp (-t/ ځ) <t> = ځ σ2(t) = ځ2

E2phy Nantes 22-25/8/2006 Jacques Bouchez CEA-Saclay Probabilités et statistiques dans le traitement de données expérimentales premier cours : rappel de probabilités second cours : estimation de paramètres, tests d’hypothèses

Un cas concret illustrant le type de questions que l’on se pose histogramme a N θ b a b -1 0 1 cos θ loi suivie par la population de chaque bin ? corrélations entre bins? distribution plate ? dN/dcosθ =1/2 + a cosθ compatible avec les données? estimation de a

Estimation de paramètres X variable aléatoire dont la densité de probabilité f(x;θ) dépend d’un paramètre inconnu θ . Etant donné N tirages xi de X, que peut-on dire de θ ? But de l’exercice: construire une variable aléatoire, fonction des xi , dont l’espérance mathématique sera (au moins asymptotiquement) θ (et dont la variance sera la plus faible possible). [une telle variable est appelée estimateur, ou encore statistique !] Biais d’un estimateur de θ = différence entre son espérance et θ Un estimateur sera convergent si le biais BN et sa variance σ2N tendent vers 0 comme 1/N lorsque N   Les propriétés de convergence des estimateurs usuels découlent de la loi des grands nombres (démonstration plus ou moins facile) Un estimateur qui a une variance plus faible que les autres est dit optimal; et si sa variance est le minimum théorique (théorie de l’information), il est dit efficace. [il n’existe pas forcément d’estimateur efficace pour N fini]

Estimation par méthode des moments distribution angulaire d’une collision: la densité de probabilité pour x=cosθ est de la forme f(x; a0, a1,…,ak) =Σ0k al Pl(x) : ai paramètres inconnus Pl(x) polynôme de Legendre de degré l propriété de ces polynômes  Pm(x) Pn(x) dx =δmn Je considère la variable aléatoire z = Pl(x) sa valeur moyenne est par construction al, et sa variance V est calculable Depuis mes N observations xi, je détermine N valeurs zi et je construis la moyenne des zi r = 1/N Σ zi r a pour espérance al et pour variance 1/N V r est un estimateur non biaisé, convergent du paramètre inconnu al r n’est pas optimal

Estimation par moindres carrés Exemple : je dispose de plusieurs mesures d’une règle à diverses températures Ti, et je veux estimer son coefficient de dilatation α. Je suppose mes diverses mesures Li indépendantes, chacune affectée d’une incertitude σi Je dispose d’un modèle théorique L(T) = L0 (1 + α T) avec 2 paramètres inconnus L0 et α Problème : Estimer au mieux ces 2 paramètres depuis les observations J’estime les paramètres inconnus en prenant pour valeurs celles qui minimisent la somme Ҳ2 = Σ [Li –L(Ti)]2/σi2 L Cas général: estimation biaisée, convergente Variance-covariance des estimateurs donnée asymptotiquement par 2 fois l’inverse de la matrice des dérivées secondes au minimum T

Cas particulier : le modèle linéaire Le modèle est dit linéaire si la prédiction théorique dépend linéairement des paramètres inconnus, et si les variances des observations ne dépendent pas de ces parametres. Dans ce cas: la recherche du minimum se fait analytiquement (équations linéaires) l’estimation des paramètres est non biaisée et optimale la matrice de variance-covariance des estimateurs est exactement V = 2 D2-1 subtilité de l’exemple précédent: le modèle n’est pas linéaire pour L0 et α mais il est linéaire pour L0 et (L0 α) !! L0 et L0.α sont estimés de manière optimale, mais pas α Autre subtilité: L’estimation de paramètres par ajustement d’un histogramme par moindres carres n’est jamais linéaire car les variances des populations de chaque bin dépendent des paramètres inconnus

méthode du maximum de vraisemblance f(x;θ) θ parametre inconnu. N observations xi f(x;θ1) f(x;θ2) les observations xi tombent préférentiellement là où la densité de probabilité est élevée estimation de θ : valeur maximisant le produit Π f(xi) ou de manière équivalente la somme Σ log[ f(xi)] Cas général: estimateur biaisé, convergent. Asymptotiquement efficace variance de l’estimateur donnée asymptotiquement par l’inverse de la dérivée seconde au maximum

cas particulier : Théorème de Darmois Si f(x;θ) est de la forme exp[ a(x) + b(θ) + c(x) d(θ) ] et si le domaine de variation de x ne dépend pas de la valeur de θ, alors: La méthode du maximum de vraisemblance fournit une estimation efficace à échantillon fini du paramètre μ = b’(θ)/d’(θ) application: le maximum de vraisemblance donne un estimateur efficace du temps de vie d’une particule et l’estimation est tout simplement la moyenne des temps de vie observés Mais le théorème de Darmois est rarement vérifié (efficacités de détection, présence de bruits de fond,….)

Incertitudes statistiques et systématiques La variance des estimateurs décroît comme 1/N Mais il peut exister d’autres sources d’incertitude indépendantes du nombre N d’observations. Exemple: masse d’une résonance en formation Taux d’interaction en fonction de l’énergie 100 événements observes : m =100 +/- 8 GeV 400 événements observes : m = 102 +/- 4 GeV mais si les ingénieurs de la machine me disent qu’ils connaissent l’énergie du faisceau avec une incertitude de 5%: 100 événements m=100 +/- 8 (stat) +/- 5 (syst) GeV = 100 +/- 9.5 GeV 400 événements m=103 +/- 4(stat) +/- 5 (syst) GeV = 103 +/- 6.4 GeV 10000 événements: m=101 +/- 0.8 (stat) +/- 5 (syst) =101 +/- 5.1 GeV

Estimateurs gaussiens et degrés de confiance si, en vertu du théorème central limit, je peux supposer qu’un estimateur est distribue gaussiennement, et comme je connais sa variance, je peux donner des intervalles de confiance sur le paramètre inconnu m = 100 +/- 5 GeV veut alors dire l’estimateur m de m0 est distribué gaussiennement avec comme valeur moyenne m0 et comme écart quadratique 5 GeV P(m [m0 -5 GeV, m0 +5 GeV]) = 0.68 P(m [m0 -10 GeV, m0 +10 GeV]) = 0.954 P(m [m0 -15 GeV, m0 +15 GeV]) = 0.997 qu’on ecrit plus souvent: (puisque l’estimateur m = 100 GeV) P(95GeV<m0<105GeV) =0.68 P(90GeV<m0<110GeV) =0.954 P(85GeV<m0<115GeV) =0.997

test d’hypothese (I): classification en 2 catégories les observations appartiennent a 2 classes différentes: catégorie A: densité de probabilité fA(x) catégorie B: densité de probabilité f B(x) je veux sélectionner au mieux des événements de la catégorie A: ce qui veut dire que pour une efficacité de sélection donnée, je veux la contamination la plus faible venant de la catégorie B (ou vice versa) exemples: 1. classer des particules entre protons et muons selon leur pouvoir ionisant 2. mettre en évidence un signal hypothétique faible parmi un bruit de fond important Le critère le plus puissant est le rapport de vraisemblance r = fA(x) /fB(x) r> r0 je classe dans A r< r0 j’exclus de A (je classe dans B) je choisis la valeur de r0 selon le niveau de contamination ou d’efficacité voulu

en pratique: il est souvent très difficile de connaitre complètement fA et fB on remplace x (multidimensionnel) par un jeu plus restreint de variables discriminantes (tout l’art du physicien! ) on essaie de déterminer au mieux les densités de probabilité pour ces nouvelles variables pour les 2 catégories : méthodes de Monte-Carlo. On construit un pseudo-rapport de vraisemblance (qui sera moins puissant que le vrai). On peut utiliser des réseaux de neurones

test d’hypothese (II) test d’hypothèse simple: mes observations x sont-elles compatibles avec l’hypothèse H complètement spécifiée ? exemple: distribution angulaire plate Test du chi2: on construit Ҳ2 = Σ(nk –yk)2/σ2(yk) on détermine (si nécessaire par Monte Carlo) la densité de probabilité de cette variable Ҳ2 lorsque H est vraie. On en déduit que dans 90% des cas , la valeur de Ҳ2 est inferieure à r Si la valeur mesurée pour Ҳ2 est supérieure à r, alors je rejette l’hypothèse H a 90% de confiance

Il existe des tests plus puissants que le test du chi2 (tests de Kolmogorov, de Smirnov) on peut aboutir a des paradoxes apparents: une hypothèse acceptée (distribution plate) peut être rejetée lors de l’estimation de la pente (ou vice versa) la raison en est qu’on répond de manière différente à des questions différentes

CONCLUSIONS Les statistiques constituent un outil indispensable et fondamental des physiciens Il est bon de connaitre les propriétés des outils statistiques utilisés Mais si l’interprétation d’un résultat amène à des polémiques infinies (ce qui arrive souvent), c’est que le résultat en cause est marginal, et il vaut mieux concevoir une nouvelle expérience plus performante plutôt que d’essayer (par des moyens qui, même inconsciemment, peuvent apporter des biais) de grappiller quelques pourcents sur tel estimateur ou tel niveau de confiance.