1 M2 Biomatériaux- Cours n°4 1 - Rappels du cours n°1 et 2 et 3 2 - Introduction au principe des test statistiques.

Slides:



Advertisements
Présentations similaires
Introduction aux statistiques Intervalles de confiance
Advertisements

L’échantillonnage & Ses Fluctuations
Comparaison d’une moyenne observée à une moyenne théorique
Corrélation Position du problème Définition covariance (X,Y) r =
D.Gile statscrit1 LUTILISATION DES STATISTIQUES INFERENTIELLES DANS LA RECHERCHE : REFLEXIONS CRITIQUES
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Risques d’erreur statistique et test statistique
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Inférence statistique
Comparaison de deux moyennes observées
Inférence statistique
Faculté de médecine de Nancy - SPI-EAO - Pr. F. KOHLER
Comparaison d'une distribution observée à une distribution théorique
Comparaison de plusieurs moyennes observées
Les TESTS STATISTIQUES
Tests de comparaison de pourcentages
Nombre de sujets nécessaires en recherche clinique
Les TESTS STATISTIQUES
Échantillonnage-Estimation
Les tests d’hypothèses
Régression -corrélation
Probabilités et statistique en TS
Tests de comparaison de moyennes
Nombre de sujets nécessaires en recherche clinique
Simulation d’un processus de Poisson
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Intervalles de confiance pour des proportions L’inférence statistique
Valeur pronostique de la TASPM dans la SLA WANG FC, GERARD P, MAERTENS DE NOORDHOUT A (Liège, B) 15 èmes journées francophones d’électroneuromyographie.
Concepts fondamentaux: statistiques et distributions
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
L’erreur standard et les principes fondamentaux du test de t
Intervalles de fluctuation et de confiance. Dans une population, la proportion d’individus ayant un caractère donné est notée p Population.
M. Bétrancourt et C. Rebetez - Méthodologie expérimentale Diplôme MALTT Année La méthodologie expérimentale Fondements et bases d’application.
Probabilités et statistique MQT-1102
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Introduction aux statistiques Intervalles de confiance
1 M2 Biomatériaux- Cours n°3 1 - Rappels du cours n°1 et La statistique inférentielle Fluctuation d’échantillonnage, Théorème central limite Estimation.
Cours de Biostatistiques 14 avril 2012 Noémi ARDITI Delphine COUDRAY.
TP2: Statistique & Probabilité Intervalle de confiance et test d’hypothèses.
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
Analyse de la proposition d’enseignement du cercle circonscrit au triangle Type de tâches et tâches  Un seul type de tâches T : « déterminer le nombre.
1 Biostatistique et lecture critique d’articles médicaux Pr A Venot UFR SMBH Université Paris 13.
SCIENCE 9 Sciences et Technologie… Nokia Morph Phone Bombardier concepte Ordinateur concepte jouets.
Plans d'expérience Méthode Taguchy Analyse de la variance Anavar.
LCA UFR SMBH (DCEM)1 Analyse critique d ’articles évaluant l ’intérêt de nouveaux tests à visée diagnostique Alain Venot UFR SMBH Campus virtuel SMBH
1 M1 MQSE 1 - L’outil statistique pour tirer des conclusions dans un monde de variabilité 2 - Utiliser la statistique: se confronter au hasard 3 - La statistique:
Chapitre 6 Les tests d ’ hypoth è se 1 – Comparer des moyennes ou des proportions.
Aurélien Besnard.  Des fréquences (points-contacts) évaluées sur…  …des transects choisis dans…  …des Aires de Présence (de surfaces évaluées) dans…
Chapitre 2 Variables aléatoires 1. Variables aléatoires : définition Résultat d’une expérience dont l’issue est multiple (VARIABLE) et imprévisible (ALÉATOIRE)
Chapitre 6 Les tests d ’ hypoth è se 2 – Les tests du  2 (chi 2)
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
1 M1 MQSE Cours n°2 1 - Rappels du cours n°1 2 - La statistique: un outil pour décrire.
Chapitre 5 Interprétation des données d’enquête 1.
Évaluation – Panorama 16 À l’étude…. Unité 16.1 Tu dois être capable de déterminer le caractère étudié d’une recherche de données :  qualitatif  quantitatif.
Caractérisation dimensionnelle de défauts par thermographie infrarouge stimulée. Contrôles et Mesures Optiques pour l’Industrie novembre
GESTION DE PORTEFEUILLE chapitre n° 6 Risque diversifié et risque diversifiable Le MEDAF.
Bienvenue sur JeuxKeno.com Nous sommes chaleureusement vous accueillir à la jeuxkeno.com. Ici vous pouvez trouver les informations sur l'offre de splendides,
Justesse Fidélité et Expression du résultat
Les Statistiques.
Réalisé par : Sébastien Lachance MATHS 3 E SECONDAIRE LesSTATISTIQUES.
Régression linéaire (STT-2400) Section 3 Préliminaires, Partie II, La loi multinormale Version: 8 février 2007.
Chapitre 5 Interprétation des données d’enquête 1.
Faculté de Médecine de Marseille, Université de la Méditerranée Laboratoire d’Enseignement et de Recherche sur le Traitement.
Chapitre 4: Variation dans le temps  Les données : audience totale en milliers (tableau 4.1, p. 47, extrait) o Origine : enquête sur les habitudes d’écoute.
Valeurs de toutes les différences observables sous H0
Introduction aux statistiques Intervalles de confiance
POL1803: Analyse des techniques quantitatives
Transcription de la présentation:

1 M2 Biomatériaux- Cours n°4 1 - Rappels du cours n°1 et 2 et Introduction au principe des test statistiques

2 POPULATION Echantillon de n individus  = Moyenne théorique  ² = Variance théorique m=Moyenne expérimentale ? s²=Variance expérimentale? X m Déduction Statistique inférentielle: Pour (1-  )% des échantillons de n individus que je vais tirer, la moyenne expérimentale de la variable étudiée sera comprise dans l’intervalle [a-b] (intervalle de pari) (  % de chance de se tromper= risque ,)

3 Table 3.3 donne la probabilité que la valeur absolue d’une variable centrée réduite soit supérieure à une valeur donnée. z.z.Pr(|Z|> z .) a0.10 a=moyenne - Z  x écart type Z   1,64 Z  x écart type 10 b=moyenne + Z  x écart type Construction d’un intervalle de pari pour un risque  fixé

4 Population: Distribution de la variable X inconnue, mais moyenne  = 10,  ²=4 Quelle distribution suit la moyenne expérimentale mesurée sur 30 individus? Construire l’intervalle dans lequel la valeur de la moyenne expérimentale sera dans 80% des échantillons

5 La moyenne expérimentale suit une loi normale de moyenne=10, de variance=4/30 et d’écart type=  (4/30)=0,36 z.z.Pr(|Z|> z .) a0.20 a=10 - 1,30 x 0,36=9,532 Z   1,30 Z  x 0,36 10 b=10 + 1,30 x 0,36=10,468 Construction d’un intervalle de pari pour un risque  =20% 10% 80% Si les échantillons viennent d’une population de moyenne  =10 et de variance  ²=4, pour 80% d’entre eux la moyenne expérimentale mesurée sur 30 individus sera comprise entre 9,532 et 10,468

6 Comportement de la proportion expérimentale

7 POPULATION Echantillon de n individus  P = proportion théorique p o =proportion expérimentale X p Distribution d’une proportion expérimentale la proportion expérimentale observée sur un grand échantillon de n individus (nP>5 et n(1-P)>5) suit une loi normale de moyenne P et de variance P(1-P)/n Théorème central limite

8 Dans la population, la proportion de fille P=0,56. Quelle distribution suit la proportion expérimentale de filles mesurée sur 30 individus? Dessiner cette distribution. Que peut on dire des surfaces sous la courbe pour des valeurs de p o comprises entre  - 2  et  + 2  ? Quelles sont les bornes de l’intervalle pour lesquelles il y a 95% de chances de trouver la proportion expérimentale? Quelles sont les bornes de l’intervalle pour lesquelles il y a 90% de chance de trouver la proportion expérimentale?

9 Si on extrait d’une population où la proportion de filles est de 0,56, un échantillon de 30 individus, la proportion de filles observée sur 30 individus suit une loi normale de moyenne =0,56 et de variance =(0,56*0,44)/30=0,008 et d’écart type =racine(variance)=0,09 Il y a 95% de chance de trouver une proportion expérimentale comprise en [a et b] lorsqu’on tire un échantillon de 30 individus, a et b étant distants de 2 écart types de la moyenne 0,56 ab

10 Il y a 95% de chance de trouver une proportion expérimentale comprise en [a et b] lorsqu’on tire un échantillon de 30 individus a=0,56-2x0,09b=0,56+2x0,09 2 x 0,09 0,56 P a= P - 2  (P(1-P)/n)b =  + 2  (P(1-P)/n)

11 Il y a 90% de chance de trouver une proportion expérimentale comprise en [a et b] lorsqu’on tire un échantillon de 30 individus a=0,56-1,64x0,09b=0,56+1,64x0,09 Z 0,1 x 0,09 0,56 Surface=90% z.z.Pr(|Z|> z .) a0.10 Z   1,64

12 POPULATION Echantillon de n individus  P = Proportion théorique P o =Proportion expérimentale ? X p Déduction Statistique inférentielle: Pour 95% des échantillons de n individus que je vais tirer, la proportion expérimentale sera comprise dans l’intervalle [a-b] (intervalle de pari) (5% de chance de se tromper= risque , z  =1,96)

13 POPULATION Echantillon de n individus  P = Proportion théorique P o =Proportion expérimentale ? X m Déduction Statistique inférentielle: Pour (1-  )% des échantillons de n individus que je vais tirer, la proportion expérimentale sera comprise dans l’intervalle [a-b] (intervalle de pari) (  % de chance de se tromper= risque  )

14 En résumé…fluctuations d’échantillonnage Dans la population, la distribution de la variable X a une moyenne  et une variance  ². La fluctuation d’échantillonnage conduit une moyenne expérimentale de n réalisations d’une variable X à suivre une loi normale de moyenne  et de variance  ²/n, si n est assez grand (n  30)

15 POPULATIONECHANTILLON Variable X Moyenne =  Variance =  ² Ecart type =  Variable M moyenne expérimentale de n réalisation de X Moyenne =  Variance =  ²/n Ecart type =  /  n 1,96  /  n  95% 2,5%

16 La fluctuation d’échantillonnage conduit une proportion expérimentale mesurée sur n sujets à suivre une loi normale de moyenne P et de variance P(1-P)/n, si n est assez grand (nP  5, n(1-P)  5) Pour une proportion

17 POPULATIONECHANTILLON Proportion = P Variable p o proportion expérimentale mesurée sur n sujets Moyenne = P Variance = P(1-P)/n Ecart type =  (P(1-P)/n) P 95% 2,5%

18 En résumé…Intervalle de pari Je tire un échantillon, s’il vient d’une population dont je connais la moyenne et la variance, je peux parier que la mesure de la moyenne expérimentale que je vais calculer est comprise dans un intervalle [a- b]. Ceci se réalise dans (1-  ) des échantillons, dans  échantillons tirés, je ne trouverai pas ma valeur expérimentale entre ces bornes

19 Intervalle de pari pour un risque  fixé D’une moyenne expérimentale (n  30) D’une proportion (nP  5,n(1-P)  5)

20 TEST STATISTIQUES

21 La durée de séjours a été évaluée dans l’hôpital A. Elle suit une loi normale de moyenne 10 jours et d’écart type 1,2 jours La durée de séjours a été évaluée dans l’hôpital B. Elle suit une loi normale de moyenne 10,5 jours et d’écart type 0,9 jours Est-il juste de dire que la durée moyenne de séjour est plus longue dans l’hôpital A est plus courte que dans l’hôpital B?

22 La durée de séjours a été évaluée dans l’hôpital A. Elle suit une loi normale de moyenne 10 jours et d’écart type 1,2 jours Un échantillon de 40 séjours est tiré au sort dans l’hôpital A. Dessiner la distribution de la moyenne expérimentale Calculer l’intervalle de pari à 95% de la moyenne expérimentale

23 [9,62; 10,37]

24 La durée de séjours a été évaluée dans l’hôpital A. Elle suit une loi normale de moyenne 10 jours et d’écart type 1,2 jours Je pense que dans l’hôpital C, la durée de séjour est identique à celle de A. Un échantillon de 40 séjours a été tiré au sort dans l’hôpital C. La durée moyenne de séjour observée est de 10,2 jours Peut-on dire que la durée de séjour dans l’hôpital C est différente de celle observée dans l’hôpital A? Un échantillon de 40 séjours a été tiré au sort dans l’hôpital C, est disponible. La durée moyenne de séjour observée est de 10,45 jours Peut-on dire que la durée de séjour dans l’hôpital C est différente de celle observée dans l’hôpital A?

25 [9,62; 10,37] Du fait des fluctuations d’échantillonnage, si la durée de séjour dans l’hôpital C était la même que dans l’hôpital A, il y aurait 95% de chances que la moyenne expérimentale soit comprise entre 9,62 et 10, 37. Par l’expérience, je trouve 10,20j; je ne peux donc pas réfuter mon hypothèse mais il est possible que je me trompe

26 [9,62; 10,37] Du fait des fluctuations d’échantillonnage, si la durée de séjour dans l’hôpital C était la même que dans l’hôpital A, il y aurait 95% de chances que la moyenne expérimentale soit comprise entre 9,62j et 10,37j. Par l’expérience, je trouve 10,45j; cette situation ne se produit que dans moins de 5% des cas, je ne peux donc réfuter mon hypothèse mais il est possible que le me trompe.

27 Le test d’hypothèse Une affirmation est posée : cet étang ne contient pas de poissons Cette affirmation est elle juste ou fausse? Il faut en faire la démonstration via l’expérimentation Si je pèche un poisson dans l’étang, que dire de mon hypothèse? J’ai démontré qu’elle est fausse Si je n’ai pas péché de poisson dans l’étang, cela signifie-t-il que réellement, il n’y en a pas? Je ne peux donc pas démontrer qu’elle est juste mais je ne peux pas la réfuter

28 Le test d’hypothèse Une hypothèse est une présomption au sujet d’un paramètre de la population Le but du test d’hypothèse est de faire une conclusion statistique en rejetant ou en ne rejetant pas cette présomption. Le test d’hypothèse a une hypothèse nulle (H 0 ) et une hypothèse alternative (H 1 ) L’hypothèse nulle représente le status quo (par exemple la moyenne de la population est égale à telle valeur) L’hypothèse alternative représente l’opposé de l’hypothèse nulle et est retenue si l’hypothèse nulle est fausse (par exemple la moyenne de la population est différente de telle valeur)

29 Le test d’hypothèse Hypothèse nulleHypothèse alternative H 0  ??H1  6 H 0   6 H1  ?? H 0  ??H1  6

30 Le test d’hypothèse Hypothèse nulleHypothèse alternative H 0  =6H1  6 H 0   6 H1  6 H 0   6H1  6

31 Ne pas rejeter H 0 Rejeter H 0 Test bilatéral H 0  =10, H 1  10 Tirer un échantillon de n individus, Quel est l’intervalle de pari à un risque fixé dans lequel doit se trouver la moyenne expérimentale si H 0 est vraie? Si la moyenne expérimentale mesurée est dans cet intervalle de pari, l’hypothèse nulle est plausible Si la moyenne expérimentale mesurée est à l’exterieur de cet intervalle de pari, l’hypothèse nulle n’est pas plausible Distribution de la moyenne expérimentale si H 0 est vraie

32 Ne pas rejeter H 0 Rejeter H 0 Test unilatéral H 0   10,H 1   10 Tirer un échantillon de n individus, Quel est l’intervalle de pari à un risque fixé dans lequel doit se trouver la moyenne expérimentale si H 0 est vraie? Si la moyenne expérimentale mesurée est dans cet intervalle de pari, l’hypothèse nulle est plausible Si la moyenne expérimentale mesurée est à droite de cet intervalle de pari, l’hypothèse nulle n’est pas plausible Distribution de la moyenne expérimentale si H 0 est vraie

33 Ne pas rejeter H 0 Rejeter H 0 Test unilatéral H0   10,H1   10 Tirer un échantillon de n individus, Quel est l’intervalle de pari à un risque fixé dans lequel doit se trouver la moyenne expérimentale si H 0 est vraie? Si la moyenne expérimentale mesurée est ????? cet intervalle de pari, l’hypothèse nulle est plausible Si la moyenne expérimentale mesurée est ???? de cet intervalle de pari, l’hypothèse nulle n’est pas plausible Distribution de la moyenne expérimentale si H 0 est vraie

34 Ne pas rejeter H 0 Rejeter H 0 Test unilatéral H0   10,H1   10 Tirer un échantillon de n individus, Quel est l’intervalle de pari à un risque fixé dans lequel doit se trouver la moyenne expérimentale si H 0 est vraie? Si la moyenne expérimentale mesurée est dans cet intervalle de pari, l’hypothèse nulle est plausible Si la moyenne expérimentale mesurée est à gauche de cet intervalle de pari, l’hypothèse nulle n’est pas plausible Distribution de la moyenne expérimentale si H 0 est vraie

35 La durée de séjours a été évaluée dans l’hôpital A. Elle suit une loi normale de moyenne 10 jours et d’écart type 1,2 jours Je pense que dans l’hôpital C, la durée de séjour est identique à celle de A. Un échantillon de 40 séjours a été tiré au sort dans l’hôpital C. La durée moyenne de séjour observée est de 10,45 jours Quel est l’intervalle de pari à 95% où risque de se trouver la moyenne expérimentale Quelle est la probabilité de se trouver à l’extérieur de l’intervalle de pari si je considère mon hypothèse de départ juste Quelle conclusion tirez vous à propos de votre hypothèse La direction de l’hôpital C fournit les chiffres sur la totalité de ses séjours, la durée moyenne de séjour est réellement de 10 jours Est ce que cela est concordant avec votre précédente conclusion Quelle explication pouvez vous donner?

36 Ne pas rejeter H 0 Rejeter H 0 Distribution de la moyenne expérimentale si H 0 est vraie 95% 2,5% [9,62; 10,37] Si mon hypothèse était réellement juste, il est possible dans 5% des échantillons de trouver une valeur expérimentale à l’extérieur de l’intervalle de pari Dans ce cas, la conclusion de rejeter l’hypothèse nulle est fausse pour 5% des échantillons 5% est le risque de première espèce de rejeter l’hypothèse nulle alors qu’elle est réellement vraie

37 La durée de séjours a été évaluée dans l’hôpital A. Elle suit une loi normale de moyenne 10 jours et d’écart type 1,2 jours Je pense que dans l’hôpital C, la durée de séjour est identique à celle de A. Un échantillon de 40 séjours a été tiré au sort dans l’hôpital C. La durée moyenne de séjour observée est de 10,2 jours Quel est l’intervalle de pari à 95% où risque de se trouver la moyenne expérimentale Quelle conclusion tirez vous à propos de votre hypothèse La direction de l’hôpital C fournit les chiffres sur la totalité de ses séjours, la durée moyenne de séjour est réellement de 10,5 jours avec un écart type de 1,2 jours Est ce que cela est concordant avec votre précédente conclusion Quelle explication pouvez vous donner?

38 Ne pas rejeter H 0 Rejeter H 0 95% 2,5% Rejeter H 0

39 Si mon hypothèse nulle est réellement fausse, il est possible dans  % des échantillons de trouver une valeur expérimentale à l’intérieur de l’intervalle de pari calculé. Dans ce cas, la conclusion de ne pas rejeter l’hypothèse nulle est fausse pour  % des échantillons  % est le risque de deuxième espèce de ne pas rejeter l’hypothèse nulle alors qu’elle est réellement fausse Ne pas rejeter H 0 Rejeter H 0 95% 2,5% Rejeter H 0

40 n=200 Lorsque la taille de l’échantillon augmente, le risque  diminue et la puissance du test augmente

41 Risques de 1 ère et 2 ème espèce REALITE H0 VRAIEH0 FAUSSE décision correcte risque (1-  ) Non rejet à tort de H0 risque  Non rejet H0 rejet à tort de H0 risque  Décision correcte risque (1-  )= puissance du test Rejet H0

42 Principe des test d’hypothèses Avant le recueil des données 1 - Définir avec précision les hypothèses nulle et alternative 2 -On suppose H0 vraie et on cherche à définir une variable aléatoire dont on connaît la distribution 3 - On choisit un risque d’erreur  (typiquement  =5%) et on construit l’intervalle de pari pour ce risque 4 - On définit la règle de décision si on est en dehors de l’intervalle de pari= rejet H0 au risque  si on est dans l’intervalle de pari=non rejet H0

43 Principe des test d’hypothèses 5 - Recueil des données (=réalisation de l’expérience) 6 - Conclusion et interprétation des résultats si H0 rejetée, calcul du degré de signification p

44 La durée de séjours a été évaluée dans l’hôpital A. Elle suit une loi normale de moyenne 10 jours et d’écart type 1,2 jours Je pense que dans l’hôpital C, la durée de séjour est identique à celle de A. Un échantillon de 40 séjours a été tiré au sort dans l’hôpital C. La durée moyenne de séjour observée est de 10,55 jours Peut-on dire que la durée de séjour dans l’hôpital C est différente de celle observée dans l’hôpital A si on prend un risque de 10% de 5% de 1% de 0,1%

45 Degré de signification IP 90 IP 95 IP 99 IP 99, , 55 Rejet H0 Non rejet H0 p<1%

46 Degré de signification= p Lorsque que H0 est rejeté, on appelle degré de signification d’un test le risque associé au plus grand intervalle de pari qui ne contient pas la valeur du paramètre calculé.

47 Interprétation et causalité Lorsqu’un test permet de conclure, le premier jugement est un jugement de signification (il existe une différence statistique significative) S’exprimer sur la causalité, implique une démarche expérimentale contrôlée (les individus ne diffère que par le caractère dont on cherche à étudier la causalité)

48 population inconnue  =10? échantillon Test de comparaisons 1 - Comparer un échantillon observé à une population de référence La distribution de la population dont est issu l’échantillon est-elle identique à la distribution théorique? H0 :  =10 H1 :  10 population de référence  =10 La différence observée sur les échantillons est- elle due au hasard ou est elle telle qu’il est peu probable de l’observer par hasard?

49 Test de comparaisons 2- Comparer 2 échantillons entre eux Les distributions des populations dont sont issus les échantillons sont elles identiques? population 2 inconnue  2 population 1 inconnue  1 échantillon 2 H0 :  1=  2 H1 :  1   2 échantillon 1 La différence observée sur les échantillons est- elle due au hasard ou est elle telle qu’il est peu probable de l’observer par hasard?

50 Test de liaison 2 variables sont liées si la variation de l’une entraîne la variation de l’autre. On suppose que la liaison étudiée suit un modèle mathématique théorique. Le test vérifie si la relation observée se rapproche suffisament du modèle théorique H0 : il n’y a pas d’adéquation avec le modèle proposé H1 :il y a une adequation avec le modèle proposé Rejet H0= il existe une relation statistique significative entre les deux variables

51 Tests de comparaison Comparer des paramètres en testant leur différence comparer la moyenne d’un échantillon à une moyenne théorique (Test Z (n>30), Test T de Student (n<30) comparer deux moyennes (Test Z (n>30), Test T de Student (n<30)

52 Comparer des distributions en comparant les effectifs des classes de distribution comparer une distribution observée sur un échantillon à une distribution connue dans une population (Test du  ² de conformité) comparer deux ou plusieurs distributions observées sur des échantillons (Test du  ² d’homogéneité) Tests de comparaison theorique H0 H1 D1 D2 total H0 H1 D1 D2 total

53 Tests de liaison Etudier la liaison entre les distributions de 2 variables qualitative (Test du  ² d’indépendance) Etudier la liaison entre des pourcentages et une variable qualitative ordinale(Test du  ² de tendance) Tests de corrélation= liaison et intensité de la liaison entre 2 variables quantitatives jouant un rôle symétrique Régression: étudier la relation de dépendance d’une variable quantitative par rapport à une autre variable quantitative

54 ESTIMATION

55 Quand on extrait des échantillons d’une population, la fluctuation des moyennes observées peut être parfaitement décrite si on connaît la moyenne  et la variance  ² dans la population. Dans la réalité ces indices ne sont pas connus On peut avoir en avoir une valeur approchée, une estimation à partir d’un échantillon

56 Estimateur - Estimation Définitions Estimation : Mesure faite sur l’échantillon permettant d’obtenir une valeur du paramètre étudié dans la population (valeur numérique) Estimateur: Formule mathématique utilisée pour obtenir l’estimation. Le calcul dépend de la façon dont l’échantillon est tiré Propriétés Absence de biais: les estimations successives sur des échantillons différents ne s’écartent pas de la vraie valeur de façon systématique (moyenne des estimations = valeur vraie) Variance faible: les estimations sont peu dispersées (peu d’écart entre les valeurs de 2 échantillons)

57 Variance faible Variance élevée Absence de biais Présence de biais

58 Estimateur Condition de constitution de l’échantillon Tirage au sort simple Taille de l’échantillon < 10% taille population Estimateur p o d’un pourcentage P Population où le pourcentage vrai de malades est P, et soit un échantillon tiré au hasard dans cette population comprenant n sujets dont k malades. L’estimation de P à partir de cet échantillon est p o

59 Estimateur L’estimation de  ² à partir de cet échantillon est s² Estimateur m d’une moyenne , Estimateur s² d’une variance  ² Soit une population dans laquelle une variable X a une moyenne vraie  et une variance vraie et soit un échantillon de n sujets tirés au sort dans cette population. x 1, x 2,…x n sont les valeurs de X observées sur l’échantillon. L’estimation de  à partir de cet échantillon est m

60 Intervalle de confiance

61 Estimation par intervalle de confiance A partir de la valeur obtenue sur l’échantillon, que puis-je dire sur la valeur vraie dans la population? - je ne peux pas la connaître avec certitude du fait des fluctuations d’échantillonnage - je peux calculer la probabilité qu’elle se trouve dans un intervalle de valeur fortement probable

62 POPULATION Echantillon de n individus  = Moyenne théorique ?  ² = Variance théorique ? m=Moyenne expérimentale s²=Variance expérimentale X X Induction Statistique inférentielle: Il y a 95% de chance que la moyenne théorique soit comprise l’intervalle [a-b] (intervalle de confiance)(5% de chance de se tromper= risque  ) (n  30) ? ?

63  Il y a 95% de chance qu’un intervalle de confiance calculé à partir d’un échantillon contienne la valeur vraie de la population

64 POPULATION Echantillon de n individus  P = Proportion théorique ? p o =Proportionexpérimentale X X Induction Statistique inférentielle: Il y a 95% de chance que la proportion théorique soit comprise l’intervalle [a-b] (intervalle de confiance)(5% de chance de se tromper= risque  ) (np inf  5, np sup  5, n(1-p inf )  5, n(1-p sup )  5) ?

65 Précision de l’estimation varie en fonction du risque  de se tromper choisi Précision de l’estimation varie en fonction de l’effectif de l’échantillon

66 En résumé…Intervalle de confiance J’ai tiré un échantillon, je ne connaît rien sur la population, je veux donner un intervalle de valeur dans lequel la valeur vraie de la population doit se trouver avec la probabilité de (1-  ). Dans  échantillons tirés, cette estimation sera erronée: l’intervalle donné ne contiendra pas la valeur vraie

67 Intervalle de confiance pour un risque  fixé D’une moyenne vraie (n  30) D’une proportion vraie (ap o  5, bp o  5, a(1-p o )  5, b(1-p o )  5)