Chapitre 6 Les tests d ’ hypoth è se 2 – Les tests du  2 (chi 2)

Slides:



Advertisements
Présentations similaires
Introduction aux statistiques Intervalles de confiance
Advertisements

Comparaison d’une moyenne observée à une moyenne théorique
Comparaison de deux moyennes observées
Inférence statistique
Situation du problème :
Comparaison de pourcentages : séries appariées
Faculté de médecine de Nancy - SPI-EAO - Pr. F. KOHLER
Comparaison d'une distribution observée à une distribution théorique
Comparaison de deux pourcentages observés
Comparaison de plusieurs moyennes observées
Tests non paramétriques
Les TESTS STATISTIQUES
Tests de comparaison de pourcentages
Les TESTS STATISTIQUES
Échantillonnage-Estimation
Les tests d’hypothèses
Groupe 1: Classes de même intervalle
Simulation d’un processus de Poisson
Cédric LAOUENAN 20/11/2008 Tests statistiques Cédric LAOUENAN 20/11/2008
ANOVA à 1 facteur en groupes de mesure indépendants
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :35 1 Comparaisons multiples Ce qu’elles sont.
Valeur pronostique de la TASPM dans la SLA WANG FC, GERARD P, MAERTENS DE NOORDHOUT A (Liège, B) 15 èmes journées francophones d’électroneuromyographie.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :52 1 Comparaisons multiples Ce qu’elles sont.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
L’erreur standard et les principes fondamentaux du test de t
Intervalles de fluctuation et de confiance. Dans une population, la proportion d’individus ayant un caractère donné est notée p Population.
Schéma Cinématique.
LOI NORMALE LOI STUDENT ECHANTILLONS ET TESTS DE MOYENNE
1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.
BIOSTATISTIQUES Définitions.
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Introduction aux statistiques Intervalles de confiance
1 M2 Biomatériaux- Cours n°3 1 - Rappels du cours n°1 et La statistique inférentielle Fluctuation d’échantillonnage, Théorème central limite Estimation.
Cours de Biostatistiques 14 avril 2012 Noémi ARDITI Delphine COUDRAY.
TP2: Statistique & Probabilité Intervalle de confiance et test d’hypothèses.
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
Les traitements par hormone de croissance - Congrès SFEDP- 2 juin 2005 Les traitements par hormone de croissance Damon MN, Pépin S, Ricatte M, Fender P,
1 Biostatistique et lecture critique d’articles médicaux Pr A Venot UFR SMBH Université Paris 13.
Plans d'expérience Méthode Taguchy Analyse de la variance Anavar.
Paramétrisation adaptative pour l’estimation des paramètres hydrodynamiques dans un milieu poreux non saturé MOMAS-Thème E: Problèmes inverses et analyse.
LCA UFR SMBH (DCEM)1 Analyse critique d ’articles évaluant l ’intérêt de nouveaux tests à visée diagnostique Alain Venot UFR SMBH Campus virtuel SMBH
1 M2 Biomatériaux- Cours n°4 1 - Rappels du cours n°1 et 2 et Introduction au principe des test statistiques.
1 M1 MQSE 1 - L’outil statistique pour tirer des conclusions dans un monde de variabilité 2 - Utiliser la statistique: se confronter au hasard 3 - La statistique:
Chapitre 6 Les tests d ’ hypoth è se 1 – Comparer des moyennes ou des proportions.
CEA DSM Dapnia P. KANIKI - Compréhension des phénomènes mis en jeu lors d’imprégnations29/08/ Compréhension des phénomènes mis en jeu lors de l’imprégnation.
Aurélien Besnard.  Des fréquences (points-contacts) évaluées sur…  …des transects choisis dans…  …des Aires de Présence (de surfaces évaluées) dans…
Etude commerciale de Probabilités dans un système de file d’attente ABBAS Thomas CHUNG Fabien KLOTZ Raphaël.
Chapitre 2 Variables aléatoires 1. Variables aléatoires : définition Résultat d’une expérience dont l’issue est multiple (VARIABLE) et imprévisible (ALÉATOIRE)
1 M1 MQSE Cours n°2 1 - Rappels du cours n°1 2 - La statistique: un outil pour décrire.
Chapitre 5 Interprétation des données d’enquête 1.
Evaluation des tendances à la hausse de polluants dans les masses d’eau souterraine de la Réunion.
Évaluation – Panorama 16 À l’étude…. Unité 16.1 Tu dois être capable de déterminer le caractère étudié d’une recherche de données :  qualitatif  quantitatif.
Caractérisation dimensionnelle de défauts par thermographie infrarouge stimulée. Contrôles et Mesures Optiques pour l’Industrie novembre
Étude des émissions diffuses avec l’expérience H.E.S.S. Tania Garrigoux.
Les Statistiques.
Réalisé par : Sébastien Lachance MATHS 3 E SECONDAIRE LesSTATISTIQUES.
II. Les variables quantitatives
Régression linéaire (STT-2400) Section 3 Préliminaires, Partie II, La loi multinormale Version: 8 février 2007.
Chapitre 5 Interprétation des données d’enquête 1.
Reprise du cours ( ) Chapitre 5 : interprétation des données d’enquêtes hasard  prudence  incertitude et imprécision formules : marge et fourchette.
En prélude Quelques brefs rappels 1. Moyenne  Un exercice (3.6, p. 34) o Données o Quelle est la densité moyenne de l’ensemble formé par le Bénin et.
ORACLE, WP3 meeting1 Quels outils pour évaluer risques & opportunités? Quels nouveaux développements de méthodologies? Pascal Yiou LSCE.
Faculté de Médecine de Marseille, Université de la Méditerranée Laboratoire d’Enseignement et de Recherche sur le Traitement.
Chapitre 4: Variation dans le temps  Les données : audience totale en milliers (tableau 4.1, p. 47, extrait) o Origine : enquête sur les habitudes d’écoute.
Chapitre 13 : Echantillonnage
Méthode Taguchy Analyse de la variance Anavar
Introduction aux statistiques Intervalles de confiance
Transcription de la présentation:

Chapitre 6 Les tests d ’ hypoth è se 2 – Les tests du  2 (chi 2)

(a) Tester la liaison entre deux variables qualitatives

Exemple du chapitre précédent Exemple du chapitre précédent: Fumer augmente-t-il le risque de développer une certaine maladie ? p 1 = proportion de malades chez les non fumeurs p 2 = proportion de malades chez les fumeurs Test d’hypothèse: H0: p 1 =p 2 H1: p 1 ≠ p 2 Echantillonnage n 1 =197 non fumeurs, 12 malades n 2 =178 fumeurs, 23 malades D’un point de vue probabiliste: p 1 =P(M| non F), p 2 =P(M|F) avec M = « être malade », F = « fumer » Mathématiquement: p 1 =p 2  M et F indépendantes Tester la liaison entre deux variables

Autre écriture du test d’hypothèse (équivalente) H0: M et F indépendantes H1: M et F liées On peut construire une table de contingence: Non fumeur FumeurTotal Sain Malade Total Modalités de M Modalités de F Nombre de fumeurs non maladesNombre total d’individus mesurés T Nombre de malades

Tester la liaison entre deux variables En absence de liaison entre M et F, on aurait P(M  F) = P(M)  P(F) Le nombre de fumeurs malades serait table théorique La table de contingence serait (on parle de table théorique) Non fumeur FumeurTotal Sain Malade Total Non fumeur FumeurTotal Sain Malade Total Application Numérique

Tester la liaison entre deux variables On peut comparer les tables observées et théoriques Ces deux tables sont différentes:  c’est normal (effets d’échantillonnage) Par contre, si H0 est vraie (M et F indépendantes) les deux tables ne devraient pas être trop « distantes » Le chi2 (  2 ) mesure la distance entre les deux tables Non fumeur FumeurTotal Sain Malade Total Non fumeur FumeurTotal Sain Malade Total Table observée Table théorique

Tester la liaison entre deux variables Mathématiquement on a: Si H0 est vraie, alorsest la réalisation d’un Il suffit de comparer la valeur trouvée au seuil d’un chi2 à 1 ddl Distance entre observations et effectifs théoriques Réduction de l’écart entre observation et théorie (nous ramène à des lois connues)

Tester la liaison entre deux variables Application numérique: On lit dans la table il y a donc une liaison significative entre M et F (ici effet de F sur M) Non fumeur FumeurTotal Sain Malade Total Non fumeur FumeurTotal Sain Malade Total Table observée Table théorique

Tester la liaison entre deux variables Remarque: Deux méthodes pour traiter une même question (effet de F sur M ?) 1)Comparaison de fréquences |z|=2.17 comparé à   =1.96 2)Chi 2 comparé à parfaitement équivalents Les deux tests sont parfaitement équivalents car (Bien le cas ici: =4.71 et =3.84) Et donc

Tester la liaison entre deux variables Test de la liaison entre deux variables ayant plus de 2 modalités: Soient X et Y deux variables ayant n 1 et n 2 modalités (X1,…, Xn 1 ) pour X et (Y1,…, Yn 2 ) pour Y On peut construire la table de contingence observée X1…Xi…Xn 1 Total Y1O 1,1 …O 1,i …O 1,n1 N1N1 ………………… YjO j,1 …O j,i …O j,n1 NjNj ………………… Yn 2 O n2,1 …O n2,i …O n2,n1 N n2 TotalM1M1 …MiMi …M n1 T

Tester la liaison entre deux variables On calcul les effectifs théoriques: On teste: H0: X et Y indépendantes H1: X et Y liées On calcule le chi2 observé de la même manière On montre (maths) que si H0 est vraie alors le chi2 observé est la réalisation d’un chi 2 à (n 1 -1)  (n 2 -1) ddl  On compare à Condition d’application Condition d’application: les effectifs théoriques (les H j,i ) doivent être tous  5 Sinon Sinon: on regroupe des modalités (de X ou Y, au choix)

Tester la liaison entre deux variables Exemple: Effet du génotype (AA, Aa ou aa) sur la vitesse d’évolution d’un cancer chez la souris X = génotype Y = stade du cancer 1 an après exposition au cancérigène AAAaaaTotal Saines Stade Stade Stade Total

Table théorique: AAAaaaTotal Saines21 Stade 145 Stade 296 Stade 3100 Total Condition d’application Condition d’application: les effectifs théoriques sont bien tous  5

Tester la liaison entre deux variables Chi2 observé: Valeur seuil: Nombre de ddl = (3-1)  (4-1) = 6 On prend  =0.05 H0 rejetée: effet du génotype (AA, Aa, aa) sur la vitesse d’évolution du cancer chez la souris (AA évoluent moins vite)

(b) Tester l’ajustement de données à une loi de probabilité

Le chi2 d’ajustement Exemple: X = Nombre d’étudiants gauchers dans des groupes de TT de 4 personnes H0: X~B(n,p) (répartition aléatoire des gauchers dans les groupes de TT) H1: X ne suit pas une B(n,p) (honteuse mise à l’écart des gauchers) On connaît n (=4) mais pas le paramètre p de la binomiale  Estimation X01234Total effectif

Le chi2 d’ajustement Exemple: X = Nombre d’étudiants gauchers dans des groupes de TT de 4 personnes X01234Total Effectifs observés Effectifs théoriques X Total Effectifs observés Effectifs théoriques Regroupement (l’effectif théorique de X = 4 est inférieur à 5) (T=66, n=4, k= 0, 1, 2, 3 ou 4)

Le chi2 d’ajustement Calcul du chi2 observé: Nombre de ddl: formule générale Nombre de ddl: formule générale: possible Conclusion: on ne rejette pas H0: distribution binomiale des gauchers dans les groupes de TT possible nb de ddl= nb de modalités (après regroupement) – 1 – nb de paramètres estimés = 4 – 1 – 1 = 2 Ce que l’on a vu ici avec une loi binomiale marche avec n’importe quelle loi de probabilité (normale, poisson,…)

Bilan regroupements et ddl Loi binomiale  (n, p) – Regroupement si effectifs théoriques < 5 – Paramètres estimés: parfois p (1 ou 2) Loi de poisson P(λ) – Regroupement en fin de distribution et en début si effectifs théoriques < 5 – Paramètres estimés: parfois λ (1 ou 2) Loi normale N(μ,  ) – Regroupement en début et fin de distribution – Paramètres estimés: parfois μ et  (1 ou 3) CHI2 d’ajustement CHI2 d’homogénéité et d’indépendance Degrés de liberté : (nbre de modalités de X – 1) * (nbre de modalités de Y – 1) Regroupements de classes si effectifs théoriques <5

Conditions d’application des tests et intervalles de confiance Dans tous les cas (sans exception!!): - L’échantillon doit être représentatif de la population - Les mesures doivent être indépendantes en plus dans le cas où n<30 pour l’étude d’une moyenne (IC ou test): - La ou les variable(s) mesurée(s) doi(ven)t être distribuée(s) suivant une loi normale - si on compare deux moyennes avec n 1 et n 2 <30, on suppose l’égalité des variances En plus pour l’étude d’une fréquence (IC ou test): en plus - Il faut que le ou les échantillons soi(en)t de taille n  30 - Les np et nq doivent être  5, plus exactement En plus pour un test du chi2 - n  50 - tous les effectifs théoriques doivent être  5 Intervalle de confiance nf, n(1-f)  5 Test d’égalité à une fréquence théorique np, nq  5 Test d’égalité de deux fréquences observées n 1 f, n 2 f, n 1 (1-f), n 2 (1-f)  5 (f= fréquence commune observée)