ou comment savoir si les différences observées sont significatives

Slides:



Advertisements
Présentations similaires
L’échantillonnage & Ses Fluctuations
Advertisements

Comparaison d’une moyenne observée à une moyenne théorique
ANOVA à un facteur (Rehailia)
D.Gile statscrit1 LUTILISATION DES STATISTIQUES INFERENTIELLES DANS LA RECHERCHE : REFLEXIONS CRITIQUES
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Analyse de 2 variables qualitatives
Test statistique : principe
Les tests d’hypothèses (II)
Les tests d’hypothèses (I)
Inférence statistique
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Situation du problème :
Comparaison de pourcentages : séries appariées
Faculté de médecine de Nancy - SPI-EAO - Pr. F. KOHLER
Comparaison d'une distribution observée à une distribution théorique
Comparaison de deux pourcentages observés
Comparaison de plusieurs moyennes observées
Tests non paramétriques
Les TESTS STATISTIQUES
Tests de comparaison de pourcentages
ASSOCIATION entre caractères qualitatifs
ASSOCIATION entre caractères qualitatifs
Les TESTS STATISTIQUES
Les tests d’hypothèses
Régression -corrélation
Indépendance & Khi-deux ²
Les traitements croisés
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Tests de comparaison de moyennes
Les liens entre les variables et les tests d’hypothèse
La Régression Multiple
L’inférence statistique
Régression linéaire simple
Test 2.
Problème Autre formulation :
La corrélation et la régression multiple
La corrélation et la régression
Corrélation Principe fondamental d’une analyse de corrélation
TEST d’ADEQUATION A UNE LOI EQUIREPARTIE
La régression multiple
Tests d’hypothèses.
INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.
Rappels de statistiques descriptives
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Lien entre deux variables
STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE
M2 Sciences des Procédés - Sciences des Aliments
ANOVA à 1 facteur en groupes de mesure indépendants
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Problème Autre formulation :
L’erreur standard et les principes fondamentaux du test de t
Chapitre 4 Variables aléatoires discrètes
Test 2.
ou comment savoir si les différences observées sont significatives
1 Licence Stat-info CM3 a 2004 V1.2Christophe Genolini Problème des groupes Un amphi de 200 élèves : loi normale moyenne X et écart type s –Un élève :
CONSTRUCTION DE TABLEAUX CROISES SUR LE LOGICIEL MODALISA MET4 – Avril 2005.
1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Chapitre 6 Les tests d ’ hypoth è se 1 – Comparer des moyennes ou des proportions.
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
Chap. III Statistiques inférentielles
Transcription de la présentation:

ou comment savoir si les différences observées sont significatives Le Chi 2 ou comment savoir si les différences observées sont significatives

Recueillir des données, c’est : - repérer des variables - repérer les éventualités ou les modalités Exemple : variable sexe 2 modalités Garçon/fille

Recueillir des données, c’est aussi : Observer le résultat de la mesure de l’observation

Le test du Khi 2 s’applique Aux échelles nominales, c’est-à-dire des variables qui n’ont pas une structure mathématique reliant les modalités de l’échelle (ex : le sexe). On parlera aussi d’échelles à catégories « discrètes »

Le test du Khi 2 s’appuie sur L’hypothèse nulle (HO) à partir de laquelle on va pouvoir déduire l’existence d’une implication statistique

Exemple Supposons l’enquête sur les loisirs des lycéens. L’hypothèse formulée est qu’il y a une différence entre les filles et les garçons en matière de cours particuliers. Pour vérifier cela, on ne dispose que d’un échantillon de population et non de l’ensemble des lycéens. H0 : au niveau parent, il y a une différence égale à 0 entre les résultats moyens des garçons et ceux des filles. M1-M2=0. L’objectif, à travers l’hypothèse nulle, est de calculer la probabilité de trouver par hasard la statistique obtenue, si l’hypothèse nulle est vraie et si l’échantillon a été extrait au hasard.

Application Je veux si savoir si le sexe (variable indépendante) influe sur le fait de suivre des cours particuliers (variable dépendante). En d’autres termes, je vérifie si oui (rejet de l’HO) ou non le fait de suivre des cours particuliers dépend du sexe.

Enquête loisirs des lycéens Je croise la variable 1 et la variable 38 dans modalisa. Je mets toujours en ligne la variable indépendante. Je présente toujours mon tableau des pourcentages en ligne.

Je constate que Tableau: % Lignes oui non TOTAL garçon 9,1 90,9 100,0 38. Cours particuliers 1. sexe Tableau: % Lignes   oui non TOTAL garçon 9,1 90,9 100,0 fille 14,4 85,6 100,0 TOTAL 11,9 88,1 100,0 Khi2=4,11 ddl=1 p=0,04 (Significatif)

On voit aussi que Le Khi2 est égal à 4,11 Le ddl (degré de liberté) =1 Le p (seuil) est = 0,04 et il est significatif J’ai donc 4% de chance de me tromper en affirmant que les différences observées dans le tableau sont significatives (rejet de l’H0).

On voit que Les filles sont plus nombreuses que les garçons à suivre des cours particuliers (14.4% contre 9.1%).  Sur 100 garçons, 9.1 suivent des cours particuliers. Sur 100 filles, 14.4 suivent des cours particuliers.

Comment se calcule le Khi 2 ? On passe du tableau des effectifs observés au tableau des effectifs théoriques 690 608 82 TOTAL 361 309 52 fille 329 299 30 garçon non oui   TOTAL 318,1 42,9 fille 289,9 39,1 garçon non oui  

Les effectifs théoriques Ce sont les effectifs qui auraient été obtenus si les proportions de suivi de cours particuliers étaient dans les deux échantillons rigoureusement équivalentes à la proportion d’ensemble (11.9% soit 82/690*100). Dans ce cas, les effectifs théoriques se calculent de la manière suivante:

N4 309 N’4 318.1 N3 52 N’3 42.9 N2 299 N’2 289.9 N1 30 N’1 39.5 N’1 = (82*329)/690 N’3 = (82*361)/690 N’2 = (608*329)/690 N’4 = (608*361)/690

On applique ensuite la formule suivante: (effectifs observés – effectifs théoriques)²/ effectifs théoriques pour N1, N2, N3 et N4. Soit : [(30-39.5)²/39.5]+ [(299-289.9)²/289.9]+ etc. N4 309 N’4 318.1 N3 52 N’3 42.9 N2 299 N’2 289.9 N1 30 N’1 39.5

On obtient alors un X² calculé de 4.11 On peut aussi construire le tableau de la participation au X² par case (ou X² partiel) :   oui non TOTAL garçon 1,9 ,3 2,2 fille 1,7 ,2 1,9 TOTAL 3,6 ,5 4,1

Pour calculer ddl On applique la formule suivante : Nb ddl = (nb colonnes – 1) (nb lignes – 1) Soit (2-1) (2-1) = 1

Trouver le seuil Il faut décider d’un seuil à parti duquel on considèrera la probabilité attachée aux écarts observés entre filles et garçons comme significative ou non significative. On choisit de manière relativement arbitraire un niveau de signification. Ordinairement, en sociologie comme dans les autres disciplines, on choisit une probabilité de .05 ce qui traduit un risque de 5% de chance de se tromper en rejetant l’hypothèse nulle, donc en affirmant qu’il y a bien des différences de résultats entre les garçons et les filles. Si, à ce seuil, H0 ne peut pas être rejetée, on ne peut pas prendre le risque d’affirmer qu’une différence existe. Comment décider du rejet de l’H0 ? On dispose de tables donnant des « valeurs critiques ». Si la valeur calculée sur l’échantillon est supérieure ou égale à la valeur lue dans la table pour le seuil choisi, on rejette l’hypothèse nulle et on accepte l’hypothèse alternative d’une différence de résultat. Dans le cas contraire, on ne peut pas rejeter l’H0. Ici, Modalisa affiche un seuil p = .04. Ce qui traduit un risque de 4% de se tromper en rejetant l’hypothèse nulle, donc en affirmant qu’il y a bien des différences de résultats entre les garçons et les filles.

Conditions d’application du X² Si N>40 et si tous les effectifs théoriques sont supérieurs à 5. Dans notre cas, N = 690 et tous les effectifs théoriques sont supérieurs à 5. Que faire dans le cas contraire ?

X² = (Ieff. Obs. – eff. Théo.I – 0.5)²/eff. Théo. Correction de Yates Si 20 < N < 40 et si tous les effectifs théoriques sont supérieurs à 5, alors X² corrigé On considère que le test du X² est valide à condition d’introduire une correction consistant à diminuer de 0.5 chacun des écarts bruts. X² = (Ieff. Obs. – eff. Théo.I – 0.5)²/eff. Théo.

Mesurer la liaison Pour mesurer la liaison : On dispose d’indices pour évaluer la force de la liaison entre les modalités de nos variables. Avantages de ces indices : Ils sont égaux à 0 en cas d’indépendance Ils tendent vers 1 en cas de dépendance Ils ne dépendent pas du nombre d’observations Premier indice : le coefficient Phi = racine carré du X2/N Pb : dans le cas d’un tableau à 4 cases, si n1 # n3, le maximum de liaison ne peut atteindre 1. Pour pallier cet écueil, on a recours au coefficient de contingence, qui est égal à la racine carré de X2/X2+N. Bien que fiable, ce coefficient atteint, selon les cas, une valeur maximale de 0.707 pour une liaison parfaite.

Valeur maxi de C = racine carré de (q-1) / racine carré de q, q étant le nombre de modalités de la variable qui en comporte le plus, soit 0.95 pour un tableau 10*10, 0.89 pour un tableau 5*5 et 0.71 pour un tableau 2*2.

Un atout de Modalisa: Le PEM LE PEM, POURCENTAGE DE L’ÉCART MAXIMUM : UN INDICE DE LIAISON ENTRE MODALITÉS D’UN TABLEAU DE CONTINGENCE Par Ph. Cibois On définit un indice de liaison entre modalités d’un tableau de contingence, le PEM ou Pourcentage de l’écart maximum. Il permet de construire des profils, c’est-à-dire l’ensemble des modalités de réponse d’une enquête qui sont en attraction avec une modalité donnée. P. CIBOIS, Le P.E.M., Pourcentage de l’écart maximum: un indice de liaison entre modalités d’un tableau de contingence, in Bulletin de Méthodologie Sociologique, N.40, Septembre 1993, pp.43-63.

Mais attention : la liaison n’est pas Causalité On a toujours tendance à envisager une relation causale entre nos variables. Pourtant, plusieurs types de relations causales peuvent expliquer le lien entre À et B : À cause B ou B cause À (la poule ou l’œuf) Les deux variables ont une cause commune, par exemple lorsque les deux sont causées par une troisième variable. Ex : le redoublement est lié à l’échec scolaire car les deux sont liées à l’origine sociale. Mais on peut aussi dire qu’il existe un intermédiaire causal : une variable provoque un évènement, lui-même étant la cause d’une variable : le redoublement provoque l’échec scolaire, lui-même favorisant les décisions d’abandon scolaire. Etc. En somme, une liaison statistique n’est pas une condition suffisante pour parler de causalité. En revanche le travail qui est fait en amont par le chercheur, en l’occurrence l’élaboration d’un ensemble d’hypothèses théoriques, constitue un moyen de transformer la liaison en causalité.