Indépendance & Khi-deux ²

Slides:



Advertisements
Présentations similaires
Comparaison d’une moyenne observée à une moyenne théorique
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
GESTION DE PORTEFEUILLE chapitre n° 7
Introduction aux statistiques
Inférence statistique
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Situation du problème :
Comparaison de pourcentages : séries appariées
Comparaison d'une distribution observée à une distribution théorique
Comparaison de deux pourcentages observés
Comparaison de plusieurs moyennes observées
ASSOCIATION entre caractères qualitatifs
Licence 3ème année de sociologie Semestre 1
ASSOCIATION entre caractères qualitatifs
Statistique et probabilités au collège
Programmes de calculs en 3ème
Psychologie, Première année, Questionnaire.
L’échange naturel Le choix individuel de Robinson l’amène à déterminer les termes d’un contrat naturel d’échange, selon lequel, en échange des quantités.
Les traitements croisés
ANALYSE FACTORIELLE DES CORRESPONDANCES
Autres LOIS de PROBABILITES
Les liens entre les variables et les tests d’hypothèse
Chapitre 10 Proportionnalité.
la statistique descriptive se compose de 3 domaines distincts :   
Les principaux résumés de la statistique
Statistique descriptive, analyse de données
ou comment savoir si les différences observées sont significatives
Notions de base de statistique
Test 2.
Problème Autre formulation :
Transformée de Fourier discrète et transformée de Fourier rapide
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
Mesures de répartition de la population Claude Marois 2012.
La corrélation et la régression multiple
INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.
Statistiques Séance 10 N. Yamaguchi.
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Analyse statistique de base
STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE
STATISTIQUES DESCRIPTIVES
STATISTIQUES – PROBABILITÉS
TABLEAUX CROISES.
Terminale STG 2006 Statistiques à deux variables
Statistiques Cours de seconde.
Outils d’analyse: la méthode des moindres carrées
Fabienne BUSSAC STATISTIQUES 1. Effectifs et fréquences a. Effectif
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
1 Licence Stat-info CM1 b 2004Christophe Genolini 2.1. Vocabulaire Individu : objet étudié Population : Ensemble des individus Variable : nom donné à ce.
Problème Autre formulation :
Chapitre 4 Variables aléatoires discrètes
Test 2.
ou comment savoir si les différences observées sont significatives
CONSTRUCTION DE TABLEAUX CROISES SUR LE LOGICIEL MODALISA MET4 – Avril 2005.
1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Plans d'expérience Méthode Taguchy Analyse de la variance Anavar.
Chapitre 6 Les tests d ’ hypoth è se 2 – Les tests du  2 (chi 2)
TP1: Statistique application chapitre 2. Le tableau suivant reprend le taux d'intérêt (en %) payé par 20 banques sur les dépôts d'épargne de leurs clients.
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
STATISTIQUE DESCRIPTIVE
Analyse Factorielle des Correspondances Généralisation de l’A.C.P. adaptée au traitement de données qualitatives se présentant sous la forme d’un tableau.
Écart moyen et écart type
Transcription de la présentation:

Indépendance & Khi-deux ² Mots clés : Indépendance, écart à l’indépendance, tableau observé, tableau calculé, effectifs d’indépendance, distance entre tableaux, contributions absolues, contributions relatives, Khi-deux, ddl par ligne, ddl par colonne, ddl du ², Phi-deux, V de Kramer, coefficient de contingence.

Généralités : Parfois nous nous posons des questions du genre : Est-ce que le niveau d’études atteint dépend du milieu social ? Est-ce que la mémorisation des mots d’un texte dépend de la longueur des mots ? Est-ce que l’impact d’une campagne publicitaire dépend du média choisi ? Est-ce que le cours du pétrole dépend de celui de l’euro ? Est-ce que le cours de l’euro dépend de celui du pétrole ? Est-ce que le loisir préféré des étudiants dépend de leur sexe ? Toutes ces questions mettent en jeu deux variables. Ces deux variables sont observées sur la même population.

Généralités : Exemple : Considérons une population d’étudiants du DEUG SHS et associons à chaque étudiant un couple d’observations (loisir préféré ; sexe). Sur cette (même) population on observe deux variables : Variable X : loisir préféré : nominale à 3 modalités : Cinéma, Sport et Musique. Variable Y : sexe : nominale à 2 modalités : Garçon, et Fille. On obtient une série double (une série de 12 couples) X M S C C S S M C S M S S Y G G F F F F G F F G F F

Distribution conjointe : Tableau de contingence (tri croisé) On a organisé cette série double en tableaux de contingence donnant la distribution conjointe (des effectifs et des fréquences) du couple (X, Y). A partir du tableau de contingence on a déduit les distributions marginales.

Tableau de contingence : tentatives de reconstruction ! On a vu aussi qu’à partir des distributions marginales on peut obtenir plusieurs tableaux de contingence. Ceci soulève le problème de la “liaison entre les deux variables”

Tableau de contingence :Comparaison de deux tableaux Comparons le tableau de contingence observé avec l’un des tableaux reconstitué par tâtonnement.

Comparons ces deux tableaux en analysant les distributions conditionnelles (les loisirs préférés selon le sexe)

Comparaison des distributions conditionnelles On remarque que pour l’un des tableaux les distributions conditionnelles des fréquences sont les mêmes et en plus elles sont identiques à la distribution marginale. Définition : Deux variables sont indépendantes si leurs distributions conditionnelles des fréquences sont les mêmes

Indépendance et effectifs : On démontre que cette définition de l’indépendance se traduit par la relation suivante entre effectifs : effectif conjoint = quotient du produit des effectifs marginaux par l’effectif total. Exemple : 1=(4x3)/12 ; 4=(8x6)/12 On voit immédiatement que X et Y ne sont pas indépendantes dans le tableau de droite car 5=(8x6)/12

Ecart à l’indépendance : Dans notre exemple (tableau de droite) les variables ne sont pas indépendantes. On se propose de mettre en oeuvre un indice qui mesure l’écart à l’indépendance en calculant la distance entre les deux tableaux : Le tableau observé : obtenu à partir de la série double Le tableau calculé : obtenu en calculant les effectifs (d’indépendance) correspondant au cas où l’on suppose que les deux variables sont indépendantes (modèle d’indépendance).

Calcul du khi-deux: On dresse le tableau des écarts en retranchant les effectifs calculés aux effectifs observés. Tableau calculé Tableau observé

Calcul du khi-deux: On remarque que les totaux par ligne et par colonne de ces écarts sont nuls. Ceci est vrai pour tout tableau calculé. Pourquoi ?

Calcul du khi-deux: On calcule le carré de ces écarts.

Calcul du khi-deux: On calcule les contributions absolues : c’est le rapport des carrés des écarts par les effectifs calculés. Tableau des carrés des écarts Tableau calculé

Calcul du khi-deux: Le khi-deux est la somme de toutes ces contributions absolues. Tableau des carrés des écarts Tableau calculé

Calcul du khi-deux: Le pourcentage des contributions absolues par rapport au khi-deux donne les contributions relatives.

Le Phi-deux : ² Remarque 1 : Le Khi-deux dépend du nombre total (effectif total n) des observations. La même technique appliquée aux fréquences permet d’éliminer cet “effet de n”. On obtient le Phi-deux (²). Il existe une relation simple entre le Khi-deux et le Phi-deux : le Phi-deux est égal au quotient du Khi-deux par n. Dans l’exemple on a : ²=8,25/12=0,6875

Degré de liberté : ddl On a vu qu’à partir des distributions marginales on peut obtenir plusieurs tableaux de contingence mais pour chaque ligne et chaque colonne la dernière “case” est imposée par la contrainte du total (marginal) Définition : On appelle degré de liberté par ligne le nombre de colonnes (de modalités) diminué de 1. On note ddll. Exemple 3-1=2 On appelle degré de liberté par colonne le nombre de lignes (de modalités) diminué de 1. On note ddlc. Exemple 2-1=1 On appelle degré de liberté du khi-deux le produit ddll x ddlc. On note ddl. Exemple (3-1)x( 2-1)=2x1=2

Le V de Kramer : V Remarque 2 : Le Phi-deux ne dépend plus du nombre total (effectif total n) des observations, mais dépend encore de la dimension du tableau de contingence (nombre de lignes et de colonnes). Pour éliminer cet “effet dimension” on calcule le V de Kramer en calculant la racine carrée du rapport du ² par le plus petit des deux degrés de liberté (ddll, ddlc). Dans l’exemple on a : V=racine carrée de (Dans l’exemple on a : V=racine carrée de (²/1) = racine carrée de ( 0,6875)=0,829 On montre que : 0  V  1