ANALYSE DE DONNEES TESTS D’ASSOCIATION

Slides:



Advertisements
Présentations similaires
Comparaison d’une moyenne observée à une moyenne théorique
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
Test statistique : principe
Introduction aux statistiques
Les tests d’hypothèses (II)
Université de Ouagadougou
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Situation du problème :
Comparaison de pourcentages : séries appariées
Faculté de médecine de Nancy - SPI-EAO - Pr. F. KOHLER
Comparaison d'une distribution observée à une distribution théorique
Comparaison de deux pourcentages observés
Comparaison de plusieurs moyennes observées
Les TESTS STATISTIQUES
Tests de comparaison de pourcentages
ASSOCIATION entre caractères qualitatifs
ASSOCIATION entre caractères qualitatifs
Les TESTS STATISTIQUES
Les Tests dhypothèses. 1)Définition Un test cest une méthode qui permet de prendre une décision à partir des résultats dun échantillon.
Régression -corrélation
Vérification des données
Indépendance & Khi-deux ²
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Tests de comparaison de moyennes
Les liens entre les variables et les tests d’hypothèse
la statistique descriptive se compose de 3 domaines distincts :   
Méthodes de Biostatistique
Statistiques Séance 9 – 6 décembre 2005 N. Yamaguchi.
Groupe 1: Classes de même intervalle
La corrélation et la régression multiple
Le test t. Procédure de linférence statistique 1. Contexte théorique 2. Hypothèses 3. Seuil de signification et puissance 4. Taille de leffet 5. Collecte.
Le test t.
La régression multiple
ORGANIGRAMME-MÉTHODES STATISTIQUES-COMPARAISONS DE MOYENNES
Statistiques Séance 10 N. Yamaguchi.
Méthodes de Biostatistique
Méthodes de Biostatistique
Statistique Descriptive Analyse des données
Méthodologie expérimentale : l’analyse des données
LA REGRESSION LINEAIRE
STATISTIQUES DESCRIPTIVES
M2 Sciences des Procédés - Sciences des Aliments
Séance 8 30 novembre 2005 N. Yamaguchi
STATISTIQUES – PROBABILITÉS
ANOVA à 1 facteur en groupes de mesure indépendants
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Problème Autre formulation :
L’erreur standard et les principes fondamentaux du test de t
Méthodes de Biostatistique Chapitre 9 Tests Nonparamétriques.
ATELIERS STATISTIQUES
1.  On souhaite comparer deux traitements dans le cadre d’un essai randomisé sur les lombosciatiques :  corticoïdes par infiltrations  placebo  Critère.
ou comment savoir si les différences observées sont significatives
Statistique Descriptive Les Paramètres de Tendance Centrale
CONSTRUCTION DE TABLEAUX CROISES SUR LE LOGICIEL MODALISA MET4 – Avril 2005.
1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Introduction aux statistiques Intervalles de confiance
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
TP1: Statistique application chapitre 2. Le tableau suivant reprend le taux d'intérêt (en %) payé par 20 banques sur les dépôts d'épargne de leurs clients.
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
Chap. III Statistiques inférentielles
Transcription de la présentation:

ANALYSE DE DONNEES TESTS D’ASSOCIATION

Analyses bivariée L'examen de variables uniques est une première lecture nécessaire des résultats mais elle ne présente pas de véritable intérêt en termes d'analyse. Les descriptions faites sur les variables soulèvent toute une série de questions sur leurs relations, qui devront être mises en lumière en les rapprochant deux à deux dans des analyses bivariée. Les tris croisés, par exemple, permettent d'examiner les relations entre deux ou plusieurs variables. Ces relations peuvent être symétriques -l'analyse cherche à mesurer la liaison entre les deux variables et à en tester la signification -, ou dissymétriques - l'analyse cherche à expliquer les variations d'une variable dépendante par les variations d'une variable indépendante. Ce dernier cas appelle des méthodes explicatives (ANOVA, régression, etc.)

2.1. Tris croisés Les tableaux croisés à deux ou plusieurs modalités sont en général complétés par des mesures d'association qui permettent de démontrer la signification statistique d'une association observée entre les variables. Les tris croisés ont pour objet de rassembler dans un tableau unique les distributions de fréquences ou d'effectifs de deux ou plusieurs variables. Ce premier outil d'analyse des relations entre deux variables, ou relations bivariée, permet de répondre à des questions qui se posent dès l'origine de l'étude (par exemple: « Les hommes dépensent-ils plus que les femmes sur le point de vente? » ; « Le sexe et les revenus ont-ils une influence sur le montant moyen dépensé? ») ou de mettre en lumière des relations dont on soupçonne l'existence à l'issue des traitements réalisés variable par variable. Le principe du tableau croisé est de proposer une ventilation des fréquences de réponse par variable et par modalité.

Tests et mesures d'association de deux variables qualitatives Les tris croisés ne permettent pas de démontrer l'existence d'une association de deux variables du point de vue statistique. Pour mesurer véritablement la relation entre les variables, il est nécessaire de mettre en place des tests de signification statistique de l'association. Le test très simple du khi-deux pour vérifier l'association de deux variables qualitatives constitue une bonne introduction.

Existence d'une association significative d'indépendance: le test du Khi-deux Le test du Khi-deux est couramment utilisé. Il cherche à tester si deux variables qualitatives (nominales ou ordinales) sont significativement associées. En réalité, c'est l'indépendance des variables qualitatives, présentées dans un tableau croisé, qui est testée. On cherche à vérifier si l'association des deux variables est suffisamment forte pour que l'hypothèse de leur indépendance puisse être rejetée.

Le principe est de comparer la distribution observée (Oij)' c'est-à-dire les effectifs que l'on peut lire dans le tableau croisé, à une distribution théorique (Tij) qui correspond à l'hypothèse selon laquelle les deux variables sont indépendantes. Normalement, si les variables étaient indépendantes, l'effectif observé ne devrait dépendre que des effectifs marginaux, c'est-à-dire de l'effectif total de chaque modalité.

EXEMPLE DE CALCUL DE LA « distribution théorique (Tij) » Possèdent une carte fidélité Possèdent pas de carte fidélité Total Hommes Femmes 100 100 200 200 200 400 Imaginons que l'on cherche à savoir si la possession d'une carte de fidélité et le sexe sont associés. L'effectif théorique des possesseurs d'une carte de fidélité femme est égal au nombre de possesseurs d'une carte de fidélité multiplié par le nombre de femmes divisé par l'effectif total de l'échantillon. 300 300 600

TAF: Calculer les fréquences théoriques Possèdent une carte fidélité Possèdent pas de carte fidélité Total Hommes Femmes 250 750 1 000 150 450 600 400 1 200 1 600 25% des clients possèdent une carte fidélité

La statistique 2 Où: i = numéro de la ligne; Le 2 observé sur l'échantillon se calcule de la manière suivante: Où: i = numéro de la ligne; j = numéro de la colonne; r = nombre de lignes, c'est-à-dire le nombre de modalités de la variable présentée en lignes; c = nombre de colonnes, c'est-à-dire le nombre de modalités de la variable présentée en colonnes.

TAF: calculer la valeur de Reprenons le même exemple des clients fidèle sachant que les données collectées auprès de l’échantillon sont les suivantes: Possèdent une carte fidélité Possèdent pas de carte fidélité Total Hommes T O Femmes 250 220 750 1 000 780 420 600 150 180 450 1 600 400 1 200

Procédure de test 2 > 20,05 [(r-1)(c-1)] On pose l’hypothèse nulle : H0 : Il n’y a pas de relation entre les deux variables. H1 ; Il existe une relation statistiquement significative entre les deux variables. On rejette l’hypothèse nulle (on conclut que la relation existe dans la population) si : 2 > 20,05 [(r-1)(c-1)]

La loi du 2 suit une distribution asymétrique dont la forme dépend du nombre de degrés de liberté n. Le nombre de degrés de liberté varie en fonction du nombre de modalités des variables et se calcule de la manière suivante: (r-1)(c -1). dl=1 dl=2 dl=3 dl=5

H0 : Il n’y a pas de relation entre les deux variables. On rejettera l'hypothèse nulle d'indépendance entre les variables si le 2 calculé est supérieur à la valeur de référence du 2 se trouvant dans la table de 2 pour n degrés de liberté (en lignes dans la table) et pour un (niveau de risque de se tromper en rejetant l'hypothèse nulle donné en colonnes, fixé généralement à 5. 2 > 20,05 [(r-1)(c-1)] H0 : Il n’y a pas de relation entre les deux variables.

Les logiciels statistiques, dont SPSS, donnent une signification ou p-value, s'interprétant comme le niveau risque de se tromper en rejetant . Ainsi, si elle est inférieure à 5 %, on rejette l'hypothèse d'indépendance entre les deux variables, qui sont alors significativement associées. Il est important de noter que ce test est assez sensible à la taille de l'échantillon, à la taille du tableau croisé et que, normalement, chaque case du tableau devrait avoir un effectif théorique au moins égal à cinq. Si l'on cherche à établir le profil des clients les plus fidèles en croisant le statut marital et la possession d'une carte de fidélité, par exemple, le test du khi-deux permettra de définir si ces deux variables sont indépendantes. SPSS précise le pourcentage des cellules ne satisfaisant pas à cette condition. Si ce pourcentage est inférieur à 20 %, l'usage est de considérer le test comme interprétable.

Nous avons créé un tableau croisé dans SPSS selon la procédure présentée plus haut et sélectionné le test du khi-deux dans le menu Statistiques de la boîte de dialogue Tableaux croisés. La valeur du t est à la fois élevée et supérieure à la valeur critique correspondant au seuil de signification statistique de 0,05 (nous obtenons 0,035). Ce résultat nous permet de rejeter l'hypothèse nulle (<< Marital et carte sont indépendantes ») et de conclure qu'il existe bien une relation entre le statut marital et la possession d'une carte de fidélité dans la population observée.

Indicateurs mesurant la force de l'association Dans le cas particulier des tableaux carrés 2 x 2 (2 lignes et 2 colonnes), qui comparent deux variables à deux modalités, il est recommandé d'appliquer une correction au 2 , ou d'utiliser le coefficient phi ( ). Celui-ci correspond à la racine carrée du t divisé par la taille de l'échantillon, soit: Le coefficient de contingence (C) peut être appliqué pour des mesures d'association sans contrainte de taille de tableau.

Le coefficient d'association prédictive (lambda) permet de mesurer dans quelle proportion une variable qualitative indépendante influence une variable qualitative dépendante. C'est donc une mesure dissymétrique qui contrairement aux précédentes - a pour objet une force de prédiction. On peut mesurer la force de la relation entre les deux variables par le biais de l’indice V de Cramer : n = nombre d’observations (total des fréquences) L = minimum des lignes et des colonnes du tableau 0   < V < 1

Interprétation qualitative de la statistique V