INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

Slides:



Advertisements
Présentations similaires
Comparaison d’une moyenne observée à une moyenne théorique
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
Analyse de 2 variables qualitatives
Test statistique : principe
Association entre variables
Introduction aux statistiques
Echantillonnage Introduction
Inférence statistique
Inférence statistique
Situation du problème :
Faculté de médecine de Nancy - SPI-EAO - Pr. F. KOHLER
Comparaison d'une distribution observée à une distribution théorique
Comparaison de deux pourcentages observés
Comparaison de plusieurs moyennes observées
Tests de comparaison de pourcentages
Nombre de sujets nécessaires en recherche clinique
1. Les caractéristiques de dispersion. 11. Utilité.
Régression -corrélation
Analyse de la variance à un facteur
Indépendance & Khi-deux ²
INF L14 Initiation aux statistiques
Les traitements croisés
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Tests de comparaison de moyennes
Autres LOIS de PROBABILITES
Les liens entre les variables et les tests d’hypothèse
Plans à groupes indépendants: organisation
Statistiques Séance 9 – 6 décembre 2005 N. Yamaguchi.
ou comment savoir si les différences observées sont significatives
L’inférence statistique
Nombre de sujets nécessaires en recherche clinique
Régression linéaire simple
Test 2.
Problème Autre formulation :
Commenter les résultats du modèle que vous aurez choisi.
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 6 – Variabilité En Technicolor.
Analyse factorielle de variance: Principes d’expérimentation
Introduction aux statistiques
Statistiques Séance 10 N. Yamaguchi.
Méthodes de Biostatistique
Statistique Descriptive Analyse des données
Introduction à l’analyse statistique
Master 1 – Sciences du Langage –
Rappels de statistiques descriptives
Biostatistiques Quand on souhaite étudier une (ou des) caractéristique(s) sur un ensemble d’individus ou d’objets, il est difficile, voir impossible, d’observer.
COURS STATISTIQUE - DESCRIPTIVE DEFINITIONS
ANALYSE DE DONNEES TESTS D’ASSOCIATION
La régression simple Michel Tenenhaus
STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE
Micro-intro aux stats.
Séance 8 30 novembre 2005 N. Yamaguchi
STATISTIQUES – PROBABILITÉS
ANOVA à 1 facteur en groupes de mesure indépendants
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
1 Licence Stat-info CM1 b 2004Christophe Genolini 2.1. Vocabulaire Individu : objet étudié Population : Ensemble des individus Variable : nom donné à ce.
Problème Autre formulation :
Test 2.
ou comment savoir si les différences observées sont significatives
1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.
BIOSTATISTIQUES Définitions.
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Statistiques: mesures de liaisons tests d’hypothèse
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
Transcription de la présentation:

INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives

Introduction  Rappel  Variables qualitatives  Exemple  sexe (homme, femme)  secteur d’études (lettres, sciences)  Etudier la relation entre les deux  Se base sur les effectifs

Données brutes NomPrénomSexeSecteur ABERLENCEveFLettres ADAMStéphaneHSciences ADEMARichardHLettres ADJAOUTENadiaFLettres ALEXANDREMichelHSciences ALLARDNathalieFLettres ANCEAUXAudreyFLettres variables individus

Effectifs observés FemmesHommes Lettres Sciences modalités variable 2 modalités variable 1  Tri croisé  on répartit les effectifs en fonction des combinaisons de modalités Source : Université de Provence,

Tri croisé FemmesHommesTotal Lettres Sciences Total  Fréquences marginales  totaux des lignes et des colonnes (marges)

Expression en pourcentages FemmesHommesTotal Lettres57,6%22,0%79,6% Sciences7,6%12,8%20,4% Total65,2%34,8%100,0% FemmesHommesTotal Lettres72,4%27,6%100,0% Sciences37,3%62,7%100,0% Total65,2%34,8%100,0% FemmesHommesTotal Lettres88,3%63,2%79,6% Sciences11,7%36,8%20,4% Total100,0%

Effectifs attendus FemmesHommesTotal Lettresx ? Sciences5 013 Total FemmesHommesTotal Lettres Sciences5 013 Total

Effectifs attendus FemmesHommesTotal Lettres Sciences5 013 Total FemmesHommesTotal Lettres Sciences5 013 Total FemmesHommesTotal Lettres Sciences Total FemmesHommesTotal Lettres Sciences Total

Effectifs attendus FemmesHommesTotal Lettres Sciences Total

Comparaison FemmesHommesTotal Lettres Sciences Total FemmesHommesTotal Lettres Sciences Total Observés Attendus

Ecarts FemmesHommes Lettres Sciences FemmesHommesTotal Lettres Sciences Total FemmesHommesTotal Lettres Sciences Total Observés Attendus

Ecarts carrés FemmesHommes Lettres Sciences Ecarts FemmesHommes Lettres Sciences

Ecarts carrés relatifs FemmesHommes Lettres153,5287,5 Sciences597, ,0 FemmesHommesTotal Lettres Sciences Total Attendus FemmesHommes Lettres Sciences Ecarts carrés

2222 FemmesHommes Lettres153,5287,5 Sciences597, ,0  2 = 2157,4  Chi-deux Somme

Formule

Test d’hypothèse  Statistique inférentielle  Le  2 permet de tester l’hypothèse d’indépendance des variables :  les données observées résultent simplement de fluctuations dues au hasard  On peut mesurer la probabilité p de se tromper en rejetant l’indépendance

Tableur Pratiquement aucune chance de se tromper en rejetant l’indépendance : il y a bien un effet significatif

Tableur 30% de chances de se tromper en rejetant l’indépendance : pas d’effet significatif

Seuils de rejet  Seuils de rejet  p < 0,05 en sciences humaines  p < 0,01 si l’on veut être très strict

Attention  Ne jamais employer le test de chi-deux si certains des effectifs attendus sont  5.

Problème   2 dépend de l’effectif  difficile d’apprécier la valeur du  2 dans l’absolu  on peut normaliser le coefficient pour le rendre indépendant de la taille

  2 = 2157,4  Phi  varie entre 0 et +1  analogue au coefficient de corrélation des variables quantitatives  = = = = 0,30

Application linguistique  Force d’association entre mots  Deux mots sont associés s’ils apparaissent souvent ensemble dans des pages Web  Ex. :  Chirac + Jospin  Chirac + Corona  etc.

Exemple  Google (réglé sur tout le Web)  On va chercher  A = Nombre d’occurrences Chirac  B = Nombre d’occurrences Jospin  C = nombre de cooccurrences Chirac Jospin  N = Nombre total de pages

A B CN

Formule directe  Une formule un peu compliquée, mais qui évite les calculs intermédiaires :

Classement  Par  décroissant :

Termes à retenir   Tris croisé   Fréquences marginales   2  Chi-deux (  2 )   Hypothèse d’indépendance   Seuil de rejet    Phi (  )