Daniel.gile@yahoo.com www.cirinandgile.com CONCEPTS FONDAMENTAUX EN STATISTIQUES POUR LES ETUDIANTS DANS LES SCIENCES HUMAINES : UNE SENSIBILISATION daniel.gile@yahoo.com.

Slides:



Advertisements
Présentations similaires
Corrélation Régression
Advertisements

Présentation des données
La variabilité et ses incidences dans la recherche empirique
La recherche expérimentale Premières explications Limites et interrogations Daniel Gile
L’ECHANTILLONNAGE : QUELQUES PRINCIPES
D.Gile statscrit1 LUTILISATION DES STATISTIQUES INFERENTIELLES DANS LA RECHERCHE : REFLEXIONS CRITIQUES
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Risques d’erreur statistique et test statistique
Test statistique : principe
Les tests d’hypothèses (II)
Les tests d’hypothèses (I)
Echantillonnage Introduction
Collecte de données F. Kohler.
Inférence statistique
Nombre de sujets nécessaires en recherche clinique
Échantillonnage-Estimation
Statistique et probabilités au collège
variable aléatoire Discrète
L’OUTIL STATISTIQUE.
Traitement de données socio-économiques et techniques d’analyse :
Les traitements croisés
Tests de comparaison de moyennes
Les liens entre les variables et les tests d’hypothèse
Statistique descriptive, analyse de données
Fonction puissance Montage préparé par : André Ross
L’inférence statistique
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Nombre de sujets nécessaires en recherche clinique
Régression linéaire simple
Opération et systèmes de décision Faculté des Sciences de l administration MQT Probabilités et statistique Mesures caractéristiques.
Howell, Chap. 1 Position générale
Comprendre la variation dans les données: Notions de base
TECHNIQUES QUANTITATIVES APPLIQUEES A LA FINANCE
ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD.
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Corrélation Principe fondamental d’une analyse de corrélation
La statistique Définitions et méthodes. La statistique est la branche des mathématiques qui collecte, classe, analyse et interprète des données afin den.
Les prévisions et la gestion de la demande
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
Distribution d’échantillonnage
Inéquations du premier degré à une inconnue
Présentation de la méthode des Eléments Finis
Master 1 – Sciences du Langage –
Rappels de statistiques descriptives
Biostatistiques Quand on souhaite étudier une (ou des) caractéristique(s) sur un ensemble d’individus ou d’objets, il est difficile, voir impossible, d’observer.
Théorème de la limite centrale l’inférence statistique
Principes des tests statistiques
Concepts d’échantillonnage statistique. Introduction Échantillon représentatif – Supprime la subjectivité / biais – Une confiance plus grande dans les.
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
JEAN-MARC FONTAN SOC-1101 COURS 3
1 Licence Stat-info CM1 b 2004Christophe Genolini 2.1. Vocabulaire Individu : objet étudié Population : Ensemble des individus Variable : nom donné à ce.
Concepts préliminaires sur les études de recherche Population: le groupe entier de personnes ou d'objets sur lequel un chercheur veut apprendre quelque.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Des expériences comparatives à répartition aléatoire (autrement dit des études expérimentales aléatoires)
Bienvenue!  Professeur : Dr. David Beaudoin.  Disponibilité : Mardi 15h30-17h local  Disponibilité d’Antoine Gautier: Mardi et Jeudi à compter.
BIOSTATISTIQUES Définitions.
Examen psychologique de l‘adulte et du sujet âgé Examen psychologique de l‘adulte et du sujet âgé UPJV Département de Psychologie Cours du 6 novembre 2013.
ECHANTILLONAGE ET ESTIMATION
Mesures de description des valeurs des variables
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Bienvenue au cours MAT-350 Probabilités et statistiques.
Chapitre 12 Des modeles corrélationnelles. A la fin de ce chapitre on sera capable de:  definir le but et l’utilisation des modeles correlationnelles.
23/05/2016 Déterminer la taille des échantillons notion sous-jacente : puissance d'un test Claire Chabanet fonction F4, étendre l'écran configurer le diaporama,
Des variables et des données. Dans le domaine de la statistique le mot variable signifie une idée différente de celle dans l’algèbre ou les fonctions.
Transcription de la présentation:

daniel.gile@yahoo.com www.cirinandgile.com CONCEPTS FONDAMENTAUX EN STATISTIQUES POUR LES ETUDIANTS DANS LES SCIENCES HUMAINES : UNE SENSIBILISATION daniel.gile@yahoo.com www.cirinandgile.com D.Gile statistiques

Dans le LAP des sciences humaines, on peut distinguer deux démarches : QUANTIFIER ?  (1) Dans le LAP des sciences humaines, on peut distinguer deux démarches : - Une démarche philosophico-créatrice où l’essentiel du travail se situe dans la réflexion et la création conceptuelle et où la « réalité » n’est qu’un point de départ - Une démarche interprétative, majoritaire, où l’essentiel du travail se situe dans l’interprétation de la réalité Dans celle-ci, les chercheurs interprètent beaucoup sur la base de faits. Or, d’après les conventions du LAP, ces faits sont en général l’objet d’affirmations avec des exemples et des contre-exemples illustratifs D.Gile statistiques

QUANTIFIER ?  (2) Dans l’ESP, les conventions exigent que de telles affirmations soient justifiées par des arguments (factuels et conceptuels) solides. Même dans le LAP, au moins deux dimensions quantitatives sont pertinentes : - L’intensité, ampleur ou autre caractéristique de la « force » des phénomènes évoqués - La fréquence d’occurrence de ces phénomènes : surviennent-ils suffisamment souvent pour pouvoir caractériser une «  population »  ? Une connaissance minimum des statistiques paraît donc intéressante, ne serait-ce qu’au niveau conceptuel. D.Gile statistiques

QUE SONT LES STATISTIQUES ? AU SENS DISCIPLINAIRE (PAR OPPOSITION AU SENS « DONNEES »): UN ENSEMBLE D’OUTILS ET DE METHODES MATHEMATIQUES POUR QUANTIFIER DES OBJETS ET PHENOMENES A DES FINS ANALYTIQUES D.Gile statistiques

STATISTIQUES DESCRIPTIVES ET STATISTIQUES INFERENTIELLES - POUR DECRIRE DE MANIERE SYNTHETIQUE DES TENDANCES SUSCEPTIBLES D’EXISTER SOUS UNE ABONDANCE DE CHIFFRES - POUR CARACTERISER DES RELATIONS ENTRE DES VARIABLES INFERENTIELLES POUR FAIRE DES INFERENCES SUR DES POPULATIONS A PARTIR D’ECHANTILLONS D.Gile statistiques

TOUT CE QUI PEUT ETRE ENUMERE LES UNITES ETUDIEES UNITES PERSONNES, OBJETS, PROCESSUS, CHOIX, ACTIONS… TOUT CE QUI PEUT ETRE ENUMERE « POPULATIONS » ENSEMBLE DES UNITES QUI NOUS INTERESSENT ECHANTILLONS SOUS-ENSEMBLE DE LA POPULATION QUI REPRESENTE CELLE-CI D.Gile statistiques

VARIABLES LES UNITES ONT DES CARACTERISTIQUES QUALITATIVE OU QUANTITATIVES QUI INTERESSENT LES STATISTICIENS ELLES DEVIENNENT DES VARIABLES POIDS, TAILLE, NOTES A UN EXAMEN, PRIX, DUREE DE VIE D’UN PRODUIT, QUALITE DE LA VIE D’UNE PERSONNE, AMELIORATION DE L’ETAT DE SANTE D’UNE PERSONNE SOUVENT LA QUANTIFICATION DOIT ETRE CREEE (ECHELLES DE LICKERT) D.Gile statistiques

DISTRIBUTION LA DISTRIBUTION D’UNE VARIABLE EST LA REPARTITION DES VALEURS QU’ELLE PREND AU SEIN DE LA POPULATION NOMBRE OCCURRENCES NOTES D.Gile statistiques

STATISTIQUES DESCRIPTIVES: TENDANCES CENTRALES Si les données sont nombreuses et variables On peut souhaiter chercher une éventuelle TENDANCE CENTRALE Qui caractérise leur orientation D.Gile statistiques

TENDANCES CENTRALES - MOYENNE Attention : Peut être sensible aux valeurs aberrantes 10, 9, 10, 9, 9, 10, 19 → 10,8 (9,5) (n=7) Cet effet dépend de la taille de la population 10, 9, 10, 9, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 9, 10, 10, 9, 19 → 9,95 (9,5) (n=21) N’A PAS TOUJOURS UN « SENS » Deux évaluateurs: 9, 15 → 12 ? D.Gile statistiques

TENDANCES CENTRALES - MEDIANE Divise la population en deux parties égales : la moitié est en dessous de la médiane, et la moitié au-dessus 10, 9, 10, 9, 9, 9, 10, 19 ↓ 9, 9, 9, 9, 10, 10, 10, 19 → 9,5 Pas affectée par les valeurs aberrantes Mais peut être éloignée de la moyenne 8, 8, 8, 8, 9, 16, 16, 16 → 8,5 (11,21) D.Gile statistiques

TENDANCES CENTRALES - MODE Indique la valeur la plus fréquente (ou les valeurs les plus fréquentes) Peut être intéressant pour distributions qualitatives : Poulet, poulet, poulet, poisson, boeuf, boeuf, poulet Paris, Rome, Rome, Londres, Lisbonne, Paris, Paris D.Gile statistiques

La valeur centrale MOYENNE caractérise bien la population DISPERSION (1) Si 9, 9, 9, 10, 11, 11, 10, 12, 10, 11, 12, 11, 11, 10 La valeur centrale MOYENNE caractérise bien la population Mais si 2, 1, 10, 12, 19, 18 → 10,3 ??? Une autre caractéristique importante de la distribution de cette population est sa DISPERSION D.Gile statistiques

Il existe plusieurs mesures de dispersion La plus utilisée est l’ECART-TYPE Standard deviation Approximativement la moyenne de l’écart entre les valeurs individuelles et la moyenne L’écart-type a des propriétés intéressantes pour les tests statistiques D.Gile statistiques

RESUMÉ SUR LA CARACTERISATION DES DISTRIBUTIONS DE VARIABLES Une distribution à valeurs quantitatives se caractérise utilement par Sa moyenne Son écart-type Si on en connaît le type Distribution normale, distribution de Poisson etc., Sa moyenne et son écart-type peuvent suffire pour la caractériser avec beaucoup de précision D.Gile statistiques

STATISTIQUES DESCRIPTIVES - CORRLATIONS CORRELATIONS : Mesure de L’ASSOCIATION CONSTATEE Entre deux variables A NE PAS CONFONDRE AVEC LA CAUSALITE CORRELATION POSITIVE CORRELATION NEGATIVE COEFFICIENTS DE CORRELATION -1 à +1 D.Gile statistiques

D.Gile statistiques

REGRESSION LINEAIRE MULTIPLE RECHERCHE D’UNE DROITE QUI CORRESPOND LE MIEUX AUX DONNEES MESUREES Y = AX + B PERMET DE FAIRE DES EXTRAPOLATIONS, DONC DES PREVISIONS REGRESSION LINEAIRE MULTIPLE RECHERCHE D’UNE FONCTION LINEAIRE DE PLUSIEURS VARIABLES QUI CORRESPOND LE MIEUX AUX DONNEES MESUREES D.Gile statistiques

STATISTIQUES INFERENTIELLES Ont une très grande importance Dans les sciences et la technologie Elles permettent d’étudier des échantillons Puis d’en tirer des conclusions Sur la population toute entière (Expériences scientifiques, processus industriels, contrôles de qualité, élections, évolution biologique, phénomènes atmosphériques…) D.Gile statistiques

STATISTIQUES INFERENTIELLES METHODES MATHEMATIQUES FONDEES SUR LA THEORIE DES PROBABILITES CALCULENT DES PROBABILITES SUR LA BASE DES TYPES DE DISTRIBUTION DES TENDANCES CENTRALES DE LA VARIABILITE CONSTATEES SUR DES ECHANTILLONS D.Gile statistiques

TESTS STATISTIQUES (1) UTILISES SURTOUT POUR AIDER A DECIDER : - SI LA DISTRIBUTION DE DEUX POPULATIONS EST LA MEME C.A.D. SI UNE CONDITION OU UN TRAITEMENT ONT PROBABLEMENT UN EFFET OU NON - SI UNE CORRELATION CONSTATEE SUR UN ECHANTILLON EST SUSCEPTIBLE D’ETRE CONSTATEE SUR LA POPULATION TOUTE ENTIERE D.Gile statistiques

TESTS STATISTIQUES (2) LES TESTS SE PRESENTENT SOUS LA FORME D’UN ELEMENT DE REPONSE A LA QUESTION SUIVANTE : LA DIFFERENCE CONSTATEE SUR LES ECHANTILLONS EST-ELLE DUE AU HASARD (H0) OU A UNE DIFFERENCE « REELLE » ENTRE LES POPULATIONS CONCERNEES (H1) ? LA REPONSE EST PROBABILISTE. LA PROBABILITE D’UNE « FAUX POSITIF » (ON DECIDE QUE LA DIFFERENCE EST REELLE ALORS QU’ELLE EST DUE AU HASARD) EST INDIQUEE PAR p ou α D.Gile statistiques

TESTS STATISTIQUES (3) Le test statistique calcule une valeur en fonction (notamment) des moyennes et écarts-types dans les échantillons. Si la valeur en question se trouve dans une certaine fourchette, on dit que la différence est « significative » à un certain niveau de p, par exemple 0,05 (avec une probabilité de 5 % de se tromper en disant que la différence est significative). Si la valeur en question se trouve ailleurs, on dit que la différence n’est pas significative, Ce qui veut dire qu’on ne peut pas dire sur la base de l’échantillon que les populations sont différentes avec une probabilité de 5% de se tromper. D.Gile statistiques

TESTS STATISTIQUES (4) Une différence significative est relative. Elle peut être significative à 5% mais pas à 1% Ce qui change, c’est le risque de faux positif que l’on est disposé à accepter. Une différence non significative ne veut pas dire qu’il n’y a pas de différence entre les populations que les échantillons représentent. Elle veut simplement dire que les données recueillies sur l’échantillon ne permettent pas de trancher, ne serait-ce qu’avec une probabilité donnée de se tromper. D.Gile statistiques

SELECTION DES TESTS STATISTIQUES Parfois, la chose est due à une trop forte variabilité dans les échantillons, qui pourrait être réduite avec des échantillons de plus grande taille. On ne peut pas préjuger pour autant des résultats avec des échantillons plus grands. SELECTION DES TESTS STATISTIQUES Il existe de nombreux tests statistiques, parmi lesquels il faut sélectionner le mieux adapté à la situation en fonction de différents facteurs. D.Gile statistiques

EXEMPLE D’UTILISATION DES TESTS STATISTIQUES Qualité trad: travailleurs formés (TF) et autodidactes (TA) Echantillon de TF échantillon de TA. Traduction d’un texte, évaluation de qualité de leur travail. Comparaison qualité des deux échantillons avec le test statistique approprié. On trouve différence significative à p< 0,05 Qu’est-ce que cela veut dire ? On trouve que cette différence n’est pas significative à p<0,01, qu’est-ce que cela veut dire ? Et si on trouve que la différence n’est significative ni à 0,05, ni à 0,01 ? D.Gile statistiques

TESTS STATISTIQUES SUPPL (1) TESTS PARAMETRIQUES : SI DISTRIBUTION NORMALE DE LA VARIABLE, ET PERMET D’ESTIMER LES PARAMETRES DE LA DISTRIBUTION TESTS NON PARAMETRIQUES : SI ON NE PEUT PAS POSER UNE DISTRIBUTION NORMALE ANOVA (ANALYSE DE VARIANCE) QUAND IL Y A PLUS DE DEUX CONDITIONS D.Gile statistiques

TESTS STATISTIQUES SUPPLEMENT (2) TEST t DE STUDENT TEST Z TEST CHI DEUX TEST EXACT DE FISHER TEST DE WILCOXON TEST DE MANN-WHITNEY TEST DE KRUSKALL-WALLIS ANALYSE DE VARIANCE A UN FACTEUR ANALYSE DE VARIANCE A DEUX FACTEURS …. D.Gile statistiques

ECHANTILLONNAGE CARACTERISTIQUE PRINCIPALE RECHERCHEE DANS UN ECHANTILLON : SA REPRESENTATIVITE PAR RAPPORT A LA POPULATION - ERREUR D’ECHANTILLONNAGE - BIAIS ECHANTILLONNAGE ALEATOIRE PERMET D’ELIMINER LES BIAIS AGRANDIR LA TAILLE DE L’ECHANTILLON PERMET DE REDUIRE L’ERREUR D’ECHANTILLONNAGE - ECHANTILLONNAGE STRATIFIE - ECHANTILLONNAGES NON ALEATOIRES D.Gile statistiques

CONCLUSIONS ET CONSEILS AUX ETUDIANTS (1) DANS VOTRE PROPRE TRAVAIL - LES STATISTIQUES SONT UN OUTIL D’AIDE A LA DECISION. ELLES PEUVENT ETRE UTILES, MAIS LEUR MANIEMENT N’EST NI INDISPENSABLE, NI SANS RISQUE - PREFERER UNE UTILISATION SIMPLE QUAND VOUS LE POUVEZ - SINON, S’ASSURER DU CONCOURS D’UN STATISTICIEN. SURTOUT NE PAS SE LANCER DANS DES STATISTIQUES INFERENTIELLES SEUL SOUS PRETEXTE QU’IL EXISTE DES LOGICIELS QUI VOUS EXPLIQUENT « TOUT » D.Gile statistiques

CONCLUSIONS ET CONSEILS AUX ETUDIANTS (2) - SI VOUS FAITES APPEL A UN STATISTICIEN, LE FAIRE DES LA CONCEPTION DE VOTRE ETUDE, PAS APRES COUP, POUR NE PAS VOUS RETROUVER AVEC DES DONNEES DIFFICILES A ANALYSER - NE PAS OUBLIER L’IMPORTANCE D’UN ECHANTILLON REPRESENTATIF SI VOS ECHANTILLONS NE LE SONT PAS, VOUS NE POUVEZ PAS GENERALISER VOS RESULTATS A LA POPULATION D.Gile statistiques

CONCLUSIONS ET CONSEILS AUX ETUDIANTS (3) DANS LA LECTURE CRITIQUE - VERIFIER LES CARACTERISTIQUES DE L’ECHANTILLON, LA PRESENCE D’UN BIAIS EVENTUEL ET LA GENERALISABILITÉ - NE PAS ACCEPTER LA CONCLUSION D’UN AUTEUR SUR L’EXISTENCE D’UNE DIFFERENCE S’IL A VERIFIÉ STATISTIQUEMENT ET N’A PAS TROUVÉ DE DIFFERENCE SIGNIFICATIVE - NE PAS ACCEPTER L’IDEE QUE LES DIFFERENCES NE SONT PAS SIGNIFICATIVES « PARCE QUE L’ECHANTILLON EST TROP PETIT ». D.Gile statistiques