La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Licence Pro Animation 2010 - 2011 Cours de statistiques Licence Pro Animation 2010 - 2011 Bruno GACHASSIN.

Présentations similaires


Présentation au sujet: "Licence Pro Animation 2010 - 2011 Cours de statistiques Licence Pro Animation 2010 - 2011 Bruno GACHASSIN."— Transcription de la présentation:

1 Licence Pro Animation 2010 - 2011
Cours de statistiques Licence Pro Animation Bruno GACHASSIN

2 Organisation des 4 séances
5 janvier . Travail à partir d’un questionnaire . Définitions, échelles de variable . Mode, % 27 janvier . Représentation graphique . Moyenne, médiane, écart-type . Salle informatique: utilisation d’Excel (formules, graphique, manipulations diverses) 28 janvier . Evaluation n°1 . Khi2 15 mars . Khi2 . Questions / révision . Evaluation n°2

3

4 A quoi servent les statistiques?
Organiser, présenter et décrire des données. Vérifier des relations entre variables. Tester des hypothèses Généraliser à une population, des caractéristiques observées sur des échantillons. Faire de “bonnes” prévisions.

5 Définition: la statistique
Il existe tellement de définitions différentes de la statistique qu’on pourrait presque en faire une étude … statistique. Ainsi, Raymond DUMAS, dans son ouvrage "L'entreprise et la statistique", datant de 1967, en dénombre-t-il déjà une centaine. La statistique est une méthode scientifique qui consiste à réunir des données chiffrées sur des ensembles nombreux, puis à analyser, à commenter et à critiquer ces données. Il ne faut pas confondre la statistique qui est la science définie ci-dessus et une statistique qui est un ensemble de données chiffrées sur un sujet précis.

6 Deux branches distinctes
La statistique au sens large comprend deux branches. Statistique descriptive Organisation, présentation et analyse des données relatives à une population, un échantillon, en mettant les points importants en évidence. Statistique inférentielle Elle permet de généraliser à de grands ensembles d'éléments les conclusions tirées des résultats obtenus avec des ensembles beaucoup plus restreints appelés échantillons. Population ? Echantillon Inférence

7 La statistique, qu’elle soit descriptive ou inférentielle, est employée dans toutes les sciences, ainsi que dans la vie quotidienne.

8 La population En statistique, la population désigne un ensemble d‘unités. Ces unités sont des êtres vivants ou des objets concrets ou abstraits. Le terme "individu" est souvent employé comme synonyme du terme "unité ", même lorsque l'on étudie des populations non humaines. La première information statistique que l'on tire d'une population est le nombre de ses individus, que nous désignerons par n. À titre d'exemple, voici la liste des 35 élèves d'une classe. {Ahmed, Alexandre, Antoine, Sandra, Hugo, Anne, Jeannot, Sara, Karim, Chloé, Kim, Loïck, Leila, Laurène, Lucas, Ludovic, Marine, Maxime, Valentine, Pauline, Paul, Pedro, Pierre, Quentin, Thomas , Nadia, Valentin, Vim, Lara, Flora, Clément, Rudy, Michael, Alison, Aline} Ces 35 élèves sont les individus qui composent notre population (n = 35). Cette population de 35 individus peut schématiquement être représentée par ce diagramme :

9 « Individu » en latin: « ce qui est indivisible ». Un individu Les ensembles étudiés sont appelés population. Les éléments de la population sont appelés individus. La population est étudiée selon une ou plusieurs variables (ou caractères).

10 Attention!! Une population doit être définie avec précision, c’est totalement différent de considérer: les salariés des structures socio-culturelles de Midi-Pyrénées; Les salariés des structures socio-culturelles de France; Les animateurs socio-culturels de Midi-Pyrénées; Les assistant(e)s sociaux expérimentés de Toulouse; Des salariés de l’animation socio-culturelle.

11 L’échantillon On parle d’échantillon d’une population quand les individus sont tirées au sort ou choisies par une méthode qui permet d’assurer la représentativité de l’échantillon par rapport à la population totale. Le diagramme ci-après représente la population statistique d'une classe de 35 élèves. Supposons que l'on y choisisse, par tirage au sort, 6 élèves. Ces 6 élèves constituent alors un échantillon. Cet échantillon représente 17% de la population (6/35).

12 Population Ensemble de référence
x Population Ensemble de référence x Individu Elément de la population Echantillon Sous-ensemble de la population. Remarquons qu'un échantillon peut être considéré comme une population en elle-même, quoique beaucoup plus petite que la population dont il est extrait. En tant que population, il peut faire l'objet d'une étude statistique dont les conclusions, sous certaines conditions, sont susceptibles d’être étendues à la population toute entière. (C'est l'objet de la statistique inférentielle.)

13 Attention!! Il faut distinguer l'échantillon du sous-ensemble de la population obtenu par un classement ou "découpage" des individus au moyen de certains critères. Nous pouvons ainsi diviser la population des 35 élèves en deux sous-ensembles, par exemple les garçons et les filles. On aura alors le schéma suivant :

14 Organisation des données / Variables
Pour étudier une population, on procède à un classement des individus au moyen de certains critères appelés variables. Les variables sont les caractéristiques que l’on observe sur chacun des individus de la population. Tableau à double entrée : . Lignes  individus . Colonnes  variables Sujets / Variables V1 V2 V3 1 2 3

15 Exemple de la classe de 35 élèves
Dans la classe de 35 élèves, pour chaque élève, différentes caractéristiques ont été recueillies : le prénom, le nombre de frères et soeurs, la taille, ainsi que le résultat d’un test d’anglais.

16 Nombre de frères et soeurs Résultat test d'anglais
Mise en page avec le logiciel Excel Prénom Sexe Taille (cm) Nombre de frères et soeurs Résultat test d'anglais  1 Lara F 168 1 D  2 Chloé 163 2  3 Flora 161 4 B  4 Sara 165  5 Kim G A  6 Leila  7 Sandra  8 Pauline C  9 Anne 3  10 Laurène  11 Lucas 170  12 Quentin 175  13 Valentine  14 Clément  15 Hugo  16 Marine  17 Valentin  18 Aline  19 Alison  20 Nadia  21 Rudy  22 Jeannot  23 Pedro  24 Ahmed  25 Pierre 180  26 Michael  27 Alexandre 5  28 Loick  29 Antoine  30 Thomas  31 Ludovic  32 Karim 182  33 Paul  34 Maxime  35 Vim

17 Les différents types de variables / la modalité
La variable est une propriété que tous les individus d’un échantillon possède même si sa modalité est différente (ex : le sexe d’une population : tout le monde à un sexe, mais la modalité est différente : F ou M, ex : l’âge, etc). N° Questionnaire Pôle d'activité Ancienneté Dernière formation Info formation Intérêt formation Milieu Sexe Age 1 Animation 18 oui - rural H 46 2 Acc Social 13 3 urbain 38 Accueil je ne sais pas + F 20 4 -- 53 5 6 non ++ 29 Administratif 17 42 7 22 8 30 9 14 41 10 31 Chaque colonne est une variable. Mais…

18 3 types (échelles) de variables:
Échelle nominale Échelle ordinale Échelle d’intervalle

19 Echelle NOMINALE Echelle ORDINALE Echelle d’INTERVALLE Les variables ne sont pas mesurables. Ce sont des noms, des sigles, des codes. Pas de hiérarchie entre les modalités de la variable. Il n’y a pas de quantité. Attention, même si les modalités sont des codes numériques, les opérations sur les modalités n’ont aucun sens. Hiérarchie entre les modalités de la variable. Cette hiérarchie est admise par toute personne à qui cette question est posée. Il y a une idée de quantité mais pas mesurable en intervalles égaux. C’est le cas de tous les caractères qualitatifs dont les modalités sont des opinions. L’instrument de mesure nous garantit des intervalles égaux. On est autorisé à calculer la moyenne !

20 Les modalités peuvent être nominales ou numériques
Les échelles de mesure Les échelles nominales : Modalités = catégories non hiérarchisées, visée descriptive Exemple : un constructeur d’automobiles a demandé à un échantillon de 220 individus de faire part de leur préférence de couleur de voiture. Les résultats qu’il obtient sont les suivants : Autres exemples : le sexe, la CSP, le département de naissance, etc. Les modalités peuvent être nominales ou numériques Couleur Blanc Noir Rouge Bleu Vert Marron Gris Jaune Autre Total Effectifs 43 30 15 32 20 28 12 10 220

21 Jamais. Rarement. Quelquefois. Assez souvent. Souvent. Régulièrement
Les échelles de mesure Les échelles ordinales : modalités de la variable hiérarchisées Exemple : Dans un questionnaire portant sur les loisirs, on a demandé à 102 personnes de répondre à la question suivante : « allez-vous à l’opéra.. » Jamais. Rarement. Quelquefois. Assez souvent. Souvent. Régulièrement Résultats sous une forme ordonnée (bon/moyen/mauvais) ou sous une forme de classement (premier, deuxième, troisième, etc.)

22 Les échelles de mesure Les échelles d’intervalle : l’instrument de mesure garantie des intervalles égaux entre les modalités Exemple : la taille, l’âge, la température, etc.

23 Pas de hiérarchie entre les modalités de la variable
Echelle nominale Echelle ordinale Echelle d’intervalle Pas de hiérarchie entre les modalités de la variable Hiérarchie entre les modalités de la variable admise par toute personne à qui cette question est posée L’instrument de mesure garantit des intervalles égaux. La taille J’aime les stats Un peu Beaucoup Passionnément Pas du tout Variable sexe : Homme Femme L’âge On est autorisé à utiliser la moyenne Effectifs : 75 hommes, 25 femmes La moyenne n’est pas autorisée Variance Pourcentages : hommes, 25% ; femmes, 75% Médiane Ecart type Quantiles (médiane, déciles, centiles) Histogrammes Secteurs angulaires

24 Rappel sur les pourcentages
Le pourcentage est le rapport d’un sous-ensemble à son ensemble ramené à 100. Un % est une façon d'exprimer une proportion ou une fraction dans un ensemble. P = n= effectif de la modalité considérée n X 100 N= effectif total de la population N

25 Représentations graphiques

26 Echelle

27 Biais (1)

28 Biais (2)

29 Transformations d’échelle
Un seul sens possible ! Echelle d’intervalle  échelle ordinale  échelle nominale On perd chaque fois de l’information ! Exemple Les résultats de fin d’année d’un groupe d’élèves (en %) Élèves A B C D E F G H I intervalle 26 32 38 44 50 56 62 68 74 ordinale < 35 de 35 et 49 De 50 à 65 > 65 nominale échec réussite

30 Statistiques descriptives: indicateurs de tendance centrale et de dispersion
Echelle d’intervalles : Moyenne, variance, écart-type, mode, médiane, écart semi-interquartile, étendue. Echelles ordinales : Médiane, écart semi-interquartile, étendue, mode. Echelle nominale : mode.

31 Définitions simples Le mode d'une série est la valeur ou la modalité qui revient le plus fréquemment. Exemples : Soit la série {8, 4, 4, 3, 4, 3, 8, 2,5} La valeur la plus fréquente de cette série est 4. Le mode est donc égal à 4. L'effectif associé à ce mode est 3. L’étendue est la différence entre la valeur la plus élevée et la valeur la plus basse. Exemple: Les fréquentations par journée de l’atelier poterie depuis la rentrée: 10 – 5 – 16 – 7 – 20 – 9 – 11 R = 20 – 5 = 15

32 POPULATION ECHANTILLON
Moyenne arithmétique : indice de tendance centrale Somme de toutes les valeurs Prononcer « mu » Nombre de valeurs POPULATION ECHANTILLON Somme de toutes les valeurs Prononcer « x barre » Nombre de valeurs

33 LA VARIANCE ET L’ECART TYPE
Voici les scores sur 20 (échelles d’intervalles) de deux groupes A et B Groupe A : Ces deux groupes ont pour moyenne : 10 Groupe B : 8 9 10 11 12 Groupe A Dispersion Groupe B 1 2 3 17 18 19 D i s p e r s i o n LA MOYENNE (indice de tendance centrale) NE DIT RIEN DE LA DISPERSION DES VALEURS Deux outils vont être associés à la moyenne pour donner à voir la dispersion des données : La variance et l’écart type.

34 Variance L’idée consiste à inventer un indice qui donne une idée des écarts à la moyenne. Ecart à la moyenne élevé au carré Variance C’est la moyenne des carrés des écarts à la moyenne. Cette formule est équivalente à :

35 Variance Exemple pour le groupe A : Groupe B 8 9 10 11 12 17 18 19 1 2
3

36 Variance et Ecart-type
Rappel des diverses formules que vous utiliserez La variance L’écart type

37 Groupe A : variance = 2,5 Ecart type =
8 9 10 11 12 Dispersion Variance du groupe A = 2,5 Groupe B 1 2 3 17 18 19 D i s p e r s i o n Variance du groupe B = 77,6 A la lecture de ces deux variances on voit que la dispersion du groupe B est plus importante que celle du groupe A. Mais ces calculs ayant été obtenus par des élévations au carré, il est difficile de percevoir l’ordre de grandeur des variances. Groupe A : variance = 2,5 Ecart type = Groupe B : variance = 77,6 Ecart type =

38 La médiane 13 - 15 - 12 - 9 - 7 - 17 - 18 Valeurs
La médiane, c’est une valeur qui occupe la place du milieu lorsqu’on énumère la totalité des valeurs du groupe, soit dans l’ordre croissant, soit dans l’ordre décroissant. Valeurs Rangs 50% de l’effectif du groupe a une note supérieure ou égale à la médiane 50% de l’effectif du groupe a une note inférieure ou égale à la médiane

39 Les principes des tests statistiques
Les statistiques inférentielles Les principes des tests statistiques Les tests permettent de comparer des statistiques mesurées (moyenne, variance, effectifs, etc.) sur des échantillons de données (comparaison de deux échantillons, comparaison de plusieurs échantillons, comparaison échantillon/population) Comparaisons de deux moyennes Test « t » de student Comparaisons de deux variances Le « F » de Snédecor Comparaison de proportions d’individus (effectifs) Le chi2 Comparaison de plus de deux moyennes ANOVA La corrélation entre deux variables Le « r » de pearson, etc. Comparaison de rangs Le U de Mann Withney, Wilcoxon, Friedman ,etc.

40 Utilisation du Khi2 Nous allons utiliser le test du Khi2 pour:
Comparer la distribution observée dans un échantillon statistique à une distribution théorique. Exemple: un dé est-il pipé? Comparaison du résultat d’une série de tirage au résultat théorique (chaque face doit avoir la même fréquence d’apparition). Apprécier l’existence ou non d’une relation entre deux variables au sein d’une population. Exemple: Les salariés qui ont le plus d’ancienneté sont-ils davantage intéressés que les salariés débutants pour recevoir de la documentation sur la formation continue? Attention!! Une relation n’est pas une causalité.

41 Principes des tests statistiques
Hypothèse nulle (H0) : les différences entre les mesures effectuées sont uniquement dues à l’effet du hasard (5% d’erreur). Accepter H0, c’est dire que les différences ne sont pas suffisantes. Le lien entre les deux variables n’est pas significatif. Rejeter H0, c’est dire que les différences sont suffisantes. Le lien entre les deux variables est significatif.

42 Principes des tests statistiques
Echantillons indépendants : comparaison de groupes de sujets différents Echantillons appariés : comparaison de paires de sujets, plan expérimental avant/après

43 Comparaison de données catégorielles ou nominales : le test du Chi2
1. Comparaison d’une fréquence et d’une norme Exemple : Un fabriquant teste trois type de nourriture pour des souris. Pendant 50 jours, il propose aux mêmes souris ces trois type de nourriture. Le tableau suivant résume le choix des souris. Peut-on affirmer que les souris préfèrent un de ces produits ? H0 : à .05, les choix des souris ne sont pas significativement différents de choix au hasard

44 ddl = k-1 À .05, Chi2 théorique = 5.99 À .001, chi2 théorique = 13.81 H0 est rejetée à .001 car chi2 observé > chi2 théorique Avec moins d’une chance sur 1000 de se tromper, on peut affirmer que ces souris préfèrent la nourriture A.

45 Comparaison de données catégorielles ou nominales : le test du Chi2
2. Comparaison de deux variables nominales, échantillons indépendants Exemple : Au cours d’une enquête sur les loisirs, un jeune chercheur souhaite savoir s’il y a un lien entre le sexe et la préférence pour des loisirs particuliers. Au cours de son étude, il demande ainsi à des hommes et à des femmes s’ils préfèrent aller au cinéma ou au théâtre. il obtient les réponses suivantes : Tableau de contingence Théâtre Cinéma Total Hommes 20 55 75 Femmes 50 44 94 70 99 196

46 H0 : à .05, les réponses des hommes ne diffèrent pas significativement de celles des femmes.
Théâtre Cinéma Total Hommes 20 55 75 Femmes 50 44 94 70 99 196

47 Comparaison de données catégorielles ou nominales : le test du Chi2
3. Comparaison de deux variables nominales, échantillons appariés Exemple : Dans une étude de docimologie, on analyse les résultats des examens d’entrée à Polytechnique et à Normale. On ne considère que les résultats des 300 candidats ayant présenté ces deux examens à la fois : 60 ont été reçus uniquement à Normale, 44 uniquement à Polytechnique et 16 aux deux. Peut-on conclure que les deux examens sont de même difficulté ? On reconstitue le tableau de contingence  Ecole Polytechnique Réussite Echec Ecole Normale 16 60 44 180

48 Ecole Polytechnique Réussite Echec Ecole Normale 16 60 44 180 H0 : A .05, il n’y a pas de différence significative dans les résultats (réussite/échec) des deux types d’examen (Polytechnique/Normale) Chi2 Mac Nemar = (60-44)-1)2/ = 1,81 On conserve l’hypothèse nulle car chi2 observé est < au chi2 théorique (3, 84 à .05)

49 Une référence intéressante:
Statistique pour psychologues, cours et exercices de Nicolas Guéguen (2006), édition Dunod. Côte BU centrale: GUE 4ème étage Nord


Télécharger ppt "Licence Pro Animation 2010 - 2011 Cours de statistiques Licence Pro Animation 2010 - 2011 Bruno GACHASSIN."

Présentations similaires


Annonces Google