La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Cours de statistiques Licence Pro Animation 2010 - 2011 Bruno GACHASSIN.

Présentations similaires


Présentation au sujet: "Cours de statistiques Licence Pro Animation 2010 - 2011 Bruno GACHASSIN."— Transcription de la présentation:

1 Cours de statistiques Licence Pro Animation Bruno GACHASSIN

2 Organisation des 4 séances 5 janvier. Travail à partir dun questionnaire. Définitions, échelles de variable. Mode, % 27 janvier. Représentation graphique. Moyenne, médiane, écart-type. Salle informatique: utilisation dExcel (formules, graphique, manipulations diverses) 28 janvier. Evaluation n°1. Khi2 15 mars. Khi2. Questions / révision. Evaluation n°2

3

4 Organiser, présenter et décrire des données. Vérifier des relations entre variables. Tester des hypothèses Généraliser à une population, des caractéristiques observées sur des échantillons. Faire de bonnes prévisions. A quoi servent les statistiques?

5 La statistique est une méthode scientifique qui consiste à réunir des données chiffrées sur des ensembles nombreux, puis à analyser, à commenter et à critiquer ces données. Il ne faut pas confondre la statistique qui est la science définie ci-dessus et une statistique qui est un ensemble de données chiffrées sur un sujet précis. Il existe tellement de définitions différentes de la statistique quon pourrait presque en faire une étude … statistique. Ainsi, Raymond DUMAS, dans son ouvrage "L'entreprise et la statistique", datant de 1967, en dénombre-t-il déjà une centaine. Définition: la statistique

6 Statistique descriptive. Organisation, présentation et analyse des données relatives à une population, un échantillon, en mettant les points importants en évidence. Statistique inférentielle Elle permet de généraliser à de grands ensembles d'éléments les conclusions tirées des résultats obtenus avec des ensembles beaucoup plus restreints appelés échantillons. Echantillon Inférence Population ? La statistique au sens large comprend deux branches. Deux branches distinctes

7 La statistique, quelle soit descriptive ou inférentielle, est employée dans toutes les sciences, ainsi que dans la vie quotidienne.

8 En statistique, la population désigne un ensemble dunités. Ces unités sont des êtres vivants ou des objets concrets ou abstraits. Le terme "individu" est souvent employé comme synonyme du terme "unité ", même lorsque l'on étudie des populations non humaines. La première information statistique que l'on tire d'une population est le nombre de ses individus, que nous désignerons par n. À titre d'exemple, voici la liste des 35 élèves d'une classe. {Ahmed, Alexandre, Antoine, Sandra, Hugo, Anne, Jeannot, Sara, Karim, Chloé, Kim, Loïck, Leila, Laurène, Lucas, Ludovic, Marine, Maxime, Valentine, Pauline, Paul, Pedro, Pierre, Quentin, Thomas, Nadia, Valentin, Vim, Lara, Flora, Clément, Rudy, Michael, Alison, Aline} Ces 35 élèves sont les individus qui composent notre population (n = 35). Cette population de 35 individus peut schématiquement être représentée par ce diagramme : La population

9 Les ensembles étudiés sont appelés population. Les éléments de la population sont appelés individus. La population est étudiée selon une ou plusieurs variables (ou caractères). Un individu « Individu » en latin: « ce qui est indivisible ».

10 Attention!! Une population doit être définie avec précision, cest totalement différent de considérer: les salariés des structures socio-culturelles de Midi-Pyrénées; Les salariés des structures socio-culturelles de France; Les animateurs socio-culturels de Midi-Pyrénées; Les assistant(e)s sociaux expérimentés de Toulouse; Des salariés de lanimation socio-culturelle.

11 On parle déchantillon dune population quand les individus sont tirées au sort ou choisies par une méthode qui permet dassurer la représentativité de léchantillon par rapport à la population totale. Le diagramme ci-après représente la population statistique d'une classe de 35 élèves. Supposons que l'on y choisisse, par tirage au sort, 6 élèves. Ces 6 élèves constituent alors un échantillon. Cet échantillon représente 17% de la population (6/35). Léchantillon

12 Remarquons qu'un échantillon peut être considéré comme une population en elle-même, quoique beaucoup plus petite que la population dont il est extrait. En tant que population, il peut faire l'objet d'une étude statistique dont les conclusions, sous certaines conditions, sont susceptibles dêtre étendues à la population toute entière. (C'est l'objet de la statistique inférentielle.) x x x x x x x x x x x x x x x x x x x x xx xx x x x xx x x x x x x x x x x xx x x x x xx x x Population Ensemble de référence x Individu Elément de la population Echantillon Sous-ensemble de la population.

13 Il faut distinguer l'échantillon du sous-ensemble de la population obtenu par un classement ou "découpage" des individus au moyen de certains critères. Attention!! Nous pouvons ainsi diviser la population des 35 élèves en deux sous- ensembles, par exemple les garçons et les filles. On aura alors le schéma suivant :

14 Pour étudier une population, on procède à un classement des individus au moyen de certains critères appelés variables. Les variables sont les caractéristiques que lon observe sur chacun des individus de la population. Organisation des données / Variables Tableau à double entrée :. Lignes individus. Colonnes variables Sujets / VariablesV1V2V3… …

15 Dans la classe de 35 élèves, pour chaque élève, différentes caractéristiques ont été recueillies : le prénom, le nombre de frères et soeurs, la taille, ainsi que le résultat dun test danglais. Exemple de la classe de 35 élèves

16 PrénomSexe Taille (cm) Nombre de frères et soeurs Résultat test d'anglais 1LaraF1681D 2ChloéF1632D 3FloraF1614B 4SaraF1651B 5KimG1650A 6LeilaF1682B 7SandraF1612D 8PaulineF1631C 9AnneF1653A 10LaurèneF1651C 11LucasG1703C 12QuentinG1751D 13ValentineF1681A 14ClémentG1650B 15HugoG1701C 16MarineF1700C 17ValentinG1701B 18AlineF1701B 19AlisonF1651C 20NadiaF1630D 21RudyG1631A 22JeannotG1704C 23PedroG1752B 24AhmedG1754A 25PierreG1802C 26MichaelG1702C 27AlexandreG1755B 28LoickG1751A 29AntoineG1800C 30ThomasG1801B 31LudovicG1801A 32KarimG1821C 33PaulG1753B 34MaximeG1822C 35VimG1800D Mise en page avec le logiciel Excel

17 La variable est une propriété que tous les individus dun échantillon possède même si sa modalité est différente (ex : le sexe dune population : tout le monde à un sexe, mais la modalité est différente : F ou M, ex : lâge, etc). Chaque colonne est une variable. Mais… N° QuestionnairePôle d'activitéAncienneté Dernière formation Info formation Intérêt formationMilieuSexeAge 1Animation181oui-ruralH46 2Acc Social133oui-urbainH38 3Accueil12je ne sais pas+ruralF20 4Acc Social184oui--urbainH53 5Animation62non++ruralF29 6Administratif174oui-ruralF42 7Accueil32oui++urbainF22 8Animation83non+urbainH30 9Acc Social144oui+ruralF41 10Administratif93oui+urbainH31 Les différents types de variables / la modalité

18 3 types (échelles) de variables: Échelle nominale Échelle ordinale Échelle dintervalle

19 Echelle NOMINALEEchelle ORDINALEEchelle dINTERVALLE Les variables ne sont pas mesurables. Ce sont des noms, des sigles, des codes. Pas de hiérarchie entre les modalités de la variable. Il ny a pas de quantité. Attention, même si les modalités sont des codes numériques, les opérations sur les modalités nont aucun sens. Hiérarchie entre les modalités de la variable. Cette hiérarchie est admise par toute personne à qui cette question est posée. Il y a une idée de quantité mais pas mesurable en intervalles égaux. Cest le cas de tous les caractères qualitatifs dont les modalités sont des opinions. Linstrument de mesure nous garantit des intervalles égaux. On est autorisé à calculer la moyenne !

20 Les échelles nominales : – Modalités = catégories non hiérarchisées, visée descriptive Exemple : un constructeur dautomobiles a demandé à un échantillon de 220 individus de faire part de leur préférence de couleur de voiture. Les résultats quil obtient sont les suivants : Autres exemples : le sexe, la CSP, le département de naissance, etc. Les modalités peuvent être nominales ou numériques Les échelles de mesure CouleurBlancNoirRougeBleuVertMarronGrisJauneAutreTotal Effectifs

21 Les échelles de mesure Les échelles ordinales : modalités de la variable hiérarchisées Exemple : Dans un questionnaire portant sur les loisirs, on a demandé à 102 personnes de répondre à la question suivante : « allez-vous à lopéra.. » Jamais. Rarement. Quelquefois. Assez souvent. Souvent. Régulièrement Résultats sous une forme ordonnée (bon/moyen/mauvais) ou sous une forme de classement (premier, deuxième, troisième, etc.)

22 Les échelles de mesure Les échelles dintervalle : linstrument de mesure garantie des intervalles égaux entre les modalités Exemple : la taille, lâge, la température, etc.

23 Echelle dintervalle La taille Lâge Linstrument de mesure garantit des intervalles égaux. On est autorisé à utiliser la moyenne Echelle ordinaleEchelle nominale Variable sexe : Homme Femme Jaime les stats Un peu Beaucoup Passionnément Pas du tout Pas de hiérarchie entre les modalités de la variable Hiérarchie entre les modalités de la variable admise par toute personne à qui cette question est posée Variance Ecart type La moyenne nest pas autorisée Médiane Quantiles (médiane, déciles, centiles) Effectifs : 75 hommes, 25 femmes Pourcentages : hommes, 25% ; femmes, 75% Histogrammes Secteurs angulaires

24 Rappel sur les pourcentages Le pourcentage est le rapport dun sous-ensemble à son ensemble ramené à 100. Un % est une façon d'exprimer une proportion ou une fraction dans un ensemble. P = n N X 100 n= effectif de la modalité considérée N= effectif total de la population

25 Représentations graphiques

26 Echelle

27 Biais (1)

28 Biais (2)

29 Transformations déchelle Un seul sens possible ! Echelle dintervalle échelle ordinale échelle nominale On perd chaque fois de linformation ! Exemple Les résultats de fin dannée dun groupe délèves (en %) ÉlèvesABCDEFGHI intervalle ordinale< 35de 35 et 49De 50 à 65> 65 nominaleéchecréussite

30 Statistiques descriptives: indicateurs de tendance centrale et de dispersion Echelle dintervalles : Moyenne, variance, écart-type, mode, médiane, écart semi-interquartile, étendue. Echelles ordinales : Médiane, écart semi-interquartile, étendue, mode. Echelle nominale : mode.

31 Le mode d'une série est la valeur ou la modalité qui revient le plus fréquemment. Exemples : Soit la série {8, 4, 4, 3, 4, 3, 8, 2,5} La valeur la plus fréquente de cette série est 4. Le mode est donc égal à 4. L'effectif associé à ce mode est 3. Définitions simples Létendue est la différence entre la valeur la plus élevée et la valeur la plus basse. Exemple: Les fréquentations par journée de latelier poterie depuis la rentrée: 10 – 5 – 16 – 7 – 20 – 9 – 11 R = 20 – 5 = 15

32 Moyenne arithmétique : indice de tendance centrale Prononcer « mu » Nombre de valeurs Somme de toutes les valeurs POPULATION Prononcer « x barre » Nombre de valeurs Somme de toutes les valeurs ECHANTILLON

33 LA MOYENNE (indice de tendance centrale) NE DIT RIEN DE LA DISPERSION DES VALEURS Deux outils vont être associés à la moyenne pour donner à voir la dispersion des données : La variance et lécart type. LA VARIANCE ET LECART TYPE Voici les scores sur 20 (échelles dintervalles) de deux groupes A et B Groupe A : Groupe B : Ces deux groupes ont pour moyenne : 10 Groupe A Groupe B Dispersion

34 Variance Lidée consiste à inventer un indice qui donne une idée des écarts à la moyenne. Cest la moyenne des carrés des écarts à la moyenne. Ecart à la moyenne élevé au carré Variance Cette formule est équivalente à :

35 Variance Exemple pour le groupe A : Groupe B

36 Rappel des diverses formules que vous utiliserez La variance Lécart type Variance et Ecart-type

37 Groupe B Dispersion Variance du groupe A = 2,5 Variance du groupe B = 77,6 A la lecture de ces deux variances on voit que la dispersion du groupe B est plus importante que celle du groupe A. Mais ces calculs ayant été obtenus par des élévations au carré, il est difficile de percevoir lordre de grandeur des variances. Groupe A : variance = 2,5 Ecart type = Groupe B : variance = 77,6 Ecart type =

38 La médiane Valeurs Rangs 50% de leffectif du groupe a une note supérieure ou égale à la médiane 50% de leffectif du groupe a une note inférieure ou égale à la médiane La médiane, cest une valeur qui occupe la place du milieu lorsquon énumère la totalité des valeurs du groupe, soit dans lordre croissant, soit dans lordre décroissant.

39 Les principes des tests statistiques Comparaisons de deux moyennesTest « t » de student Comparaisons de deux variancesLe « F » de Snédecor Comparaison de proportions dindividus (effectifs)Le chi2 Comparaison de plus de deux moyennesANOVA La corrélation entre deux variablesLe « r » de pearson, etc. Comparaison de rangsLe U de Mann Withney, Wilcoxon, Friedman,etc. Les tests permettent de comparer des statistiques mesurées (moyenne, variance, effectifs, etc.) sur des échantillons de données (comparaison de deux échantillons, comparaison de plusieurs échantillons, comparaison échantillon/population) Les statistiques inférentielles

40 Utilisation du Khi2 Nous allons utiliser le test du Khi2 pour: Comparer la distribution observée dans un échantillon statistique à une distribution théorique. Exemple: un dé est-il pipé? Comparaison du résultat dune série de tirage au résultat théorique (chaque face doit avoir la même fréquence dapparition). Apprécier lexistence ou non dune relation entre deux variables au sein dune population. Exemple: Les salariés qui ont le plus dancienneté sont-ils davantage intéressés que les salariés débutants pour recevoir de la documentation sur la formation continue? Attention!! Une relation nest pas une causalité.

41 Principes des tests statistiques Hypothèse nulle (H0) : les différences entre les mesures effectuées sont uniquement dues à leffet du hasard (5% derreur). Accepter H0, cest dire que les différences ne sont pas suffisantes. Le lien entre les deux variables nest pas significatif. Rejeter H0, cest dire que les différences sont suffisantes. Le lien entre les deux variables est significatif.

42 Principes des tests statistiques Echantillons appariés : comparaison de paires de sujets, plan expérimental avant/après Echantillons indépendants : comparaison de groupes de sujets différents

43 Comparaison de données catégorielles ou nominales : le test du Chi2 1. Comparaison dune fréquence et dune norme Exemple : Un fabriquant teste trois type de nourriture pour des souris. Pendant 50 jours, il propose aux mêmes souris ces trois type de nourriture. Le tableau suivant résume le choix des souris. Peut-on affirmer que les souris préfèrent un de ces produits ? H0 : à.05, les choix des souris ne sont pas significativement différents de choix au hasard

44 ddl = k-1 À.05, Chi2 théorique = 5.99 À.001, chi2 théorique = H0 est rejetée à.001 car chi2 observé > chi2 théorique Avec moins dune chance sur 1000 de se tromper, on peut affirmer que ces souris préfèrent la nourriture A.

45 Comparaison de données catégorielles ou nominales : le test du Chi2 2. Comparaison de deux variables nominales, échantillons indépendants Exemple : Au cours dune enquête sur les loisirs, un jeune chercheur souhaite savoir sil y a un lien entre le sexe et la préférence pour des loisirs particuliers. Au cours de son étude, il demande ainsi à des hommes et à des femmes sils préfèrent aller au cinéma ou au théâtre. il obtient les réponses suivantes : ThéâtreCinémaTotal Hommes Femmes Total Tableau de contingence

46 H0 : à.05, les réponses des hommes ne diffèrent pas significativement de celles des femmes. ThéâtreCinémaTotal Hommes Femmes Total

47 Comparaison de données catégorielles ou nominales : le test du Chi2 3. Comparaison de deux variables nominales, échantillons appariés Exemple : Dans une étude de docimologie, on analyse les résultats des examens dentrée à Polytechnique et à Normale. On ne considère que les résultats des 300 candidats ayant présenté ces deux examens à la fois : 60 ont été reçus uniquement à Normale, 44 uniquement à Polytechnique et 16 aux deux. Peut- on conclure que les deux examens sont de même difficulté ? On reconstitue le tableau de contingence Ecole Polytechnique RéussiteEchec Ecole Normale Réussite1660 Echec44180

48 Ecole Polytechnique RéussiteEchec Ecole Normale Réussite1660 Echec44180 H0 : A.05, il ny a pas de différence significative dans les résultats (réussite/échec) des deux types dexamen (Polytechnique/Normale) Chi2 Mac Nemar = (60-44)-1)2/ = 1,81 On conserve lhypothèse nulle car chi2 observé est < au chi2 théorique (3, 84 à.05)

49 Une référence intéressante: Statistique pour psychologues, cours et exercices de Nicolas Guéguen (2006), édition Dunod. Côte BU centrale: GUE 4 ème étage Nord


Télécharger ppt "Cours de statistiques Licence Pro Animation 2010 - 2011 Bruno GACHASSIN."

Présentations similaires


Annonces Google