INF L14 Initiation aux statistiques 5 – Tendance centrale
Introduction Représentations graphiques renseignent sur la forme des distributions ex. tuyaux d’orgue longueur de prénoms des étudiants
Introduction Mais on a parfois besoin d’indices numériques résumer de façon très synthétique comparer, classer ex. comparer la longueur des prénoms garçons/filles évolution au fil des années Difficile à faire avec des graphiques
Introduction Divers indices possibles Le plus simple : caractériser le centre des distributions tendance centrale Où situeriez-vous le "centre" ? A la valeur 6, qui est la plus fréquente ? ou bien plus à droite, par exemple de façon à partager les observations en paquets égaux ? Si oui, où, exactement ? 7, 8, 9 ?
Mode Mode Valeur qui apparaît le plus fréquemment. Exemples: taille de chaussures la plus vendue âge normal pour passer le bac le mode est 6
Tableur Fonction =MODE(données)
Tableur Attention, ne marche pas toujours ici toutes les fréquences sont identiques pas de mode ou alors modes ex aequo
Plusieurs modes ? Pic principal et pic(s) secondaire(s) Distributions bimodales, ou multimodales Distance entre construit et barrage (pages Web) (exemples)
Plusieurs modes ? -1: construit (un) barrage +3: barrage (a été) construit +1: barrage construit
Données groupées Lorsque les données ont de nombreuses valeurs on calcule le mode après avoir groupé les données par intervalles Exemple, durées des pauses dans un discours (ms)
Moyenne La moyenne est la mesure de tendance centrale la plus connue Utilisée fréquemment dans la vie courante Exemple : La note finale d'une unité d'enseignement est la moyenne des notes des différents partiels
Calcul de la moyenne Somme des valeurs divisée par le nombre d’individus Représentation synthétique S = somme
Moyenne : Tableur Fonction =MOYENNE(données)
Analogie physique La moyenne est le point auquel il faudrait placer un support pour que la "planche" reste en équilibre.
Inconvénient de la moyenne Sensibilité aux valeurs extrêmes erreurs cas particuliers
les danseuses ont de quoi se faire du sushi Calcul les danseuses ont de quoi se faire du sushi
Exemple (cours 1) On compare deux classes de 10 élèves
Oops !
Médiane La médiane est la valeur pour laquelle il y a autant d'observations à gauche qu'à droite. Pour la calculer, on classe les observations par ordre croissant on cherche quelle est la valeur qui divise les observations en deux groupes égaux.
Exemple
Calculer On pourrait faire le calcul à la main 1) tri 2) choix de la valeur du milieu
Médiane : Tableur Fonction =MEDIANE(données)
Nombre pair Cas particulier On prend la moyenne des deux valeurs du milieu (le tableur se débrouille)...
Exemple
Relation entre les trois indices La relation dépend de la forme la distribution Distribution symétrique (ou à peu près) mode ~ médiane ~ moyenne So ?
Distribution asymétrique Etalée à droite mode < médiane < moyenne Iiiik !!! http://www.faecesoftheworld.co.uk/
Distribution asymétrique Etalée à gauche mode > médiane > moyenne http://www.faecesoftheworld.co.uk/ Yuuuk !!!
Quel indice choisir ? Mode Moyenne Médiane peu stable, parfois inexistant à éviter Moyenne la force de l’habitude ok dans les distributions symétriques Médiane Meilleur indice dans les distributions asymétriques Très souvent le cas en linguistique !
Termes à retenir Tendance centrale Mode Distribution bimodale, multimodale Moyenne Médiane Distribution symétrique, asymétrique
Pweeh... all this computer hacking is making me thirsty !