La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Statistique Tableau à double entrée Nuage de points.

Présentations similaires


Présentation au sujet: "Statistique Tableau à double entrée Nuage de points."— Transcription de la présentation:

1 Statistique Tableau à double entrée Nuage de points

2 Les travaux statistiques sont d’abord et avant tout des travaux d’observations sur des phénomènes, des objets, des populations… En sciences, l’analyse de données issues d’expériences ou d’études statistiques est un élément essentiel de la recherche. Vérifier s’il existe une relation entre certaines variables ou entre deux caractères quantitatifs d’une distribution est l’une des premières démarches des scientifiques. Une fois qu’un lien est mis en évidence et que son intensité a été mesurée, il devient possible de le modéliser à l’aide d’une fonction.

3 Dans cette présentation, nous apprendrons à construire deux nouveaux outils:
- le tableau à double entrée ou tableau de corrélation: Âge Taille 11 12 13 14 15 16 [120 , 130[ [130 , 140[ [140 , 150[ [150 , 160[ [160 , 170[ [170 , 180] Total (cm) 1 4 2 3 6 5 19 Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille

4 - le nuage de points ou diagramme de dispersion:
10 11 12 13 14 15 16 17 Âge 120 130 140 150 160 170 Taille ( cm ) 180 Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille 2

5 Ces deux types de représentation servent à déterminer la corrélation entre deux caractères ( variables ) d’une population. Rappels: Les premières études de la statistique portaient sur les populations humaines. Le terme « population » est resté mais aujourd’hui, en statistique, ce terme désigne aussi bien des objets, des phénomènes que des humains. Exemple: Si on s’intéresse à la qualité de l’eau des piscines d’une municipalité, la population étudiée est « les  piscines ». Le terme « caractère » signifie le sujet de l’étude. Dans l’exemple des piscines, le caractère étudié est « la qualité de l’eau » . Les différents caractères d’une étude statistique peuvent être aussi appelés les variables à l’étude. Souvent, l’étude de toute une population est impossible; on se sert alors d’un échantillon, c’est-à-dire un petit ensemble représentatif de toute la population. Exemple: On ne pourrait pas étudier toute la population des morues qui vivent en mer; cependant, on pourrait faire l’étude des morues capturées par plusieurs pêcheurs. On aurait alors un échantillon.

6 On collecte différentes informations quantitatives et/ou qualitatives et on les organise pour qu’elles nous apprennent des choses. Exemples d’informations qualitatives: sexe, couleur des yeux, opinion politique, … Exemples d’informations quantitatives: l’âge, le poids, le salaire, le nombre de bactéries, etc.; tout ce qui représente une quantité donc mesurable. Le tableau à double entrée et le nuage de points utilisent principalement des données quantitatives.

7 Le mot « corrélation » signifie simplement une relation entre deux choses.
La corrélation statistique sert donc à quantifier la liaison mathématique entre deux variables. Ces deux variables doivent donc être quantitatives.

8 Le tableau à double entrée
Lors d’une étude statistique, on obtient plusieurs informations ( plusieurs variables ). Le tableau à double entrée permet de savoir s’il existe un lien entre certaines variables. BERNADETTE ANDREE BARBARA GAETANE JEANNE MARTINE ODILE SOLANGE ANTOINE HENRI PATRICK THOMAS BRUNO FRANÇOIS JEAN MATHIAS PHILIPPE XAVIER VALENTINE 13 14 12 15 11 16 140 161 155 148 123 160 172 142 157 180 167 165 F M 38,2 44.3 46,1 50,5 22,4 40,4 34,7 38,1 57,3 39,3 37,1 45,9 66,3 60,0 Individu Âge Sexe Taille (cm) Poids (Kg) Quelques caractéristiques d’un groupe d’adolescents Prenons un exemple: Voici un tableau de compilation représentant un échantillon de 19 adolescents. Ce tableau nous donne 4 informations concernant certains individus: l’âge, le sexe, la taille et le poids. Existe-il un lien entre l’âge et la taille ? Existe-il un lien entre la taille et le poids ?

9 Existe-il un lien entre l’âge et la taille ?
Pour le savoir, nous allons construire un tableau à double entrée en utilisant uniquement les variables «  âge et taille ». 13 14 12 15 11 16 140 161 155 148 123 160 172 142 157 180 167 165 Âge Taille (cm) À l’aide de ce tableau, on construit un tableau à double entrée: Âge Taille 11 12 13 14 15 16 [120 , 130[ [130 , 140[ [140 , 150[ [150 , 160[ [160 , 170[ [170 , 180] Total (cm)

10 On place une des variables en colonnes, ici l’âge, qui varie de 11 à 16 ans.
Ici, l’âge ne comporte pas beaucoup de données différentes; on peut donc toutes les utiliser. 13 14 12 15 11 16 140 161 155 148 123 160 172 142 157 180 167 165 Âge Taille (cm) On garde une dernière colonne pour le total des effectifs de chaque ligne. Âge 11 12 13 14 15 16 Total

11 On place l’autre variable, en lignes, ici, la taille.
Ici, l’écart entre les données est assez considérable; il est donc préférable d’utiliser des classes. On garde une dernière ligne pour le total des effectifs de chaque colonne. 13 14 12 15 11 16 140 161 155 148 123 160 172 142 157 180 167 165 Âge Taille (cm) Âge 11 12 13 14 15 16 Total Taille (cm) [120 , 130[ [130 , 140[ [140 , 150[ [150 , 160[ [160 , 170[ [170 , 180] Total Remarque: On aurait pu inverser les variables; mettre l’âge en lignes et la taille en colonnes.

12 Rappel Pour déterminer les classes: on regarde la plus petite donnée; 13 14 12 15 11 16 140 161 155 148 123 160 172 142 157 180 167 165 Âge Taille (cm) on regarde la plus grande donnée; on construit des classes d’égale largeur; il n’y a pas de règle absolue pour la construction des classes; on utilise habituellement entre 6 et 10 classes en utilisant pour chaque classe, une largeur significative. Ici, l’étendue de la distribution est de 180 – 123 donc de 57. On peut donc utiliser 6 classes d’une largeur de 10 unités chacune. La première classe doit débuter un peu avant la première donnée, ici, 123 donc [ 120 , La classe [ 121 , 133 [ n’est pas très significative ( pas très facile à lire ). La classe [ 120 , 130 [ est plus significative ( facile à lire ).

13 Remarque sur les crochets [ , [
13 14 12 15 11 16 140 161 155 148 123 160 172 142 157 180 167 165 Âge Taille (cm) La classe [ 120 , 130 [ Ce crochet fermé indique que 120 est compris dans cette classe ainsi que tous les nombres jusqu’à 130 mais pas 130. C’est pour cela que le crochet est ouvert. Remarque: On aurait pu ouvrir une dernière classe pour 180, soit [ 180 , 190 [ mais étant donné que 180 est la dernière donnée et qu’elle respecte la largeur de la classe, on peut refermer le crochet dessus, ce qui signifiera que 180 fera parti de cette classe: [ 170 , 180 ] .

14 Dépendamment des distributions de données avec lesquelles on travaille, les tableaux à double entrée peuvent être construits avec des données ordinaires ou des données regroupées en classe.

15 Les colonnes et les lignes du tableau sont bien identifiées;
il ne manque qu’un titre. 13 14 12 15 11 16 140 161 155 148 123 160 172 142 157 180 167 165 Âge Taille (cm) Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille Âge Taille 11 12 13 14 15 16 [120 , 130[ [130 , 140[ [140 , 150[ [150 , 160[ [160 , 170[ [170 , 180] Total (cm) Nous pouvons maintenant compiler les données.

16 Présentement les données sont inscrites d’une manière désordonnée.
Pour t’aider à la compilation, il serait préférable de les mettre en ordre croissant. 13 14 12 15 11 16 140 161 155 148 123 160 172 142 157 180 167 165 Âge Taille (cm) Tu peux faciliter ce travail avec la calculatrice à affichage graphique.

17 Il faut d’abord entrer les données.
13 14 12 15 11 16 140 161 155 148 123 160 172 142 157 180 167 165 Âge Taille (cm) L1 L2 EDIT CALC 1: Edit… 2: SortA( 3: SortD( 4: Clrlist Pèse sur la touche STAT 13 140 dans le menu qui apparaît, 13 161 14 155 sélectionne 1: Edit Tu obtiendras une autre fenêtre; dans la colonne L1, inscris les valeurs pour l’âge. À chaque entrée, pèse sur ENTER. Déplace-toi dans la colonne L2 avec les flèches et inscris les valeurs pour la taille. Tu devrais avoir deux listes inscrites comme dans le tableau ci-contre.

18 , Maintenant, repèse sur STAT 13 14 12 15 11 16 140 161 155 148 123
160 172 142 157 180 167 165 Âge Taille (cm) sélectionne 2: SortA( EDIT CALC 1: Edit… 2: SortA( 3: SortD( 4: Clrlist L1 SortA( , L2 La fenêtre qui apparaît, indique que la calculatrice est prête à mettre les données en ordre croissant. Appelle tes deux colonnes comme suit: 2nd puis la touche 1 Tu remarqueras, au-dessus, il est inscrit L1. La calculatrice affiche alors maintenant, inscris une virgule. ATTENTION: tu dois inscrire une virgule. Appelle maintenant la deuxième colonne 2nd puis la touche 2 La calculatrice affiche L2.

19 , Pèse sur ENTER, La calculatrice affichera DONE SortA( L1 L2
Les listes sont prêtes. DONE Remarque: Quand tu effectues cette opération, la calculatrice met en ordre croissant la colonne L1 qui correspond à la variable de référence ( dans le graphique, cette variable sera représentée sur l’axe des abscisses ); mais elle ne le fait pas pour la deuxième colonne car elle garde le lien d’association qui existait entre les variables avant l’opération. Pour retrouver les listes, refais dans l’ordre: STAT/ 1: Edit et regarde les nouvelles listes.

20 Avant Après 11 12 13 14 15 16 142 123 140 160 148 155 172 157 165 167 180 161 L1 L2 13 14 12 15 11 16 140 161 155 148 123 160 172 142 157 180 167 165 Âge Taille (cm) La colonne L1 est en ordre croissant. Le lien d’association est inchangé. Attention: Quand tu as terminé d’entrer les données, vérifie pour être certain de ne pas avoir fait d’erreur avant d’effectuer la mise en ordre, sinon, tu devras tout recommencer !

21 Remarque: Si tu as plusieurs listes de données, tu peux faire la même démarche. La première liste sera en ordre croissant et toutes les autres listes garderont le lien d’association avec elle et entre elles. Tu n’as qu’à procéder ainsi: Exemple pour 4 listes: SORTA( L1 , L2 , L3, L4 La première liste ( L1 ) est en ordre croissant et toutes les autres listes ont gardé le lien d’association). Bien entendu, la première liste sera en ordre croissant mais pas les autres.

22 Pour corriger une donnée:
Positionne le curseur sur la donnée, inscris la bonne donnée et pèse sur ENTER. L1 L2 EDIT CALC 1: Edit… 2: SortA( 3: SortD( 4: Clrlist 13 140 13 162 161 Si tu as fait plusieurs erreurs dans la même colonne: 14 155 Positionne le curseur sur l’entête de la colonne, Exemple: la colonne L2. Pèse sur CLEAR puis sur ENTER; La colonne est vide.

23 , Pour effacer toutes les listes de données rapidement: Crllist
EDIT CALC 1: Edit 2: SortA( 3: SortD( 4: Clrlist L1 , L2 Retourne dans STAT, Sélectionne 4: Crllist Rappelle les listes: 2nd 1 2 , Fais ENTER Les listes sont vides.

24 Nous sommes prêts pour la compilation.
11 12 13 14 15 16 142 123 140 160 148 155 172 157 165 167 180 161 L1 L2 Fais correspondre chaque couple dans la bonne case en indiquant un trait. Âge Taille 11 12 13 14 15 16 [120 , 130[ [130 , 140[ [140 , 150[ [150 , 160[ [160 , 170[ [170 , 180] Total (cm)

25 Maintenant, transforme ces barres en nombres.
Âge 11 12 13 14 15 16 Total Taille (cm) [120 , 130[ 1 1 [130 , 140[ [140 , 150[ 1 4 1 6 [150 , 160[ 1 2 1 4 [160 , 170[ 1 1 1 3 6 [170 , 180] 1 1 2 Total 2 5 3 4 4 1 19 Fais le total de chaque ligne et de chaque colonne. Le total de la dernière ligne et de la dernière colonne devrait être 19 puisqu’ils y avaient 19 adolescents dans l’échantillon. Si le total de ton tableau ne correspond pas à l’échantillon que tu étudies, tu dois avoir une erreur à quelque part.

26 Le tableau à double entrée est terminé.
Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille Âge Taille 11 12 13 14 15 16 [120 , 130[ [130 , 140[ [140 , 150[ [150 , 160[ [160 , 170[ [170 , 180] Total (cm) 1 4 2 3 6 5 19 Le tableau à double entrée donne certaines informations sur la répartition d’une distribution. Exemple: Ici, la majorité des adolescents de cet échantillon ont entre 12 et 15 ans et ont une taille entre 140 et 170 centimètres. Quelques exceptions existent.

27 Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille
11 12 13 14 15 16 [120 , 130[ [130 , 140[ [140 , 150[ [150 , 160[ [160 , 170[ [170 , 180] Total (cm) 1 4 2 3 6 5 19 Un tableau à double entrée démontre parfois une certaine corrélation quand les couples inscrits sont proches d’une des diagonales du tableau. Exemple: Dans cet exemple, une corrélation semble exister .

28 1 4 2 3 5 Ici, la corrélation semble assez forte puisque les données gravitent très près de la diagonale.

29 1 4 2 3 5 Ici, la corrélation est pratiquement nulle puisque les données sont dispersées dans tout le tableau.

30 Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille
11 12 13 14 15 16 [120 , 130[ [130 , 140[ [140 , 150[ [150 , 160[ [160 , 170[ [170 , 180] Total (cm) 1 4 2 3 6 5 19 Mais cette façon d’estimer une corrélation à partir d’un tableau est peu précise; elle donne une idée mais reste très approximative. Il nous faut donc un autre moyen plus précis, le nuage de points.

31 Le nuage de points Le nuage de points ( appelé aussi diagramme de dispersion ) est un graphique cartésien montrant les points correspondants aux couples d’une relation statistique. Utilisons l’exemple de l’âge et la taille de l’échantillon de 19 adolescents. 11 12 13 14 15 16 142 123 140 160 148 155 172 157 165 167 180 161 L1 L2 Remarque: Comme pour la construction du tableau à double entrée, il est préférable, pour faciliter le travail, de commencer par mettre la liste de données en ordre croissant par rapport à une des variables.

32 Chaque couple de données peut s’écrire comme un couple de coordonnées dans le plan cartésien.
Exemple: 11 12 13 14 15 16 142 123 140 160 148 155 172 157 165 167 180 161 L1 L2 ( 11, 142 ) La première coordonnée ( ici, l’âge ) sera représentée sur l’axe des abscisses. La deuxième coordonnée ( ici, la taille ) sera représentée sur l’axe des ordonnées. Il s’agit alors d’inscrire chaque couple dans un plan cartésien.

33 La graduation des axes est importante.
11 12 13 14 15 16 142 123 140 160 148 155 172 157 165 167 180 161 L1 L2 Sur un même axe, la distance entre les échelons doit être égale. Pour une meilleure interprétation, le graphique devrait avoir une forme approximativement carrée.

34 Pour déterminer la graduation, calcule en premier l’étendue de chaque distribution ( chaque colonne ). 11 12 13 14 15 16 142 123 140 160 148 155 172 157 165 167 180 161 L1 L2 L1: 16 – 11 = 5 Comme l’étendue est très petite, chaque petit trait vaudra 1. On commence avec un nombre inférieur à la première donnée et on termine avec un nombre supérieur à la dernière donnée. donc de 10 à 17 Âge 10 11 12 13 14 15 16 17 Remarque: Comme chaque trait représente une unité et que par rapport à l’origine il y a plusieurs unités qu’on n’utilise pas, il faut penser à mettre ce petit symbole:

35 Pour déterminer la graduation, calcule en premier l’étendue de chaque distribution ( chaque colonne ). 11 12 13 14 15 16 142 123 140 160 148 155 172 157 165 167 180 161 L1 L2 L2: 180 - 123 = 57 Ici, l’étendue de la distribution est de 180 – 123 donc de 57. On peut donc utiliser 6 intervalles d’une largeur de 10 unités chacun. Taille ( cm ) 180 170 160 150 140 130 120 Pense à

36 Nous pouvons maintenant tracer le nuage de points.
Il faut être le plus précis possible. Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille 11 12 13 14 15 16 142 123 140 160 148 155 172 157 165 167 180 161 L1 L2 10 11 12 13 14 15 16 17 Âge 120 130 140 150 160 170 Taille ( cm ) 180 2 ici, on a 2 fois le couple ( 12 , 148 ); 2 Remarque: on inscris alors un 2 à côté du point pour indiquer qu’il y en a 2.

37 Voilà, le nuage de points est tracé.
10 11 12 13 14 15 16 17 Âge 120 130 140 150 160 170 Taille ( cm ) 180 Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille 2 Le nuage de points est un graphique de dispersion. Il nous renseigne sur la corrélation entre deux variables.

38 La densité des points est un bon indice de la force d’une corrélation.
Lorsque les points sont très près les uns des autres, la corrélation est forte. Si les points sont situés un peu partout dans le graphique. La corrélation est faible.

39 Si les variables varient dans le même sens ( y augmente quand x augmente ) la corrélation est qualifiée de positive. Si les variables varient dans le sens contraire ( y diminue quand x augmente ) la corrélation est qualifiée de négative.

40 Les nuages de points représentent des observations faites avec des variables différentes; ils peuvent donc prendre toutes sortes de formes.

41 Si les points tendent à former une droite oblique,
on dit que la corrélation est linéaire. Nous nous intéresserons donc à ce type de nuage. Nous verrons comment estimer le coefficient de corrélation, c’est-à-dire déterminer un nombre qui décrit la densité des points du nuage. Comme la corrélation est linéaire, nous verrons comment en déterminer la droite de régression, c’est-à-dire y = ax + b.

42 Attention: La ligne « Âge » dans ce tableau est dans le même sens que l’axe des abscisses du nuage de points. 10 11 12 13 14 15 16 17 Âge Âge Taille 11 12 13 14 15 16 [120 , 130[ [130 , 140[ [140 , 150[ [150 , 160[ [160 , 170[ [170 , 180] Total (cm) 1 4 2 3 6 5 19

43 Attention: La colonne « taille » dans ce tableau n’est pas dans le même sens que l’axe des ordonnées du nuage de points. Âge Taille 11 12 13 14 15 16 [120 , 130[ [130 , 140[ [140 , 150[ [150 , 160[ [160 , 170[ [170 , 180] Total (cm) 1 4 2 3 6 5 19 120 130 140 150 160 170 Taille ( cm ) 180

44 Pour que la colonne soit dans le même sens, il faudrait l’écrire de bas en haut comme l’axe des ordonnées. Âge Taille 11 12 13 14 15 16 Total (cm) 2 5 3 4 1 19 [120 , 130[ [130 , 140[ [140 , 150[ 6 [150 , 160[ [160 , 170[ [170 , 180] 120 130 140 150 160 170 Taille ( cm ) 180 Alors, la diagonale monterait; les variables iraient dans le même sens. Il est important de se souvenir de cette particularité pour interpréter le tableau.

45 Il est important de se souvenir de cette particularité pour interpréter le tableau.
Âge Taille 11 12 13 14 15 16 [120 , 130[ [130 , 140[ [140 , 150[ [150 , 160[ [160 , 170[ [170 , 180] Total (cm) 1 4 2 3 6 5 19 Même si la diagonale descend, la relation entre la taille et l’âge est dans le même sens. La corrélation est donc positive.

46 Âge Taille 11 12 13 14 15 16 [120 , 130[ [130 , 140[ [140 , 150[ [150 , 160[ [160 , 170[ [170 , 180] Total (cm) 1 4 2 3 6 5 19 Ici la diagonale monte, la relation entre la taille et l’âge est dans le sens contraire. La corrélation est donc négative.

47 Dans le nuage de points, si la droite est comme ceci;
x et y varient dans le même sens. la corrélation est positive. Dans le nuage de points, si la droite est comme ceci; x et y varient dans le sens contraire. la corrélation est négative.

48 Dans le tableau à double entrée, si la diagonale est comme ceci:
x et y varient dans le même sens; la corrélation est positive. 1 4 2 3 5

49 Dans le tableau à double entrée, si la diagonale est comme ceci:
x et y varient dans le sens contraire; la corrélation est négative. 1 4 2 3 5

50 Le tableau à double entrée et le nuage de points sont deux modes de représentation d’une même réalité. Ils ne fonctionnent pas de la même façon.


Télécharger ppt "Statistique Tableau à double entrée Nuage de points."

Présentations similaires


Annonces Google