Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parRaoul Gaumond Modifié depuis plus de 7 années
1
Notions de statistiques et d’analyse de données
Master 1 MGOSL – Sarah MISCHLER –
2
Définition des statistiques
Méthode scientifique consistant à réunir des données chiffrées sur des ensembles nombreux puis analyser, commenter, critiquer ces données. La statistique permet de rendre lisible un flux important de données. Statistique Descriptive : ensemble des méthodes et techniques mathématiques permettant de présenter, décrire et résumer un ensemble de données.
3
L’intervalle de confiance
Enquête par questionnaire DONC échantillonnage Connaître la fiabilité que l'on peut accorder aux valeurs observées par rapport aux valeurs réelles de la population totale. Un intervalle de confiance permet donc de définir une marge d'erreur entre les résultats d'une enquête et un relevé exhaustif de la population totale. Intervalle de confiance = degré de confiance de l’intervalle considéré. Expression en % IC à 95 % : encadrement correct 95 fois sur 100 en moyenne, C'est-à-dire que si l'on pouvait répéter des estimations de même nature un grand nombre de fois, en affirmant à chaque fois que le paramètre à estimer se trouve dans cet intervalle, on se tromperait en moyenne 5 fois sur cent.
4
L’intervalle de confiance
L'augmentation du degré de confiance entraîne un étalement de l'intervalle de confiance et donc une diminution de la précision : IC à 90%, on se tromperait 10 fois sur 100 en affirmant qu’à chaque fois le paramètre à estimer se trouve dans cet intervalle Plus l’intervalle de confiance est important moins on peut faire confiance aux résultats Calcul à partir de la taille d’échantillon et du seuil statistique : 99% : le plus prudent 95% : le plus répandu 90% : rarement utilisé Pour un intervalle de confiance au seuil statistique de 99%, on est sûr à 99% que la vraie valeur se situe dans la marge d’erreur de la valeur issue du sondage
5
Calcul de l’IC Population mère de plus de 500 personnes
Echantillon de 30 personnes Moyenne d’âge (m) = 25 ans Ecart-type (σ) = 2 ans La moyenne d'âge de l'ensemble de la population diffère probablement de cette moyenne observée. Il y a une marge d’erreur que nous pouvons estimer avec le calcul de l’intervalle de confiance (avec 5% de risque d'erreur ou 95 % de certitude ou de confiance) Définition : l’observation d’une moyenne m sur un échantillon de n personnes permet de calculer une moyenne inconnue située dans l’intervalle défini par: m ± 1,96 xσ √n
6
Exemple 1 : Avec n=30 m=25 σ =2,0 25 ± 1,96 x2 √30 25,0 ± 3,92 5,48
Calcul de l’IC Exemple 1 : Avec n=30 m=25 σ =2,0 25 ± 1,96 x2 √30 25,0 ± 3,92 5,48 25,0 ± 0,72
L'intervalle varie donc de [24,28 à 25,72] Exemple 2 : Avec n=100 m=25 σ =2,0 25 ± 1,96 x2 √100 25,0 ± 3,92 10 25,0 ± 0,39
L'intervalle varie donc de [24,61 à 25,39] Que remarque-t-on ?
7
Calcul de l’IC Que remarque-t-on ? Exemple 3 : Avec n=100 m=25 σ =4,0
√100 25,0 ± 7,84 10 25,0 ± 0,78
L'intervalle varie donc de [24,22 à 25,78] Que remarque-t-on ? Exemple 3 Exemple 2 Exemple 1 Age 26 25 24
8
IC d’un pourcentage P0 ± 1,96 x√(P0xQ0) n
Soit P0 le pourcentage observé et n le nombre d’observations P0 = pourcentage observé Q0 = le pourcentage complémentaire de P0 Exemple : P0 = 25 % de femmes => Q0 = = 75 % d’hommes. Définition : l’observation d’un pourcentage P0 sur un échantillon de n personnes permet de calculer une pourcentage inconnu qui sera située dans l’intervalle défini par: P0 ± 1,96 x√(P0xQ0) n
9
IC d’un pourcentage Exemple 1 :
Sur un échantillon de 32 étudiants, j'observe 8 femmes. A combien puis-je estimer le pourcentage de femmes parmi l'ensemble des étudiants de la faculté ? Solution : n = 32 Po = 25 % de femmes 1. Calcul de Qo = 100 – Po = 100 – 25 = 75 2. Formule : 25 ± 1,96 x √(25X75/32) 3. Po x Qo = 25 x 75 = 1875 4. (Po x Qo)/N = 1875/32 = 58,59 5. √58,59 = 7,65 6. 1,96 x 7,65 = 15,00 Donc l’IC est de : 25% ± 15,0 soit IC : [10,0 % à 40,0 %] d'où un intervalle compris entre [ 10,0 % et 40,0 % ]. Il y a entre 10% et 40% de femmes à parmi les étudiants de la faculté
10
IC d’un pourcentage Exemple 2 : n = 100 25% de femmes
Résultat : 25% ± 8,49 %. On aura un intervalle IC : [16,51 % à 33,49 %] Que remarque-t-on ? On a gagné en précision avec cet échantillon n = 100 : l’intervalle se resserre. Avec n = 100, l'intervalle passe de 30 à 17 environ. L’intervalle diminue quand le nombre de personnes interrogées augmente
11
IC d’un pourcentage 1er cas : Po = 1 % avec n = 1000 personnes.
1 % ± 0,62 d'où un intervalle compris entre [ 0,38 % à 1,62 % ] Cet intervalle "mesure" 1,2 . 2ème cas : Po = 50 % avec n = 1000 personnes. 50 % ± 3,10 d'où un intervalle compris entre [ 46,9 % à 53,1 % ] Cet intervalle "mesure" 6,20. Conclusion ?
12
IC d’un pourcentage - synthèse
13
Les variables statistiques
Qualitatives Une qualité non quantifiée Quantitatives Une mesure, une quantité Texte Nominale Pas d’ordre, de classement Peu structurées Ordinale Notion d’ordre Classement Hiérarchisation Discrète Une valeur unique Continue Une valeur possible dans un intervalle
14
L’analyse univariée Comptage des réponses prises une par une…
… en absolu = effectifs Et/ou … en relatif : % L’analyse univariée permet de : Quantifier le taux de NR Détecter des incohérences Décider des regroupements pertinents Vérifier la structure de l’échantillon
15
1. Les paramètres de tendances centrales
L’analyse univariée 1. Les paramètres de tendances centrales Le mode, la médiane, la moyenne
16
Définition : Modalité observée la plus fréquente
a) Le mode Définition : Modalité observée la plus fréquente Nombre d’enfants Effectifs 10 1 30 2 40 3 20 = le mode = modalité la plus fréquente
17
Le mode n’est pas forcément unique
a) Le mode Le mode n’est pas forcément unique Nombre d’enfants Effectifs 10 1 30 2 40 3 20 4 5 6 7 = le mode = modalité la plus fréquente = le mode = modalité la plus fréquente
18
b) La médiane Définition :
Les n observations sont rangées de manière croissante, la médiane est la valeur qui permet de partager la suite ordonnées en 2 parties d’égale importance (50/50)
19
1er cas : n est impair n=2k+1
b) La médiane 1er cas : n est impair n=2k+1 1 2 3 4 5 k=5 observations k=5 observations Médiane = observation centrale Médiane = 2
20
Médiane = observation encadrante
b) La médiane 2ème cas : n est pair n=2k 1 2 3 4 k=5 observations k=5 observations Médiane = observation encadrante Médiane = (1+2)/2 = 1,5
21
c) La moyenne arithmétique
Exercice : Calculer la puissance moyenne Puissance CV Effectifs 2 24 3 18 4 12 5 26 6 7 28 8 9 14 10 11 16 20
22
c) La moyenne arithmétique
Corrigé : Puissance CV Effectifs ni Produit ni*xi 2 24 48 3 18 54 4 12 5 26 130 6 36 7 28 196 8 192 9 14 126 10 120 11 16 176 20 240 Total 200 1366 Moyenne = 1366/200 = 6,83 CV
23
c) La moyenne arithmétique
Formule de la moyenne : Pour un échantillon de n observations notées x1, x2, x3,...,xn , la moyenne arithmétique est égale à : (n1*x1+…+nn*xn)/N M= 1/N ∑ ni Xi
24
c) La moyenne arithmétique
Formule de la moyenne : Pour un échantillon de n observations notées x1, x2, x3,...,xn , la moyenne arithmétique est égale à : (n1*x1+…+nn*xn)/N M= 1/N ∑ ni Xi
25
Les tris à plats c) La moyenne arithmétique
Dans le cas d’une variable continue Moyenne = 7000/40 = 175 cm
26
2. Les paramètres de dispersion L’étendue, la variance et l’écart-type
Les tris à plats 2. Les paramètres de dispersion L’étendue, la variance et l’écart-type
27
Notions préliminaires
28
Notions préliminaires
29
a) L’étendue Définition :
On appelle étendue ou intervalle de variation d’une série la différence entre la plus grande et la plus petite des valeurs de la variable figurant dans cette série.
30
b) La variance et l’écart type
Définition de la variance : Moyenne des écarts à la moyenne au carré Définition de l’écart-type : Racine carré de la variance
31
b) La variance et l’écart type
Calcul de la variance
32
b) La variance et l’écart type
33
b) La variance et l’écart type
34
b) La variance et l’écart type
35
3. Sur des variables nominales
Analyse univariée 3. Sur des variables nominales
36
Tris à plat sur une variable nominale
On calcule la fréquence d'apparition de chacune des modalités (ou réponse) au sein d'une population
37
Tris à plat sur une variable nominale Les questions à réponses multiples
Si plusieurs réponses, le nombre d’interviews n’est pas égal au nombre de réponses. DONC La somme des fréquences relatives est supérieure à 100%. Si l’on veut normaliser ces fréquences, on divise les effectifs par le nombre de réponses au lieu du nombre d’interviews. On obtient alors le taux d’importance
38
Tris à plat sur une variable nominale Les questions à réponses multiples
39
L’analyse bivariée 1. Fréquences et profil
40
1. Fréquences et profil
41
1. Fréquences et profil Pour chaque type de pratique quelle est la proportion d’hommes et de femmes ? On construit alors le tableau des profils lignes
42
1. Fréquences et profil Quel est le type de pratique en fonction du sexe ? On parle alors de profil colonne :
43
Les tris croisés 2. Le Khi2
44
2. Le khi2 Un questionnaire a été soumis à 1584 élèves de terminale (ES et STT) et étudiants de sciences éco, AES, etc. Nombre de personnes interrogées : 1584 Individus Deux questions on été posées : 1. Vous êtes actuellement en : T ES – TSTT – L1 – L2 – L3 – M1 – M2 – BTS 1 – BTS 2 2. Selon vous la Chaîne a été introduite dans les entreprises industrielles par : F. Taylor - A. Smith – H. Ford
45
2. Le khi2 Le tri à plat restitue la distribution des différentes réponses obtenues à une question TES TSTT L1 L2 L3 M1 M2 BTS2 BTS1 Somme Effectif 586 183 306 152 212 43 12 49 41 1584 % 36,99 11,55 19,32 9,6 13,38 2,71 0,76 3,09 2,59 100
46
2. Le khi2 Observés TES TSTT Total H. Ford 323 45 368 F. Taylor 238 126 364 A. Smith 24 11 35 585 182 767 La question qui se pose est de savoir s’il y a un lien entre le niveau d’étude et la réponse à la question. Observés (en %) TES TSTT H. Ford 55 25 F. Taylor 41 69 A. Smith 4 6 Total 100
47
2. Le khi2 On utilise le test du Khi² D’INDEPENDANCE
L’hypothèse nulle (H0) est dans ce cas l’indépendance entre les deux variables. Si Ho est retenue (à un seuil donné) alors, il y a indépendance entre les deux variables. Autrement dit la répartition des réponses pour une variable ne dépend pas de l’autre. Si Ho est rejetée (à un seuil donné), alors il y a dépendance entre les deux variables. Autrement dit, la répartition des réponses pour une variable dépend de l’autre variable
48
Si Khi2 calc < khi2 lu donc H0 conservée Si Khi2 calc > khi2 lu donc H0 rejetée
49
2. Le khi2 H0 : les variables sont indépendantes Seuil fixé : p=.05
Formule du Khi²:
50
2. Le khi2 DDL = (Nbr conditions V1-1) X (Nbr conditions V2-1)
Le calcul donne comme résultat : DDL = 2 ; Khi² = 51.88 ; p<.05 Khi² (calculé) > Khi² (lu) Ho est rejetée à p=.05. Il n’y a pas indépendance entre la classe et la répartition des réponses. Par conséquent la répartition des réponses dépend de la classe.
51
2. Le khi2
52
2. Le khi2 Le Khi² se calcule sur des effectifs et non des pourcentages Le Khi² d’indépendance indique si il y a dépendance (ou non) entre deux variables et n’indique pas le sens du lien. Le Khi² nécessite un nombre minimum d’observations et nécessite parfois des corrections.
53
Mise en application avec le logiciel Sphinx
Créer un questionnaire Saisir des données Traiter et analyser les données
54
Mise en application avec le logiciel sphinx
Elaborer un tableau à plat sur une variable numérique : Choisir la variable âge Quelles sont les paramètres que l’ont peut identifier ? Moyenne, Ecart-type, Médiane Mais aussi le mode et l’intervalle de confiance Possibilité de transformer une variable numérique en variable nominale par une mise en classe La mise en classe peut répondre à plusieurs logiques : - des classes d’amplitudes égales : -25 ans, 25 à 39 ans, 40 à 54 ans, 55 ans et plus - en fonction de l’écart-type, +/-1 écart type - viser une équirépartition des classes
55
Mise en application avec le logiciel sphinx
Elaborer un tableau à plat sur une variable nominale : Choisir la variable sexe Quels sont les paramètres que l’ont peut identifier ? Mode, effectifs, fréquence Mais aussi intervalle de confiance
56
Mise en application avec le logiciel sphinx
Elaborer des tableaux croisés Le choix du traitement et les tests statistiques dépendent de la nature des variables On peut croiser : 2 variables nominales : tris croisés, test chi2 1 variable nominale et une numérique : tableau de moyennes, test de Student, Fisher 2 variables numériques : corrélation
57
Mise en application avec le logiciel sphinx
Croiser une variable nominale et d’une variable numérique : Elaborer un tableau des moyennes croisées Le test statistique réalisé est le test de Student qui compare la moyenne de la case à la moyenne de l’ensemble des observations étudiées. Les cases significativement différentes de la moyenne sont encadrées en bleu si la moyenne de la case est supérieure et en rouge si elle est inférieure Le test de fischer : il indique si la relation entre 2 variables est significatives Les cases colorées montrent les catégories dont les moyennes sont statistiquement différentes de la moyenne générale
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.