Notions de statistiques et d’analyse de données

Slides:



Advertisements
Présentations similaires
1 Licence Stat-info CM1 b 2004Christophe Genolini 2.1. Vocabulaire Individu : objet étudié Population : Ensemble des individus Variable : nom donné à ce.
Advertisements

Statistique Descriptive Les Paramètres de Tendance Centrale
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
Outils Statistiques Damien Van Gysel CHU de Nice
Atelier 1 Le problème du surpoids sur géogébra. Etude de la prévalence du surpoids: (document Ressources pour la classe de terminale) Situation: On souhaite.
Du chapitre 1 au chapitre 2 1. Les graphiques : introduction (p.15)  Pour prendre possession des données o des chiffres dans un tableau, c’est bien o.
I. Le contexte de l‘enquête par questionnaire II. L’élaboration du questionnaire III. Du traitement des données à la synthèse Module TTU, adaptation M.KHIDER.
« Objectifs BAC » : Savoir différencier les tables de mobilité brute avec les tables de destinée et les tables de recrutement Savoir lire une table de.
Généralisation de la comparaison de moyennes par Analyse de la variance (ANOVA)
Organisation, gestion de données Les connaissances que l'enseignant doit maîtriser à son niveau Présentation réalisée à partir de l'ouvrage de Roland Charnay.
Chapitre 6. Introduction à l’échantillonnage Les sondages Notions fondamentales Fluctuations d’échantillonnage d’une moyenne Théorème central limite C6-1.
Utilisation du logiciel EduStat © Analyse classique d’items L’examen du rapport.
Chapitre 5 Interprétation des données d’enquête
Et maintenant, le mode : fastoche !
V Suite géométrique : 1°) Définition : un+1
Suites ordonnées ou mettre de l’ordre
Corrélation et régression linéaire simple
Tableau à double entrée
Chapitre 1 Généralités sur les données
Statistiques descriptives univariées
Les distributions en classes
Interprétation des indicateurs?
Comparaison de deux pourcentages.
1. La moyenne arithmétique ( )
Chapitre 1 Généralités sur les données
Loi Normale (Laplace-Gauss)
4°) Intervalle de fluctuation :
Reprise du cours ( ) Aujourd’hui :
Chapitre 13 : Echantillonnage
Coefficient de corrélation linéaire
chapitre 3 Les Statistiques
POL1803: Analyse des techniques quantitatives
Plans d’experiences : plans de melanges
et discussion de l'article 2
Technologies de l’intelligence d’affaires Séance 12
4.3 Estimation d’une proportion
Statistique Descriptive chapitre 0 : Introduction
Statistiques industrielles – Exemple d’application
Méthode Taguchy Analyse de la variance Anavar
4.2 Estimation d’une moyenne
Introduction aux statistiques Intervalles de confiance
Statistiques Sociales LC4
ACP Analyse en Composantes Principales
Statistiques. Moyenne, Moyenne pondérée, Tableur et graphiques.
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
 1____Probabilité  2______variables aléatoires discrètes et continues  3______loi de probabilités d’une v a  4_______les moyens et les moyens centraux.
Chapitre 3 : Caractéristiques de tendance centrale
Statistiques.
Fluctuations d’une fréquence selon les échantillons, Probabilités
POL1803: Analyse des techniques quantitatives
Rappel (3): les étapes des tests statistiques
P LAMBOLEZ Partie maths V GILLOT Partie anglais
Mode, moyenne et médiane
Test 2.
Présentation 3 : Sondage aléatoire simple
Présentation 5 : Sondage à probabilités inégales
On lance 100 fois de suite une pièce de monnaie.
Présentation 9 : Calcul de précision des estimateurs complexes
Centre d’études et de recherches sur les qualifications
L’ANALYSE DES DONNEES Samuel MAYOL S. Mayol - L’analyse des données.
Position, dispersion, forme
Les erreurs de mesure Projet d’Appui au renforcement des capacités
Programme d’appui à la gestion publique et aux statistiques
Conception cartographique
Utiliser le modèle log-linéaire pour mettre au jour la structure du lien entre les deux variables d’un tableau de contingence : un exemple d’application.
Les méthodes quantitatives en éducation
Tests d’hypothèses paramétriques 1 Cours Statistiques Chapitre 9.
Impact Evaluation 4 Peace March 2014, Lisbon, Portugal 1 Echantillonage pour une Evaluation d’Impact Latin America and the Caribbean’s Citizen Security.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
Transcription de la présentation:

Notions de statistiques et d’analyse de données Master 1 MGOSL – Sarah MISCHLER –

Définition des statistiques Méthode scientifique consistant à réunir des données chiffrées sur des ensembles nombreux puis analyser, commenter, critiquer ces données. La statistique permet de rendre lisible un flux important de données.   Statistique Descriptive : ensemble des méthodes et techniques mathématiques permettant de présenter, décrire et résumer un ensemble de données.

L’intervalle de confiance Enquête par questionnaire DONC échantillonnage Connaître la fiabilité que l'on peut accorder aux valeurs observées par rapport aux valeurs réelles de la population totale. Un intervalle de confiance permet donc de définir une marge d'erreur entre les résultats d'une enquête et un relevé exhaustif de la population totale.   Intervalle de confiance = degré de confiance de l’intervalle considéré. Expression en % IC à 95 % : encadrement correct 95 fois sur 100 en moyenne, C'est-à-dire que si l'on pouvait répéter des estimations de même nature un grand nombre de fois, en affirmant à chaque fois que le paramètre à estimer se trouve dans cet intervalle, on se tromperait en moyenne 5 fois sur cent.

L’intervalle de confiance L'augmentation du degré de confiance entraîne un étalement de l'intervalle de confiance et donc une diminution de la précision : IC à 90%, on se tromperait 10 fois sur 100 en affirmant qu’à chaque fois le paramètre à estimer se trouve dans cet intervalle Plus l’intervalle de confiance est important moins on peut faire confiance aux résultats Calcul à partir de la taille d’échantillon et du seuil statistique : 99% : le plus prudent 95% : le plus répandu 90% : rarement utilisé Pour un intervalle de confiance au seuil statistique de 99%, on est sûr à 99% que la vraie valeur se situe dans la marge d’erreur de la valeur issue du sondage

Calcul de l’IC Population mère de plus de 500 personnes Echantillon de 30 personnes Moyenne d’âge (m) = 25 ans Ecart-type (σ) = 2 ans La moyenne d'âge de l'ensemble de la population diffère probablement de cette moyenne observée. Il y a une marge d’erreur que nous pouvons estimer avec le calcul de l’intervalle de confiance (avec 5% de risque d'erreur ou 95 % de certitude ou de confiance) Définition : l’observation d’une moyenne m sur un échantillon de n personnes permet de calculer une moyenne inconnue située dans l’intervalle défini par: m ± 1,96 xσ √n

Exemple 1 : Avec n=30 m=25 σ =2,0 25 ± 1,96 x2 √30 25,0 ± 3,92 5,48 Calcul de l’IC Exemple 1 : Avec n=30 m=25 σ =2,0 25 ± 1,96 x2 √30 25,0 ± 3,92 5,48 25,0 ± 0,72
L'intervalle varie donc de [24,28 à 25,72] Exemple 2 : Avec n=100 m=25 σ =2,0 25 ± 1,96 x2 √100 25,0 ± 3,92 10 25,0 ± 0,39
L'intervalle varie donc de [24,61 à 25,39] Que remarque-t-on ?

Calcul de l’IC Que remarque-t-on ? Exemple 3 : Avec n=100 m=25 σ =4,0 √100 25,0 ± 7,84 10 25,0 ± 0,78
L'intervalle varie donc de [24,22 à 25,78] Que remarque-t-on ? Exemple 3 Exemple 2 Exemple 1 Age 26 25 24

IC d’un pourcentage P0 ± 1,96 x√(P0xQ0) n Soit P0 le pourcentage observé et n le nombre d’observations P0 = pourcentage observé Q0 = le pourcentage complémentaire de P0 Exemple : P0 = 25 % de femmes => Q0 = 100 - 25 = 75 % d’hommes. Définition : l’observation d’un pourcentage P0 sur un échantillon de n personnes permet de calculer une pourcentage inconnu qui sera située dans l’intervalle défini par: P0 ± 1,96 x√(P0xQ0) n

IC d’un pourcentage Exemple 1 : Sur un échantillon de 32 étudiants, j'observe 8 femmes. A combien puis-je estimer le pourcentage de femmes parmi l'ensemble des étudiants de la faculté ?   Solution : n = 32 Po = 25 % de femmes 1. Calcul de Qo = 100 – Po = 100 – 25 = 75 2. Formule : 25 ± 1,96 x √(25X75/32) 3. Po x Qo = 25 x 75 = 1875 4. (Po x Qo)/N = 1875/32 = 58,59 5. √58,59 = 7,65 6. 1,96 x 7,65 = 15,00 Donc l’IC est de : 25% ± 15,0 soit IC : [10,0 % à 40,0 %] d'où un intervalle compris entre [ 10,0 % et 40,0 % ]. Il y a entre 10% et 40% de femmes à parmi les étudiants de la faculté

IC d’un pourcentage Exemple 2 : n = 100 25% de femmes Résultat : 25% ± 8,49 %. On aura un intervalle IC : [16,51 % à 33,49 %] Que remarque-t-on ? On a gagné en précision avec cet échantillon n = 100 : l’intervalle se resserre. Avec n = 100, l'intervalle passe de 30 à 17 environ. L’intervalle diminue quand le nombre de personnes interrogées augmente

IC d’un pourcentage 1er cas : Po = 1 % avec n = 1000 personnes. 1 % ± 0,62 d'où un intervalle compris entre [ 0,38 % à 1,62 % ] Cet intervalle "mesure" 1,2 . 2ème cas : Po = 50 % avec n = 1000 personnes. 50 % ± 3,10 d'où un intervalle compris entre [ 46,9 % à 53,1 % ] Cet intervalle "mesure" 6,20. Conclusion ?

IC d’un pourcentage - synthèse

Les variables statistiques Qualitatives Une qualité non quantifiée Quantitatives Une mesure, une quantité Texte Nominale Pas d’ordre, de classement Peu structurées Ordinale Notion d’ordre Classement Hiérarchisation Discrète Une valeur unique Continue Une valeur possible dans un intervalle

L’analyse univariée Comptage des réponses prises une par une… … en absolu = effectifs Et/ou … en relatif : % L’analyse univariée permet de : Quantifier le taux de NR Détecter des incohérences Décider des regroupements pertinents Vérifier la structure de l’échantillon

1. Les paramètres de tendances centrales L’analyse univariée 1. Les paramètres de tendances centrales Le mode, la médiane, la moyenne

Définition : Modalité observée la plus fréquente a) Le mode Définition : Modalité observée la plus fréquente Nombre d’enfants Effectifs 10 1 30 2 40 3 20 = le mode = modalité la plus fréquente

Le mode n’est pas forcément unique a) Le mode Le mode n’est pas forcément unique Nombre d’enfants Effectifs 10 1 30 2 40 3 20 4 5 6 7 = le mode = modalité la plus fréquente = le mode = modalité la plus fréquente

b) La médiane Définition : Les n observations sont rangées de manière croissante, la médiane est la valeur qui permet de partager la suite ordonnées en 2 parties d’égale importance (50/50)

1er cas : n est impair n=2k+1 b) La médiane 1er cas : n est impair n=2k+1 1 2 3 4 5 k=5 observations k=5 observations Médiane = observation centrale Médiane = 2

Médiane = observation encadrante b) La médiane 2ème cas : n est pair n=2k 1 2 3 4 k=5 observations k=5 observations Médiane = observation encadrante Médiane = (1+2)/2 = 1,5

c) La moyenne arithmétique Exercice : Calculer la puissance moyenne Puissance CV Effectifs 2 24 3 18 4 12 5 26 6 7 28 8 9 14 10 11 16 20

c) La moyenne arithmétique Corrigé : Puissance CV Effectifs ni Produit ni*xi 2 24 48 3 18 54 4 12 5 26 130 6 36 7 28 196 8 192 9 14 126 10 120 11 16 176 20 240 Total 200 1366 Moyenne = 1366/200 = 6,83 CV

c) La moyenne arithmétique Formule de la moyenne : Pour un échantillon de n observations notées x1, x2, x3,...,xn , la moyenne arithmétique est égale à : (n1*x1+…+nn*xn)/N M= 1/N ∑ ni Xi

c) La moyenne arithmétique Formule de la moyenne : Pour un échantillon de n observations notées x1, x2, x3,...,xn , la moyenne arithmétique est égale à : (n1*x1+…+nn*xn)/N M= 1/N ∑ ni Xi

Les tris à plats c) La moyenne arithmétique Dans le cas d’une variable continue Moyenne = 7000/40 = 175 cm

2. Les paramètres de dispersion L’étendue, la variance et l’écart-type Les tris à plats 2. Les paramètres de dispersion L’étendue, la variance et l’écart-type

Notions préliminaires

Notions préliminaires

a) L’étendue Définition : On appelle étendue ou intervalle de variation d’une série la différence entre la plus grande et la plus petite des valeurs de la variable figurant dans cette série.

b) La variance et l’écart type Définition de la variance : Moyenne des écarts à la moyenne au carré Définition de l’écart-type : Racine carré de la variance

b) La variance et l’écart type Calcul de la variance

b) La variance et l’écart type

b) La variance et l’écart type

b) La variance et l’écart type

3. Sur des variables nominales Analyse univariée 3. Sur des variables nominales

Tris à plat sur une variable nominale On calcule la fréquence d'apparition de chacune des modalités (ou réponse) au sein d'une population

Tris à plat sur une variable nominale Les questions à réponses multiples  Si plusieurs réponses, le nombre d’interviews n’est pas égal au nombre de réponses. DONC La somme des fréquences relatives est supérieure à 100%. Si l’on veut normaliser ces fréquences, on divise les effectifs par le nombre de réponses au lieu du nombre d’interviews. On obtient alors le taux d’importance

Tris à plat sur une variable nominale Les questions à réponses multiples 

L’analyse bivariée 1. Fréquences et profil

1. Fréquences et profil

1. Fréquences et profil Pour chaque type de pratique quelle est la proportion d’hommes et de femmes ? On construit alors le tableau des profils lignes 

1. Fréquences et profil Quel est le type de pratique en fonction du sexe ? On parle alors de profil colonne :

Les tris croisés 2. Le Khi2

2. Le khi2 Un questionnaire a été soumis à 1584 élèves de terminale (ES et STT) et étudiants de sciences éco, AES, etc. Nombre de personnes interrogées : 1584 Individus Deux questions on été posées : 1. Vous êtes actuellement en : T ES – TSTT – L1 – L2 – L3 – M1 – M2 – BTS 1 – BTS 2 2. Selon vous la Chaîne a été introduite dans les entreprises industrielles par : F. Taylor - A. Smith – H. Ford

2. Le khi2 Le tri à plat restitue la distribution des différentes réponses obtenues à une question   TES TSTT L1 L2 L3 M1 M2 BTS2 BTS1 Somme Effectif 586 183 306 152 212 43 12 49 41 1584 % 36,99 11,55 19,32 9,6 13,38 2,71 0,76 3,09 2,59 100

2. Le khi2 Observés TES TSTT Total H. Ford 323 45 368 F. Taylor 238 126 364 A. Smith 24 11 35 585 182 767 La question qui se pose est de savoir s’il y a un lien entre le niveau d’étude et la réponse à la question. Observés (en %) TES TSTT H. Ford 55 25 F. Taylor 41 69 A. Smith 4 6 Total 100

2. Le khi2 On utilise le test du Khi² D’INDEPENDANCE L’hypothèse nulle (H0) est dans ce cas l’indépendance entre les deux variables. Si Ho est retenue (à un seuil donné) alors, il y a indépendance entre les deux variables. Autrement dit la répartition des réponses pour une variable ne dépend pas de l’autre. Si Ho est rejetée (à un seuil donné), alors il y a dépendance entre les deux variables. Autrement dit, la répartition des réponses pour une variable dépend de l’autre variable

Si Khi2 calc < khi2 lu donc H0 conservée Si Khi2 calc > khi2 lu donc H0 rejetée

2. Le khi2 H0 : les variables sont indépendantes Seuil fixé : p=.05 Formule du Khi²:

2. Le khi2 DDL = (Nbr conditions V1-1) X (Nbr conditions V2-1) Le calcul donne comme résultat : DDL = 2 ; Khi² = 51.88 ; p<.05 Khi² (calculé) > Khi² (lu) Ho est rejetée à p=.05. Il n’y a pas indépendance entre la classe et la répartition des réponses. Par conséquent la répartition des réponses dépend de la classe.

2. Le khi2

2. Le khi2 Le Khi² se calcule sur des effectifs et non des pourcentages Le Khi² d’indépendance indique si il y a dépendance (ou non) entre deux variables et n’indique pas le sens du lien. Le Khi² nécessite un nombre minimum d’observations et nécessite parfois des corrections.

Mise en application avec le logiciel Sphinx Créer un questionnaire Saisir des données Traiter et analyser les données

Mise en application avec le logiciel sphinx Elaborer un tableau à plat sur une variable numérique : Choisir la variable âge Quelles sont les paramètres que l’ont peut identifier ? Moyenne, Ecart-type, Médiane Mais aussi le mode et l’intervalle de confiance   Possibilité de transformer une variable numérique en variable nominale par une mise en classe La mise en classe peut répondre à plusieurs logiques : - des classes d’amplitudes égales : -25 ans, 25 à 39 ans, 40 à 54 ans, 55 ans et plus - en fonction de l’écart-type, +/-1 écart type - viser une équirépartition des classes

Mise en application avec le logiciel sphinx Elaborer un tableau à plat sur une variable nominale : Choisir la variable sexe Quels sont les paramètres que l’ont peut identifier ? Mode, effectifs, fréquence Mais aussi intervalle de confiance

Mise en application avec le logiciel sphinx Elaborer des tableaux croisés Le choix du traitement et les tests statistiques dépendent de la nature des variables On peut croiser : 2 variables nominales : tris croisés, test chi2 1 variable nominale et une numérique : tableau de moyennes, test de Student, Fisher 2 variables numériques : corrélation  

Mise en application avec le logiciel sphinx Croiser une variable nominale et d’une variable numérique : Elaborer un tableau des moyennes croisées Le test statistique réalisé est le test de Student qui compare la moyenne de la case à la moyenne de l’ensemble des observations étudiées. Les cases significativement différentes de la moyenne sont encadrées en bleu si la moyenne de la case est supérieure et en rouge si elle est inférieure   Le test de fischer : il indique si la relation entre 2 variables est significatives Les cases colorées montrent les catégories dont les moyennes sont statistiquement différentes de la moyenne générale