D Gile concepts de stats1 CONCEPTS DE STATISTIQUES Une sensibilisation

D Gile concepts de stats1 CONCEPTS DE STATISTIQUES Une sensibilisation daniel.gile@yahoo.com www.cirinandgile.com

D Gile concepts de stats2 LES STATS DANS LA VIE QUOTIDIENNE (1) Pas seulement dans les sciences et technologies Quand on nous demande - Combien de fois par semaines nous sortons - Combien nous dépensons pour les courses etc. Quand nous voyons quelquun dans la rue et décidons de changer de trottoir à cause de son allure Quand nous décidons que pour aller quelque part en vacances en saison, il faut réserver longtemps à lavance…

D Gile concepts de stats3 LES STATS DANS LA VIE QUOTIDIENNE (2) Dans tous ces cas, nous savons quil y a Une certaine variabilité dans le phénomène Que nous ne sortons pas exactement le même nombre de fois le soir toutes les semaines, Quune personne qui porte certains vêtements nest pas nécessairement agressive Que le taux doccupation des hôtels varie… Mais nous raisonnons statistiquement : Sur la base dinformations disponibles, nous calculons mentalement la probabilité dun événement, et agissons en conséquence

D Gile concepts de stats4 1ERE APPROCHE FORMELLE DES STATS Les statistiques sont un ensemble de concepts et de techniques qui cherchent à faire quelque chose danalogue Mais de manière plus systématique, explicite, précise et fiable. Cest leur nature systématique et la recherche de la précision et de la fiabilité, notamment dans lévaluation des probabilités derreurs, Qui en font un outil puissant pour la recherche Et pour bien dautres applications (notamment industrielles)

D Gile concepts de stats5 MESURER Pour simplifier : mesurer, cest affecter des valeurs chiffrées à des variables dune manière qui fait sens En statistique, on le fait surtout pour comparer Dans certains cas, cest facile (note en classe, vitesse, argent, nombre daccidents…) Dans dautres, plus difficile : Attitudes, sentiments…

D Gile concepts de stats6 LES VARIABLES En statistique, on traite de « variables » Les variables sont des caractéristiques « mesurables » de phénomènes ou dentités Pour être utiles, les variables doivent être définies avec précision. Sinon, il peut y avoir trop dincertitudes Ex: taux de chômage Quest-ce que le chômage? « Vous êtes au chômage si vous êtes disponible et recherchez un emploi et navez pas travaillé la semaine dernière » (Bureau of Labor Statistics) Et si vous nêtes pas entièrement disponible en raison dune activité non rémunérée familiale ou bénévole ? Et si vous avez travaillé la semaine dernière ?

D Gile concepts de stats7 LES ECHELLES DANS LES MESURES Nominale (nominal scale) : catégories (poisson, bœuf, porc, poulet) Ordinale: (ordinal scale) : Rang (premier, deuxième, troisième etc., mais pas de valeur dans labsolu (par ex. popularité de membres dun groupe) Echelle dintervalles (interval scale) : mesure de combien une valeur est « plus » quune autre (température) Echelle de ratios (ratio scale) : Quand en plus, la valeur zéro correspond à « absence » de la caractéristique mesurée par la variable (ex: 0 euros, cest labsence dargent – mais une température de 0 ne veut pas dire quil ny a pas de chaleur)

D Gile concepts de stats8 EXAMINER DES STATISTIQUES INTELLIGEMMENT - Source des données Qualité de la source ? A priori honnête, fiable ? - Non-sens ? « 90% des femmes disent quelle sont satisfaites » - Biais ? - Données partielles, ne montrent ou ne mettent en valeur graphiquement quun aspect du phénomène, peut-être le plus favorable à ce que lauteur des statistiques essaie de défendre ?

Apparences trompeuses * D Gile concepts de stats9

10 TABLEAUX ET GRAPHIQUES « Etes-vous daccord ou non sur lidée que la possession de petits quantités de hachich devrait être dépénalisée? » 928 daccord 543 pas daccord 66 ne sexpriment pas Plus parlant si : 60% daccord 35% pas daccord 4% ne sexpriment pas

D Gile concepts de stats11 FREQUENCE ET FREQUENCE RELATIVE Fréquence dune valeur : nombre de fois où elle apparaît 928 daccord 543 pas daccord 66 pas dopinion Fréquence relative : proportion de fois où elle apparaît 60% daccord 35% pas daccord 4% ne sexpriment pas

D Gile concepts de stats12 DONNEES UNIVARIEES ET MULTIVARIEES Respectivement sur une variable ou plusieurs variables Deux variables : sexe et diplôme 6 pour mille des diplômes sont des doctorats féminins 22,9% des doctorats sont féminins 1,34% des diplômes féminins sont des doctorats licenceM2Doctorat Hommes50854916774526273 Femmes4258491452567803 Total93444331300134076

D Gile concepts de stats13 GRAPHIQUES Représentations visuelles schématiques Souvent plus parlantes que tableau 60 % pour, 35 % contre, 5% Non réponse

D Gile concepts de stats14 STATISTIQUES DESCRIPTIVES ET INFERENTIELLES Quand masse dinformations Souvent difficile de dégager tendances (par ex. données météo sur la planète) Doù limportance de disposer doutils Permettant de les faire apparaître : Statistiques descriptives Souvent, besoin de généraliser Mais seules données sur sous-ensemble de la population disponibles Cest le rôle des statistiques inférentielles

D Gile concepts de stats15 STATISTIQUES CONCEPTS DE BASE Population : Lensemble des entités qui nous intéressent (personnes, objets, textes, actions dun certain type, sommes, entreprises…) Unité : Chacune des entités dont se compose la population Variable : Une caractéristique dun phénomène qui peut prendre différentes « valeurs », numériques ou non Distribution : La manière dont se répartissent les valeurs dune variable Echantillon : Sous-ensemble de la population, qui va être étudié pour en tirer des conclusions sur la population dans son ensemble Théorie des probabilités : théorie mathématique à la base des statistiques inférentielles

D Gile concepts de stats16 LA DISTRIBUTION DUNE VARIABLE (1) Cest la manière dont se répartissent ses valeurs Exemple 1 : Quand on jette une pièce en lair et quelle retombe. Deux valeurs, Pile et Face En principe, distribution égale : elle tombera en moyenne le même nombre de fois sur le côté Pile et sur le côté Face Exemple 2 : La taille des hommes en France en 2011 La plupart auront entre 170 et 180 cm, peu dentre eux auront moins de 160 cm et plus de 190 cm, etc. Ces distributions sont souvent représentées graphiquement par des courbes

D Gile concepts de stats17 LA DISTRIBUTION DUNE VARIABLE (2) Certaines distributions fréquentes dans la nature ont des caractéristiques mathématiques intéressantes qui facilitent les inférences La plus connue est la distribution dite « Gaussienne » ou « Normale », qui est symétrique autour dune moyenne et dont on peut calculer la valeur à chaque endroit de labscisse

D Gile concepts de stats18 STATISTIQUES DESCRIPTIVES Tendance centrale Y a-t-il une tendance générale dans toute cette variabilité ? Dispersion Les valeurs individuelles sont-elles plutôt regroupées autour de la tendance centrale, ou sont-elles plutôt dispersées ? [En statistiques, les distributions de variables sont caractérisées à travers trois critères, qui suffisent généralement : Forme de la distribution, tendance centrale et dispersion] Corrélation Semble-t-il y avoir un lien entre deux ou plusieurs variables ?

D Gile concepts de stats19 TENDANCES CENTRALES (1) Moyenne (mean) Intéressante si nombre relativement élevé de valeurs Pas sil y en a deux ou trois (à moins que lon sache quil y a une faible dispersion dans la population) Sensible à valeurs aberrantes si petit échantillon n = 4 10, 10, 10, 20 moyenne :12,5 n = 20 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 20 moyenne : 10,5

D Gile concepts de stats20 TENDANCES CENTRALES (2) Médiane (median) Divise la population en deux parties égales, lune avec des valeurs supérieures à la médiane, lautre avec des valeurs inférieures à la médiane 10, 11, 10, 12, 13, 13, 13 Médiane : 12 Nest pas sensible aux valeurs aberrantes 10,11, 10, 12, 13, 13, 20 Médiane : 12

D Gile concepts de stats21 TENDANCES CENTRALES (3) Mode (mode) Valeur la plus fréquente 10, 11, 12, 10, 10, 10, 9, 14 Mode : 10 (4 fois) 10, 11, 12, 10, 10, 12, 12, 9, 14 Modes : 10 (3 fois) et 12 (3 fois) (distribution bimodale)

D Gile concepts de stats22 TENDANCES CENTRALES (4) Quel est le meilleur indicateur de tendance centrale ? Si la distribution est plus ou moins symétrique, la moyenne est souvent un bon indicateur (mais pas toujours) Si linfluence des valeurs aberrantes est trop grande, la moyenne nest pas très adaptée pour mesurer la tendance générale et on peut lui préférer la médiane Le mode nest généralement pas très utile pour les variables quantitatives; il lest davantage pour les variables qualitatives (échelle nominale) Par exemple : quel est le plat le plus souvent commandé dans un restaurant ?

D Gile concepts de stats23 LA DISPERSION (1) La raison pour laquelle les mesures de tendance centrale sont nécessaires est la variabilité des valeurs mesurées. Sil ny en avait pas, on naurait pas besoin de mesurer la tendance centrale – elle serait immédiatement apparente. Mais la variabilité peut poser des problèmes, surtout pour les valeurs extrêmes (par ex. poids, taille pour meubles, ascenseurs, voitures…) On a donc besoin de mesurer non seulement la tendance générale, mais aussi la dispersion.

D Gile concepts de stats24 LA DISPERSION (2) La fourchette des valeurs (range) Peu intéressante, car ne prend en compte que les valeurs extrêmes 1, 10, 11, 12, 10, 11, 12, 13, 11, 12, 11, 11, 12, 11, 12, 12, 19 19 - 1 = 18 peu représentatif En réalité, faible dispersion Intervalle interquartile Interquartile range 2 2 5 5 6 7 8 20 Q 1 Q 2 Q 3 Q 4

D Gile concepts de stats25 LA DISPERSION (3) Lécart type (standard deviation) Le carré des distances entre les valeurs individuelles et la moyenne de ces valeurs, divisé par le nombre de ces valeur (généralement moins 1). On en prend la racine carrée. Un peu compliqué, mais il y a une raison mathématique : Lécart-type dune distribution Normale facilite le calcul des fréquences

D Gile concepts de stats26 LA CORRELATION Une mesure de la force dassociation entre deux variables Plusieurs coefficients (Spearmans rho, Pearsons r coefficient) Prend des valeurs entre -1 et +1 -1 et +1 sont des corrélations « parfaites » Qui permettent de prévoir la valeur de x daprès la valeur de y 0 : corrélation nulle, indique labsence dun lien entre x et y Corrélation positive: si x augmente, y augmente (courbe montante) Corrélation négative: si x augmente, y baisse (courbe descendante)

D Gile concepts de stats27 LA CORRELATION (1) Corrélation (positive) forte entre deux variables Il est clair que Y augmente quand X augmente, mais aussi que lon peut prévoir la valeur de Y à partir de la valeur de X

D Gile concepts de stats28 LA CORRELATION (2) Corrélation faible entre deux variables On ne voit pas très bien le lien entre X et Y Weak correlation -3 -2 0 1 2 3 4 5 6 7 02468 Value of variable X Weak correlation between X and Y

D Gile concepts de stats29 FORCE DE LA CORRELATION Coefficient de détermination : carré du coefficient de corrélation. Il mesure la proportion de la variabilité par rapport à la correspondance parfaite expliquée par la corrélation Une corrélation de 0,6 est-elle forte ? Elle nexplique que 36% de la variabilité Une corrélation de 0,7 nexplique que 49% de la variabilité Sen souvenir lorsquon lit les résultats de travaux où lon parle de corrélations « fortes »

D Gile concepts de stats30 STATISTIQUES INFERENTIELLES Partent dun échantillon (sous-ensemble de la population) pour déterminer les caractéristiques de populations, Réelles ou fictives, (expliqué plus loin) dont ils est tiré. (A condition quil en soit représentatif – discuté ultérieurement)

D Gile concepts de stats31 LES ECHANTILLONS (1) En principe, sauf extraordinaire, La distribution des valeurs dans un échantillon nest pas exactement superposable à la distribution des valeurs dans la population L « erreur déchantillonnage » (sampling error) Correspond à lécart entre les valeurs mesurées dans léchantillon et les valeurs dans la population. Il ne sagit pas dune « erreur » à proprement parler On peut la réduire, notamment en augmentant la taille de léchantillon (voir plus loin)

D Gile concepts de stats32 LES ECHANTILLONS (2) Lerreur déchantillonnage est aléatoire. En principe, si on prélève successivement de nombreux échantillons, cette erreur devrait être parfois positive, parfois négative, et sa moyenne devrait finir par devenir nulle. Le biais, en revanche, est une déviation systématique par rapport aux valeurs de la population. Cest le biais qui doit être évité, car il donne systématiquement une image fausse de la réalité.

D Gile concepts de stats33 LES ECHANTILLONS (3) La meilleure manière dêtre sûr déviter tout biais Est de sélectionner les unités de léchantillon Par un procédé strictement aléatoire (table de nombres aléatoires, ordinateur) Selon lequel toute unité dans la population a la même probabilité dêtre tirée Les procédés non aléatoires peuvent introduire un biais insoupçonné Dans la pratique, le tirage aléatoire est le plus souvent impossible

D Gile concepts de stats34 LES ECHANTILLONS (4) Un échantillon aléatoire simple (simple random sampling ou SRS) nest pas la seule manière dobtenir un échantillon non biaisé. Il existe dautres méthodes, qui consistent par exemple à diviser la population en sous-populations (strata) et à procéder à un échantillonnage aléatoire simple à lintérieur de chaque sous-population en proportion de son importance dans la population. (échantillonnage stratifié) Cest une autre manière de réduire lerreur déchantillonnage.

D Gile concepts de stats35 LES ECHANTILLONS (5) La moyenne dun échantillon est en général plus proche de la moyenne de la population quun élément quelconque de léchantillon. Si lon tire successivement de nombreux échantillons représentatifs, la moyenne de leurs moyennes est en général plus proche de la moyenne de la population que chacune de ces moyennes. Si lon tire une infinité déchantillons aléatoires, la moyenne de leurs moyennes est égale à la moyenne de la population.

D Gile concepts de stats36 LES ECHANTILLONS (6) Le rendement de laugmentation de la taille de léchantillon pour réduire lerreur déchantillonnage est fortement décroissant. Lerreur-type (standard error) est lécart-type de la distribution des moyennes déchantillons. Elle sobtient en divisant celui-ci par la racine carré de la taille de léchantillon n. Elle est donc moins importante que lécart-type, mais… Si n=100, lerreur-type est 10 fois moins importante que lécart- type. Si n=400, lerreur type nest que 20 fois inférieure Cest pourquoi lon naugmente pas nécessairement la taille des échantillons autant quil apparaîtrait normal au non initié

D Gile concepts de stats37 Très souvent, dans les statistiques inférentielles, on compare des populations : Des populations réelles : La population des bilingues précoces La population des bilingues tardifs Des populations fictives ou construites : La population des patients qui vont être soignés avec une nouvelle molécule A La population des patients qui vont être soignés avec une nouvelle molécule B Ces populations nexistent pas au moment de létude, mais les groupes sur lesquels va être réalisée une expérience sur ces molécules seront considérés comme représentant déventuelles populations A et B respectivement

D Gile concepts de stats38 Test dhypothèse (1) Chaque échantillon est considéré comme représentant une « population » correspondant à la « condition » concernée (population réelle, par exemple en épidémiologie ou en travail sur corpus, ou non, par exemple dans tests sur nouvelles molécules pharmaceutiques) Les caractéristiques de chacune de ces populations sont induites des caractéristiques trouvées sur les échantillons Essentiellement par calcul de la moyenne et de lécart-type dans léchantillon

D Gile concepts de stats39 Test dhypothèses (2) Un test statistique (statistical test) est un calcul fondé sur des hypothèses concernant la distribution et prenant en compte la moyenne et lécart type dans chacun des échantillons, qui indique la probabilité que les populations représentées par ces échantillons ne diffèrent pas entre elles, cad que statistiquement, elles sont « la même » Cest lhypothèse de différence nulle ou « hypothèse nulle » (null hypothesis) Qui soppose à lhypothèse alternative (alternative hypothesis) selon laquelle les populations diffèrent réellement

D Gile concepts de stats40 Test dhypothèses (3) Concrètement, en utilisant une formule mathématique, Il va calculer la probabilité que les différences relevées sur ces échantillons sont attribuable au seul effet du hasard (par opposition à une différence « réelle » ) Si cette probabilité est inférieure à un certain seul (souvent fixé à 0,5 ou à 0,01) On conclura que les différences entre les populations sont « significatives » (par convention, on dira souvent significant pour p<0,5 et highly significant pour p<0,01)

D Gile concepts de stats41 Le Français lecteur du Times Vous voyez dans la rue à Paris un homme moustachu et portant un béret et pensez au départ quil est français. En vous approchant, vous voyez quil lit le Times Or, vous savez que 95% des Français ne lisent quen français Suspense : Ce personnage est-il français ? Vous allez peut-être décider que puisquil lit le Times, il ne lest pas Mais en êtes vous-sûr ? Quelle est la probabilité quil est français en dépit de ses curieuses et condamnables lectures ?

D Gile concepts de stats42 Erreur de type I, erreur de type II Un « faux positif » serait le rejet injustifié de lhypothèse nulle selon laquelle lhomme fait partie des Français (après tout, 5% des Français ne lisent pas en français) Est appelé erreur de Type I Un « faux négatif », cad lacceptation injustifiée de lhypothèse nulle (en réalité, il sagit dun étranger qui vient manger le pain des Français – parce quil apprécie), est appelé erreur de Type II

D Gile concepts de stats43 Résultats significatifs On peut vouloir accepter les 5% de risques derreur de type I est dire que les différences entre les populations (telles que reflétées par les différences entre les échantillons comparés) sont « significatives » à 5%, ou à 0.05 On peut aussi ne vouloir accepter que 1% de risque derreur, auquel cas ce qui était significatif à 5% ne lest pas nécessairement à 1% Mais ces seuils sont conventionnels et arbitraires… Quand (en général), les valeurs mesurées sont numériques, passer de « oui » à « non » soudainement, entre 3,5 et 3,4…

D Gile concepts de stats44 Quest-ce qui justifie ces inférences ? (1) Quand, dans une population donnée, on tire un échantillon au hasard, puis un deuxième, puis un troisième etc., leurs moyennes auront une distribution qui tendra à approcher la distribution Normale. Il est souvent possible de calculer que 95% dentre elles se situeront entre telle valeur minimum et telle valeur maximum, …et que 99% dentre elles se situeront entre telle valeur minimum et telle valeur maximum Lintervalle entre cette valeur minimum et cette valeur maximum sappelle lintervalle de confiance

D Gile concepts de stats45 Quest-ce qui justifie ces inférences ? (2) On peut dire quelque chose danalogue des différences moyennes entre les moyennes de deux échantillons qui correspondent respectivement à deux populations. Si ces deux populations sont la même, 95% de ces différences se trouveront à lintérieur dun certain intervalle de confiance 99% de ces différences se trouveront à lintérieur dun autre intervalle de confiance La moyenne de deux échantillons tirés respectivement dans les deux populations peut être considérée comme représentative de la distribution des moyennes déchantillons tirés de manière répétitive

D Gile concepts de stats46 Si la différence entre ces moyennes se situe à lextérieur… …de lintervalle de confiance de 95% (ou de 99%) que calculera votre test Vous pouvez considérer quelle est « significative », (ou « hautement significative » respectivement) Puisque cette différence ne surviendrait que dans moins de 5% (ou 1% respectivement) des échantillons que vous tireriez si les deux populations étaient identiques

D Gile concepts de stats47 IMPORTANT (1) 1.Quand les données et les calculs indiquent une différence significative à un certain niveau (p < 0,05 ou p < 0,01 par exemple) Ils indiquent des probabilités, pas une certitude. Cest lhomme qui décide sil va considérer être suffisamment certain ou non 2. Les différences significatives ne disent rien sur lampleur des différences. Elles ne disent que la nature de ces différences, probablement liées à autre chose quà une variabilité aléatoire.

D Gile concepts de stats48 IMPORTANT (2) 3. Souvent, les tests se fondent sur certaines distributions mathématiques et sur certaines conditions (tests « paramétriques » ou parametric tests) (taille minimum des échantillons, distribution dun certain type dans la population, conditions de dispersion…) Si votre cas ny correspond pas tout à fait, Les résultats de ces tests ne sont pas fiables 4. Il existe aussi des tests qui se fondent sur une absence de connaissance de la distribution de la variable en question. Ils sont appelés tests « non-paramétriques » ou non parametric tests. Ils sont moins puissants que les tests paramétriques, ce qui veut dire quils ont une capacité moindre à détecter des différences significatives

D Gile concepts de stats49 IMPORTANT (3) 4. Si lun des échantillons est biaisé On ne saurait extrapoler les résultats à lensemble de la population En augmentant la taille de léchantillon On réduit la taille des intervalles de confiance, Ce qui donne davantage de « puissance » au test, Mais on nélimine pas le biais (sauf quand on en arrive à des échantillons qui couvrent quasiment la totalité de la population)

D Gile concepts de stats1 CONCEPTS DE STATISTIQUES Une sensibilisation

Présentations similaires

Présentation au sujet: "D Gile concepts de stats1 CONCEPTS DE STATISTIQUES Une sensibilisation"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

D Gile concepts de stats1 CONCEPTS DE STATISTIQUES Une sensibilisation

Présentations similaires

Présentation au sujet: "D Gile concepts de stats1 CONCEPTS DE STATISTIQUES Une sensibilisation"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back