Introduction à l’analyse statistique

Name: Introduction à l’analyse statistique
Uploaded: 2017-10-19T17:58:32+00:00
Duration: PTM20S11
Channel: Franck Combe
Description: Introduction à l’analyse statistique

Introduction à l’analyse statistique
LAOUENAN Cédric 20/11/2008

Utilité des statistiques
Résumer des données : statistiques descriptives (déductives) Tester des hypothèses : inférence statistique (inductives) Outils de la statistiques descriptive : tables de distribution de fréquence, résumés numériques (position, dispersion), graphiques Outils de la statistique inférentielle : estimation, intervalle de confiance, tests statistiques

Statistiques descriptives

Le but des statistiques descriptives est de décrire un ensemble d’observations à l’aide de quelques éléments caractéristiques Exemple : la taille moyenne des français adultes

Types de variables Qualitative (on définie des classes) Quantitative
Nominal : malade/non malade groupe sanguin sexe catégorie socio-professionnelle Ordinal (si il existe un ordre sur les classes) : niveau d’étude stade de gravité d’une maladie Quantitative Discrète : nombre d’enfants d’une famille âge en années Continue : poids dosage biologique

Caractérisation des données qualitatives et ordinales
Fréquence absolue et tableau des effectifs = nombre d’individus par classe Description de l’échantillon des groupes sanguins Fréquences relatives = pour chaque classe, le rapport de son effectif au nombre total d’individus Fréquences relatives (exprimées en pourcentage)

Fréquences cumulées (relatives et absolues) Les fréquences cumulées sont utilisées pour les données ordinales Cette présentation permet de dire, par exemple, que 92% des sujets examinés ont un stade inférieur ou égal à 2.

Diagramme « camembert » On peut représenter les effectifs absolus ou relatifs des classes par des secteurs de cercle dont la surface est proportionnelle à l’effectif

Diagramme en bâtons, mode Pour les données ordinales, on peut également représenter les fréquences absolues, relatives ou cumulées par un diagramme en bâtons

Caractérisation des données quantitatives
Les paramètres de position Moyenne arithmétique : série de mesures : poids de 5 individus (70,0 ; 68,5 ; 72,5 ; 73,0 ; 76,0) Moyenne = 72 kg Médiane : nombre égal d’observations de part et d’autre il faut ordonner cette série de mesures (68,5 ; 70 ; 72,5 ; 73,0 ; 76,0) Médiane = 72,5 Kg (autant de mesures < 72,5 que de mesures > 72,5) La médiane est moins influencée que la moyenne par les valeurs extrêmes Mode : modalité observée avec la plus haute fréquence Quantiles (percentiles, déciles, quartiles) :on partage la distribution en un nombre quelconque de parties (100, 10, 4, etc.)

Médiane Nombre impair d’observations (n=5) 1, 3, 7, 10, 15 2 obs. inférieures, 2 obs. supérieures Nombre pair d’observations (n=6) 1, 3, 7, 10, 15, 20 Médiane = (7+10)/2 = 8,5 Quantiles Exemple des quartiles : on définie 3 valeurs appelées quartiles : Q1, Q2 et Q3 qui partagent l’effectif total, après l’avoir ordonné, en 4 classes de même effectif (Q2 = médiane)

Si la distribution de fréquences est symétrique et unimodale, moyenne, médiane et mode sont confondus

Paramètres de dispersion Moyenne de la série : 1, 8, 9, 10, 11, 12, 19 = 10 Moyenne de la série : 8, 8, 9, 10, 11, 12, 12 = 10 mais la dispersion des mesures autour de la moyenne est ≠

Paramètres de dispersion Variance : moyenne des carrés des écarts à la moyenne de l’échantillon Exemple : Calcul de la variance et de l’écart-type de la mesure des poids de 5 individus dans un échantillon de moyenne 72 kg

Paramètres de dispersion Ecart-type : racine carrée de la variance Étendue : différence entre la plus grande et la plus petite valeur de la série Intervalle inter-quartile : représente 50 % des observations centrées sur la médiane. La largeur de cet intervalle = (Q3 - Q1)

Histogramme Les données quantitatives continues peuvent être représentées par un histogramme La surface de chacun des rectangles est proportionnelle au nombre d’individus de la classe

Boîtes à moustache max Q75 Q50 Q25 min

Statistique inférentielle (1)
Estimation et intervalle de confiance

Définitions Population : ensembles d’unités sur lesquelles une caractéristique peut être relevée NB : les questions que l’on se pose, les hypothèses que l’on formule concernent la population Echantillon : partie de la population d’intérêt de taille suffisamment petite pour que la caractéristique auquel on s’intéresse puisse être effectivement mesurée sur tous les sujets qui le composent NB : Les observations faites sur l’échantillon servent à répondre aux questions que l’on se pose sur la population Les caractéristiques observées sont des variables aléatoires

Population, échantillon
Le statisticien n’étudie pas le caractère sur l’ensemble de la population mais sur un échantillon extrait de la population, pour plusieurs raisons, entre autres : • La taille de la population peut être très importante et le coût de l’enquête serait trop important • L’accès à tous les individus de la population est matériellement impossible Un bon échantillon doit constituer une image réduite de l’ensemble de la population (= être représentatif) dont on veut étudier un caractère bien défini. Dans le cas contraire, on dit que l’échantillon est biaisé

Échantillonnage Comment choisir un échantillon pour qu’il soit
représentatif ? Techniques d’échantillonnage par Tirage au sort (= sondage aléatoire)

Problème de l’estimation
Comment les paramètres de la population peuvent-ils être estimés à partir de l'échantillon ? Il s’agit d’évaluer un paramètre sur un échantillon pour pouvoir estimer ce paramètre pour la population entière

Estimateur Un bon estimateur doit : Être sans biais
Avoir une faible variance Biais et variance pour 3 estimateurs d’un paramètre θ : U1 et U2 sont 2 estimateurs sans biais avec Var(U1) < Var(U2) U3 est un estimateur biaisé

Intervalle d’estimation = intervalle de confiance
= intervalle, déterminé à partir des données d’un échantillon, dans lequel on peut parier que se situe la vraie valeur de la population cible (avec un risque de se tromper acceptable) L’intervalle de confiance d’une valeur estimée dépend De la variabilité des données De la taille de l’échantillon Du niveau de confiance (probabilité que la vraie valeur se trouve dans un intervalle)

Construction de 100 estimations d’intervalle
Construction de 100 estimations d’intervalle. La vraie valeur μ est correctement encadrée dans 95 % des situations Attention ! µ reste constant, c'est l'intervalle de confiance qui varie autour de µ pour chaque échantillon

Problèmes des échantillons
Représentativité Fluctuation d’échantillonnage : variation de l’estimation de la vraie valeur (en population) d’un échantillon à l’autre du fait du simple hasard

Fluctuations aléatoires
Échantillon 1 48% Échantillon 2 52% Échantillon 3 50% Échantillon 4 45% Obtenir pile à pile ou face (Probabilité = 50%)

Fluctuations aléatoires
Échantillon 1 9% Échantillon 2 12% Échantillon 3 16% Échantillon 4 26% Même type de patients (Probabilité d'AVC = 12%)

Fluctuations aléatoires d'échantillonnage
Fortes pour des effectifs petits et moyens Faibles pour des grands effectifs Jamais nulles

Fluctuations aléatoires d'échantillonnage
Conséquences pour la comparaison de 2 échantillons les proportions observées dans 2 échantillons peuvent être différentes uniquement du fait du hasard même si dans ces 2 échantillons la vraie probabilité était la même Elles sont susceptibles de fausser les comparaisons

Conséquences des fluctuations
Effet du traitement = 0 Vrai risque = 10% Vrai risque = 10% Groupe T+ Groupe T- Risque observé = 6% Risque observé = 12% Différence observée = -6%

Problématique des comparaisons
La différence observée de -6% est-elle ? une manifestation des fluctuations aléatoires : donc due uniquement au hasard la traduction d’une réelle différence entre les deux groupes : donc d’un effet non nul du traitement et donc décider d'utiliser le nouveau traitement Comment départager ces 2 possibilités ? Solution = test statistique

Le hasard peut faire apparaître une différence qui n'existe pas en réalité
Inversement, le hasard peut réduire une différence qui existe réellement donc 2 façons de fausser la conclusion

Statistique inférentielle (2)
Principes généraux des tests statistiques

Les tests statistiques
Il s’agit de tirer des conclusions sur la population à partir de l’étude d’un ou plusieurs caractères observés sur les individus d’un ou de plusieurs échantillons issus de cette population Tests d’hypothèses : ils permettent de faire des inférences statistiques Outils d'aide à la décision

Risques d’erreur statistique
Deux risques d'erreur Risque alpha Risque bêta Erreurs statistiques dues uniquement au hasard Principe conclure à une différence que si le risque de faire une erreur est faible

Erreur statistique alpha (petit p)
Risque alpha (faux positif) : risque de conclure à une différence qui n’existe pas considérer comme efficace un traitement qui ne l’est pas Vrai valeur 12% Échantillon 1 7.5% Échantillon 2 15% Différence non réelle

Erreur statistique bêta (puissance)
Risque bêta (faux négatif) : risque de ne pas mettre en évidence une différence qui existe réellement ne pas conclure alors que le traitement est efficace Vrai valeur 12% Échantillon 1 15% Fausse absence de différence Vrai valeur 19% Échantillon 2 15%

Erreur bêta Erreur alpha
Conclusion Différence Pas de différence Différence Pas d’erreur Erreur bêta Réalité Pas de différence Erreur alpha Pas d’erreur

Principe général du test statistique
Quelle est la probabilité de commettre une erreur si je conclus à partir de ces données à l'existence d'une réelle différence p0 = 13% Probabilité faible Probabilité forte Conclusion Pas de conclusion Conclure à l'existence d'une différence que si le risque de faire une conclusion erronée est faible

Démarche du test statistique
Calcul de la probabilité p p : probabilité que "la différence observée soit due uniquement au hasard" p représente le risque de faire une conclusion erronée si l'on décidait de conclure p est une quantification du risque alpha On ne conclut que si ce risque d'erreur est suffisamment petit

Seuil de risque Seuil de risque de conclusion erronée acceptable
seuil de risque alpha = 5% si p<0,05  rejeter H0  conclusion = diff. significative si p>0,05  ne pas rejeter H0  conclusion = diff. non significative On contrôle le risque alpha mais le risque d'erreurs alpha persiste 100 essais avec un traitement sans efficacité conclusion à tort à l'efficacité dans 5 essais

Signification statistique
Différence significative p<0.05 Il est peu probable que la différence observée soit due au hasard Différence non significative p>0.05 La probabilité que la différence observée soit due au hasard est forte Différence observée Test Seuil de signification statistique = 5%

Réalisation du test Calcul à partir des données de la probabilité de commettre une erreur alpha = p p<5%  conclusion à l'existence de la différence parce que le risque de faire une conclusion fausse est faible p1 = 7% p = 0.04 p0 = 13% p>5%  impossible de conclure à l'existence d'une différence car si on concluait à une différence, le risque d'erreur serait trop fort p1 = 20% p = 0.25 p0 = 17%

Risque d'erreur bêta Le risque bêta est incalculable
Impossible de quantifier le risque d'erreur quand on fait une conclusion d'absence de différence il est donc impossible de faire ce type de conclusion les tests permettent seulement de conclure à l'existence d'une différence en cas de différence non signification impossible de conclure et ne permet surtout pas de conclure à l'absence de différence vu que le risque d'erreur est inconnu "l'absence de preuve n'est pas la preuve de l'absence"

Différence non significative (NS)
Absence réelle d'effet Résultat non significatif ? Manque de puissance

Exemple OBJECTIF : Evaluer l’efficacité d’une injection unique de tobramycine chez des patientes atteintes une pyélonéphrite aiguë RÉSULTATS : 118 patientes ont été inclues, 60 dans le groupe tobramycine et 58 dans le groupe placebo. - 2 échecs sont survenus dans le groupe tobramycine - et 4 dans le groupe placebo (p non significatif). CONCLUSION : L’administration d’une dose de tobramycine n’améliore aucun paramètre clinique dans le traitement des pyélonéphrites aiguës (ou manque de puissance…?)

Dualité entre test et intervalle de confiance

Intervalle de confiance
Intervalle qui a 95% de chance de contenir la vraie valeur « IC 95% » il est raisonnable de parier que la vraie valeur est dans l'intervalle (prob de 95%) il est peu probable (prob 5%) que la vraie valeur soit > à la borne sup ou que la vraie valeur soit < à la borne inf il est donc peu raisonnable de parier que la vraie valeur soit à l'extérieur de l'IC

Intervalle de confiance
Différence = -6% IC 95% = [-8%;-4%] L’intervalle [-8%;-4%] à 95% de chance de contenir la vraie valeur de la différence Reflète l'incertitude de l'estimation Il n'est pas possible d'exclure que le vrai effet ne soit que de -4% p<0.05 NS IC 95% -8 -6 -4 Résultat observé

Relation entre IC et test
IC d’une différence n'incluant pas 0 [-10% ; -4%] la probabilité d’avoir ce type d’intervalle si la vraie valeur est zero est <=5% donc il est possible de conclure à une différence non nulle car le risque d’erreur alpha est <=5% = différence significative (au seuil de 5%) IC de la différence des risques incluant 0 [-20% ; 20%] = différence non significative

-5% [-10%,-2%] P<0.05 -2% [-9%;+2%] NS Différence

Introduction à l’analyse statistique

Présentations similaires

Présentation au sujet: "Introduction à l’analyse statistique"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Introduction à l’analyse statistique

Présentations similaires

Présentation au sujet: "Introduction à l’analyse statistique"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back