Introduction à l’analyse statistique

Slides:



Advertisements
Présentations similaires
L’échantillonnage & Ses Fluctuations
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
Présentation des données
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Risques d’erreur statistique et test statistique
Test statistique : principe
Les tests d’hypothèses (I)
Statistique descriptive
Echantillonnage Introduction
Inférence statistique
Comparaison de deux moyennes observées
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Comparaison de deux pourcentages observés
Comparaison de plusieurs moyennes observées
Tests non paramétriques
Comparaison de plusieurs moyennes Analyse de variance
Nombre de sujets nécessaires en recherche clinique
1. Les caractéristiques de dispersion. 11. Utilité.
Les tests d’hypothèses
Statistique et probabilités au collège
Tests de comparaison de moyennes
Les principaux résumés de la statistique
L’inférence statistique
Nombre de sujets nécessaires en recherche clinique
Opération et systèmes de décision Faculté des Sciences de l administration MQT Probabilités et statistique Mesures caractéristiques.
Comprendre la variation dans les données: Notions de base
STATISTIQUES – PROBABILITÉS
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Les intervalles de confiance pour la moyenne d’une population
De la troisième à la seconde dans le champ du programme probabilités et statistiques Année scolaire
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Mesures de position Ils s’expriment dans la même unité que les observations Moyenne et moyenne pondérée Exemple : on dispose du nombre moyen d’enfants.
1 - Programme de Seconde (juin 2009) Statistique et probabilités
Méthodes de Biostatistique
Méthodes de Biostatistique
Statistique Descriptive Analyse des données
Méthodologie expérimentale : l’analyse des données
Thème: statistiques et probabilités Séquence 3: Statistique descriptive Utiliser un logiciel (par exemple, un tableur) ou une calculatrice pour étudier.
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Christophe Genolini INSERM U669 / Université de Paris X.
Rappels de statistiques descriptives
Biostatistiques Quand on souhaite étudier une (ou des) caractéristique(s) sur un ensemble d’individus ou d’objets, il est difficile, voir impossible, d’observer.
COURS STATISTIQUE - DESCRIPTIVE DEFINITIONS
PRINCIPE DES TESTS D’HYPOTHÈSE
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Cédric LAOUENAN 20/11/2008 Tests statistiques Cédric LAOUENAN 20/11/2008
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
STATISTIQUES – PROBABILITÉS
Seconde partie Cours de seconde
Introduction à une analyse statistique de données
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
PARAMETRES STATISTIQUES
STATISTIQUES DESCRIPTIVES
Statistique Descriptive Les Paramètres de Tendance Centrale
BIOSTATISTIQUES Définitions.
BIOSTATISTIQUES Définitions.
ECHANTILLONAGE ET ESTIMATION
Mesures de description des valeurs des variables
Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.
Introduction aux statistiques Intervalles de confiance
Nature de la statistique La statistique est la science qui étudie la collecte, la présentation, l’analyse et l’utilisation des données numériques en vue.
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Chapitre 4 Statistique descriptive 1. Echantillonnage statistique population On appelle population, un ensemble d’individus auquel on s’intéresse échantillon.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
STATISTIQUE DESCRIPTIVE
Transcription de la présentation:

Introduction à l’analyse statistique LAOUENAN Cédric 20/11/2008 cedric.laouenan@free.fr

Utilité des statistiques Résumer des données : statistiques descriptives (déductives) Tester des hypothèses : inférence statistique (inductives) Outils de la statistiques descriptive : tables de distribution de fréquence, résumés numériques (position, dispersion), graphiques Outils de la statistique inférentielle : estimation, intervalle de confiance, tests statistiques

Statistiques descriptives

Le but des statistiques descriptives est de décrire un ensemble d’observations à l’aide de quelques éléments caractéristiques Exemple : la taille moyenne des français adultes

Types de variables Qualitative (on définie des classes) Quantitative Nominal : malade/non malade groupe sanguin sexe catégorie socio-professionnelle Ordinal (si il existe un ordre sur les classes) : niveau d’étude stade de gravité d’une maladie Quantitative Discrète : nombre d’enfants d’une famille âge en années Continue : poids dosage biologique

Caractérisation des données qualitatives et ordinales Fréquence absolue et tableau des effectifs = nombre d’individus par classe Description de l’échantillon des groupes sanguins Fréquences relatives = pour chaque classe, le rapport de son effectif au nombre total d’individus Fréquences relatives (exprimées en pourcentage)

Caractérisation des données qualitatives et ordinales Fréquences cumulées (relatives et absolues) Les fréquences cumulées sont utilisées pour les données ordinales Cette présentation permet de dire, par exemple, que 92% des sujets examinés ont un stade inférieur ou égal à 2.

Caractérisation des données qualitatives et ordinales Diagramme « camembert » On peut représenter les effectifs absolus ou relatifs des classes par des secteurs de cercle dont la surface est proportionnelle à l’effectif

Caractérisation des données qualitatives et ordinales Diagramme en bâtons, mode Pour les données ordinales, on peut également représenter les fréquences absolues, relatives ou cumulées par un diagramme en bâtons

Caractérisation des données quantitatives Les paramètres de position Moyenne arithmétique : série de mesures : poids de 5 individus (70,0 ; 68,5 ; 72,5 ; 73,0 ; 76,0) Moyenne = 72 kg Médiane : nombre égal d’observations de part et d’autre il faut ordonner cette série de mesures (68,5 ; 70 ; 72,5 ; 73,0 ; 76,0) Médiane = 72,5 Kg (autant de mesures < 72,5 que de mesures > 72,5) La médiane est moins influencée que la moyenne par les valeurs extrêmes Mode : modalité observée avec la plus haute fréquence Quantiles (percentiles, déciles, quartiles) :on partage la distribution en un nombre quelconque de parties (100, 10, 4, etc.)

Caractérisation des données quantitatives Médiane Nombre impair d’observations (n=5) 1, 3, 7, 10, 15 2 obs. inférieures, 2 obs. supérieures Nombre pair d’observations (n=6) 1, 3, 7, 10, 15, 20 Médiane = (7+10)/2 = 8,5 Quantiles Exemple des quartiles : on définie 3 valeurs appelées quartiles : Q1, Q2 et Q3 qui partagent l’effectif total, après l’avoir ordonné, en 4 classes de même effectif (Q2 = médiane)

Caractérisation des données quantitatives Si la distribution de fréquences est symétrique et unimodale, moyenne, médiane et mode sont confondus

Caractérisation des données quantitatives Paramètres de dispersion Moyenne de la série : 1, 8, 9, 10, 11, 12, 19 = 10 Moyenne de la série : 8, 8, 9, 10, 11, 12, 12 = 10 mais la dispersion des mesures autour de la moyenne est ≠

Caractérisation des données quantitatives Paramètres de dispersion Variance : moyenne des carrés des écarts à la moyenne de l’échantillon Exemple : Calcul de la variance et de l’écart-type de la mesure des poids de 5 individus dans un échantillon de moyenne 72 kg

Caractérisation des données quantitatives Paramètres de dispersion Ecart-type : racine carrée de la variance Étendue : différence entre la plus grande et la plus petite valeur de la série Intervalle inter-quartile : représente 50 % des observations centrées sur la médiane. La largeur de cet intervalle = (Q3 - Q1)

Caractérisation des données quantitatives Histogramme Les données quantitatives continues peuvent être représentées par un histogramme La surface de chacun des rectangles est proportionnelle au nombre d’individus de la classe

Caractérisation des données quantitatives Boîtes à moustache max Q75 Q50 Q25 min

Statistique inférentielle (1) Estimation et intervalle de confiance

Définitions Population : ensembles d’unités sur lesquelles une caractéristique peut être relevée NB : les questions que l’on se pose, les hypothèses que l’on formule concernent la population Echantillon : partie de la population d’intérêt de taille suffisamment petite pour que la caractéristique auquel on s’intéresse puisse être effectivement mesurée sur tous les sujets qui le composent NB : Les observations faites sur l’échantillon servent à répondre aux questions que l’on se pose sur la population Les caractéristiques observées sont des variables aléatoires

Population, échantillon Le statisticien n’étudie pas le caractère sur l’ensemble de la population mais sur un échantillon extrait de la population, pour plusieurs raisons, entre autres : • La taille de la population peut être très importante et le coût de l’enquête serait trop important • L’accès à tous les individus de la population est matériellement impossible Un bon échantillon doit constituer une image réduite de l’ensemble de la population (= être représentatif) dont on veut étudier un caractère bien défini. Dans le cas contraire, on dit que l’échantillon est biaisé

Échantillonnage Comment choisir un échantillon pour qu’il soit représentatif ? Techniques d’échantillonnage par Tirage au sort (= sondage aléatoire)

Problème de l’estimation Comment les paramètres de la population peuvent-ils être estimés à partir de l'échantillon ? Il s’agit d’évaluer un paramètre sur un échantillon pour pouvoir estimer ce paramètre pour la population entière

Estimateur Un bon estimateur doit : Être sans biais Avoir une faible variance Biais et variance pour 3 estimateurs d’un paramètre θ : U1 et U2 sont 2 estimateurs sans biais avec Var(U1) < Var(U2) U3 est un estimateur biaisé

Intervalle d’estimation = intervalle de confiance = intervalle, déterminé à partir des données d’un échantillon, dans lequel on peut parier que se situe la vraie valeur de la population cible (avec un risque de se tromper acceptable) L’intervalle de confiance d’une valeur estimée dépend De la variabilité des données De la taille de l’échantillon Du niveau de confiance (probabilité que la vraie valeur se trouve dans un intervalle)

Construction de 100 estimations d’intervalle Construction de 100 estimations d’intervalle. La vraie valeur μ est correctement encadrée dans 95 % des situations Attention ! µ reste constant, c'est l'intervalle de confiance qui varie autour de µ pour chaque échantillon

Problèmes des échantillons Représentativité Fluctuation d’échantillonnage : variation de l’estimation de la vraie valeur (en population) d’un échantillon à l’autre du fait du simple hasard

Fluctuations aléatoires Échantillon 1 48% Échantillon 2 52% Échantillon 3 50% Échantillon 4 45% Obtenir pile à pile ou face (Probabilité = 50%)

Fluctuations aléatoires Échantillon 1 9% Échantillon 2 12% Échantillon 3 16% Échantillon 4 26% Même type de patients (Probabilité d'AVC = 12%)

Fluctuations aléatoires d'échantillonnage Fortes pour des effectifs petits et moyens Faibles pour des grands effectifs Jamais nulles

Fluctuations aléatoires d'échantillonnage Conséquences pour la comparaison de 2 échantillons les proportions observées dans 2 échantillons peuvent être différentes uniquement du fait du hasard même si dans ces 2 échantillons la vraie probabilité était la même Elles sont susceptibles de fausser les comparaisons

Conséquences des fluctuations Effet du traitement = 0 Vrai risque = 10% Vrai risque = 10% Groupe T+ Groupe T- Risque observé = 6% Risque observé = 12% Différence observée = -6%

Problématique des comparaisons La différence observée de -6% est-elle ? une manifestation des fluctuations aléatoires : donc due uniquement au hasard la traduction d’une réelle différence entre les deux groupes : donc d’un effet non nul du traitement et donc décider d'utiliser le nouveau traitement Comment départager ces 2 possibilités ? Solution = test statistique

Le hasard peut faire apparaître une différence qui n'existe pas en réalité Inversement, le hasard peut réduire une différence qui existe réellement donc 2 façons de fausser la conclusion

Statistique inférentielle (2) Principes généraux des tests statistiques

Les tests statistiques Il s’agit de tirer des conclusions sur la population à partir de l’étude d’un ou plusieurs caractères observés sur les individus d’un ou de plusieurs échantillons issus de cette population Tests d’hypothèses : ils permettent de faire des inférences statistiques Outils d'aide à la décision

Risques d’erreur statistique Deux risques d'erreur Risque alpha Risque bêta Erreurs statistiques dues uniquement au hasard Principe conclure à une différence que si le risque de faire une erreur est faible

Erreur statistique alpha (petit p) Risque alpha (faux positif) : risque de conclure à une différence qui n’existe pas considérer comme efficace un traitement qui ne l’est pas Vrai valeur 12% Échantillon 1 7.5% Échantillon 2 15% Différence non réelle

Erreur statistique bêta (puissance) Risque bêta (faux négatif) : risque de ne pas mettre en évidence une différence qui existe réellement ne pas conclure alors que le traitement est efficace Vrai valeur 12% Échantillon 1 15% Fausse absence de différence Vrai valeur 19% Échantillon 2 15%

Erreur bêta Erreur alpha Conclusion Différence Pas de différence Différence Pas d’erreur Erreur bêta Réalité Pas de différence Erreur alpha Pas d’erreur

Principe général du test statistique Quelle est la probabilité de commettre une erreur si je conclus à partir de ces données à l'existence d'une réelle différence p0 = 13% Probabilité faible Probabilité forte Conclusion Pas de conclusion Conclure à l'existence d'une différence que si le risque de faire une conclusion erronée est faible

Démarche du test statistique Calcul de la probabilité p p : probabilité que "la différence observée soit due uniquement au hasard" p représente le risque de faire une conclusion erronée si l'on décidait de conclure p est une quantification du risque alpha On ne conclut que si ce risque d'erreur est suffisamment petit

Seuil de risque Seuil de risque de conclusion erronée acceptable seuil de risque alpha = 5% si p<0,05  rejeter H0  conclusion = diff. significative si p>0,05  ne pas rejeter H0  conclusion = diff. non significative On contrôle le risque alpha mais le risque d'erreurs alpha persiste 100 essais avec un traitement sans efficacité conclusion à tort à l'efficacité dans 5 essais

Signification statistique Différence significative p<0.05 Il est peu probable que la différence observée soit due au hasard Différence non significative p>0.05 La probabilité que la différence observée soit due au hasard est forte Différence observée Test Seuil de signification statistique = 5%

Réalisation du test Calcul à partir des données de la probabilité de commettre une erreur alpha = p p<5%  conclusion à l'existence de la différence parce que le risque de faire une conclusion fausse est faible p1 = 7% p = 0.04 p0 = 13% p>5%  impossible de conclure à l'existence d'une différence car si on concluait à une différence, le risque d'erreur serait trop fort p1 = 20% p = 0.25 p0 = 17%

Risque d'erreur bêta Le risque bêta est incalculable Impossible de quantifier le risque d'erreur quand on fait une conclusion d'absence de différence il est donc impossible de faire ce type de conclusion les tests permettent seulement de conclure à l'existence d'une différence en cas de différence non signification impossible de conclure et ne permet surtout pas de conclure à l'absence de différence vu que le risque d'erreur est inconnu "l'absence de preuve n'est pas la preuve de l'absence"

Différence non significative (NS) Absence réelle d'effet Résultat non significatif ? Manque de puissance

Exemple OBJECTIF : Evaluer l’efficacité d’une injection unique de tobramycine chez des patientes atteintes une pyélonéphrite aiguë RÉSULTATS : 118 patientes ont été inclues, 60 dans le groupe tobramycine et 58 dans le groupe placebo. - 2 échecs sont survenus dans le groupe tobramycine - et 4 dans le groupe placebo (p non significatif). CONCLUSION : L’administration d’une dose de tobramycine n’améliore aucun paramètre clinique dans le traitement des pyélonéphrites aiguës (ou manque de puissance…?)

Dualité entre test et intervalle de confiance

Intervalle de confiance Intervalle qui a 95% de chance de contenir la vraie valeur « IC 95% » il est raisonnable de parier que la vraie valeur est dans l'intervalle (prob de 95%) il est peu probable (prob 5%) que la vraie valeur soit > à la borne sup ou que la vraie valeur soit < à la borne inf il est donc peu raisonnable de parier que la vraie valeur soit à l'extérieur de l'IC

Intervalle de confiance Différence = -6% IC 95% = [-8%;-4%] L’intervalle [-8%;-4%] à 95% de chance de contenir la vraie valeur de la différence Reflète l'incertitude de l'estimation Il n'est pas possible d'exclure que le vrai effet ne soit que de -4% p<0.05 NS IC 95% -8 -6 -4 Résultat observé

Relation entre IC et test IC d’une différence n'incluant pas 0 [-10% ; -4%] la probabilité d’avoir ce type d’intervalle si la vraie valeur est zero est <=5% donc il est possible de conclure à une différence non nulle car le risque d’erreur alpha est <=5% = différence significative (au seuil de 5%) IC de la différence des risques incluant 0 [-20% ; 20%] = différence non significative

-5% [-10%,-2%] P<0.05 -2% [-9%;+2%] NS Différence