Statistique A-J Valleron
statistiques Statistique « statizein » (grec) « statisticus » (bas latin) « statista » (italien) « statistik » (allemand) Statistique Statistique descriptive Statistique inférentielle
La variabilité Un concept clé: Un objet d’étude en soi: « tous les hommes sont différents » « la théorie de l’évolution » Un objet d’étude en soi: Savoir mesurer la variabilité Établir des cartes de la variabilité Un guide pour découvrir: La variabilité, mesure de l’espace à découvrir. Identifier des sous populations
La variabilité, et ses niveaux Entre populations Entre individus Intra individus (et aussi, l’erreur de mesure)
Le raisonnement probabiliste: la recherche de la cause causalité n’est pas déterminisme. Le tabac cause le cancer des bronches Affirmation compatible avec : Tous les fumeurs n’ont pas le cancer Tous les cancéreux des bronches n’ont pas fumé Risque attribuable à un facteur : Le risque de cancer des bronches attribuable au tabac est de 80%
Le raisonnement probabiliste: l’exemple du diagnostic La fièvre (>39°) permet de diagnostiquer la grippe. Mais… Sensibilité ~ 65% 65 porteurs du virus sur 100 ont une fièvre >39+ Spécificité ~ 80% (en période épidémique) 80 consultants non infectés sur 100 ont une fièvre <39°
Le raisonnement probabiliste: l’exemple du traitement Le vaccin contre la grippe est efficace: Sur 100 jeunes adultes exposés, il évitera ~30 grippes Efficacité vaccinale ~ 30%. (dépend de la population, de l’année, …)
Probabilités et Statistique Le calcul des probabilités (déductif) modéliser la variabilité Calculer la chance/ le risque d’un événement connaissant les lois de probabilité La statistique (inférentielle) Le mot clé : l’échantillon (pris dans une population de référence). La méthode : l’inférence (comment trouver la loi qui s’applique dans la population à partir des informations recueillies sur l’échantillon?)
Les sondages (politiques) Pas tirés au sort Quota, etc.. C’est l’échantillon tiré au sort qui permet la meilleure précision.
Les problèmes à une variable Estimer la proportion de ... dans la population des … Difficultés: Définir la population Réaliser un échantillon représentatif (tirage au sort) dans cette population Donner une « fourchette » pour l’estimation. ( fourchette pour 50% sur n = 900 : 46,7% à 53,3%)
Les problèmes à deux variables Estimer la corrélation entre deux variables dans une population Difficultés: la définition de la population est moins critique Distinguer entre deux problèmes différents: Savoir si les deux variables sont corrélées Mesurer la force de la liaison entre les deux variables
Le projet minimal de Statistique Un échantillon, un questionnaire, une analyse, les conclusions, le rapport Remarques Échantillon de quelle population de référence? Toujours préférer les projets à 2 échantillons qui permettent de COMPARER. travailler sur la qualité du questionnaire (intelligibilité, reproductibilité, …)
La causalité Différences entre corrélation et cause Analyse des arguments de causalité (et de non causalité) rendant compte d’un réseau de corrélations. faiblesses de l’observation (en médecine, en sciences humaines, ..). force théorique de l’expérimentation ; limitations pratiques, culturelles, éthiques à certaines expérimentations.
Les critères de causalité de Bradford Hill Force de l’association Relation dose-effet Plausibilité biologique Répétabilité temporalité Spécificité Possibilité de vérification expérimentale Cohérence Analogie
La comparaison de deux échantillons La question est : que peut-on conclure pour les populations d’où viennent ces échantillons Tests statistiques difficiles . Simulations sur ordinateur? Mais examen des (non) superpositions des « fourchettes » possible. Permet une initiation au raisonnement de l’inférence.
L’évaluation Un traitement est-il efficace? nécessité de définir un groupe témoin répartition des malades par tirage au sort « double aveugle » Que retenir? l’évaluation est nécessairement comparative. il faut faire les bonnes comparaisons.
Le cas des très petites probabilités « le risque zéro » Observer 0 événements sur un échantillon ne signifie pas qu’il y a 0 évenement dans la population Mais on peut donner une valeur maximale à la fourchette. (exemple : on n’a vu aucun accident sur N=1000 événements sportifs : la valeur maximale du risque est de 3/N = 3%0 ) Expérimentation avec TICE?
L’échantillon représentatif: la clé de la statistique Représentatif = tiré au sort. La représentativité est définie par le mode de constitution de l’échantillon, non par le résultat. La constitution d’un échantillon de qualité Les difficultés pratiques Comment éviter les biais? Quelle taille d’échantillon? Beaucoup de sujets, une mesure imprécise par sujet? Peu de sujets, beaucoup de mesures par sujet?
La « bonne » taille d’un échantillon Échantillon de quoi? Bonne taille pour répondre à quelle question? La Statistique est faite pour tirer les meilleurs conclusions possibles à partir du plus petit échantillon possible.