Remise à niveau en statistique Eric Marcon – Module FTH 2006.

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

ANOVA à un facteur (Rehailia)
Probabilités et statistiques au lycée
STATISTIQUE INFERENTIELLE L ’ESTIMATION
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Inférence statistique
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Comparaison de plusieurs moyennes observées
Les TESTS STATISTIQUES
Les TESTS STATISTIQUES
Échantillonnage-Estimation
4 Les Lois discrètes.
Corrélations et ajustements linéaires.
Moyenne, écart type et incertitude de mesure.
Les tests d’hypothèses
Statistiques et probabilités en première
Régression -corrélation
Programmes du cycle terminal
Statistiques et Probabilités au lycée
Chapitre 2 Les indices.
Le modèle linéaire et l'approche multivariée en statistique
Objectif général Les compétences à développer : mettre en œuvre une recherche de façon autonome ; mener des raisonnements ; avoir une attitude critique.
Analyse de la variance : ANOVA à un facteur
Régression linéaire simple
DEA Perception et Traitement de l’Information
STATISTIQUES – PROBABILITÉS
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
Chapitre 6 Lois de probabilité.
La corrélation et la régression
La corrélation et la régression
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
Algorithmes probabilistes
La régression multiple
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Méthodes de Biostatistique
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
ANALYSE DE DONNEES TESTS D’ASSOCIATION
La régression simple Michel Tenenhaus
LA REGRESSION LINEAIRE
Probabilités et Statistiques
TD4 : « Lois usuelles de statistiques »
M2 Sciences des Procédés - Sciences des Aliments
STATISTIQUES – PROBABILITÉS
Probabilités (suite).
Chapitre 3: Variables aléatoires réelles continues
Concepts fondamentaux: statistiques et distributions
Principales distributions théoriques
- 6 - Concepts probabilistes et distributions de probabilité
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
L’erreur standard et les principes fondamentaux du test de t
Rappel de statistiques

Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Introduction aux statistiques Intervalles de confiance
Cours de Biostatistique
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
TP1: Statistique application chapitre 2. Le tableau suivant reprend le taux d'intérêt (en %) payé par 20 banques sur les dépôts d'épargne de leurs clients.
Transcription de la présentation:

Remise à niveau en statistique Eric Marcon – Module FTH 2006

Programme Objectifs Les variables aléatoires Inférence statistique Relations entre variables Comparaison de populations

Objectifs Objectifs de la remise à niveau –Maîtriser de façon intuitive les grandes notions nécessaires à l’usage des statistiques Variable aléatoire Réalisations Lois Modèles de base Tests Hypothèses sous-jacentes –Connaître les principaux outils utiles à la résolution de problèmes concrets

Objectifs Méthode –Présentation d’exemples simples –Pas de calculs –Des dessins –Pas d’utilisation directe des outils statistiques Application pendant les projets Utilisation de logiciels différents selon les groupes (selon encadrants et étudiants)

Les variables aléatoires Définition Lois Principales lois

Les variables aléatoires Définition –Objet mathématique de base de la statistique paramétrique –Définition : résultat de la réalisation d’une épreuve dans un univers Exemple : mesure du diamètre des arbres de Paracou Attention : définir clairement l’épreuve, et l’univers. Ex. : mesure du diamètre de tous les arbres de Paracou d’un diamètre supérieur à 10 cm. –Réalisations de l’épreuve : valeurs observées Population complète (univers) et population observée (échantillon) Qualité de l’échantillonnage

Les variables aléatoires Lois –La loi : probabilité de réalisation de chaque valeur, P(X)=x Densité de probabilité pour une variable continue, distribution pour une variable discrète : Ex : tirage d’une pièce à pile ou face. P(pile)=P(face)=0,5 –Fonction de répartition : F(x)=P(X<x) Les deux formes sont équivalentes et définissent complètement la variable F(x) est l’intégrale de P(x), pas toujours calculable –Les moments : Espérance Variance Ne définissent pas complètement la variable

Les variables aléatoires Loi de Bernoulli –Succès ou échec, un seul paramètre : p. Espérance p, variance p(1-p) Loi binomiale –Somme de n lois de Bernoulli indépendantes. Loi uniforme –Probabilité identique d’obtenir toutes les valeurs dans un intervalle. La loi U[0;1] est disponible dans tous les logiciels (ALEA dans Excel) Elle sert à simuler toutes les autres. Loi de Poisson –Nombre de réalisations d’un évènement rare (binomiale, n infini, p nul, np= )

Les variables aléatoires Loi normale –Loi de référence de toute la statistique –Théorème central limite : Soit X n une suite de v.a. de même loi d'espérance  et d'écart type . Alors la v.a. converge en loi vers une v.a. normale centrée réduite. Conséquence : toute mesure répétée un grand nombre de fois est normale. Loi du chi2 et de Student Définies à partir de la loi normale Servent aux tests

Inférence statistique De la loi aux observations Des observations à la loi Intervalles de confiance Tests

Inférence statistique De la loi aux observations –Loi des grands nombres : La fréquence relative de l’évènement A tend vers P(A) quand on multiplie les épreuves La moyenne tend vers l’espérance L’écart-type observé tend vers l’écart-type de la loi Des observations à la loi –On utilise les observations pour retrouver les paramètres de la loi : moyenne pour estimer l’espérance, écart-type –Notion d’estimateur Biais. Efficacité. Estimateur non biaisé de l’écart-type. –Si on connaît la loi, il suffit d’estimer les paramètres pour tout savoir

Inférence statistique Intervalles de confiance –On observe un certain nombre de valeurs –On estime espérance et écart-type –Quel est le risque d’erreur ? Loi normale : 95% des observations sont à moins de deux écart- types de l’espérance Moyenne de lois normales : l’espérance est à 95% de chances dans l’intervalle T  /racine(n) –Permutations et Monte-Carlo –Aucune estimation n’est certaine. Tous les résultats sont donnés avec un seuil de risque (  ) ou de confiance (1-  )

Inférence statistique Les tests –Les tests permettent de rejeter une hypothèse dite nulle H 0 avec un certain risque d’erreur. –Tous reposent sur un modèle qui doit être vérifié. –Trois exemples : Test d’égalité : la moyenne observée est-elle significativement différente de 0 ? Le test du  ² : un tableau de contingence vérifie-t-il l’indépendance des lignes et des colonnes. Exemple : la répartition de plusieurs espèces d’arbres (en ligne) est-elle indépendante des stations (en colonnes) ? Le test de Student : deux variables ont-elles la même espérance? Exemple : les angéliques de 10 ans sont-elles plus grandes que les wapas de 10 ans dans une plantation ? Attention aux hypothèses ! –Les tests non paramétriques quand les hypothèses ne sont pas vérifiées.

Relations entre variables Corrélation Le modèle linéaire

Relations entre variables Corrélation et Cie –La covariance mesure le produit moyen des écarts à la moyenne de deux variables –Le coefficient de corrélation R décrit le lien entre deux variables. Il est égal à la covariance divisée par le produit des écarts-types. Compris entre -1 et +1.

Relations entre variables Le modèle linéaire –Objectif : expliquer le mieux possible une variable (dite dépendante ou endogène) par d’autres (dites explicatives ou indépendantes ou exogènes) –Technique : ajuster les paramètres d’un modèle linéaire pour minimiser les résidus (= part de y non expliquée par X). –Régression dite multiple quand X est de dimension >1 –Possibilité d’inclure des variables discrètes ou catégorielles. Modèle dit ANCOVA. –Modèle très commun, très étudié, implémenté partout.

Relations entre variables Le modèle linéaire : les hypothèses –Les écarts entre les observations et les relations entre les variables peuvent être expliqués par différentes sources d'erreurs : l'existence d'erreurs d’observation Des variables explicatives qui ne sont pas incluses dans la relation Des erreurs qui viennent de ce que la vraie relation n'est pas linéaire. –Ces trois sources d'erreurs dont considérées comme aléatoires. La technique de régression dans les modèles linéaires classiques s'appuie sur quelques hypothèses fondamentales : La relation entre la variable endogène et la variable exogène est linéaire. La variance de l'élément aléatoire est constante. C'est l'hypothèse d'homoscédasticité > possibilité de transformer les variables. Les éléments aléatoires sont statistiquement indépendants Les variables exogènes sont exemptes d'éléments aléatoires. Les variables exogènes ne sont pas corrélées entre elles.

Relations entre variables Le modèle linéaire : interprétation des résultats –Test F : P(le modèle n’explique rien) –R²: pourcentage de variabilité expliquée –Chaque coefficient est estimé avec un intervalle de confiance (on suppose les résidus normaux) –Le test z donne p(le coefficient est nul). On note généralement la significativité des valeurs avec des étoiles.

Relations entre variables Le modèle linéaire : les pièges –Le modèle est robuste face aux violations des hypothèses mais… –Une variable peut en cacher une autre si elles sont corrélées (exemple des pompiers) –Un fort R² est normal avec des données groupées, un faible R² avec des données individuelles –Regrouper les données surestime la significativité –Y doit dépendre de X, sinon utiliser la régression de type II –Ne pas régresser X sur X

Relations entre variables L’analyse multivariée –Pas de statistiques à proprement parler mais des méthodes exploratoires. –L’ACP : rotation d’un nuage de points multidimensionnel Normalisation Rotation : détermination des axes successifs Valeurs propres, pourcentage de variance expliquée Attention : très différent de R² –AFC, ACM, etc. : dérivées de l’ACP, en changeant la métrique –Classification automatique

Comparaison de populations ANOVA

Comparaison de populations L’Analyse de variance : ANOVA –Principe : comparer la variance intragroupe à la variance intergroupe –Le rapport des deux suit une loi de Fisher (F) connue –On cherche à rejeter H 0 : tous les groupes sont identiques (même moyenne). Le rejet signifie qu’au moins deux groupes sont différents –Les tests post-hoc permettent de savoir quels groupes sont différents deux à deux

Comparaison de populations ANOVA et mesure de la diversité –Indice de Simpson = somme des variances de lois binomiales –Décomposition : diversité alpha + beta –Fisher : habitats identiques ? –Wright : la différenciation génétique est-elle significative ? –=> Même modèle, même test.