Remise à niveau en statistique Eric Marcon – Module FTH 2006.

Remise à niveau en statistique Eric Marcon – Module FTH 2006

Programme Objectifs Les variables aléatoires Inférence statistique Relations entre variables Comparaison de populations

Objectifs Objectifs de la remise à niveau –Maîtriser de façon intuitive les grandes notions nécessaires à l’usage des statistiques Variable aléatoire Réalisations Lois Modèles de base Tests Hypothèses sous-jacentes –Connaître les principaux outils utiles à la résolution de problèmes concrets

Objectifs Méthode –Présentation d’exemples simples –Pas de calculs –Des dessins –Pas d’utilisation directe des outils statistiques Application pendant les projets Utilisation de logiciels différents selon les groupes (selon encadrants et étudiants)

Les variables aléatoires Définition Lois Principales lois

Les variables aléatoires Définition –Objet mathématique de base de la statistique paramétrique –Définition : résultat de la réalisation d’une épreuve dans un univers Exemple : mesure du diamètre des arbres de Paracou Attention : définir clairement l’épreuve, et l’univers. Ex. : mesure du diamètre de tous les arbres de Paracou d’un diamètre supérieur à 10 cm. –Réalisations de l’épreuve : valeurs observées Population complète (univers) et population observée (échantillon) Qualité de l’échantillonnage

Les variables aléatoires Lois –La loi : probabilité de réalisation de chaque valeur, P(X)=x Densité de probabilité pour une variable continue, distribution pour une variable discrète : Ex : tirage d’une pièce à pile ou face. P(pile)=P(face)=0,5 –Fonction de répartition : F(x)=P(X<x) Les deux formes sont équivalentes et définissent complètement la variable F(x) est l’intégrale de P(x), pas toujours calculable –Les moments : Espérance Variance Ne définissent pas complètement la variable

Les variables aléatoires Loi de Bernoulli –Succès ou échec, un seul paramètre : p. Espérance p, variance p(1-p) Loi binomiale –Somme de n lois de Bernoulli indépendantes. Loi uniforme –Probabilité identique d’obtenir toutes les valeurs dans un intervalle. La loi U[0;1] est disponible dans tous les logiciels (ALEA dans Excel) Elle sert à simuler toutes les autres. Loi de Poisson –Nombre de réalisations d’un évènement rare (binomiale, n infini, p nul, np= )

Les variables aléatoires Loi normale –Loi de référence de toute la statistique –Théorème central limite : Soit X n une suite de v.a. de même loi d'espérance  et d'écart type . Alors la v.a. converge en loi vers une v.a. normale centrée réduite. http://www.inrialpes.fr/sel/simulations/tcl/tcl.html http://www.inrialpes.fr/sel/simulations/tcl/tcl.html Conséquence : toute mesure répétée un grand nombre de fois est normale. Loi du chi2 et de Student Définies à partir de la loi normale Servent aux tests

Inférence statistique De la loi aux observations Des observations à la loi Intervalles de confiance Tests

Inférence statistique De la loi aux observations –Loi des grands nombres : La fréquence relative de l’évènement A tend vers P(A) quand on multiplie les épreuves La moyenne tend vers l’espérance L’écart-type observé tend vers l’écart-type de la loi Des observations à la loi –On utilise les observations pour retrouver les paramètres de la loi : moyenne pour estimer l’espérance, écart-type –Notion d’estimateur Biais. Efficacité. Estimateur non biaisé de l’écart-type. –Si on connaît la loi, il suffit d’estimer les paramètres pour tout savoir

Inférence statistique Intervalles de confiance –On observe un certain nombre de valeurs –On estime espérance et écart-type –Quel est le risque d’erreur ? Loi normale : 95% des observations sont à moins de deux écart- types de l’espérance Moyenne de lois normales : l’espérance est à 95% de chances dans l’intervalle T  /racine(n) –Permutations et Monte-Carlo –Aucune estimation n’est certaine. Tous les résultats sont donnés avec un seuil de risque (  ) ou de confiance (1-  )

Inférence statistique Les tests –Les tests permettent de rejeter une hypothèse dite nulle H 0 avec un certain risque d’erreur. –Tous reposent sur un modèle qui doit être vérifié. –Trois exemples : Test d’égalité : la moyenne observée est-elle significativement différente de 0 ? Le test du  ² : un tableau de contingence vérifie-t-il l’indépendance des lignes et des colonnes. Exemple : la répartition de plusieurs espèces d’arbres (en ligne) est-elle indépendante des stations (en colonnes) ? Le test de Student : deux variables ont-elles la même espérance? Exemple : les angéliques de 10 ans sont-elles plus grandes que les wapas de 10 ans dans une plantation ? Attention aux hypothèses ! –Les tests non paramétriques quand les hypothèses ne sont pas vérifiées.

Relations entre variables Corrélation Le modèle linéaire

Relations entre variables Corrélation et Cie –La covariance mesure le produit moyen des écarts à la moyenne de deux variables –Le coefficient de corrélation R décrit le lien entre deux variables. Il est égal à la covariance divisée par le produit des écarts-types. Compris entre -1 et +1.

Relations entre variables Le modèle linéaire –Objectif : expliquer le mieux possible une variable (dite dépendante ou endogène) par d’autres (dites explicatives ou indépendantes ou exogènes) –Technique : ajuster les paramètres d’un modèle linéaire pour minimiser les résidus (= part de y non expliquée par X). –Régression dite multiple quand X est de dimension >1 –Possibilité d’inclure des variables discrètes ou catégorielles. Modèle dit ANCOVA. –Modèle très commun, très étudié, implémenté partout.

Relations entre variables Le modèle linéaire : les hypothèses –Les écarts entre les observations et les relations entre les variables peuvent être expliqués par différentes sources d'erreurs : l'existence d'erreurs d’observation Des variables explicatives qui ne sont pas incluses dans la relation Des erreurs qui viennent de ce que la vraie relation n'est pas linéaire. –Ces trois sources d'erreurs dont considérées comme aléatoires. La technique de régression dans les modèles linéaires classiques s'appuie sur quelques hypothèses fondamentales : La relation entre la variable endogène et la variable exogène est linéaire. La variance de l'élément aléatoire est constante. C'est l'hypothèse d'homoscédasticité > possibilité de transformer les variables. Les éléments aléatoires sont statistiquement indépendants Les variables exogènes sont exemptes d'éléments aléatoires. Les variables exogènes ne sont pas corrélées entre elles.

Relations entre variables Le modèle linéaire : interprétation des résultats –Test F : P(le modèle n’explique rien) –R²: pourcentage de variabilité expliquée –Chaque coefficient est estimé avec un intervalle de confiance (on suppose les résidus normaux) –Le test z donne p(le coefficient est nul). On note généralement la significativité des valeurs avec des étoiles.

Relations entre variables Le modèle linéaire : les pièges –Le modèle est robuste face aux violations des hypothèses mais… –Une variable peut en cacher une autre si elles sont corrélées (exemple des pompiers) –Un fort R² est normal avec des données groupées, un faible R² avec des données individuelles –Regrouper les données surestime la significativité –Y doit dépendre de X, sinon utiliser la régression de type II –Ne pas régresser X sur X

Relations entre variables L’analyse multivariée –Pas de statistiques à proprement parler mais des méthodes exploratoires. –L’ACP : rotation d’un nuage de points multidimensionnel Normalisation Rotation : détermination des axes successifs Valeurs propres, pourcentage de variance expliquée Attention : très différent de R² –AFC, ACM, etc. : dérivées de l’ACP, en changeant la métrique –Classification automatique

Comparaison de populations ANOVA

Comparaison de populations L’Analyse de variance : ANOVA –Principe : comparer la variance intragroupe à la variance intergroupe –Le rapport des deux suit une loi de Fisher (F) connue –On cherche à rejeter H 0 : tous les groupes sont identiques (même moyenne). Le rejet signifie qu’au moins deux groupes sont différents –Les tests post-hoc permettent de savoir quels groupes sont différents deux à deux

Comparaison de populations ANOVA et mesure de la diversité –Indice de Simpson = somme des variances de lois binomiales –Décomposition : diversité alpha + beta –Fisher : habitats identiques ? –Wright : la différenciation génétique est-elle significative ? –=> Même modèle, même test.

Remise à niveau en statistique Eric Marcon – Module FTH 2006.

Présentations similaires

Présentation au sujet: "Remise à niveau en statistique Eric Marcon – Module FTH 2006."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Remise à niveau en statistique Eric Marcon – Module FTH 2006.

Présentations similaires

Présentation au sujet: "Remise à niveau en statistique Eric Marcon – Module FTH 2006."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back