La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011

Présentations similaires


Présentation au sujet: "Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011"— Transcription de la présentation:

1 Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011

2 Cours n°5 Statistique exploratoire

3 Plan Un problème : Peut-on reconnaître des variétés diris par les dimensions de leurs fleurs ? Données historiques (R. Fisher) Statistiques descriptives Indicateurs chiffrés Outils de visualisation : fonction de répartition empirique, histogramme, boxplot (boîtes à moustaches !), estimation non paramétrique dune densité Probas-Stats 1A novembre 10 3

4 Les iris de Fisher Question : Pour 3 variétés diris (setosa, versicolor, virginica), on mesure largeur et longueur du sépale et du pétale. Les mesures permettent-elles de deviner la variété ? Peut-on identifier des facteurs qui expliquent lappartenance à un groupe ? Santé : facteurs = résultats danalyses groupes = malades, sains Etude financière : facteurs = indicateurs macroéconomiques groupes = ratings (cf. agences de notation) Probas-Stats 1A novembre 10 4

5 Les données Probas-Stats 1A novembre 10 5 numéro Sepal.Lengt hSepal.WidthPetal.LengthPetal.WidthSpecies setosa setosa setosa setosa … …………… virginica virginica virginica virginica

6 Premier graphique Probas-Stats 1A novembre 10 6 plot(iris[1:4], pch=c("s", "e", "i")[as.numeric(iris$Species)])

7 Premières observations Les dimensions du sépale semblent peu discriminantes On se concentre donc sur : longueur pétale largeur pétale Probas-Stats 1A novembre 10 7

8 Résumés numériques SetosaVersicolorVirginica moyenne médiane écart-type interquartiles quantile 5% quantile 95% quantile 25% quantile 75% Probas-Stats 1A novembre 10 8 Fonction utiles : mean, median, sd, quantile Longueur des pétales

9 Boxplot (boîte à moustaches) novembre 10 boxplot(iris[,3]~iris$Species,xlab="Longueur des pétales") boxplot(iris[,4]~iris$Species,xlab="Largeur des pétales") Probas-Stats 1A9

10 Comment est faite la boîte ? Probas-Stats 1A novembre quantile q75 quantile q50 = médiane q *(q75-q25) q *(q75-q25) valeur extrême

11 Fonction de répartition empirique novembre 10 x #{i, x i

12 Quantiles empiriques novembre 10 x F n (x) x (i) (i - 0.5)/n Probas-Stats 1A12 Si : x (1) x (2) … x (n) sont les données classées dans lordre croissant : x (i) = q((i-0.5)/n) quantile empirique dordre (i-0.5)/n

13 Histogramme novembre 10 Hauteur de chaque barre : proportion des données dans une classe, rapportée à sa longueur Question : que vaut la surface totale? Probas-Stats 1A13 hist(Petal.Length[Species=="virginica"], freq=FALSE, border="blue", xlab="Longueur des pétales en mm",main="Histogramme - variété virginica")

14 Les trois histogrammes Probas-Stats 1A novembre 10 14

15 Histogrammes superposés Probas-Stats 1A novembre Choix à faire : -nb classes -largeur classes -position classes nb classes différents

16 Histogrammes superposés Probas-Stats 1A novembre non comparablesfaux ami

17 Influence du nombre de classes Probas-Stats 1A novembre 10 17

18 Estimation de densité Rappel : Histogramme : Pour x dans la classe [a,b] Estimation de densité : Probas-Stats 1A novembre 10 18

19 Interprétation (filtrage) Soit P n la probabilité empirique : Alors : Pour K quelconque (densité de probabilité) : Probas-Stats 1A novembre 10 19

20 Estimation de densité novembre 10 Probas-Stats 1A20 Options par défaut - choix automatique de h - noyau K gaussien

21 Influence de h (bandwidth) Probas-Stats 1A novembre 10 21

22 Influence de h (bandwidth) Probas-Stats 1A novembre 10 22

23 Conclusion ? Séparation des variétés : Si Petal.Length < 2 : setosa Si 2 < Petal.Length < 4.5 : versicolor Si Petal.Length > 5.1 : virginica Si 4.5 < Petal.Length < 5.1 : ??? Pour aller plus loin : règles valables hors de léchantillon observé ? donner une probabilité dappartenance à la variété raisonner en multidimensionnel (cest l analyse discriminante ) Probas-Stats 1A novembre 10 23


Télécharger ppt "Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011"

Présentations similaires


Annonces Google