La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011

Présentations similaires


Présentation au sujet: "Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011"— Transcription de la présentation:

1 Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr

2 Cours n°5 Statistique exploratoire

3 Plan Un problème : Peut-on reconnaître des variétés diris par les dimensions de leurs fleurs ? Données historiques (R. Fisher) Statistiques descriptives Indicateurs chiffrés Outils de visualisation : fonction de répartition empirique, histogramme, boxplot (boîtes à moustaches !), estimation non paramétrique dune densité Probas-Stats 1A novembre 10 3

4 Les iris de Fisher Question : Pour 3 variétés diris (setosa, versicolor, virginica), on mesure largeur et longueur du sépale et du pétale. Les mesures permettent-elles de deviner la variété ? Peut-on identifier des facteurs qui expliquent lappartenance à un groupe ? Santé : facteurs = résultats danalyses groupes = malades, sains Etude financière : facteurs = indicateurs macroéconomiques groupes = ratings (cf. agences de notation) Probas-Stats 1A novembre 10 4

5 Les données Probas-Stats 1A novembre 10 5 numéro Sepal.Lengt hSepal.WidthPetal.LengthPetal.WidthSpecies 15.13.51.40.2setosa 24.93.01.40.2setosa 34.73.21.30.2setosa 44.63.11.50.2setosa … …………… 1476.32.55.01.9virginica 1486.53.05.22.0virginica 1496.23.45.42.3virginica 1505.93.05.11.8virginica

6 Premier graphique Probas-Stats 1A novembre 10 6 plot(iris[1:4], pch=c("s", "e", "i")[as.numeric(iris$Species)])

7 Premières observations Les dimensions du sépale semblent peu discriminantes On se concentre donc sur : longueur pétale largeur pétale Probas-Stats 1A novembre 10 7

8 Résumés numériques SetosaVersicolorVirginica moyenne1.4624.2605.552 médiane1.504.355.55 écart-type0.1740.4700.552 interquartiles0.1750.6000.775 quantile 5%1.2003.394.845 quantile 95%1.7004.906.655 quantile 25%1.4004.005.100 quantile 75%1.5754.605.875 Probas-Stats 1A novembre 10 8 Fonction utiles : mean, median, sd, quantile Longueur des pétales

9 Boxplot (boîte à moustaches) novembre 10 boxplot(iris[,3]~iris$Species,xlab="Longueur des pétales") boxplot(iris[,4]~iris$Species,xlab="Largeur des pétales") Probas-Stats 1A9

10 Comment est faite la boîte ? Probas-Stats 1A novembre 10 10 quantile q75 quantile q50 = médiane q75 + 1.5*(q75-q25) q25 - 1.5*(q75-q25) valeur extrême

11 Fonction de répartition empirique novembre 10 x #{i, x i { "@context": "http://schema.org", "@type": "ImageObject", "contentUrl": "http://images.slideplayer.fr/3/1202337/slides/slide_11.jpg", "name": "Fonction de répartition empirique novembre 10 x #{i, x i

12 Quantiles empiriques novembre 10 x F n (x) x (i) (i - 0.5)/n Probas-Stats 1A12 Si : x (1) x (2) … x (n) sont les données classées dans lordre croissant : x (i) = q((i-0.5)/n) quantile empirique dordre (i-0.5)/n

13 Histogramme novembre 10 Hauteur de chaque barre : proportion des données dans une classe, rapportée à sa longueur Question : que vaut la surface totale? Probas-Stats 1A13 hist(Petal.Length[Species=="virginica"], freq=FALSE, border="blue", xlab="Longueur des pétales en mm",main="Histogramme - variété virginica")

14 Les trois histogrammes Probas-Stats 1A novembre 10 14

15 Histogrammes superposés Probas-Stats 1A novembre 10 15 Choix à faire : -nb classes -largeur classes -position classes nb classes différents

16 Histogrammes superposés Probas-Stats 1A novembre 10 16 non comparablesfaux ami

17 Influence du nombre de classes Probas-Stats 1A novembre 10 17

18 Estimation de densité Rappel : Histogramme : Pour x dans la classe [a,b] Estimation de densité : Probas-Stats 1A novembre 10 18

19 Interprétation (filtrage) Soit P n la probabilité empirique : Alors : Pour K quelconque (densité de probabilité) : Probas-Stats 1A novembre 10 19

20 Estimation de densité novembre 10 Probas-Stats 1A20 Options par défaut - choix automatique de h - noyau K gaussien

21 Influence de h (bandwidth) Probas-Stats 1A novembre 10 21

22 Influence de h (bandwidth) Probas-Stats 1A novembre 10 22

23 Conclusion ? Séparation des variétés : Si Petal.Length < 2 : setosa Si 2 < Petal.Length < 4.5 : versicolor Si Petal.Length > 5.1 : virginica Si 4.5 < Petal.Length < 5.1 : ??? Pour aller plus loin : règles valables hors de léchantillon observé ? donner une probabilité dappartenance à la variété raisonner en multidimensionnel (cest l analyse discriminante ) Probas-Stats 1A novembre 10 23


Télécharger ppt "Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011"

Présentations similaires


Annonces Google