Probabilités et Statistiques

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Introduction à l’analyse
Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
Reporting de la Cellule Nationale Droit dOption Situation au 31 décembre 2011.
La création monétaire, c’est simple !
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Calcul mental Calcul mental Année scolaire Classe de …
ACTIVITES NUMERIQUES Ranger les nombres Trouver le nombre manquant
Les nombres.
Les numéros 70 –
Les numéros
Les identités remarquables
1. Les caractéristiques de dispersion. 11. Utilité.
Statistique et probabilités au collège
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Données statistiques sur le droit doption au 31/01 8 février 2012.
Description et estimation
Exercice Trame Ethernet
La méthodologie………………………………………………………….. p3 Les résultats
PROMOTION 2012 Les résultats. Baccalauréat général et technologique Filière STG CFE STG COM RH STG MERC LES 1ES 2S1S2S3TOTAL Nb de candidats
Probabilités et Statistiques
1 Choisir une catégorie. Vous recevrez la réponse, vous devez donner la question. Cliquez pour commencer.
Présentation générale
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
Le Concours de Conaissance Francais I novembre 2012.
Probabilités et Statistiques
Tableaux de distributions
Tableaux de distributions
CLL11 : chlorambucil (CLB) versus CLB + rituximab (R)
S ervice A cadémique de l I nspection de l A pprentissage dOrléans-Tours Nombre de CFA par académie 1 CFA académique avec 25 UFA 1 CFA académique avec.
Les chiffres & les nombres
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
RACINES CARREES Définition Développer avec la distributivité Produit 1
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
La statistique descriptive
La Distribution des Données
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Dette des étudiants de premier cycle universitaire au Canada, de 1990 à 2005
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Aire d’une figure par encadrement
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
Mesures de position Ils s’expriment dans la même unité que les observations Moyenne et moyenne pondérée Exemple : on dispose du nombre moyen d’enfants.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Méthodes de Biostatistique
LES COURSES SUR PISTE.
Probabilités et Statistiques
Résumé des conditions de renouvellement Au 1 er janvier 2013.
Probabilités et Statistiques Année 2009/2010
Probabilités et Statistiques
Exercice de vérification 1 p
Annexe Résultats provinciaux comparés à la moyenne canadienne
Probabilités et Statistiques Année 2010/2011
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
Rappels de statistiques descriptives
Probabilités et Statistiques
Probabilités et Statistiques Année 2009/2010
Probas-Stats 1A novembre 10 1 Probabilités et Statistiques Année 2010/2011
Probabilités et Statistiques
Probabilités et Statistiques Année 2009/2010
Probabilités et Statistiques
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
BIOSTATISTIQUES Définitions.
Mesures de description des valeurs des variables
Transcription de la présentation:

Probabilités et Statistiques novembre 10 Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr Probas-Stats 1A 1

Statistique exploratoire Cours n°5 Statistique exploratoire

novembre 10 Plan Un problème : Peut-on reconnaître des variétés d’iris par les dimensions de leurs fleurs ? Données historiques (R. Fisher) Statistiques descriptives Indicateurs chiffrés Outils de visualisation : fonction de répartition empirique, histogramme, boxplot (boîtes à moustaches !), estimation non paramétrique d’une densité Probas-Stats 1A

Les iris de Fisher Question : novembre 10 Les iris de Fisher Question : Pour 3 variétés d’iris (setosa, versicolor, virginica), on mesure largeur et longueur du sépale et du pétale. Les mesures permettent-elles de deviner la variété ? Peut-on identifier des facteurs qui expliquent l’appartenance à un groupe ? Santé : facteurs = résultats d’analyses groupes = malades, sains Etude financière : facteurs = indicateurs macroéconomiques groupes = ratings (cf. agences de notation) Probas-Stats 1A

Les données numéro Sepal.Length Sepal.Width Petal.Length Petal.Width novembre 10 Les données numéro Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 3 4.7 3.2 1.3 4 4.6 3.1 1.5 … 147 6.3 2.5 5.0 1.9 virginica 148 6.5 5.2 2.0 149 6.2 3.4 5.4 2.3 150 5.9 1.8 Probas-Stats 1A

novembre 10 Premier graphique Probas-Stats 1A plot(iris[1:4], pch=c("s", "e", "i")[as.numeric(iris$Species)])

Premières observations novembre 10 Premières observations Les dimensions du sépale semblent peu discriminantes On se concentre donc sur : longueur pétale largeur pétale Probas-Stats 1A

Résumés numériques Longueur des pétales novembre 10 Résumés numériques Longueur des pétales Setosa Versicolor Virginica moyenne 1.462 4.260 5.552 médiane 1.50 4.35 5.55 écart-type 0.174 0.470 0.552 interquartiles 0.175 0.600 0.775 quantile 5% 1.200 3.39 4.845 quantile 95% 1.700 4.90 6.655 quantile 25% 1.400 4.00 5.100 quantile 75% 1.575 4.60 5.875 Fonction utiles : mean, median, sd, quantile Probas-Stats 1A

Boxplot (boîte à moustaches) novembre 10 Boxplot (boîte à moustaches) boxplot(iris[,3]~iris$Species,xlab="Longueur des pétales") boxplot(iris[,4]~iris$Species,xlab="Largeur des pétales") Probas-Stats 1A

Comment est faite la boîte ? novembre 10 Comment est faite la boîte ? q75 + 1.5*(q75-q25) q25 - 1.5*(q75-q25) quantile q75 quantile q50 = médiane valeur extrême Probas-Stats 1A

Fonction de répartition empirique novembre 10 Fonction de répartition empirique #{i, xi<x} / n x Probas-Stats 1A

Quantiles empiriques x(i) novembre 10 Quantiles empiriques (i - 0.5)/n Fn(x) x x(i) Si : x(1) ≤ x(2) ≤ … ≤ x(n) sont les données classées dans l’ordre croissant : x(i) = q((i-0.5)/n) quantile empirique d’ordre (i-0.5)/n Probas-Stats 1A

que vaut la surface totale? novembre 10 Histogramme Hauteur de chaque barre : proportion des données dans une classe, rapportée à sa longueur Question : que vaut la surface totale? hist(Petal.Length[Species=="virginica"], freq=FALSE, border="blue", xlab="Longueur des pétales en mm",main="Histogramme - variété virginica") Probas-Stats 1A

Les trois histogrammes novembre 10 Les trois histogrammes Probas-Stats 1A

Histogrammes superposés novembre 10 Histogrammes superposés Choix à faire : nb classes largeur classes position classes nb classes différents Probas-Stats 1A

Histogrammes superposés M novembre 10 Histogrammes superposés M faux ami non comparables Probas-Stats 1A

Influence du nombre de classes novembre 10 Influence du nombre de classes Probas-Stats 1A

Estimation de densité Estimation de densité : Rappel : Histogramme : novembre 10 Estimation de densité Rappel : Histogramme : Pour x dans la classe [a,b] Estimation de densité : Probas-Stats 1A

Interprétation (filtrage) novembre 10 Interprétation (filtrage) Soit Pn la probabilité empirique : Alors : Pour K quelconque (densité de probabilité) : Probas-Stats 1A

Estimation de densité Options par défaut choix automatique de h novembre 10 Estimation de densité Options par défaut choix automatique de h noyau K gaussien Probas-Stats 1A

Influence de h (bandwidth) novembre 10 Influence de h (bandwidth) Probas-Stats 1A

Influence de h (bandwidth) novembre 10 Influence de h (bandwidth) Probas-Stats 1A

Conclusion ? Séparation des variétés : Pour aller plus loin : novembre 10 Conclusion ? Séparation des variétés : Si Petal.Length < 2 : setosa Si 2 < Petal.Length < 4.5 : versicolor Si Petal.Length > 5.1 : virginica Si 4.5 < Petal.Length < 5.1 : ??? Pour aller plus loin : règles valables hors de l’échantillon observé ? donner une probabilité d’appartenance à la variété raisonner en multidimensionnel (c’est l’analyse discriminante) Probas-Stats 1A