Master spécialisé sciences de l ’ environnement en milieu urbain : EER  Etude statistique du Lake d ’ Everglades - ASSAKRAR M ’ HAND - BENBAASID HICHAM.

Slides:



Advertisements
Présentations similaires
Atelier 1 Le problème du surpoids sur géogébra. Etude de la prévalence du surpoids: (document Ressources pour la classe de terminale) Situation: On souhaite.
Advertisements

Auteur : Patrice LEPISSIER Les probabilités  Notions de base Notions de base  Variable aléatoire Variable aléatoire  La loi Normale La loi Normale.
Comparaison des méthodes de calcul de quartiles On considère la série statistique ci-dessous : Effectif total : 12.
TP 7 : UNE PROPRIÉTÉ DES ONDES, LA DIFFRACTION BUSQUET Stéphane LENNE Karl-Eric TS Physique-Chimie.
Généralisation de la comparaison de moyennes par Analyse de la variance (ANOVA)
TEST D’HYPOTHESE POUR H->gg Tatiana Cervero, Francesco Polci.
Chapitre 6. Introduction à l’échantillonnage Les sondages Notions fondamentales Fluctuations d’échantillonnage d’une moyenne Théorème central limite C6-1.
Utilisation du logiciel EduStat © Analyse classique d’items L’examen du rapport.
1 METHODE DEMPSTER-SHAFER Présenté: Guy Richard SAMEDY MASTER M2 RECHERCHE INFORMATIQUE UE : Cognition et Connaissance INSA de Lyon ( )
Suites ordonnées ou mettre de l’ordre
Corrélation et régression linéaire simple
Module de gestion des tournées de livraison
Analyse, Classification,Indexation des Données ACID
Statistiques descriptives univariées
Interprétation des indicateurs?
Comparaison de deux pourcentages.
Loi Normale (Laplace-Gauss)
4°) Intervalle de fluctuation :
Analyse en Composantes Principales A.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).
Une exploration des écarts menant à l’écart-type :
Exercice 1 : Statistiques et calculatrice.
P2P-Tube : amélioration de YouTube par P2P.
Technologies de l’intelligence d’affaires Séance 12
Risque d’erreur de 1ère espèce : α
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
4.3 Estimation d’une proportion
4.5 Tests D’hypothèses sur une proportion
2.2 Probabilité conditionnelle
Statistiques industrielles – Exemple d’application
4.4 Tests D’hypothèses sur une moyenne
3.3 loi discrète 1 cours 14.
Les tableaux.
4.2 Estimation d’une moyenne
La méthode du simplexe. 1) Algorithme du simplexe  Cet algorithme permet de déterminer la solution optimale, si elle existe, d’un problème de programmation.
Introduction aux statistiques Intervalles de confiance
Formules de calculs et Fonctions. Structure des formules de calcul Commencez toujours votre calcul par le signe =, ensuite sans laisser d’espaces, placez.
Statistique. Probabilite ou risque Le risque c’est le pourcentage des valeurs qu’on neglige plus le risqué augmente plus on neglige des valeurs Hypothese.
Statistiques Sociales LC4
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
 1____Probabilité  2______variables aléatoires discrètes et continues  3______loi de probabilités d’une v a  4_______les moyens et les moyens centraux.
Statistiques.
Présentation de la base Frantext
POL1803: Analyse des techniques quantitatives
Rappel (3): les étapes des tests statistiques
Lois de Probabilité Discrètes
Lois de Probabilité Discrètes
P LAMBOLEZ Partie maths V GILLOT Partie anglais
2.4 La loi de vitesse d’une réaction chimique
Présentation 3 : Sondage aléatoire simple
Présentation 5 : Sondage à probabilités inégales
On lance 100 fois de suite une pièce de monnaie.
Présentation 9 : Calcul de précision des estimateurs complexes
Position, dispersion, forme
Les calculs usuels sur les prix
Les erreurs de mesure Projet d’Appui au renforcement des capacités
Algorithmie - Programmation 2
Principes de programmation (suite)
Programme d’appui à la gestion publique et aux statistiques
Conception cartographique
Tableaux croisés dynamiques sous Excel et Tableau Software :
Les méthodes quantitatives en éducation
Package JADE : Analyse en composantes principales (ACI)
Tests d’hypothèses paramétriques 1 Cours Statistiques Chapitre 9.
Impact Evaluation 4 Peace March 2014, Lisbon, Portugal 1 Echantillonage pour une Evaluation d’Impact Latin America and the Caribbean’s Citizen Security.
Récapitulation du jour 2ème
DONNÉE DE BASE QM Manuel de formation. Agenda 2  Introduction  Objectif de la formation  Données de base QM: Caractéristique de contrôle Catalogue.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
Évaluation des Actifs Financiers 1. 2 Valeur capitalisée: Valeur d’un investissement après une ou plusieurs périodes Intérêts simples: Intérêts calculés.
La programmation dynamique
Transcription de la présentation:

Master spécialisé sciences de l ’ environnement en milieu urbain : EER  Etude statistique du Lake d ’ Everglades - ASSAKRAR M ’ HAND - BENBAASID HICHAM - ABAZINE ISMAIL  Réalisé par : Le deuxième devoir du module statistique

1) Lire les données Environment>>>import datset>>>Form Text (base) Sélectionné la fiche mesureTP dans le dossier >>>faire «yes au Heading» pour séparé la première ligne.

 Voici notre fiche « mesurTP ».  sur Environment On trouve notre fiche (mesurTP.en.µg). Puis On click sur import>>> :

Sur Rstudio on fait «attache(mesureTP)» et «names(mesureTP)» pour conserve le nom de chaque colonne de la fiche mesureTP. On utilisent la fonction Data.fram pour créée une fiche (Data) contient les concentrations en µg/L. mesureTP.en.µg=data.frame(SID,SITE,Type,SDATE,Date,Year,RESULT=RESULT*1000,UNIT= " µg/L ",MDL,PQL)  RESULT=RESULT*1000: pour faire la multiplier les concentrations par 1000 (en µg/L).  UNIT= " µg/L " : pour remplacer l’unité mg/L par µg/L. Méthode: 1  sur Environment On trouve notre nouvelle fiche Data (mesurTP.en.µg).  Voici notre nouvelle fiche « mesurTP.en.µg ». 2) les concentrations en µg/L. Insérer tous les colonnes

On a UNIT=mg/L donc UNIT=1000µg/L parce que 1mg/L=1000µg/L Sur Rstudio on déclare : A=RESULT*1000 pour que l’unité va en µg/L Dans le tableau msureTP la première valeur égale 0.004mg/L. dans le tableau A la première valeur égale 4µg/L. c’est vrai parce que 0.004mg/L=4µg/L. C’est la mème chose pour la deuxième valeur, troisième, quatrième……. Méthode: 2

3) Le gardage des échantillons des sites de référence. Utilisation de la fonction subset (sous-population) pour garder les échantillons des sites de référence (création une autre fiche data contient seulement les résultats des sites de référence). échantillons=(subset(mesureTP.en.µg,Type=="R"))  Échantillons: nom de nouveau fiche Data.  mesureTP.en.µg,Type=="R " : pour sélectionné seulement les résultats de type R (référence) dans la fich Data « mesureTP.en.µg ».  sur Environment On trouve notre nouvelle fiche Data (échantillons).  Voici notre nouvelle fiche Data « échantillons ». Méthode: résultats des site de type R

On déclare un variable B=(SITE[Type==R]) pour voir le nombre des résultats aux différentes sites de type R (référence), puis on applique la fonction summary sur le variable B on trouve: 84 résultats dans la site E5, 86 dans la site F5, 88 dans la site U1, 92 dans la site U2, 86 résultats dans la site U3 et les autres sites ont pas des résultats. On fait la somme on trouve 436 résultats dans les sites de référence c-à-d 436 mesures de concentration dans les sites de référence. Pour garder les échantillon des sites de référence on déclarent un variable C=(A[Type==R]) avec: A est un variable des concentrations en µg/L (question 2).  [Type==R] pour sélectionné juste les résultats des sites de type R (sites de référence).  Donc C : est l’ensemble des résultats des sites de référence en µg/L. La fonction Summary(C) donne un peu d’information sur les résultats de référence (C), valeur max, valeur min, médiane et la moyenne. On fait (C entrer) pour afficher toutes les valeurs de variable C. Les valeurs de variable C (436 valeur) Méthode: 2

4) la condition de normalité. Premièrement on calcule log pour toutes les concentrations des sites de type R.  On crée une autre fiche data de nome «log.échantillons»: log.échantillons=data.frame(SID,SITE,Type,SDATE,Date,Year, RESULT=log(RESULT*1000),UNIT= "sans",MDL,PQL)  RESULT=log(RESULT*1000): calculer log des résultats.  UNIT= "sans" : parce que log des résultats est sans unité.  sur Environment On trouve notre nouvelle fiche Data (log.échantillons).  Voici notre nouvelle fiche Data « log.échantillons ».

 Normalité des log-concentrations de l’année 1994 Sur Rstudio on fait «attache(log.échantillons)» et «names(log.échantillons)» pour conserver le nom de chaque colonne de la fiche « log.échantillons ». Pour sélectionner seulement les échantillons de l’année 1994 on déclare un variable echan94=(log.échantillons[Year==1994]) avec:  [Year==1994]: condition pour prendre seulement les résultats de l’année  sur Environment On trouve notre variable (echan94). Toutes les valeur echan94 Puis on fait : qqnorm(echan96);qqline(echan96) hist(echan96, breaks = 11) Normal QQ-plot Histogramme Nombre de bar Méthode: 1

On trouvent: Les point sur la courbe Normal Q-Q Plot sont toutes proche au ligne droite donc on peut dire que les concentrations de l’année 1994 satisfaisant la condition de normalité et c’est ca ce qui confirme la forme de l’histogramme.  Normalité des log-concentrations des années 1998 et On suive la même méthode de l’année 1994:  On trouve sur Environment:

 Pour l’année 1998  Pour l’année 1999 les concentrations de l’année 1999 ne satisfaisant pas la condition de normalité puisque il y a certain valeurs plus grands à la moyenne elles ont des fréquences important c’est ca ce qui confirme la forme de l’histogramme et la courbe Normal Q- Q Plot. les concentrations de l’année 1998 ne satisfaisant pas la condition de normalité puisque il y a des point sont plus lion à la lige de courbe Q-Q Plot, c’est ca ce qui confirme la forme de l’histogramme.

Méthode 2 La méthode la plus simple c’est de faire une test (shapiro.test) sur les log- concentrations de chaque années.  Si on trouve p-value>0.5 donc log-concetrations satisfaisant la normalité.  Si on trouve p-value<0.5 donc log-concetrations ne satisfaisant pas la normalité.  Pour l’année 1994  p-value = > 0.05 donc log-concetrations de l’année 1994 satisfaisant la loi normal.  Pour l’année 1998  p-value = 1.448*10^-11 << 0.05 donc log-concetrations de l’année 1998 ne satisfaisant pas la loi normal.  Pour l’année 1999  p-value = < 0.05 donc log-concetrations de l’année 199 ne satisfaisant pas la loi normal.  Pour les années 1995, 1996 et 1997 les données des concentrations ne sont pas aléatoires indépendants donc ne satisfaisant pas la loi normal.

6) les échantillons de quelle année valable pour l’estimation.  les échantillons de année 1994 seulement qui vérifiant la loi normal aussi parce que contient 49 échantillons (supérieur à 30).  donc on peut travailler sur les échantillons de année 1994 pour estimer les paramètres du model de référence. 7) Estimer les paramètres du model. On fait cette commende: Avec:  Mean(echan94): est la moyenne des log-concentrations des sites de type R de l’année 1994 (question 4) qu’est égale à  sd (echan94) est l’écart-type des échantillons (echan94) égale à  t.test(echan94)$conf.int: test d’estimation par intervalle de confiance en pourcentage 95% qui donne cette intervalle ( ) de confiance de notre résultats de (echan94).  $conf.int: pour donné seulement l’intervalle de confiance par rapport au moyenne.

La méthode bootstrapping La motivation du bootstrap est d’approcher par simulation la distribution d’un estimateur lorsque l’on ne connaît pas la loi de l’échantillon ou, plus souvent lorsque l’on ne peut pas supposer qu’elle est gaussienne. L’objectif est de remplacer des hypothèses probabilistes pas toujours vérifiées ou même invérifiables par des simulations et donc beaucoup de calcul. Le principe fondamental de cette technique de rééchantillonnage est de substituer à la distribution de probabilité inconnue F, dont est issu l’échantillon d’apprentissage, la distribution empirique Fb qui donne un poids 1=n à chaque réalisation. Ainsi on obtient un échantillon de taille n dit échantillon bootstrap selon la distribution empirique Fb par n tirages aléatoires avec remise parmi les n observations initiales.  En notre application Il est possible de définir des intervalles de confiance bootstrap en considérant la distribution et les quantiles de µ. 8) Estimation de troisième quartile de la distribution. Estimation ponctuelle On fait cette commende:  Donc la valeur de la troisième quartile égale à Estimation l’intervalle de confiance Premièrement pour applique cette méthode sur Rstudio il est nécessaire d’installer les packages Mosaic et ggplot2, pour l’installer directement on fait library(mosais) et library(ggplot2).

Puis on crée une data fiche qu’on appelle data.echan94 contient seulement log- concentrations des sites de type R de l’années 1994, on utilise la même fonction subset (questions avant). puis on ajoutent la fonction attache et names pour conserver le nom de chaque colonne pour les utilisent après.  sur Environment On trouve notre nouvelle fiche Data (data.echan94). 49 valeur On travaille sur notre fiche data.echan94 et on fait cette commande>>>>  echan94boot=do(1000)*mean(~RESULT, data=resample(data.echan94)): une autre data fiche du nom “echan94boot” dans la quelle on appliquent la méthode boodstrapping par utilisation de fonction do que basé sur le rééchantillonnage plusieurs fois de la moyenne.  (1000)*mean((~RESULT,data=resample(data.echan94)): pour rééchantillonner 1000 fois.  SE=sd(~mean,data=echan94boot): nouveau écart-type après le rééchantillonnage, égale à

Puis on déclare : intr.max=TP.75Q+2*SE intr.min=TP.75Q-2*SE  Avec [intr.min- intr.max] est notre intervalle de confiance pour le troisième quartile de la distribution. Donc notre intervalle de confiance pour le troisième quartile de la distribution est : [ ]. 9) les tests d’hypothèses. Les Tests d’hypothèses sont utilisé pour comparé deux valeur (généralement les moyennes) avec une fixation des erreurs (α=constant). On a deux hypothèses: l’hypothèse nulle H0 si les deux moyennes sont en conformité et l’hypothèse alternative H1 si les deux moyennes ne sont pas en conformité.  On compare le p-value avec α:  Si p-value> α donc on prend l’hypothèse H0 et on rejet l’hypothèse H1.  Si p-value< α donc on prend l’hypothèse H1 et on rejet l’hypothèse H0. Sur Rstudio le test le plus connait est: [t.test(moyenne1, mu=moyenne2)] 10) La nature des concentrations des sites impactés. D’abord on crée une fiche du nom (echant.type.I) qui contient seulement les concentrations des sites de type I (impacté) en µg/L. On suive la même méthode des questions précédents. Conservé les noms des collons

Sur Environment on trouve notre fiche data (echant.type.I) Puis on calcule log des concentrations des sites de type I (mieux de faire autre fiche data du nom «log.echant.type.I»). Sur Environment on trouve notre fiche data (log.echant.type.I) 680 concentrations

En fine on déclarent notre variable «echant.type.I.1994» qui contient seulement log-concentrations de l’année 1994 des sites de type I, puisque on travaillent sur l’année  RESULT et Year de data fiche «log.echant.type.I», c’est pour cela on fait toujours fonction attach (Y) et nams(Y) pour prend les noms des colonnes de cette fiche Data Y. Sur Environment on trouve notre variable (echant.type.I.1994) On fait cette commande:  Mean(echan94): la moyenne des log-concentrations des échantillons des sites de type R (référence).  Mean(echant.type.I.1994): la moyenne des log-concentrations des échantillons des sites de type I (impacté).  Exp(Mean(echan94)): la moyenne des concentrations des échantillons des sites de type R (référence) en µg/L égale µg/L.  Exp(Mean(echant.type.I.1994)): la moyenne des concentrations des échantillons des sites de type I (impacté) en µg/Légale à µg/L. Exp: fonction exponentielle, l’ inverse de log.  Donc le phosphore totale (TP) des sites impacté est très élevé, il est cinq fois plus grand que de les sites ne sont pas impacté.

11) comparaison de deux moyennes par utilisation un test d’hypothèse. On a : α=0.05 donc: intervalle de confiance en pourcentage = = 0.95 = 95% On fait t.test t.test(echa.type.I.1994, mu=mean(echan94), conf.level=0.95)  Avec:  (echa.type.I.1994): log-concentrations des échantillons des sites impacté.  mu=mean(echan94): pour comparer avec la moyenne log-concentrations des échantillons des sites de référence.  Conf.level=0.95: intervalle de confiance en pourcentage. On trouve : On a: p-value = 2.2*10^-16 << 0.05  Donc on rejet l’hypothèse nulle H0 et on prend l’hypothèse alternative H1  H1 : la moyenne de la concentration du TP n’est pas en conformité avec la moyenne de référence.  Premièrement on fait une variable «log.mesureTP.en.µg» : log des concentration qui sont en µg/L.  puis on applique la fonction boxplot: boxplot (log.mesureTP.en.µg ~Year) pour Tracer les box-plotes des concentrations en fonction des années. 12) Tracer les box-plotes. Moyenne de «echant.type.I.1994»

On trouve : Box-plots des concentrations!!! RESULT et Year de fiche data mesureTP.en.µg

13) la méthode d’ANOVA pour les année 1994, 1997 et 1998 et 1999 ANOVA est une méthode permet de comparer entre plusieurs moyennes contre t.test qui permet de comparer seulement entre deux moyennes. D’abord on fait une commande pour créer une fiche data de ANOVA pour les échantillons des quatre années 1994, 1997 et 1998 et 1999 (x1, x2, x3 et x4) dans notre fiche fondamentale mesureTP (UNIT = mg/L). Puis on crée une autre fiche data (anova.data ) : En fine pour prendre l’information on applique la fonction summary sur la fiche data «anova.data » on trouvent: p-value < 2*10^-16<<<0.05 On a p-value < 2*10^-16<<<0.05 donc il y a une différence entre au moins deux moyennes de la concentration TP des années des 1994, 1997 et 1998 et 1999.

13) la méthode d’ANOVA pour toutes les année  D’abord on fait une commande pour créer une fiche data de nom « data.tous » et de deux collons (RESULT et Year) pour les échantillons de toutes les années.  Anova.data: une fiche data dans la quelle on applique une fonction aov de la méthode ANOVA.  Summary(anova.data): pour prendre l’information. p-value =0.87>0.05