Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parM'HAND assakrar Modifié depuis plus de 5 années
1
Master spécialisé sciences de l ’ environnement en milieu urbain : EER Etude statistique du Lake d ’ Everglades - ASSAKRAR M ’ HAND - BENBAASID HICHAM - ABAZINE ISMAIL Réalisé par : 1994 1996 1998 1999 Le deuxième devoir du module statistique
2
1) Lire les données Environment>>>import datset>>>Form Text (base) Sélectionné la fiche mesureTP dans le dossier >>>faire «yes au Heading» pour séparé la première ligne.
3
Voici notre fiche « mesurTP ». sur Environment On trouve notre fiche (mesurTP.en.µg). Puis On click sur import>>> :
4
Sur Rstudio on fait «attache(mesureTP)» et «names(mesureTP)» pour conserve le nom de chaque colonne de la fiche mesureTP. On utilisent la fonction Data.fram pour créée une fiche (Data) contient les concentrations en µg/L. mesureTP.en.µg=data.frame(SID,SITE,Type,SDATE,Date,Year,RESULT=RESULT*1000,UNIT= " µg/L ",MDL,PQL) RESULT=RESULT*1000: pour faire la multiplier les concentrations par 1000 (en µg/L). UNIT= " µg/L " : pour remplacer l’unité mg/L par µg/L. Méthode: 1 sur Environment On trouve notre nouvelle fiche Data (mesurTP.en.µg). Voici notre nouvelle fiche « mesurTP.en.µg ». 2) les concentrations en µg/L. Insérer tous les colonnes
5
On a UNIT=mg/L donc UNIT=1000µg/L parce que 1mg/L=1000µg/L Sur Rstudio on déclare : A=RESULT*1000 pour que l’unité va en µg/L Dans le tableau msureTP la première valeur égale 0.004mg/L. dans le tableau A la première valeur égale 4µg/L. c’est vrai parce que 0.004mg/L=4µg/L. C’est la mème chose pour la deuxième valeur, troisième, quatrième……. Méthode: 2
6
3) Le gardage des échantillons des sites de référence. Utilisation de la fonction subset (sous-population) pour garder les échantillons des sites de référence (création une autre fiche data contient seulement les résultats des sites de référence). échantillons=(subset(mesureTP.en.µg,Type=="R")) Échantillons: nom de nouveau fiche Data. mesureTP.en.µg,Type=="R " : pour sélectionné seulement les résultats de type R (référence) dans la fich Data « mesureTP.en.µg ». sur Environment On trouve notre nouvelle fiche Data (échantillons). Voici notre nouvelle fiche Data « échantillons ». Méthode: 1 436 résultats des site de type R
7
On déclare un variable B=(SITE[Type==R]) pour voir le nombre des résultats aux différentes sites de type R (référence), puis on applique la fonction summary sur le variable B on trouve: 84 résultats dans la site E5, 86 dans la site F5, 88 dans la site U1, 92 dans la site U2, 86 résultats dans la site U3 et les autres sites ont pas des résultats. On fait la somme on trouve 436 résultats dans les sites de référence c-à-d 436 mesures de concentration dans les sites de référence. Pour garder les échantillon des sites de référence on déclarent un variable C=(A[Type==R]) avec: A est un variable des concentrations en µg/L (question 2). [Type==R] pour sélectionné juste les résultats des sites de type R (sites de référence). Donc C : est l’ensemble des résultats des sites de référence en µg/L. La fonction Summary(C) donne un peu d’information sur les résultats de référence (C), valeur max, valeur min, médiane et la moyenne. On fait (C entrer) pour afficher toutes les valeurs de variable C. Les valeurs de variable C (436 valeur) Méthode: 2
8
4) la condition de normalité. Premièrement on calcule log pour toutes les concentrations des sites de type R. On crée une autre fiche data de nome «log.échantillons»: log.échantillons=data.frame(SID,SITE,Type,SDATE,Date,Year, RESULT=log(RESULT*1000),UNIT= "sans",MDL,PQL) RESULT=log(RESULT*1000): calculer log des résultats. UNIT= "sans" : parce que log des résultats est sans unité. sur Environment On trouve notre nouvelle fiche Data (log.échantillons). Voici notre nouvelle fiche Data « log.échantillons ».
9
Normalité des log-concentrations de l’année 1994 Sur Rstudio on fait «attache(log.échantillons)» et «names(log.échantillons)» pour conserver le nom de chaque colonne de la fiche « log.échantillons ». Pour sélectionner seulement les échantillons de l’année 1994 on déclare un variable echan94=(log.échantillons[Year==1994]) avec: [Year==1994]: condition pour prendre seulement les résultats de l’année 1994. sur Environment On trouve notre variable (echan94). Toutes les valeur echan94 Puis on fait : qqnorm(echan96);qqline(echan96) hist(echan96, breaks = 11) Normal QQ-plot Histogramme Nombre de bar Méthode: 1
10
On trouvent: Les point sur la courbe Normal Q-Q Plot sont toutes proche au ligne droite donc on peut dire que les concentrations de l’année 1994 satisfaisant la condition de normalité et c’est ca ce qui confirme la forme de l’histogramme. Normalité des log-concentrations des années 1998 et 1999. On suive la même méthode de l’année 1994: On trouve sur Environment:
11
Pour l’année 1998 Pour l’année 1999 les concentrations de l’année 1999 ne satisfaisant pas la condition de normalité puisque il y a certain valeurs plus grands à la moyenne elles ont des fréquences important c’est ca ce qui confirme la forme de l’histogramme et la courbe Normal Q- Q Plot. les concentrations de l’année 1998 ne satisfaisant pas la condition de normalité puisque il y a des point sont plus lion à la lige de courbe Q-Q Plot, c’est ca ce qui confirme la forme de l’histogramme.
12
Méthode 2 La méthode la plus simple c’est de faire une test (shapiro.test) sur les log- concentrations de chaque années. Si on trouve p-value>0.5 donc log-concetrations satisfaisant la normalité. Si on trouve p-value<0.5 donc log-concetrations ne satisfaisant pas la normalité. Pour l’année 1994 p-value = 0.5611 > 0.05 donc log-concetrations de l’année 1994 satisfaisant la loi normal. Pour l’année 1998 p-value = 1.448*10^-11 << 0.05 donc log-concetrations de l’année 1998 ne satisfaisant pas la loi normal. Pour l’année 1999 p-value = 0.0344 < 0.05 donc log-concetrations de l’année 199 ne satisfaisant pas la loi normal. Pour les années 1995, 1996 et 1997 les données des concentrations ne sont pas aléatoires indépendants donc ne satisfaisant pas la loi normal.
13
6) les échantillons de quelle année valable pour l’estimation. les échantillons de année 1994 seulement qui vérifiant la loi normal aussi parce que contient 49 échantillons (supérieur à 30). donc on peut travailler sur les échantillons de année 1994 pour estimer les paramètres du model de référence. 7) Estimer les paramètres du model. On fait cette commende: Avec: Mean(echan94): est la moyenne des log-concentrations des sites de type R de l’année 1994 (question 4) qu’est égale à 2.12038. sd (echan94) est l’écart-type des échantillons (echan94) égale à 0.3563762. t.test(echan94)$conf.int: test d’estimation par intervalle de confiance en pourcentage 95% qui donne cette intervalle (2.018017--2.222744) de confiance de notre résultats de (echan94). $conf.int: pour donné seulement l’intervalle de confiance par rapport au moyenne.
14
La méthode bootstrapping La motivation du bootstrap est d’approcher par simulation la distribution d’un estimateur lorsque l’on ne connaît pas la loi de l’échantillon ou, plus souvent lorsque l’on ne peut pas supposer qu’elle est gaussienne. L’objectif est de remplacer des hypothèses probabilistes pas toujours vérifiées ou même invérifiables par des simulations et donc beaucoup de calcul. Le principe fondamental de cette technique de rééchantillonnage est de substituer à la distribution de probabilité inconnue F, dont est issu l’échantillon d’apprentissage, la distribution empirique Fb qui donne un poids 1=n à chaque réalisation. Ainsi on obtient un échantillon de taille n dit échantillon bootstrap selon la distribution empirique Fb par n tirages aléatoires avec remise parmi les n observations initiales. En notre application Il est possible de définir des intervalles de confiance bootstrap en considérant la distribution et les quantiles de µ. 8) Estimation de troisième quartile de la distribution. Estimation ponctuelle On fait cette commende: Donc la valeur de la troisième quartile égale à 2.302585 Estimation l’intervalle de confiance Premièrement pour applique cette méthode sur Rstudio il est nécessaire d’installer les packages Mosaic et ggplot2, pour l’installer directement on fait library(mosais) et library(ggplot2).
15
Puis on crée une data fiche qu’on appelle data.echan94 contient seulement log- concentrations des sites de type R de l’années 1994, on utilise la même fonction subset (questions avant). puis on ajoutent la fonction attache et names pour conserver le nom de chaque colonne pour les utilisent après. sur Environment On trouve notre nouvelle fiche Data (data.echan94). 49 valeur On travaille sur notre fiche data.echan94 et on fait cette commande>>>> echan94boot=do(1000)*mean(~RESULT, data=resample(data.echan94)): une autre data fiche du nom “echan94boot” dans la quelle on appliquent la méthode boodstrapping par utilisation de fonction do que basé sur le rééchantillonnage plusieurs fois de la moyenne. (1000)*mean((~RESULT,data=resample(data.echan94)): pour rééchantillonner 1000 fois. SE=sd(~mean,data=echan94boot): nouveau écart-type après le rééchantillonnage, égale à 0.04805913.
16
Puis on déclare : intr.max=TP.75Q+2*SE intr.min=TP.75Q-2*SE Avec [intr.min- intr.max] est notre intervalle de confiance pour le troisième quartile de la distribution. Donc notre intervalle de confiance pour le troisième quartile de la distribution est : [2.206467-2.398703]. 9) les tests d’hypothèses. Les Tests d’hypothèses sont utilisé pour comparé deux valeur (généralement les moyennes) avec une fixation des erreurs (α=constant). On a deux hypothèses: l’hypothèse nulle H0 si les deux moyennes sont en conformité et l’hypothèse alternative H1 si les deux moyennes ne sont pas en conformité. On compare le p-value avec α: Si p-value> α donc on prend l’hypothèse H0 et on rejet l’hypothèse H1. Si p-value< α donc on prend l’hypothèse H1 et on rejet l’hypothèse H0. Sur Rstudio le test le plus connait est: [t.test(moyenne1, mu=moyenne2)] 10) La nature des concentrations des sites impactés. D’abord on crée une fiche du nom (echant.type.I) qui contient seulement les concentrations des sites de type I (impacté) en µg/L. On suive la même méthode des questions précédents. Conservé les noms des collons
17
Sur Environment on trouve notre fiche data (echant.type.I) Puis on calcule log des concentrations des sites de type I (mieux de faire autre fiche data du nom «log.echant.type.I»). Sur Environment on trouve notre fiche data (log.echant.type.I) 680 concentrations
18
En fine on déclarent notre variable «echant.type.I.1994» qui contient seulement log-concentrations de l’année 1994 des sites de type I, puisque on travaillent sur l’année 1994. RESULT et Year de data fiche «log.echant.type.I», c’est pour cela on fait toujours fonction attach (Y) et nams(Y) pour prend les noms des colonnes de cette fiche Data Y. Sur Environment on trouve notre variable (echant.type.I.1994) On fait cette commande: Mean(echan94): la moyenne des log-concentrations des échantillons des sites de type R (référence). Mean(echant.type.I.1994): la moyenne des log-concentrations des échantillons des sites de type I (impacté). Exp(Mean(echan94)): la moyenne des concentrations des échantillons des sites de type R (référence) en µg/L égale 8.334307 µg/L. Exp(Mean(echant.type.I.1994)): la moyenne des concentrations des échantillons des sites de type I (impacté) en µg/Légale à 46.09824µg/L. Exp: fonction exponentielle, l’ inverse de log. Donc le phosphore totale (TP) des sites impacté est très élevé, il est cinq fois plus grand que de les sites ne sont pas impacté.
19
11) comparaison de deux moyennes par utilisation un test d’hypothèse. On a : α=0.05 donc: intervalle de confiance en pourcentage = 1 - 0.05 = 0.95 = 95% On fait t.test t.test(echa.type.I.1994, mu=mean(echan94), conf.level=0.95) Avec: (echa.type.I.1994): log-concentrations des échantillons des sites impacté. mu=mean(echan94): pour comparer avec la moyenne log-concentrations des échantillons des sites de référence. Conf.level=0.95: intervalle de confiance en pourcentage. On trouve : On a: p-value = 2.2*10^-16 << 0.05 Donc on rejet l’hypothèse nulle H0 et on prend l’hypothèse alternative H1 H1 : la moyenne de la concentration du TP n’est pas en conformité avec la moyenne de référence. Premièrement on fait une variable «log.mesureTP.en.µg» : log des concentration qui sont en µg/L. puis on applique la fonction boxplot: boxplot (log.mesureTP.en.µg ~Year) pour Tracer les box-plotes des concentrations en fonction des années. 12) Tracer les box-plotes. Moyenne de «echant.type.I.1994»
20
On trouve : Box-plots des concentrations!!! RESULT et Year de fiche data mesureTP.en.µg
21
13) la méthode d’ANOVA pour les année 1994, 1997 et 1998 et 1999 ANOVA est une méthode permet de comparer entre plusieurs moyennes contre t.test qui permet de comparer seulement entre deux moyennes. D’abord on fait une commande pour créer une fiche data de ANOVA pour les échantillons des quatre années 1994, 1997 et 1998 et 1999 (x1, x2, x3 et x4) dans notre fiche fondamentale mesureTP (UNIT = mg/L). Puis on crée une autre fiche data (anova.data.94.97.98.99) : En fine pour prendre l’information on applique la fonction summary sur la fiche data «anova.data.94.97.98.99» on trouvent: p-value < 2*10^-16<<<0.05 On a p-value < 2*10^-16<<<0.05 donc il y a une différence entre au moins deux moyennes de la concentration TP des années des 1994, 1997 et 1998 et 1999.
22
13) la méthode d’ANOVA pour toutes les année 1994- 1999 D’abord on fait une commande pour créer une fiche data de nom « data.tous » et de deux collons (RESULT et Year) pour les échantillons de toutes les années. Anova.data: une fiche data dans la quelle on applique une fonction aov de la méthode ANOVA. Summary(anova.data): pour prendre l’information. p-value =0.87>0.05
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.