La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Statistiques1 Licence STE 2eme année. Statistiques2 1.Introduction 2.Coefficient de corrélation Principe Interprétation 3.Modèles de régression Régression.

Présentations similaires


Présentation au sujet: "Statistiques1 Licence STE 2eme année. Statistiques2 1.Introduction 2.Coefficient de corrélation Principe Interprétation 3.Modèles de régression Régression."— Transcription de la présentation:

1 Statistiques1 Licence STE 2eme année

2 Statistiques2 1.Introduction 2.Coefficient de corrélation Principe Interprétation 3.Modèles de régression Régression linéaire Ajustement par un polynôme Fonction exponentielle Le coéfficient de détermination 4.Approche non-paramétrique Coefficient de correlation de Spearman Plan

3 Statistiques3 Méthode et but 2 variables numériques (quantitatives) Identifier la nature des variables : indépendante x et dépendante y. Décrire la relation entre les variables graphiquement en utilisant une équation Utiliser léquation pour prévoir une valeur y i à partir dune valeur x i. Etablir le degré de fiabilité de lestimation (relation probabiliste seulement) La relation entre deux variables peut être : déterministe (Ceci ne nous concerne pas ici) probabiliste (Cest ce dont on va parler) 1. Introduction

4 Statistiques4 y x Relation déterministe: La valeur de la variable y peut être précisement prédite à partir de la valeur de la variable x. Exemples: Prix dune maison et taxe due. Vitesse dun corps en chute libre et temps. V=V 0 +gt V t V0V0 1. Introduction

5 Statistiques5 y x Relation probabiliste: La valeur dune variable y ne peut pas être précisement prédite à partir de la valeur de la variable x - à cause dautres facteurs. Exemples: x y 1. Consommation en eau et une population x = nombre dhabitants y = eau consommée x y 2. Nombre dheures passées à réviser un examen et la note obtenue. x = heures passées à réviser y = note obtenue Regression possible avec une relation probabiliste. 1. Introduction

6 Statistiques6 Le coefficient de corrélation est une mesure du degré de corrélation linéaire. En pratique on essaye dobtenir une estimation (r) à partir dun échantillon représentatif de la population. Approche géométrique: Q1 Q3 Q2 Q4 2. Coefficient de correlation

7 Statistiques7 Évidemment cette somme dépend de n. On va donc diviser par (n-1). Au fait, pourquoi (n-1) et pas simplement n??? Cov(x,y) est la covariance. Elle est utilisée dans de nombreuses méthodes multivariées. Il y a encore un problème… La covariance dépend fortement des unités de x et de y. Alors que faire...? est un paramètre intéressant 2. Coefficient de correlation

8 Statistiques8 Pour éviter ce problème on va diviser la covariance par lécart type de x et lécart type de y. Attention : les données doivent être normalement distribuée (mais nous reviendrons sur ce point…) Coefficient de corrélation de Bravais-Pearson Un exemple Coefficient de correlation

9 Statistiques9 2. Coefficient de correlation

10 Statistiques10 r = 0, Coefficient de correlation

11 Statistiques11 Allons un peu plus loin... Inégalité de Schwarz: Donc... r = 1 r = -1 r = 0.7 r 0 Liaisons absolues (déterministe) Liaison stochastique (probabiliste) Pas de liaison 2. Coefficient de correlation

12 Statistiques12 Un exemple: Teneurs en Be, Zn et Sr (ppm) dans létang de Thau Etude des variables deux à deux 2. Coefficient de correlation

13 Statistiques13 La matrice de corrélation... Représentation pratique pour lexploration 2. Coefficient de correlation

14 Statistiques14 2. Coefficient de correlation

15 Statistiques15 En pratique attention!!!!!! Ce coefficient de corrélation doit être manié avec grande précaution r = 0.93 r = 0 r donne le degré de liaison linéaire. Dépendance curvilinéaire forte et r faible dans le 2eme cas. Le diagramme xy doit donc toujours être examiné en même temps que la valeur de r. 2. Coefficient de correlation

16 Statistiques16 r = -0.13r = 0.19 r = 0.53r = 0.92 Le coefficient de corrélation peut produire de hautes valeurs si des points isolés sont présents. 2. Coefficient de correlation

17 Statistiques17 La corrélation de deux variables log-transformées doit toujours être interprétée avec précaution r = Zn Pb r = ln(Zn) ln(Pb) Coefficient de correlation

18 Statistiques18 Les coefficients de corrélation pour des données fermées (i.e. %) sont probablement biaisés!!! r = Qz (%) Fldp (%) Pourquoi? La valeur dune variable aura tendance à affecter les autres r = Qz (%) Fldp (%) Roche ignée avec un 3ieme composant <50% Mélange pur Qz - Fldp 2. Coefficient de correlation

19 Statistiques19 r = Qz (%) Roche ignée avec un 3ieme composant <50% Si lon ajoute du Qz, le feldspath diminue. Mauvaise interprétation: le Qz se substitue au feldspath! En fait le feldspath est constant mais le volume change Fldp (%) 2. Coefficient de correlation

20 Statistiques20 Paleoécologie. Fréquence dune communauté par m 2. Attention. Ce sont des données fermées et une corrélation négative peut être induite. Mieux vaut travailler en nombre absolu dindividus. Ceci nest malheureusement pas possible en pétrologie. Autre exemple de données fermées: 2. Coefficient de correlation

21 Statistiques21 Encore un autre exemple (données fermées): Pb, Zn, Cd, Tl (ppm) dans un sédiment. SiO 2 varie La corrélation entre les éléments traces devient positive par dilution avec le SiO 2 !! Alors comment faire?? 2. Coefficient de correlation

22 Statistiques22 2. Coefficient de correlation Quoiquil en soit gare aux corrélations entre rapports de variables! Quand la même variable apparaît dans chacun des rapports… Quand son coefficient de variation est important face aux autres variables… Quand les données sont loin dêtre normalement distribuées…

23 Statistiques23 Au fait, à partir de quelle valeur de r peut-on considérer quon a vraisemblablement une corrélation?? 0.6 ? 0.9 ? 0.4 ? 2. Coefficient de correlation

24 Statistiques24 Tests dhypothèses Population normale conjointe, hypothèse concernant la valeur de Remarque: un coefficient de corrélation r = 0.4 peut être significatif si n = 100 mais pas si n = Coefficient de correlation

25 Statistiques25 Exemple: Les données Pb(ppm) vs. Zn (ppm) mesurées dans les sols du Derbyshire (n=44) permettent de calculer un coefficient de corrélation r = 0,765. Y-a-t il une corrélation significative entre Pb et Zn? 2. Coefficient de correlation

26 Statistiques26 Comparaison de deux coefficients de corrélation expérimentaux: Deux valeurs de r obtenues sur deux différents groupes sont-elles différentes? Z est la transformée de r par transformation de Fisher Si –Z 20): Z d est censé suivre une loi normale N(0,1)

27 Statistiques27 Attention: ces tests sont valides seulement si les données sont prises sans biais dans une population normalement distribuée (au moins raisonnablement) par rapport aux deux variables. Ce nest pas souvent le cas en géologie ou en environnement! Une alternative: lapproche non-paramétrique que nous allons voir plus tard. 2. Coefficient de correlation

28 Statistiques28 La régression Une technique statistique pour analyser les relations qui existent parmi les variables. Modèle de régression linéaire simple. Equation linéaire décrivant la relation entre une simple variable independante x et une variable dépendante y 2. Analyse de regression

29 Statistiques29 yx Estimer léquation linéaire qui décrit le mieux la relation entre une variable dépendante (y) et une variable indépendante (x). Exemple Un échantillon aléatoire de 15 appartements vendus à Dijon. Variables (pour chaque appartement): prix de vente (kF) et taille (m 2 ). 2. Analyse de regression

30 Statistiques Taille m2 Prix (keuros) La relation linéaire apparaît positive mais elle nest pas parfaite (non déterministe). Il y a un élément du au hasard. Modèle probabiliste, avec un terme derreur aléatoire qui va compter pour toutes les variables qui ne sont pas dans le modèle. (emplacement, présence de jardins...) 2. Analyse de regression

31 Statistiques31 |La droite qui sajuste le mieux aux données (best fit) est trouvée par la méthode aux moindres carrés. La méthode minimise la somme des carrés des distances verticales | entre les points et la droite. Droite de régression de y en x 2. Analyse de regression – relation linéaire

32 Statistiques32 Ce sont des paramètres qui sappliquent à léquation sajustant le mieux à la population (x,y). a et b sont les coefficients de la régression 2. Analyse de regression – relation linéaire

33 Statistiques33 Un brin de mathématiques…? 2. Analyse de regression – relation linéaire

34 Statistiques34 2. Analyse de regression – relation linéaire

35 Statistiques35 2. Analyse de regression – relation linéaire

36 Statistiques36 2. Analyse de regression – relation linéaire

37 Statistiques37 La droite de régression passe par 2. Analyse de regression – relation linéaire

38 Statistiques38 Ne nous énervons pas!! En fait, ce nest pas sorcier du tout… Voyons plutôt un exemple. Cas dun ressort subissant un allongement sous leffet dun poids. 2. Analyse de regression – relation linéaire

39 Statistiques39 2. Analyse de regression – relation linéaire

40 Statistiques40 Lécart type de la pente a, estimé à partir de léchantillon est noté S(a): On peut alors déterminer lintervalle de confiance de la pente (cf cours L1) Si 0 apparaît dans cet intervalle, alors la pente ne peut être considérée comme significativement différente de 0. On peut conclure quil nexiste pas de corrélation significative entre les deux variables. Cest lordonnée estimée à partir du modèle linéaire: 2. Analyse de regression – relation linéaire

41 Statistiques41 Ceci correspond à la procédure habituelle dun test dhypothèses: Autre méthode pour finalement tester lexistence dune corrélation 2. Analyse de regression – relation linéaire

42 Statistiques42 3 méthodes possibles pour déterminer lexistence dune corrélation entre 2 variables: 1.Calcul de r et test sur r 2.Calcul de lintervalle de confiance de la pente. 0 appartient-il à cet intervalle? 3.Calcul de la pente et de son écart type, test sur la pente. Heureusement les trois méthodes aboutissent rigoureusement à la même conclusion!! 2. Analyse de regression – relation linéaire

43 Statistiques43 On peut alors déterminer lintervalle de confiance de lordonnée à lorigine (cf cours L1) Test sur la table de Student 2. Analyse de regression – relation linéaire

44 Statistiques44 La droite de régression passe par la moyenne de x et la moyenne de y. La corrélation est significative (de peu) Lordonnée à lorigine ne peut pas être considérée comme différente de 0 Soyons honnête, de tels résultats indiquent un piètre analyste Intervalle de confiance à 95% 2. Analyse de regression – relation linéaire

45 Statistiques45 On accepte lhypothèse nulle H 0 : b=0 a: pente de la droite, pas dordonnée à lorigine 2. Analyse de regression – relation linéaire

46 Statistiques46 Y sexprime comme polynôme dune seconde variable X 2. Analyse de regression – relation polynomiale

47 Statistiques47 Ou sous forme matricielle... Même principe pour les sommes de fonctions trigonométriques 2. Analyse de regression – relation polynomiale

48 Statistiques48 La fonction exponentielle est très courante en sciences Par exemple la décroissance dun élément radioactif... Si les constantes a et b sont inconnues, on espère pouvoir les estimer à partir de x et y. Malheureusement lapproche directe fournit des équations insolubles. Alors… comment faire???? 2. Analyse de regression – relation exponentielle

49 Statistiques49 Très facile! On transforme léquation non linéaire en une équation linéaire. Linéarisation en prenant le logarithme: Plus simple encore!! On utilise un papier « semi-log » puisque lespacement logarithmique des graduations évite le calcul de lny. Voyons cela sur un exemple Analyse de regression – relation exponentielle

50 Statistiques50 Une population de bactéries décroît exponentiellement: t est le temps et est la vie moyenne de la population. A rapprocher de la demi-vie t 1/2 ; en fait t 1/2 = (ln2). 2. Analyse de regression – relation exponentielle

51 Statistiques51 ln N 0 = 11,93 et (-1/ ) = j -1 jours 2. Analyse de regression – relation exponentielle

52 Statistiques52 Extrêmement facile mais attention quand même…!!! Lajustement par moindres carrés de la droite y = ax+b suppose que toutes les mesure y 1,…,y n soient également incertaines. 2. Analyse de regression – relation exponentielle

53 Statistiques53 2. Analyse de regression – Les autres grands modèles

54 Statistiques54 Attention Les points isolés ont un effet indésirables sur la régression Leur influence doit être testée en les éliminant et en répétant la régression. La différence en y entre un point et la droite de régression est connue sous le nom de résidu. La validité de la régression statistique dépend de la distribution des résidus: 1. Les résidus doivent être normalement distribués 2. Il ne doit pas y avoir de tendance dans la distribution de variance le long de x. 2. Analyse de regression – Et les résidus…?

55 Statistiques55 i x Bande incurvée: Relation curvilinéaire. Ajouter des termes polynomiaux! 2. Analyse de regression – Et les résidus…?

56 Statistiques56 i x Le fuseau: La variance des résidus nest pas indépendante des valeurs de x. Des corrections doivent être apportées (courbe log. log p.e.) 2. Analyse de regression – Et les résidus…?

57 Statistiques57 i x Bande oblique: Relation entre les résidus et la variable x. Si x nest pas dans le modèle, il faudrait lintroduire, ou erreur importante. 2. Analyse de regression – Et les résidus…?

58 Statistiques58 i x Bande horizontale: les conditions dapplication sont suffisamment respectées 2. Analyse de regression – Et les résidus…?

59 Statistiques59 y x Variation inexpliquée Variation expliquée Variation totale R 2 = Variation expliquée / variation totale 2. Analyse de regression – Le coefficient de détermination

60 Statistiques60 Somme des carrés totale (SC tot ) Somme des carrés des résidus (SC res ) Somme des carrés de la régression (SC reg ) Variation totale = variation inexpliquée + variation expliquée R 2 = Variation expliquée / variation totale R 2 est le coefficient de détermination, proportion de la variation de y qui sexplique par la présence de x. Plus R 2 est grand, plus SC res est petit. 2. Analyse de regression – Le coefficient de détermination

61 04/11/2013Statistiques61 Comme nous lavons déjà vu, il est rare en géologie de trouver des variables normalement distribuées. La corrélation paramétrique est donc particulièrement dangereuse car elle donne de forte corrélation en présence de points isolés. En conséquence on utilisera plutôt une corrélation de rang. Coefficient de rang de Spearman - une méthode simple et populaire - 3. Corrélations non-paramétriques – r s de Spearman

62 04/11/2013Statistiques62 Echelle de la 1ere variable : ordinale Echelle de la 2eme variable : ordinale, rapport, intervalle r s :coefficient de rang (Spearman) D représente, pour chaque observation, les différences de rang obtenues sur les deux variables. 3. Corrélations non-paramétriques – r s de Spearman

63 04/11/2013Statistiques63 3. Corrélations non-paramétriques – r s de Spearman Un exemple

64 04/11/2013Statistiques64 3. Corrélations non-paramétriques – r s de Spearman

65 04/11/2013Statistiques65 Deux cas possibles Si n r )= On rejette donc H 0 si Ir s I>r Ici, n=17, r s =0,91>0,5, donc H 0 est rejeté, il y a donc une corrélation significative entre Zr et Be au sens de Spearman 3. Corrélations non-paramétriques – r s de Spearman (petits échantillons) Cette valeur est-elle significative? (absence de corrélation) n (nbre de paires) ,

66 04/11/2013Statistiques66 3. Corrélations non-paramétriques – r s de Spearman (grands échantillons) Si n>20, on opère de la même façon que pour le coefficient de corrélation linéaire :

67 04/11/2013Statistiques67 3. Corrélations non-paramétriques – r s de Spearman ATTENTION : Un r s significatif signifie que les variables sont liées sans savoir de quelle façon!!! Voyons cela sur quelques exemples…

68 04/11/2013Statistiques68 r s =1 3. Corrélations non-paramétriques – r s de Spearman

69 04/11/2013Statistiques69 r = Corrélations non-paramétriques – r s de Spearman

70 04/11/2013Statistiques70 r de Pearson Fort Faible Fort r s de Spearman 3. Corrélations non-paramétriques – r s de Spearman


Télécharger ppt "Statistiques1 Licence STE 2eme année. Statistiques2 1.Introduction 2.Coefficient de corrélation Principe Interprétation 3.Modèles de régression Régression."

Présentations similaires


Annonces Google