écologie et analyse de données

Slides:



Advertisements
Présentations similaires
Introduction aux Statistiques
Advertisements

Introduction à l’analyse
Corrélation Position du problème Définition covariance (X,Y) r =
Présentation des données
Statistique descriptive
Chapitre 5. Description numérique d’une variable statistique.
Les Variables statistiques continues
Collecte de données F. Kohler.
1. Les caractéristiques de dispersion. 11. Utilité.
Statistique et probabilités au collège
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
variable aléatoire Discrète
Psychologie, Première année, Questionnaire.
INF L14 Initiation aux statistiques

Les principaux résumés de la statistique
Chapitre 2: Les régularités et les relations
Groupe 1: Classes de même intervalle
Opération et systèmes de décision Faculté des Sciences de l administration MQT Probabilités et statistique Mesures caractéristiques.
Tableaux de distributions
Tableaux de distributions
Howell, Chap. 1 Position générale
Comprendre la variation dans les données: Notions de base
Statistique descriptive
La statistique descriptive
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
La Distribution des Données
Moyenne, médiane et mode
Modélisation Nuage de points.
La statistique Définitions et méthodes. La statistique est la branche des mathématiques qui collecte, classe, analyse et interprète des données afin den.
Distribution d’échantillonnage
Modélisation Nuage de points.
Plan la séance 10 Analyse des données quantitatives
Écart moyen et écart type
Coefficient de corrélation linéaire
Séries chronologiques et prévision
Régression linéaire multiple : hypothèses & interprétation. Partie 2.

Mesures de position Ils s’expriment dans la même unité que les observations Moyenne et moyenne pondérée Exemple : on dispose du nombre moyen d’enfants.
Méthodologie expérimentale : l’analyse des données
Thème: statistiques et probabilités Séquence 3: Statistique descriptive Utiliser un logiciel (par exemple, un tableur) ou une calculatrice pour étudier.
Christophe Genolini INSERM U669 / Université de Paris X.
Rappels de statistiques descriptives
Fabienne BUSSAC STATISTIQUES 1. VOCABULAIRE
ANALYSE DE DONNEES TESTS D’ASSOCIATION
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
Séance 8 30 novembre 2005 N. Yamaguchi
JEAN-MARC FONTAN SOC-1101 COURS 3
Intervalles de confiance pour des proportions L’inférence statistique
ANALYSE D’UN ÉCHANTILLON PORTANT SUR UNE VARIABLE STATISTIQUE
Seconde partie Cours de seconde
STATISTIQUE DESCRIPTIVE Dr LEMDAOUI MOHAMED CHERIF
Introduction à une analyse statistique de données
VARIABLES ET MESURES DE FREQUENCES Pr. KELLIL M 1.
Méthodologie de l’observation
PARAMETRES STATISTIQUES
Statistique Descriptive Les Paramètres de Tendance Centrale
Bienvenue!  Professeur : Dr. David Beaudoin.  Disponibilité : Mardi 15h30-17h local  Disponibilité d’Antoine Gautier: Mardi et Jeudi à compter.
BIOSTATISTIQUES Définitions.
BIOSTATISTIQUES Définitions.
Mesures de description des valeurs des variables
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Chapitre 4 Statistique descriptive 1. Echantillonnage statistique population On appelle population, un ensemble d’individus auquel on s’intéresse échantillon.
LE CHOIX DE LA FORMULE  Reprise du cours du 09 au 12 décembre (GR 1 à 5, même si redites) o Question : vitesse moyenne du cycliste A sur l’ensemble de.
TP1: Statistique application chapitre 2. Le tableau suivant reprend le taux d'intérêt (en %) payé par 20 banques sur les dépôts d'épargne de leurs clients.
Bienvenue au cours MAT-350 Probabilités et statistiques.
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
STATISTIQUE DESCRIPTIVE
Transcription de la présentation:

écologie et analyse de données Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

François Guillemette guillemette.francois@gmail.com Doctorat (3e année) en écologie aquatique Comprendre le rôle de la respiration bactérienne dans les écosystèmes d’eau douce Membre du Groupe de Recherche Interuniversitaire en Limnologie Site internet: http://www.gril-limnologie.ca/ Midis aquatiques: Vendredi 12h15 (SB-1555) Membre au conseil exécutif de la Société canadienne de limnologie

Alain Paquette alain.paquette@gmail.com Chercheur postdoctoral au Centre d’étude de la Forêt www.cef-cfr.ca Biodiversité et fonctions des écosystèmes Projet TRIADE en aménagment forestier durable Mécanismes de développement propre chez les indiens Emberas au Panama

Objectifs: Lecture critique en écologie Méthodes statistiques et analyse des données Communication scientifique

Lecture critique QUI? OÙ? QUAND? QUOI? À QUI? POURQUOI? COMMENT? AVEC QUEL EFFET?

Les niveaux de communication entre scientifiques de scientifique à gestionnaires, décideurs économiques et politiques vers le public

Sujets abordés (1) La littérature scientifique - Les articles scientifiques: structure et style - Le processus de publication et d’autocorrection - Indexes bibliographiques et traditions de citation - La propriété intellectuelle, conflit d’intérêt (2) Les conférences scientifiques Les présentations orales Les présentations par affiche (3) Le web comme outil

Structure pour cette partie du cours 1 atelier de recherche bibliographique (22 sept. à 9h00) 4 rencontres en classe: Théorie sur la communication Discussion d’un article Questions sur le contenu de l’article Synthèse de la problématique, objectifs, méthodes, résultats et conclusions de l’article Liens avec les notions de statistiques et de communication discutées lors des cours précédents Critique de l’article 3 rencontres pour les exposés oraux, en équipe de 3 15 minutes d’oral 5 minutes de questions

Évaluation pour cette partie du cours Choisir un sujet de recherche en écologie Remise du sujet le 6 octobre Le travail se fait en équipes de 3 Vous devez obtenir l’approbation de votre sujet pour pouvoir remettre le résumé Résumé de recherche (25%) Remise le 10 novembre Effectuer une recherche bibliographique sur le sujet choisi Bibliographie de 5 références minimum; synthétiser et critiquer au moins 3 de ces articles en vous inspirant des discussions en classe Souvent, le plus intéressant se trouve dans des articles donnant des points de vue contraires que vous pourrez alors comparer (3) Présentation orale (20%) Présenter votre résumé de recherche oralement (15 min + 5 min) Participation des autres étudiants lors des exposés (5%)

Pour la semaine prochaine: Lire plusieurs fois et attentivement l’article #1 que vous trouverez sur le site web du cours: www.er.uqam.ca/nobel/r34246/bio3500.htm Nous en discuterons en cours; si vous ne l’avez pas lu, se sera difficile!

Rôle des statistiques en écologie 3/30/2017 Rôle des statistiques en écologie Résumé l’information contenue dans un grand nombre d’observations Se convaincre et convaincre les autres

Analyse de données 1 - Collecte des données 2 - Synthèse et traitement 3 - Présentation et communication de l'information

Interpréter les résultats obtenus Analyse de données Identifier la problématique, la question Rassembler les données pertinentes Organiser les données Analyser les données Interpréter les résultats obtenus Recueillir de nouvelles données

Structure et évaluation 4 rencontres en classe: Statistique descriptive Comparaison de moyenne Analyse de variance Corrélation Régression Khi-carré 1 rencontre de révision 8 ateliers de travaux pratiques 4 rapports à rendre (25%) 1 atelier sur Powerpoint 1 examen final en biostatistique (25%) 24 novembre 9-12h (SB-R440) 10 questions

Analyse de données I

Definition Les statistiques sont un ensemble d'outils utilisés pour organiser et analyser des données

Statistique descriptive Ensemble des outils et procédures qui permettent de réorganiser un ensemble de données, de les décrire et de les résumer. Il existe de nombreux moyens de représenter en tableau et graphiquement le données . Nous nous limiterons à décrire les distributions de fréquences et les histogrammes. John Tukey disait qu'il y a deux approches en statistiques, entre lesquelles on jongle constamment : les statistiques exploratoires et les statistiques confirmatoires (exploratory and confirmatory statistics) : on explore d'abord les données pour avoir une idée qualitative de leurs propriétés ; puis on fait des hypothèses de comportement que l'on confirme ou infirme en recourant à d'autres techniques statistiques.

Le poids de 200 poissons En regardant ces données, que peut-on dire? 170 162 184 155 180 167 170 166 168 164 172 167 180 154 180 151 153 164 177 149 173 160 152 173 158 143 169 170 154 168 153 165 160 162 162 168 175 169 166 177 175 148 167 166 159 178 156 172 143 171 181 170 174 153 173 165 156 163 173 162 160 162 165 146 177 165 163 176 172 178 135 151 154 145 170 164 163 165 178 171 166 157 156 167 157 154 164 166 184 167 164 167 153 170 162 192 154 166 170 170 158 167 154 169 162 169 162 158 151 179 159 171 165 165 166 180 180 172 165 155 151 158 164 184 170 154 162 166 150 169 173 155 173 149 174 168 162 172 158 183 175 176 165 147 168 168 171 148 166 171 165 176 145 155 176 163 176 167 171 169 171 169 172 171 178 155 164 176 155 173 158 149 176 146 151 166 163 163 147 161 149 155 146 155 177 168 166 168 163 152 169 170 159 163 186 162 148 173 180 150 En regardant ces données, que peut-on dire?

Distribution de fréquences À noter: une distribution de fréquences peut être représentée dans un tableau qui indique combien de fois chaque valeur d’une variable a été observée.

Règle de Yule Nombre de classes = 2.5 N 0.25 2.5 X 2000.25 = 9.4 classes Largeur de l’intervalle = Étendue (valeurmax- valeurmin/ Nombre de classes (192 – 135)/9.4 ≈ 6 Par convention, on utilise généralement le point milieu pour le caractériser. Cette valeur est l’indice de l’intervalle.

Distribution de fréquences Intervalle Point milieu Fréquence 135-141 138 1 142-148 145 12 149-155 152 32 156-162 159 30 163-169 166 60 170-176 173 44 177-183 180 16 184-190 187 3 191-197 194 2 Les données après regroupement…

Histogrammes Intervalle Point milieu Fréquence 135-141 138 1 142-148 145 12 149-155 152 32 156-162 159 30 163-169 166 60 170-176 173 44 177-183 180 16 184-190 187 3 191-197 194 2 Histogrammes

Distribution unimodale et symétrique

Distribution bimodale Une distribution présentant deux sommets prédominants est qualifiée de bimodale (par opposition à une distribution unimodale).

Distributions asymétriques Certaines distributions ne sont pas symétriques. Elles peuvent présenter une queue vers la gauche (asymétrie négative) ou vers la droite (asymétrie positive)

Statistique inférentielle Statistique inférentielle consiste à extrapoler les résultats obtenus sur un échantillon afin de tirer des conclusions concernant la population. Il s’agit d’inférer certaines caractéristiques de la population à partir de ce que l’on sait sur un échantillon.

Population / échantillon Une population est un ensemble fini d'objets (les individus ou unités statistiques) sur lesquels une étude porte et dont les éléments répondent à une ou plusieurs caractéristiques communes. Un échantillon est un ensemble d'individus extraits d'une population étudiée de manière à ce qu'il soit représentatif de cette population, au moins pour l'objet de l'étude.

Pourquoi un échantillon ? Ressources limitées Temps Coûts financiers Nombre d’étudiants d’été disponibles… Rareté Parfois les mesures sur un échantillon sont plus exactes

Deux problèmes-clés L’échantillon doit être aléatoire (tiré au hasard) L’extrapolation est limitée à la population définie

Exemple Supposez un écologiste qui voudrait mesurer la concentration des cyanobactéries dans les lacs de la région est du Québec. Il/elle décide donc de mesurer la concentration de cyano dans dix lacs. population échantillons

Exemple Un échantillon (dix lacs) est tiré aléatoirement de la population. Observation: mesure une ou plusieurs propriétés (pH, cyanobactéries, taille etc...) d'une entité (ex.: lac). Le but est d’extrapoler les résultats à l’ensemble de la population.

Observations (4) et variables (2) Une variable est une propriété d’une observation qui peut prendre différentes valeurs.

Population / échantillon (deux niveaux) moyenne

Types de variable variables nominales: Sexe (masculin ou féminin) Couleur (rouge, jaune, blanc, etc…) variables ordinales: Âges de la vie (juvénile, adulte) variables continues: La taille, le poids, pH

Variables discrètes et continues Les variables discrètes ont un nombre limité de valeurs qui peuvent être énumérées explicitement. Exemples : Sexe (M ou F), couleur des yeux… Les variables continues peuvent prendre n’importe quelle valeur entre les extrêmes d’une échelle. Exemples : taille, distance, poids, pH…

Les mesures de tendance centrale Une mesure de tendance centrale représente la valeur typique ou le centre d’une distribution.

Les mesures de tendance centrale Il existe trois principales mesures de tendance centrale : le mode la médiane la moyenne

Le mode Le mode est la valeur la plus fréquente c’est-à- dire la valeur obtenue par le plus grand nombre de sujets applicable aux variables nominales et distributions

Le poids de 200 poissons mode Intervalle Point milieu Fréquence 135-141 138 1 142-148 145 12 149-155 152 32 156-162 159 30 163-169 166 60 170-176 173 44 177-183 180 16 184-190 187 3 191-197 194 2 mode

Distribution bimodale mode

La médiane La valeur centrale dans une distribution La médiane est la valeur par rapport à laquelle il y autant de valeurs qui sont plus grandes que de valeurs plus petites

La médiane Calcul avec un nombre impair de scores valeurs: 7, 12, 5, 9, 8, 5, 15, 13, 3 1 - disposer les scores en ordre croissant: 3, 5, 5, 7, 8, 9, 12, 13, 15 2 - calculer la position médiane 3 - la médiane est la 5ème valeur = 8 n= # observations

La médiane 3, 5, 5, 7, 8, 9, 12, 13, 15 4 valeurs 4 valeurs

La médiane Calcul avec un nombre pair de scores valeurs: 7, 12, 5, 9, 8, 5, 15, 13, 3, 15, 6, 11 1 - disposer les scores en ordre croissant: 3, 5, 5, 6, 7, 8, 9, 11, 12, 13, 15, 15 2 - calculer la position médiane 3 - la médiane se trouve entre la 6ème et la 7ème valeur (8 et 9). La médiane est la moyenne de ces deux valeurs = 8.5 n= # observations

La médiane 3, 5, 5, 6, 7, 8, 9, 11, 12, 13, 15, 15 6 valeurs 6 valeurs 8.5

La moyenne la mesure de tendance centrale la plus connue et importante valeurs: 7, 12, 5, 9, 8, 5, 15, 13, 3, 15, 6, 11

La sommation Signifie additioner tous les Xi de i=1 à i=n. n= # observations

La sommation Exemple de sommation au carré:

Avantages et inconvénients des différentes mesures de tendance centrale Le mode, la médiane et la moyenne ne sont égales que si la distribution est symétrique et unimodale.

Distribution symétrique et unimodale

mode médiane moyenne

Avantages et inconvénients des différentes mesures de tendance centrale La moyenne est la plus utilisée, car elle se prête aisément aux calculs d’équations (on peut écrire une équation qui décrit la moyenne) Elle est la meilleure estimation de la tendance centrale de la population Inconvénient: la moyenne est très affectée par les observations extrêmes prochain cours stats

La médiane a l’avantage d’être peu Avantages et inconvénients des différentes mesures de tendance centrale La médiane a l’avantage d’être peu affectée par les observations extrêmes. Inconvénients: elle ne se prête pas directement aux équations elle est moins stable que la moyenne

Avantages et inconvénients des différentes mesures de tendance centrale Le mode n’est pas affecté par les observations extrêmes. Il est le seul applicable aux variables nominales (ou distributions). Inconvénients: peu stable et ne se prête pas aux équations.

Avantages et inconvénients des différentes mesures de tendance centrale Illustration de l’effet des scores extrêmes sur la médiane et la moyenne 1) 53, 58, 62, 64, 68, 72, 73, 77, 86, 87, 88, 92 Médiane = 72,5 Moyenne = 73,33 2) 53, 58, 62, 64, 68, 72, 73, 77, 86, 87, 88, 192 Médiane = 72,5 -> médiane n’est pas affectée Moyenne = 81,67 -> moyenne est fortement affectée

Les mesures de variabilité Moyenne identique mais la dispersion varie fortement 1, 4, 10, 100, 200 61, 62, 63, 64, 65

Les mesures de variabilité poids poids

Les mesures de variabilité Conclusion: 1) la tendance centrale ne renseigne que de façon incomplète sur une distribution 2) Il faut également connaître la dispersion des données autour de la tendance centrale

Les mesures de variabilité La variance (s2) d’un échantillon 30272

Les mesures de variabilité Moyenne identique mais la dispersion varie fortement 1, 4, 10, 100, 200 61, 62, 63, 64, 65

Les mesures de variabilité L’écart-type: la même unité que la variable 61 cm, 62 cm, 63 cm, 64 cm, 65 cm

Les mesures de variabilité Le coefficient de variation comparer la variabilité de deux variables ou deux groupes d’observations quand leurs moyennes sont très differentes 1.58 / 63.0 = 0.025 ou 2.5%

Pour la semaine prochaine: Lire plusieurs fois et attentivement l’article #1 que vous trouverez sur le site web du cours: www.er.uqam.ca/nobel/r34246/bio3500.htm Nous en discuterons en cours; si vous ne l’avez pas lu, se sera difficile!