La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette.

Présentations similaires


Présentation au sujet: "Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette."— Transcription de la présentation:

1 Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

2 François Guillemette Doctorat (3 e année) en écologie aquatique Comprendre le rôle de la respiration bactérienne dans les écosystèmes deau douce Membre du Groupe de Recherche Interuniversitaire en Limnologie Site internet: Midis aquatiques: Vendredi 12h15 (SB-1555) Membre au conseil exécutif de la Société canadienne de limnologie

3 Alain Paquette Chercheur postdoctoral au Centre détude de la Forêt Biodiversité et fonctions des écosystèmes Projet TRIADE en aménagment forestier durable Mécanismes de développement propre chez les indiens Emberas au Panama

4 Objectifs: Lecture critique en écologie Méthodes statistiques et analyse des données Communication scientifique

5 Lecture critique QUI? OÙ? QUAND? QUOI? À QUI? POURQUOI? COMMENT? AVEC QUEL EFFET?

6 Les niveaux de communication entre scientifiques de scientifique à gestionnaires, décideurs économiques et politiques vers le public

7 (1) La littérature scientifique - Les articles scientifiques: structure et style - Le processus de publication et dautocorrection - Indexes bibliographiques et traditions de citation - La propriété intellectuelle, conflit dintérêt (2) Les conférences scientifiques Les présentations orales Les présentations par affiche (3) Le web comme outil Sujets abordés

8 Structure pour cette partie du cours 1 atelier de recherche bibliographique (22 sept. à 9h00) 4 rencontres en classe: Théorie sur la communication Discussion dun article Questions sur le contenu de larticle Synthèse de la problématique, objectifs, méthodes, résultats et conclusions de larticle Liens avec les notions de statistiques et de communication discutées lors des cours précédents Critique de larticle 3 rencontres pour les exposés oraux, en équipe de 3 15 minutes doral 5 minutes de questions

9 Évaluation pour cette partie du cours Choisir un sujet de recherche en écologie Remise du sujet le 6 octobre Le travail se fait en équipes de 3 Vous devez obtenir lapprobation de votre sujet pour pouvoir remettre le résumé Résumé de recherche (25%) Remise le 10 novembre Effectuer une recherche bibliographique sur le sujet choisi Bibliographie de 5 références minimum; synthétiser et critiquer au moins 3 de ces articles en vous inspirant des discussions en classe Souvent, le plus intéressant se trouve dans des articles donnant des points de vue contraires que vous pourrez alors comparer (3) Présentation orale (20%) Présenter votre résumé de recherche oralement (15 min + 5 min) Participation des autres étudiants lors des exposés (5%)

10 Pour la semaine prochaine: Lire plusieurs fois et attentivement larticle #1 que vous trouverez sur le site web du cours: Nous en discuterons en cours; si vous ne lavez pas lu, se sera difficile!

11 Rôle des statistiques en écologie Résumé linformation contenue dans un grand nombre dobservations Se convaincre et convaincre les autres

12 Analyse de données 1 - Collecte des données 2 - Synthèse et traitement 3 - Présentation et communication de l'information

13 Identifier la problématique, la question Rassembler les données pertinentes Organiser les données Analyser les données Interpréter les résultats obtenus Analyse de données Recueillir de nouvelles données

14 Structure et évaluation 4 rencontres en classe: Statistique descriptive Comparaison de moyenne Analyse de variance Corrélation Régression Khi-carré 1 rencontre de révision 8 ateliers de travaux pratiques 4 rapports à rendre (25%) 1 atelier sur Powerpoint 1 examen final en biostatistique (25%) 24 novembre 9-12h (SB-R440) 10 questions

15 Analyse de données I

16 Definition Les statistiques sont un ensemble d'outils utilisés pour organiser et analyser des données

17 Statistique descriptive Ensemble des outils et procédures qui permettent de réorganiser un ensemble de données, de les décrire et de les résumer. Il existe de nombreux moyens de représenter en tableau et graphiquement le données. Nous nous limiterons à décrire les distributions de fréquences et les histogrammes.

18 Le poids de 200 poissons En regardant ces données, que peut-on dire?

19 Distribution de fréquences À noter: une distribution de fréquences peut être représentée dans un tableau qui indique combien de fois chaque valeur dune variable a été observée.

20 Règle de Yule Nombre de classes = 2.5 N X = 9.4 classes Largeur de lintervalle = Étendue (valeur max - valeur min / Nombre de classes (192 – 135)/9.4 6 Par convention, on utilise généralement le point milieu pour le caractériser. Cette valeur est lindice de lintervalle.

21 Distribution de fréquences Les données après regroupement… IntervallePoint milieuFréquence

22 Histogrammes IntervallePoint milieuFréquence

23 Distribution unimodale et symétrique

24 Distribution bimodale Une distribution présentant deux sommets prédominants est qualifiée de bimodale (par opposition à une distribution unimodale).

25 Distributions asymétriques Certaines distributions ne sont pas symétriques. Elles peuvent présenter une queue vers la gauche (asymétrie négative) ou vers la droite (asymétrie positive)

26 Statistique inférentielle Statistique inférentielle consiste à extrapoler les résultats obtenus sur un échantillon afin de tirer des conclusions concernant la population. Il sagit dinférer certaines caractéristiques de la population à partir de ce que lon sait sur un échantillon.

27 Population / échantillon Une population est un ensemble fini d'objets (les individus ou unités statistiques) sur lesquels une étude porte et dont les éléments répondent à une ou plusieurs caractéristiques communes. Un échantillon est un ensemble d'individus extraits d'une population étudiée de manière à ce qu'il soit représentatif de cette population, au moins pour l'objet de l'étude.

28 Pourquoi un échantillon ? Ressources limitées Temps Coûts financiers Nombre détudiants dété disponibles… Rareté Parfois les mesures sur un échantillon sont plus exactes

29 Deux problèmes-clés Léchantillon doit être aléatoire (tiré au hasard) Lextrapolation est limitée à la population définie

30 Exemple Supposez un écologiste qui voudrait mesurer la concentration des cyanobactéries dans les lacs de la région est du Québec. Il/elle décide donc de mesurer la concentration de cyano dans dix lacs. population échantillons

31 Exemple Un échantillon (dix lacs) est tiré aléatoirement de la population. Observation: mesure une ou plusieurs propriétés (pH, cyanobactéries, taille etc...) d'une entité (ex.: lac). Le but est dextrapoler les résultats à lensemble de la population.

32 Observations (4) et variables (2) Une variable est une propriété dune observation qui peut prendre différentes valeurs.

33 Population / échantillon (deux niveaux) moyenne

34 Types de variable variables nominales: Sexe (masculin ou féminin) Couleur (rouge, jaune, blanc, etc…) variables ordinales: Âges de la vie (juvénile, adulte) variables continues: La taille, le poids, pH

35 Variables discrètes et continues Les variables discrètes ont un nombre limité de valeurs qui peuvent être énumérées explicitement. Exemples : Sexe (M ou F), couleur des yeux… Les variables continues peuvent prendre nimporte quelle valeur entre les extrêmes dune échelle. Exemples : taille, distance, poids, pH…

36 Les mesures de tendance centrale Une mesure de tendance centrale représente la valeur typique ou le centre dune distribution.

37 Les mesures de tendance centrale Il existe trois principales mesures de tendance centrale : 1) le mode 2) la médiane 3) la moyenne

38 Le mode Le mode est la valeur la plus fréquente cest-à- dire la valeur obtenue par le plus grand nombre de sujets applicable aux variables nominales et distributions

39 Le poids de 200 poissons mode IntervallePoint milieuFréquence

40 Distribution bimodale mode

41 La médiane La valeur centrale dans une distribution La médiane est la valeur par rapport à laquelle il y autant de valeurs qui sont plus grandes que de valeurs plus petites

42 La médiane Calcul avec un nombre impair de scores valeurs: 7, 12, 5, 9, 8, 5, 15, 13, disposer les scores en ordre croissant: 3, 5, 5, 7, 8, 9, 12, 13, calculer la position médiane 3 - la médiane est la 5 ème valeur = 8 n= # observations

43 La médiane 3, 5, 5, 7, 8, 9, 12, 13, 15 4 valeurs

44 La médiane Calcul avec un nombre pair de scores valeurs: 7, 12, 5, 9, 8, 5, 15, 13, 3, 15, 6, disposer les scores en ordre croissant: 3, 5, 5, 6, 7, 8, 9, 11, 12, 13, 15, calculer la position médiane 3 - la médiane se trouve entre la 6ème et la 7 ème valeur (8 et 9). La médiane est la moyenne de ces deux valeurs = 8.5 n= # observations

45 La médiane 3, 5, 5, 6, 7, 8, 9, 11, 12, 13, 15, valeurs

46 La moyenne la mesure de tendance centrale la plus connue et importante valeurs: 7, 12, 5, 9, 8, 5, 15, 13, 3, 15, 6, 11

47 La sommation Signifie additioner tous les X i de i=1 à i=n. n= # observations

48 La sommation Exemple de sommation au carré:

49 Avantages et inconvénients des différentes mesures de tendance centrale Le mode, la médiane et la moyenne ne sont égales que si la distribution est symétrique et unimodale.

50 Distribution symétrique et unimodale

51 médiane moyenne mode

52 Avantages et inconvénients des différentes mesures de tendance centrale prochain cours stats La moyenne est la plus utilisée, car elle se prête aisément aux calculs déquations (on peut écrire une équation qui décrit la moyenne) Elle est la meilleure estimation de la tendance centrale de la population Inconvénient: la moyenne est très affectée par les observations extrêmes

53 Avantages et inconvénients des différentes mesures de tendance centrale La médiane a lavantage dêtre peu affectée par les observations extrêmes. Inconvénients: elle ne se prête pas directement aux équations elle est moins stable que la moyenne

54 Avantages et inconvénients des différentes mesures de tendance centrale Le mode nest pas affecté par les observations extrêmes. Il est le seul applicable aux variables nominales (ou distributions). Inconvénients: peu stable et ne se prête pas aux équations.

55 Avantages et inconvénients des différentes mesures de tendance centrale Illustration de leffet des scores extrêmes sur la médiane et la moyenne 1) 53, 58, 62, 64, 68, 72, 73, 77, 86, 87, 88, 92 Médiane = 72,5 Moyenne = 73,33 2) 53, 58, 62, 64, 68, 72, 73, 77, 86, 87, 88, 192 Médiane = 72,5 -> médiane nest pas affectée Moyenne = 81,67 -> moyenne est fortement affectée

56 Les mesures de variabilité Moyenne identique mais la dispersion varie fortement 1, 4, 10, 100, , 62, 63, 64, 65

57 Les mesures de variabilité poids

58 Les mesures de variabilité Conclusion: 1) la tendance centrale ne renseigne que de façon incomplète sur une distribution 2) Il faut également connaître la dispersion des données autour de la tendance centrale

59 Les mesures de variabilité La variance (s 2 ) dun échantillon 30272

60 Les mesures de variabilité Moyenne identique mais la dispersion varie fortement 1, 4, 10, 100, , 62, 63, 64, 65

61 Les mesures de variabilité Lécart-type : la même unité que la variable 61 cm, 62 cm, 63 cm, 64 cm, 65 cm

62 Les mesures de variabilité Le coefficient de variation comparer la variabilité de deux variables ou deux groupes dobservations quand leurs moyennes sont très differentes 1.58 / 63.0 = ou 2.5%

63 Pour la semaine prochaine: Lire plusieurs fois et attentivement larticle #1 que vous trouverez sur le site web du cours: Nous en discuterons en cours; si vous ne lavez pas lu, se sera difficile!


Télécharger ppt "Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette."

Présentations similaires


Annonces Google