La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les grandes bases de données communiquent : le rôle des référentiels TAXREF Référentiel taxonomique pour la France Olivier Gargominy & Sandrine Tercerie.

Présentations similaires


Présentation au sujet: "Les grandes bases de données communiquent : le rôle des référentiels TAXREF Référentiel taxonomique pour la France Olivier Gargominy & Sandrine Tercerie."— Transcription de la présentation:

1 Les grandes bases de données communiquent : le rôle des référentiels TAXREF Référentiel taxonomique pour la France Olivier Gargominy & Sandrine Tercerie Service du Patrimoine naturel (SPN)

2 Pourquoi ?

3 Pourquoi ? On ne peut pas travailler sans désigner les objets sur lesquels on travaille = pas d’existence sans nom Nomen omen : le nom est présage Le nom, et donc le référentiel, est la porte d'accès à tous les attributs biologiques et non biologiques de l'espèce : représentations iconographiques, cartes de répartition, données sur l'anatomie, la biologie et l'écologie, textes réglementaires sur la pêche, échantillons dans les collections des musées, etc…

4 La description de la biodiversité
Pourquoi ? La description de la biodiversité EN PRINCIPE, SIMPLE : Une espèce ne devrait idéalement être désignée que par un seul nom et un même nom ne devrait idéalement désigner qu'une seule espèce. 1,9 million d'espèces décrites = 1,9 million de noms La vandoise = Leuciscus leuciscus (Linnaeus, 1758)

5 2-3 millions d'entités / 4-6 millions de noms
Pourquoi ? EN REALITE : Le cloisonnement politique, linguistique et culturel de la communauté scientifique a fait et fait que : une même espèce a pu / peut involontairement être désignée par des noms différents dans différentes parties de son aire de répartition ; un même nom a pu / peut servir à désigner des espèces différentes dans différentes régions du monde. La délimitation des taxons n'est pas une vérité révélée ; elle résulte d'observations, d'interprétations et d'hypothèses faites par des humains : qui se trompent parfois ; qui ne sont pas d'accord entre eux ; qui étudient plantes et animaux depuis 250 ans avec des moyens d'investigation qui ont varié au cours des temps. 2-3 millions d'entités / 4-6 millions de noms

6 La description de la biodiversité
Pourquoi ? La description de la biodiversité Une même espèce a pu / peut involontairement être désignée par des noms différents dans différentes parties de son aire de répartition ; La vandoise : Leuciscus leuciscus (Linnaeus, 1758) en Europe Leuciscus baicalensis (Dybowski, 1874) en Sibérie et en Asie centrale.

7 La description de la biodiversité
Pourquoi ? La description de la biodiversité Un même nom a pu / peut servir à désigner des espèces différentes dans différentes régions du monde. Leuciscus rostratus Valenciennes, 1844 : La vandoise de la Meuse pour Valenciennes (= L. leuciscus) La vandoise rostrée d'Aquitaine pour Roule (= L. burdigalensis) © Kottelat & Freyhof

8 Outil de communication
Pourquoi ? Outil de communication "azote" en français "nitrogen" en anglais "Stickstoff" en allemand "dusik" en tchèque + clé vers les propriétés de l’objet

9 Textes réglementaires
Pourquoi ? Territoires et espaces Fonctionnement de l’écosystème Textes réglementaires ENTITE BIOLOGIQUE NOM ATTRIBUTS Listes rouges Relations de parenté Caractères, structure, composition etc… Démographie

10 Comment ?

11 Comment ? Au 18ème siècle Accélération de l’exploration outre-mer
Accélération du commerce des ressources naturelles

12 = une machine à laver la vaiselle
Comment ? But original : la description EST le nom = le nom doit amener directement à l’espèce. = une machine = une machine à laver = une machine à laver la vaiselle

13

14 Comment ? Au 18ème siècle Les noms se multiplient et se complexifient Nécessité d’un standard de nommage => Système nomenclatural de Linné (1758) : Lave linge Lave vaisselle Un terme générique Un terme spécifique

15 Comment ? Classification Règne : Animalia
© Gargominy Règne : Animalia Embranchement [= Phylum] : Mollusca Classe : Gastropoda Ordre : Pulmonata Famille Vertiginidae Genre Nesoropupa Espèce Nesoropupa duodecim Nomenclature : comment nommer les boites = code Taxonomie : faire des boites

16 Retour vers TAXREF

17 Le référentiel taxonomique est l'outil qui permet de savoir :
TAXREF Le référentiel taxonomique est l'outil qui permet de savoir : que les noms : Cyprinus leuciscus Linnaeus, 1758 C. grislagine Linnaeus, 1758 C. dobula Linnaeus, 1758 Leuciscus baicalensis (Dybowski, 1874) désignent une seule et même espèce de poisson : la vandoise. que le nom actuellement reconnu comme valide est : Leuciscus leuciscus (Linnaeus, 1758)

18 Le référentiel taxonomique est l'outil qui permet de savoir :
TAXREF Le référentiel taxonomique est l'outil qui permet de savoir : que la vandoise et la carpe Cyprinus carpio Linné, sont classées dans deux genres différents de la même famille, les Cyprinidae. qu'il existe en France quatre autres espèces de Leuciscus : L.  bearnensis (Blanchard, 1866) (la Vandoise du Béarn), endémique de France L.  burdigalensis Valenciennes, 1844 (la Vandoise rostrée), L.  idus (Linnaeus, 1758) (l’Ide mélanote), L.  oxyrrhis (La Blanchère, 1873) (la Vandoise au long-museau), endémique de France.

19 Objectifs et exigences de TAXREF
Produire une liste de noms de référence pour les taxons de la faune, la flore et la fonge de France Permettre une interopérabilité entre les bases de données Diffusion (en particulier téléchargement libre) Liens avec les référentiels sources (FaEu, WoRMS, BDNFF…) Gérer des données et les évolutions nomenclaturales et taxonomiques dans les données Gestion de la synonymie Gestion de la hiérarchie taxonomique

20 Les producteurs de données
TAXREF Les producteurs de données Bases de données validées, officielles et consensuelles Fauna Europaea, validée MNHN (SPN est Point Focal) WoRMS, validée MNHN FishBase , validée MNHN Base Nadeaud, validée MNHN etc. Publications scientifiques Hill M.O. et al An annotated checklist of the mosses of Europe and Macaronesia. Journal of Bryology, 28: Martiré, D. & Rochat, J Les Papillons de La Réunion et leurs chenilles. Biotope, Mèze (Collection Parthénope) ; Muséum national d'Histoire naturelle, Paris. 496 pp. Peck, S.B The beetles of Martinique, Lesser Antilles (Insecta: Coleoptera); diversity and distributions. Insecta Mundi, 178 : 1-57. Groupes d’expert Société Herpétologique de France Société Mycologique de France Société française d’Arachnologie

21 Portées taxonomique et géographique
TAXREF Portées taxonomique et géographique Toutes espèces Fonge, flore, faune Marines et continentales France Métropole Outre-Mer

22 Une tâche à deux x deux faces
TAXREF Une tâche à deux x deux faces Côté pile : la nomenclature et la taxonomie Nom disponible (nomenclature) Nom de référence (taxonomie) Côté face : occurrence et statut biogéographique Absente Accidentelle / Visiteuse Cryptogène Disparue Douteux Endémique Endémique éteinte Éteinte Introduite Introduite envahissante Introduite éteinte / disparue Introduite non établie (dont domestique) Mentionnée par erreur Présente (indigène ou indéterminé) Subendémique

23 Consolidation nationale
TAXREF Consolidation nationale = s’assurer qu’une espèce commune à la Martinique, la Réunion et la Polynésie française, porte le même nom Stratégie « espèces envahissantes » « Escargot de Bourgogne » : Cantareus aspersus (dans le texte), Cornu aspersum (REU), Helix aspersa (NC)

24 Consolidation nationale
TAXREF Consolidation nationale Exemple des trachéophytes des Antilles : 3 mois pour inclure noms dont 2 mois pour consolider 1600 noms METROPOLE ANTILLES Panicum eruciforme  Sm., 1806 Panicum erucaeforme J.E. Smith, 1806 Leptochloa fascicularis (Lam.) A. Gray, 1848 Diplachne fascicularis (Lam.) P.Beauv., 1812 Erigeron bonariensis L., 1753 Conyza bonariensis (L.) Cronq., 1943 Sesamum orientale L., 1762 Sesamum indicum L., 1753 Citrus deliciosa Ten. Citrus reticulata Blanco, 1837

25 TAXREF

26 TAXREF Ajout d’un statut biogéographique pour FR
 Inventaire national du Patrimoine naturel

27 TAXREF

28 TAXREF

29 TAXREF Pourquoi les référentiels nationaux existent et continueront d’exister ? Apporter des solutions au niveau national = s’adresser à une communauté = répondre à des besoins (en particulier programmes nationaux tels que ZNIEFF, Natura 2000, Espaces protégés, etc.) Aborder des groupes taxonomiques pour lesquels seule une connaissance régionale est disponible Offrir des possibilités de gestion des données beaucoup plus fines : synonymies d’usage

30 TAXREF GSD Référentiel national 20. Lacerta viridis (Laurenti, 1768)
21. Lacerta bilineata Daudin, 1802 20 1. Lacerta viridis (Laurenti, 1768) 2. Lacerta bilineata Daudin, 1802 1 20. Lacerta viridis (Laurenti, 1768) 21. Lacerta bilineata Daudin, 1802 1. Lacerta viridis auct. non (Laurenti, 1768) 2 2. Lacerta bilineata Daudin, 1802 (3. Lacerta viridis (Laurenti, 1768))

31 TAXREF Une seule espèce : Maculinea alcon (Denis & Schiffermüller, 1775) (CD_NOM = CD_REF = 54080) protégée en France. MAIS deux écotypes dont les stratégies de conservation sont différentes => nécessité d’individualiser les écotypes dans le cadre des inventaires. © François Séité © Luc Dietrich Ponte sur Gentiane pneumonanthe (habitat : prairie humide) Ponte sur Gentiane croisette (habitat : pelouse sèche) TAXREF renferme les CD_NOM des deux écotypes : 54083 pour Maculinea alcon rebeli (Hirschke, 1904) (sur pelouses sèches) 54082 pour Maculinea alcon alcon (Denis & Schiffermüller, 1775) (sur prairies humides)

32 Résultats

33 Résultats Nombre de noms (CD_NOM) disponibles dans TAXREF par année

34 Résultats Evolution de TAXREF

35 Résultats Etat d’avancement des listes de référence pour TAXREF v7.0 (Taxons continentaux) - GF: champignons (2,56%), Comité d’Orientation INPN, 21 mars 2013, Paris 35 35

36 Résultats Etat d’avancement des listes de référence pour TAXREF v7.0 (Insectes) Comité d’Orientation INPN, 21 mars 2013, Paris 36 36

37 Résultats Etat d’avancement des listes de référence pour TAXREF v7.0 (Taxons marins) Comité d’Orientation INPN, 21 mars 2013, Paris 37 37

38 Diffusion

39 Accès au référentiel : http://inpn.mnhn.fr
Diffusion Accès au référentiel : Consultation en ligne Téléchargement versions ( = stabilité) mise à jour annuelle minimum

40 Diffusion Diffusion de TAXREF
Via un espace réservé au sein du site de l’INPN Inscription (connaissance des utilisateurs) Téléchargements partiel ou intégral du référentiel Suivi des changements entre deux versions (table TAXREF_CHANGES et document des sources (TAXREF_sources_vX.X)) Via des outils naturalistes Serena (RNF) Silene (CBN Med) BDN (ONF) « Outil naturaliste » (NaturParif)

41 Diffusion Téléchargements de TAXREF
Nombre d’inscriptions à TAXREF depuis la v3.0

42 Diffusion Analyse des téléchargements de TAXREF
Nombre de téléchargements de TAXREF en fonction de l'organisme d'appartenance des utilisateurs

43 Diffusion Analyse des téléchargements de TAXREF

44 Conclusion Référentiel taxonomique = indispensable pour gérer et partager les données sur la nature TAXREF = colonne vertébrale de l’INPN en téléchargement (libre et gratuit) intégrable à n’importe quel outil

45 INPN > Programmes > Référentiel Espèces :
Merci INPN > Programmes > Référentiel Espèces :

46 Modifications et Biblio: comment participer à TAXREF

47 DOCS-Web

48 L’interface recherche:

49 L’ajout d’une référence bibliographique:

50

51 Comment faire remonter des modifications ?

52 Quel format ? Quel contenu ?
Processus: d’abord rentrer la biblio dans DOCS-WEB et ensuite demander une modif en nous communiquant le CD_DOC associée. Beaucoup plus de gens peuvent avoir accès à DOCS-WEB qu’à TAXREF. CD_SUP et CD_REF sont indispensables pour savoir à quoi raccrocher les nouveaux taxons Intitulé complet de la référence ou CD_DOC 52

53 A éviter: Ne décrit pas correctement ce qui est expliqué dans l’article et ne permet pas de remplir TAXREF. 3 références ne sont pas nécessaires puisque l’on utilise la 1ère mention du nom.

54 Quels types de références pour quelles utilisations ?
Ajout d’espèces dans TAXREF: descriptions d’espèces valides respectant les codes de nomenclature:

55 Quels types de références pour quelles utilisations ?
Occurrences dans les territoires, noms vernaculaires: tout type de littérature peut être pris en compte. Par exemple pour les ZNIEFF, beaucoup de remontées d’occurrences mais qui comportent de nombreuses erreurs: donc il est impératif d’effectuer un travail bibliographique pour confirmer ces occurrences. 55

56 À éviter ! Quels types de références pour quelles utilisations ?
Occurrences dans les territoires: tout type de littérature peut être pris en compte. À éviter !

57 Quels types de références pour quelles utilisations ?
Statuts biogéographiques: publications scientifiques nécessaires.

58 Résultats: un travail de bibliographie qui sert à la justification des modifications dans TAXREF
ET Une ressource disponible pour tous sur le site de l’INPN.

59 Utiliser TAXREF grâce à la réconciliation taxonomique (TAXREF-MATCH)
59

60 Objectifs

61 Helix pomatia L. CD_NOM = 64260
Objectifs Réconciliation Nom Référence TAXREF-MATCH Objectif de la réconciliation : pouvoir attacher un nom à une référence. = moteur de recherche (ex: « Apple » = ordinateur, pomme, New-York) ; différent d’une simple recherche. Objectif de TAXREF-MATCH : pouvoir rattacher un nom à un CD_NOM. Helix pomatia L CD_NOM = 64260 … et tous les attributs de 64260 61

62 Deux utilisations possibles
Objectifs Deux utilisations possibles Réconciliation pour un nom Réconciliation pour une liste de noms Réconciliation pour un nom = utilisée pour la recherche dans TAXREF-web Réconciliation pour une liste de noms = pour matcher des jeux de données avec TAXREF. Indispensable avant toute intégration/mise à jour de référentiels dans TAXREF, pour éviter de créer des doublons. 62

63 Cas simple Cas complexe Objectifs Tilapia zillii (Gervais, 1848)
Gomphus pulchellus Selys Lepidonotus clava Montagu, 1808 Gomphus pulchellus Selys, 1840 Lepidonotus clava (Montagu, 1808) Cas complexe Tilapia zillii (Gervais, 1848) Tilapia zillei Tilapia zilli Gervais, 1849 Acerina zillii Gervais 1848 Coptodus zillii (Gervais, 1848) Problème de la réconciliation taxonomique : analyser si bonne ou mauvaise réconciliation. Même espèce ? Quel nom valide ? 63

64 Principes

65 Basée sur deux transformations
Principes Basée sur deux transformations OPhiothrix Fragilis (Abildgaard, 1789) Normalisation Espaces excédentaires, Majuscules / minuscules, Accentuations, Virgule entre l’auteur et la date, Abréviations des auteurs, etc. Phonétique (dégradation) Terminaisons latines, Fautes d’orthographes (t versus th, etc.) normalisation OPHIOTHRIX FRAGILIS ABILDGAARD 1789 phonétisation Pour surmonter les différents obstacles à la réconciliation, deux transformations sont nécessaires : La normalisation = standardisation du nom pour supprimer la mise en forme et les caractères spéciaux et ne conserver que l’information brute contenue dans la chaîne de caractères. La phonétisation = dégradation du nom pour supprimer les fautes potentielles d’orthographe. OPIATRIX FRAGILA ABILDGARD 1789 65

66 Processus en plusieurs étapes
Principes Processus en plusieurs étapes Setaria italicum (L.) P.Beauv., 1812 TAXREF Normalisation du nom Comparaison en normalisation Phonétique du nom Comparaison en phonétique Comparaison avec index de similarité et distance de Jaro-Winkler + Calcul de la correspondance en taxonomie supérieure SETARIA ITALICUM L. P. BEAUVOIS 1812 Pas de résultats Setaria italica (L.) P.Beauv., 1812 (CD_NOM= ) SITARA ITALICA L. P. BIAIVA 1812 Setaria italicum (L.) P.Beauv., 1812 Comparaisons avec les noms de TAXREF (et leur classification) à chaque étape du processus. Plantae, Poales, Poaceae Plantae, Poales, Poaceae => Famille 66

67 Processus en plusieurs étapes
Principes Processus en plusieurs étapes Niveaux de réconciliation 1 - Nom complet normalisé 2 - Nom complet normalisé sans date 3 - Nom scientifique normalisé 4 - Phonétique Nom complet 5 - Phonétique Nom complet sans date 6 - Phonétique Nom scientifique 7 - Jaro-Winkler / similarité Processus séquentiel échappatoire Renvoie des meilleurs candidats pour éviter les choix subséquents inutiles Gain de temps de calcul SETARIA ITALICA L. P. BEAUVOIS 1812 SETARIA ITALICA L. P. BEAUVOIS SETARIA ITALICA SITARA ITALICA L. P. BIAIVA 1812 SITARA ITALICA L. P. BIAIVA SITARA ITALICA Etapes matérialisées en niveaux de réconciliation : 3 niveaux pour le nom normalisé (avec auteur et date; sans date; sans date ni auteur) 3 niveaux pour le nom en phonétique (avec auteur et date; sans date; sans date ni auteur) le dernier niveau pour les calculs de distance de similarité. Processus séquentiel échappatoire = renvoie les meilleurs résultats pour éviter d’avoir à parcourir les autres niveaux de réconciliation. Si résultats trouvés à un niveau donné, niveaux suivants non effectués.

68 Performances Principes Sans calculs de similarité :
entre 2.5 s (correspondance exacte sans classification supérieure) et 15 s (phonétique et taxonomique et avec classification supérieure) par nom 100 noms en 5 mn Avec calculs des distances de similarité et de Jaro-Winkler : jusqu’à 22s par nom 100 noms en 16 mn

69 Comment lancer un TAXREF-MATCH ?

70 Une adresse unique : taxref.mnhn.fr/taxref-match
Comment ? Une adresse unique : taxref.mnhn.fr/taxref-match Accès sous login et mot de passe

71 Deux TAXREF-MATCH disponibles :
Comment ? Deux TAXREF-MATCH disponibles : version diffusée sur l’INPN (TAXREF v7.0) version de travail sur TAXREF-web

72 Import d’une liste de noms : format .txt ou .csv
Comment ? Import d’une liste de noms : format .txt ou .csv

73 Import d’une liste de noms : format .txt ou .csv
Comment ? Import d’une liste de noms : format .txt ou .csv

74 Import d’une liste de noms : format .txt ou .csv
Comment ? Import d’une liste de noms : format .txt ou .csv

75 Import d’une liste de noms : format .txt ou .csv
Comment ? Import d’une liste de noms : format .txt ou .csv > 2000 lignes pas de doublons dans le nom d’espèce encodage standard (ANSI/Windows-1252) ou UTF-8

76 Comment ?

77 Si fichier de moins de 10 lignes :
Comment ? Si fichier de moins de 10 lignes : Résultats affichés à l’écran => choix du format et de l’encodage du fichier pour l’enregistrement 77

78 Si fichier de plus de 10 lignes :
Comment ? Si fichier de plus de 10 lignes : Résultats envoyés par mail (lien de téléchargement) => choix du format (.csv ou .xml) et de l’encodage du fichier (Standard ou UTF-8) pour l’enregistrement 78

79 Analyses des résultats

80 Analyse des résultats informations fournies CD_NOM matchés dans TAXREF
informations sur le match

81 Réconciliations de niveaux 1, 2 ou 3 (noms normalisés)
Analyse des résultats Réconciliations de niveaux 1, 2 ou 3 (noms normalisés) = a priori toujours bonnes Cas de réconciliations simples : uniquement différences de parenthèses, d’abréviations d’auteurs ou de mention du sous-genre. un seul résultat de match par nom cité.

82 Réconciliations de niveaux 1, 2 ou 3 (noms normalisés)
Analyse des résultats Réconciliations de niveaux 1, 2 ou 3 (noms normalisés) MAIS exceptions possibles : Dichrostachys cinerea (L.) Wight & Arn., 1834 Acacia polyacantha Willd., 1806 Difficulté de réconciliation lorsque les auteurs ne sont pas mentionnés… plusieurs résultats de match possibles. => Importance d’avoir le maximum d’informations pour le match ! En général : on considérera que la personne voulait désigner le nom de référence (à vérifier dans TAXREF). Remarque : exceptions généralement décelables par les résultats multiples retournés. 82

83 Réconciliations de niveaux 1, 2 ou 3 (noms normalisés)
Analyse des résultats Réconciliations de niveaux 1, 2 ou 3 (noms normalisés) Cas très particulier : Torilis leptophylla (L.) Rchb.f., 1867 (CD_NOM=126861) Caucalis platycarpos L., 1753 (CD_NOM=89415) Pas de solution : il faut retourner à la donnée. 83

84 Réconciliations de niveaux 4, 5 ou 6 (noms en phonétique)
Analyse des résultats Réconciliations de niveaux 4, 5 ou 6 (noms en phonétique) = davantage de vigilance requise Cas de réconciliations un peu plus complexes car différences d’écriture du nom… en général sans ambiguité mais vérification nécessaire. Un seul résultat de match par nom cité. 84

85 Réconciliations de niveaux 4, 5 ou 6 (noms en phonétique)
Analyse des résultats Réconciliations de niveaux 4, 5 ou 6 (noms en phonétique) Mêmes types d’exceptions que pour les matchs précédents + différences possibles sur le rang : Potentielle erreur de rang dans le nom cité ? Sinon, il faut considérer que le match n’est pas bon et qu’il s’agit de taxons différents. 85

86 Réconciliations de niveaux 7
Analyse des résultats Réconciliations de niveaux 7 (calcul des distances de similarité et de Jaro-Winkler) Résultats multiples, vigilance accrue ! Résultats multiples d’où analyse plus longue et fastidieuse… Importance de renseigner au mieux le nom cité (avec auteur et si possible date) : plus le nom cité est complet, moins TAXREF-MATCH ne retourne de résultats (2 résultats avec auteur contre 7 sans) donc plus l’analyse est simple. 86

87 Réconciliations de niveaux 7
Analyse des résultats Réconciliations de niveaux 7 (calcul des distances de similarité et de Jaro-Winkler) Cas de noms quasiment identiques… … mais correspondant à 2 espèces différentes Attention à ne pas aller trop vite dans l’analyse… deux noms très proches ayant le même auteur, la même date et appartenant au même genre ne correspondent pas nécessairement à la même espèce ! Attention aussi aux copier-coller à partir de pdf : certaines fautes proviennent de mauvais copier-coller (ex: « rn » transformé en « m »). 87

88 En résumé Analyse des résultats
Collecter le plus possible de données (auteur et classification, date) Pas de limite nette entre bonnes et mauvaises réconciliations (% de similarité uniquement informatif) TAXREF-MATCH adaptable pour l’INPN et pour TAXREF: Version uniquement avec matchs les plus sûrs (moins de résultats) Version avec tous les matchs possibles (beaucoup de résultats donc beaucoup de post-traitement !)

89 Merci


Télécharger ppt "Les grandes bases de données communiquent : le rôle des référentiels TAXREF Référentiel taxonomique pour la France Olivier Gargominy & Sandrine Tercerie."

Présentations similaires


Annonces Google