Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche.

Slides:



Advertisements
Présentations similaires
Je lis, j’écris Objectif du logiciel S'entraîner à saisir précisément un mot, une expression, une phrase, un texte,
Advertisements

Lalimentation de STAR par imports STAR 8ième cercle – 27 septembre 2013.
DTD Sylvain Salvati
JXDVDTEK – Une DVDthèque en Java et XML
Educasources Paris, le 30 janvier 2007 Paris, le 30 janvier 2007.
présentation générale
FORMATION OUTILS « FONCTIONS »
Diffusion Nationale TOULOUSE -Avril 2006 STS Web Services libres Créer un service libre.
Formulaire HTML Introduction. Définition de formulaire.
Principe de défilement du document dans un traitement de texte
COMMENT CRÉER UNE ENQUÊTE AVEC SPHINX ?
La pharmacovigilance. Cette fenêtre permet de modifier le fichier qui contient l'essentiel des pathologies et médicaments afin de piloter lensemble.
Prise en main rapide... Ou comment commencer avec RevisAudit ?
Présentation du journal Scolaweb et de l’administration du site.
Le portail des sports des associations de la ville de Nice
Pour paramétrer les diverses lettres-clés et leur valeur
Formation Cybercarnet
Signets-Universités Tutoriel réalisé par Damien Poivet (CERIMES) et Christine Fleury (ABES) utiliser - contribuer.
Formation Cybercarnet C.A.H.M Entrer dans les cybercarnets des élèves et des enseignants 1. Pour débuter, vous devez choisir sur la page principale.
Microsoft Excel Avancé
Contexte et objectifs L’AFPA souhaite proposer à ses stagiaires des services complémentaires à son offre de formation standard. L’espace emploi permet.
Université de La Rochelle Saisie et Mise à jour des fiches ECTS le 05/12/2001.
Traitement de texte ++.
Diffusion Nationale TOULOUSE -Avril 2006 STS Web Services libres Gérer les services libres.
Vice-rectorat de Mayotte
Créer un index.
La création de sinistre, la sélection à des fins de consultation, modification ou impression sont accessibles grâce à la barre de menu à gauche de l'écran.
Utiliser la plateforme eTwinning
Mode plan – Table des matières
Création d'un diaporama Création d'un diaporama
Tutoriel web endnote Outil de recherche et de partage bibliographique 1.
Université de La Rochelle Saisie et Mise à jour des fiches ECTS le 01/12/2000.
Exporter les données comptables
Standards pour les ressources documentaires description – organisation – diffusion – production Séminaire Normes et standards pour les TICE Saint-Clément-les-Places.
INSCRIPTION AUX ELEMENTS
Master EIAH E-learning De la production à la mutualisation Brigitte de La Passardière Université Pierre et Marie Curie LIP6.
Les devis Le devis ODF.
Les devis Les devis texte.
Catalogage de données Notions, enjeux et initiatives actuelles.
Création de menus. Depuis la page d’accueil de votre site, cliquez sur le lien [Login] puis saisissez les identifiants qui vous ont été attribués. Connectez-vous.
Exporter – Graver - Présenter  C'est grâce aux collections que "Exporter graver présenter" prend tout son sens  On peut y exporter un ensemble d'images,
Centre d’échange d’informations sur la Convention sur la Diversité Biologique Bienvenue dans le cours sur l’ajout d’une page web sur un site web développé.
KIWAPP IS A B2B FULL-STACK APP-MANAGEMENT TOOL KIWAPP EN QUELQUES ETAPES Octobre 2014.
Fichier des prescriptions.  Fichier contenant l'ensemble des médicaments et des posologies que l’on utilise couramment  Évitant de retaper les mêmes.
PROGRAMMATION INFORMATIQUE D’INGÉNIERIE II PRO-1024.
PROGRAMMATION INFORMATIQUE D’INGÉNIERIE II
1 Utiliser un blog “écrire un billet ou un commentaire et le publier” Quelques données techniques: Un blog est une suite d’articles appelés billets, publiés.
1 : Le nom du fichier contenant les métadonnées. 2 : Affichage des données du programme (Varie selon le mode – lecture/saisie). 3 : Application de filtres.
Diffusion Nationale TOULOUSE – Décembre 2008 STS Web Services libres Gérer les services libres.
Bureautique M1 Mise en forme évoluée 2.
Informatique TD 1 – Semestre 1
Comprendre le SGBDR Microsoft Access – partie 2
Page 1 Analyse du sujet -1- éléments issus de la lecture du sujet Niveau Discipline paternaire Thème Sujet Production attendue But de la demande.
Analyse du sujet -1- Eléments issus de la lecture du sujet
SUJET. Analyse du sujet -1- Eléments issus de la lecture du sujet Niveau : Discipline partenaire/ Collaboration : professeur Thème : Sujet : Production.
Conception des pages Web avec
Formation GBIF France dans le cadre d’Ecoscope – Valoriser ses données d’observation sur la biodiversité : qualité, standards et publication Paris,
ESPE Dépôt pour les masters 2nd degré Module évaluateur Mis à jour le 10 septembre 2015.
U TILISATION DE ELAN AVEC D ’ AUTRES LOGICIELS Christophe Parisse, Inserm, Modyco/CNRS Université Paris Ouest Nanterre.
Co-organisé avec Sous le parrainage de Un événement Titre de votre session Votre logo à insérer ici Prénom NOM Fonction ORGANISME.
Scénario Les scénarios permettent de modifier la position, taille … des calques au cours du temps. Son fonctionnement est très proche de celui de Macromedia.
FORMULAIRES FOMULAIRE Permet à l’utilisateur d’entrer des renseignements le concernant. Utilisation –Inscription sur un site –Mise à jour d’une base.
Les formulaires Les calques Les comportements Les scénarios Les modèles Les feuilles de styles (CSS) La mise en ligne Les formulaires permettent à l’utilisateur.
DREAMWEAVER MX2 - Séance 2 Les calques Les comportements Les scénarios Les formulaires Les feuilles de style Les modèles Les cadres Mise en ligne Jérôme.
CRÉER UN MUR VIRTUEL Pierre BINET Collège Jean Fernel CLERMONT.
Contribution. Accueil Vous êtes actuellement connecté à votre espace de contribution de la médiathèque de l'Université Paris Descartes. Dans cette espace.
Introduction au WIKI Par Marc Chevarie.
Formation à l’utilisation de K-Sup V5 février 2009 CRISI - COM.
Formation SGA Module Saisie des Demandes d’achat Durée : 0,5 jour.
Transcription de la présentation:

Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche pluridisciplinaire –Une normalisation pour l'encodage et la description de corpus de langue (métadonnées)

Exploitation, conservation, diffusion Nécessité de normaliser : –pourquoi ? Besoins de partager, diffuser et rechercher/retrouver –Comment ? XML / Dublin Core / OAI / OLAC

Normalisation des données XML: Format de représentation Dublin Core: Norme de métadonnées OAI: Concept dinteropérabilité OLAC: Standard proposé par des linguistes

Normalisation des corpus oraux OAI Open Archive Initiative Dublin Core OLAC Open Language Archive Community XML

Langage à balises qui permet d'annoter et de structurer une ressource. –libre de droit, multi-plateforme, échangeable par ex: donnée norma…

Dublin Core Norme de métadonnées. 15 éléments simples mais efficaces pour décrire les ressources : –Title, (creator), subject, description, publisher, contributor, date, type, format, identifier, language, relation, coverage, rights, source.

Eléments de métadonnées Dublin Core 1.Title : nom donné à la ressource, (celui par lequel elle est connue officiellement) 2.Subject : sujet du contenu de la ressource, décrit par un ensemble de mots clés, de phrases ou dun code de classification. 3.Description : une description du contenu de la ressource. Peut contenir un résumé, une table des matières, une référence à une représentation graphique du contenu ou un texte libre sur le contenu. 4.Publisher : une entité responsable de la diffusion de la ressource, dans sa forme actuelle. Pour nous, ce sera toujours lED Contributor : une entité qui a contribué à la création du contenu de la ressource. 6.Date : une date associée à un événement dans le cycle de vie de la ressource. 7.Type : la nature ou le genre du contenu de la ressource.

Eléments de métadonnées Dublin Core 8. Format : la matérialisation physique ou digitale de la ressource. 9. Identifier : référence non ambiguë à la ressource dans un contexte donné. 10. Source : référence à une ressource à partir de laquelle la ressource actuelle a été dérivée. 11. Language : la langue du contenu intellectuel de la ressource. 12. Relation : référence à une autre ressource qui a un rapport avec cette ressource. 13. Coverage : la portée ou la couverture spatio-temporelle de la ressource. 14. Rights : information sur les droits sur et au sujet de la ressource.

OAI : Open Archive Initiative Concept « dinteropérabilité. » –Recherche sur les métadonnées. –Retrouver lemplacement physique des corpus sans les télécharger. –Accessible à tous.

Extensions OLAC 5 extensions du Dublin Core rattachées à la linguistique: –Discourse Type : (drama, narrative, language play,…) –Language Identification : (code ISO: fr, en,…) –Linguistic Field : (sociolinguistique, phonétique,…) –Linguistic Data Types : (lexicon, primary-text,language-description) –Participant Roles : (annotator, author, speaker,…) OLAC ne remplace pas, mais complète, spécifie le DC par rapport aux attentes de la communauté linguistique.

MKM (Make Metadata) S. Fleury Comment insérer ces métadonnées de façon conviviale ? Outil « fait-maison »…

code résultant

Manuel dutilisation MKM 1.10 MakeMetaData

Les onglets MKMETA1, ( 6)contiennent les fenêtres dédition pour l'écriture des métadonnées et les points dentrée pour les différentes fonctionnalités associées.

Démarche (1) Pour constituer les métadonnées, vous devez remplir l'ensemble des formulaires MKMETA1, ( 6). Pour chacun de ces onglets, compléter la colonne METADONNEES. Pour vous aider dans cette tâche vous pouvez consulter les fichiers d'aide disponibles (sur la colonne la plus à droite de chaque ligne du formulaire).

Démarche (2) Dans chacun de ces onglets, vous trouverez soit des cases à cocher, soit des zones de saisie avec un bouton "Edit" donnant accès à un éditeur. Les zones de saisie se composent de deux champs (de saisie) : –un pour entrer la valeur de la métadonnée idoine, –l'autre pour décrire la langue utilisée dans le premier champ

… Par défaut ce second champ est initialisé avec la valeur "fr". Vous pouvez modifier cette valeur en regardant le fichier HTML fourni avec mkMetadata (LanguageCodes.html) qui donne une présentation de ce tableau de codage des langues. Accès à ce fichier via le bouton CODE de l'onglet HELP-DC-OLAC. Pour certaines zones de saisie, un modèle est fourni pour écrire la métadonnée : c'est le cas par exemple pour décrire les contributeurs : dans le cas ou plusieurs personnes sont associées à un champ contributeur, chaque Nom complet (le nom suivi du prénom) doit être séparé du suivant par un point virgule. Il est important de respecter ce format.

Un exemple

Un exemple (2) on peut vouloir donner 2 métadonnées de type "title", l'une écrite en français et l'autre en anglais. Pour réaliser cette bi-description, on active l'éditeur de métadonnée disponible en regard de l'élément "title", une zone d'édition permet ensuite de décrire la métadonnée : dans celle-ci, un onglet = une description dans une langue donnée.

Export des traitements Une fois les 6 onglets remplis, la génération des métadonnées est déclenchée par l'activation du bouton EXPORT, le fichier de métadonnées constitué est visible dans la fenêtre d'édition de l'onglet RESULT. La génération des métadonnées produit un fichier du type : MK-METADATA-yyyyyyyyyy.xml, Ne pas oublier de renommer ce fichier après avoir quitté le programme, car au prochain lancement du programme tous les fichiers de ce type seront effacés (fichiers avec une extension html, txt, png etc.).

Et puis …? Une fois constitué le fichier de métadonnées, il est possible de valider ce document (parseur XML), de produire une version HTML de ce fichier de métadonnées (2 versions sont disponibles) ou d'en produire une image au format PNG. Le bouton INIT (fenêtre principale) permet de réinitialiser l'ensemble des formulaires des onglets MKMETA1, MKMETA2, MKMETA3, MKMETA4, MKMETA5, MKMETA6.

Import de métadonnées Il est possible de ré-importer un fichier de métadonnées préalablement construit avec ce programme. Un fichier d'export est automatiquement construit en activant le bouton EXPORT. Son nom est du type EXPORT-MK-METADATA-yyyyyyyyyy.xml Ne pas oublier de renommer ce fichier après avoir quitté le programme, car à chaque lancement du programme tous les fichiers de ce type seront effacés. Pour importer un fichier, il suffit d'activer le bouton IMPORT et de sélectionner le fichier souhaité.

Exercice à prévoir Pour votre TD, vous devrez utiliser le fichier enregistré pour le cours dinteraction : Remplissez les métadonnées en conséquence … Rappel : une fiche de métadonnées par fichier sonore, et une par grille dannotation.