Étiqueter un corpus xml

Slides:



Advertisements
Présentations similaires
Été INF1025 Driouch Elmahdi
Advertisements

Base de Données "Titres" Projet "Visu" Réalisée dans le cadre de la maîtrise IL.
Comment fonctionne ?. Cest un site de synthèse de lavancement du projet au niveau national. Ce nest pas une base de donnée intégrale.
1. Donner un nouveau nom en cliquant ICI. 2. Choisir EXPORTER. 3. Choisir ENREGISTRER DANS LA PELLICULE.
Mélanie Durand – Année 2013/2014 Licence Professionnelle Assistant de Gestion Import Export IUT Paul Sabatier dAuch.
Introduction à la structuration des documents: les techniques M2: Gestion des connaissances.
Outils pour le traitement des textes Commandes Unix pour traiter les ressources linguistiques Éric Laporte Université Paris-Est Marne-la- Vallée.
Conversion de fichiers
Open Office Créer un graphique sous Open Office. Démarrage d' Open Office.
Le langage XHTML 420-S4W-GG Programmation Web Client
CM 2 – Traitement de Texte
GNU Free Documentation License
Une structure à bien maîtriser.... Il faut TOUJOURS penser que l’on écrit pour un lecteur 1. Une introduction pour préparer et orienter le lecteur dans.
Transférer un fichier vers l ’AS/400, par B. Cabiac Exemple d ’utilisation : un programme cobol tapé sur pc avec notepad.
Le traitement de texte Les tabulations 04 – Les tabulations.
Introduction au langage C Les entrées-sorties
Cours : HTML 1 avril 2013.
eXtensible Markup Language. Généralités sur le XML.
Construire un graphique
Enregistrer une feuille Excel au format CSV
Cette animation présente la méthode à utiliser en SVT
    Base (ou source) de données traitement texte, tableur
Démarche générale cycle 2 --> CE1 cycle 3
BASES ET BANQUES DE DONNEES Objectifs de l’enseignement
LE COURRIER ELECTRONIQUE
LOGICIEL PL7 MICRO PROGRAMMATION MISE AU POINT Consignes?
U TILISATION DE ELAN AVEC D ’ AUTRES LOGICIELS Christophe Parisse, Inserm, Modyco/CNRS Université Paris Ouest Nanterre.
Dreamweaver CS4 séance 1 Ahmed Aryan – Isma Teir.
XML les données réellement portables La nécessité d’un format de données universel et lisible se faisait sentir depuis longtemps, aujourd’hui avec le développement.
INITIATION A LA CREATION D’UNE PAGE WEB C-X. PROSPERINI A : COMMUNICATION ET SYNDICATS Afrique Francophone 20/04/2010.
Le débogage Semaine 12 Version A15. Plan de leçon - Débogage  Commentaire javadoc  Définition  Fonctionnement  Point d’arrêt  Exécution  Contrôler.
Tout ce que vous avez toujours voulu savoir sur les fichiers... sans jamais oser le demander Comment identifier la nature d'un fichier électronique ?
Introduction à l’utilisation des corpus 2. Comment constituer un corpus?
La question sur corpus.
Moteur de recherche Recherche éveillée Conseils et astuces Conseils et astuces.
Master ESEEC Rédaction de documents (longs) structurés Patrice Séébold Bureau 109, Bât B.
Création et téléchargement des fichiers
Exploitation de logiciels :
L’art de dialoguer avec un texte
Séance 2 Expression écrite.
TRAD3130 – PowerPoint Vérifier s’il y a des commentaires
Initiation à l‘informatique Première leçon
Javadoc et débogueur Semaine 03 Version A17.
Présentation v1 Semiosys Elie Naulleau
Initiation Excel 1ère Partie novembre - décembre 2014.
+ et – sur les relatifs Menu général.
420-B63 Programmation Web Avancée Auteur : Frédéric Thériault
NAPOLEON Ier Étude du tableau du Sacre de Napoléon par J.L DAVID
D3 – Produire, traiter, exploiter et diffuser des documents numériques
Comment rédiger un paragraphe argumenté ?
AVANT TOUTE CHOSE, VISIONNEZ L'EXPOSÉ SUR LE MONTAGE VISUEL
La synthèse de documents
a ²p ²l ²f m g ²t ²r q ²k E U B A K G Y F N J O T X
Un compteur de visiteurs pour la page d’accueil de notre site
Premiers pas, généralités
1 Copyright © 2004, Oracle. Tous droits réservés. Extraire des données à l'aide de l'instruction SQL SELECT.
Programmation Android Première application Android
CountrySTAT / FENIX Aperçu globale de l’Editeur DSD dans la nouvelle plateforme CountrySTAT FORMATION DES POINTS FOCAUX SUR LE SYSTEME CountrySTAT/FENIX.
Apprendre le clavier Révision : les touches Mode d’emploi
Niveau Intermédiaire 01/12/2018.
Utiliser les expressions régulières
Programmation Web : Introduction à XML
Expressions régulières
Exploiter le Web Etape 4.
2/24/2019 Outils informatiques Séance 2 : les styles 1 1.
OU = OR | Ce sont des opérateurs mathématiques permettant d’exclure ou d’inclure certains termes de recherche AND / OR / NOT AND = ET + NOT = SAUF -
– Traitement de texte – (OpenOffice - LibreOffice)
Definition de html sommaire. Présentation de html, css et javascript Module 1.
Apprentissage de la lecture au cycle 2
Archive ouverte HAL : dépôt et signalement et
Transcription de la présentation:

Étiqueter un corpus xml 06/12/2018 Méthode et application M. PERES LEBLANC

Préparer le corpus 06/12/2018 M. PERES LEBLANC

Signes à vérifier o' o’ oʾ o′ oˊ oˈ oꞌ o‘ oʿ o‵ oˋ L’apostrophe Signe neutre ou ambigu Signes courbés à gauche Signes inclinés à gauche Signes droits Signes courbés à droite Signes inclinés à droite Apostrophe dactylographique Apostrophe typographique Demi-anneau droit Signe prime Signe accent aigu Ligne verticale Saltillo Apostrophe culbutée Demi-anneau gauche Signe prime réfléchi Signe accent grave o' o’ oʾ o′ oˊ oˈ oꞌ o‘ oʿ o‵ oˋ 06/12/2018 M. PERES LEBLANC

Signes à vérifier Guillemets « … » (guillemets français double, séparés de leur contenu par des espaces insécable) ‘…’ (guillemets anglais simples) “…” (guillemets anglais double) »…« (guillemets allemands) "…" (guillemets droits doubles) '…' (guillemets droits simple… ce sont des apostrophes) 06/12/2018 M. PERES LEBLANC

tabulations Pas de tabulation dans les fichiers xml… \t Expression régulière 06/12/2018 M. PERES LEBLANC

Esperluette Pas d’esperluette (&) Remplacer par ET 06/12/2018 M. PERES LEBLANC

Format d’encodage Soit UTF-8, soit ANSI… le préciser à l’import Pour basculer de l’un à l’autre 06/12/2018 M. PERES LEBLANC

Corpus xml 06/12/2018 M. PERES LEBLANC

Étape 1 : Balisage des textes <discours loc="Eluard" date="2013_12_23"  > Texte… </discours> <discours loc=« Franc" date="2004_01_12"  > Texte… 06/12/2018 M. PERES LEBLANC

Étape 2 : étiqueter le xml 06/12/2018 M. PERES LEBLANC

Étiqueter avec Treetagger http://cental.fltr.ucl.ac.be/treetagger/ 06/12/2018 M. PERES LEBLANC

Treetagger (suite) Enregistrer le fichier sous… 06/12/2018 M. PERES LEBLANC

Étape 3 : transformer en xml 06/12/2018 M. PERES LEBLANC

Notepad++ Lemme Pos Mot du texte Rechercher-remplacer (expression régulière) pour finaliser l’étiquetage Pos Lemme Mot du texte 06/12/2018 M. PERES LEBLANC

Ce que l’on veut obtenir Balises w avec un attribut pos et un attribut lemme 06/12/2018 M. PERES LEBLANC

Ce que l’on cherche tabulation tabulation Repérer les infos en trouvant les tabulations… tabulation tabulation 06/12/2018 M. PERES LEBLANC

Recherche suite de n’importe quels caractères que l’on mémorise () tabulation 06/12/2018 M. PERES LEBLANC

Remplacer par Élément mémorisé en 3e Élément mémorisé en 2e Élément mémorisé en 1er 06/12/2018 M. PERES LEBLANC

Document final en xml Balisage avec balises discours et balises w 06/12/2018 M. PERES LEBLANC