Outils pour le traitement des textes Outils Unix Éric Laporte Université Paris-Est Marne-la- Vallée.

Slides:



Advertisements
Présentations similaires
Tutoriel - Les Ressources du BCH
Advertisements

Jacques Tardif Faculté d éducation Université de Sherbrooke 26 avril 2001 Comment l axe des compétences oblige-t-il de placer l apprenant au cœur de ses.
Le dossier documentaire
Intiation python, avril 2003 introduction Présenter Python –simplicité –utilisation pratiques Conserver cette info en ligne Susciter des échanges à lIrcam.
Suivi des compétences en classe de seconde
GEF 435 Principes des systèmes dexploitation Appels de système (Tanenbaum 1.6)
JXDVDTEK – Une DVDthèque en Java et XML
Les logiciels gratuits de modélisation UML sous Linux
Utilisation didactique des extractions lexicales des corpus
Paquetages: Définitions Les classes Java sont regroupées en paquetages (packages en anglais) Ils correspondent aux « bibliothèques » des autres langages.
Programmation et projet encadré
Exercices page JSP.
Cours Visual Basic pour Application
Définition : C'est un format de données qui permet de réaliser des sommaires Un « flux RSS » est un fichier texte qui contient les titres des derniers.
Introduction à l'informatique linguistique
Active Directory Windows 2003 Server
Principes de programmation (suite)
Outils de tests, logs et documentation Frédéric Moalannée 2010/2011 POO.
Cours 7 - Les pointeurs, l'allocation dynamique, les listes chaînées
Utilisations pédagogiques dInternet Jean Talbot Service de lenseignement des technologies de linformation Août 98.
Master 1 SIGLIS Java Lecteur Stéphane Tallard Chapitre 5 – Héritage, Interfaces et Listes génériques.
Analyse des besoins en informatique du SRI
Base de programmation Script unity en c#.
XSLT Langage de transformation darbre par Yves Bekkers.
Projet de C – Matrices creuses
© Glaus & Ruckstuhl TECFA Le Processeur Apache / FOP.
Eric Laporte Institut Gaspard-Monge Université de Marne-la-Vallée France Introduction à Perl.
Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques Éric Laporte Université Paris-Est Marne-la- Vallée.
Outils pour le traitement des textes Commandes Unix pour traiter les ressources linguistiques Éric Laporte Université Paris-Est Marne-la- Vallée.
Outils pour le traitement des textes Commandes Unix pour traiter les ressources linguistiques Éric Laporte Université Paris-Est Marne-la- Vallée.
Netscape Présentation par : Aleksandra Krul et Aurélia Marcus Jeudi 31/
Document élaboré à Centrale Paris par Pascal Morenton LES TECHNOLOGIES DU WEB 1. LES PHASES D UN DEPLOIEMENT DE RESEAUX 2. LE LANGAGE HTML 3. LE LANGAGE.
Le flux RSS Symbole du flux RSS..
PHP 2° PARTIE : FONCTIONS ET FORMULAIRE
1 GPA435 Systèmes d’exploitation et programmation de système Copyright, 2000 © Tony Wong, Ph.D. Chapitre 8 Filtres UNIX.
TP n°3 Javascript Contrôle de formulaire
ALGORITHME DE TRI Le tri par insertion.
Le site-en-kit pour les locales 2. Créer des pages.
JavaScript.
Raymond Ripp 20 janvier 2015 la deuxième partie sera pour le 3 février
Gestion à distance Netsh et rcmd.
Formation VoiXtreme 5 route de Paisy, Dardilly Tél. : Fax. :
Les tests.
Le langage Z minimal Pr ZEGOUR DJAMEL EDDINE
Maria Malek - EISTI - CPI11 Présentation d’UNIX –1969, laboratoire Bell –Systèmes multi-tâches multi-utilisateurs –Architecture Le noyau –Gestion de la.
5ième Classe (Mercredi, 19 octobre) Prog CSI2572.
Introduction au langage C Fonctions et Procédures
Sémantique des instructions pour le langage Z minimal Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI)
Finder => Application => Utilitaires => Terminal Editor:pico Touches –Finder=>Applic.=> Utili. => Touches –~: Alt+N –|: Shift+Alt+N –[: Shift+ Alt+5 –{:
S'initier au HTML et aux feuilles de style CSS Cours 5.
SMIL Synchronized Multimedia Integration Language
Interprétation/Génération de code pour le langage Z minimal Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI)
MJ. Blin et M. CsernelPoleInfo31 XML et ses environnements Documents XML bien formés Prologue Arbre d'éléments Attributs Commentaires Entités internes.
SCAN400 , envoi mail des résultats JDSEE, JDFIELD
Gestion Parc Informatique Client UNIX Rémy Chaumard – BTSIRIS2 – projet GPI client UNIX – revue n1.
IFT313 – Introduction aux langages formels Eric Beaudry Département d’informatique Université de Sherbrooke Laboratoire sur JFLEX Été 2010.
Elaboré par Ahmed BESSAIDI
L T I Laboratoire de Téléinformatique 2 Projet de semestre Parseur XML basé sur la DTD : Buts –Utiliser la grammaire définissant un type de fichiers XML.
Chapitre 17 Sauvegardes.
Langage de programmation
FORMATION Unix/Linux CHAPITRE 3: Commandes De Base.
GPA435 Systèmes d’exploitation et programmation de système Copyright, 2000 © Tony Wong, Ph.D. Chapitre 7 Neutralisation, redirection, décodage des paramètres,
Subversion.
1 Systèmes d ’Information : 6b Michel de Rougemont Université Paris II L’Architecture Client/Server.
Bouton officeBarre de titre Ruban Office Espace de travail.
Bouton Office Barre d’outils d’accès rapideBarre de titre Ruban Office Barre de formule Désignation des colonnes Désignation des lignes Gestion des feuilles.
Dreamweaver le retour Avec Les Formulaires Les Calques
Ce logiciel vous permettra de générer les relevés 24 que vous avez à émettre. Ce logiciel permet l’entrée, la validation des données, l’impression des.
Ant Introduction Jean-Jacques LE COZ. Outils de construction de projets ➢ Pour livrer un produit logiciel ➢ Compiler ➢ Documenter ➢ Packager ➢ Déployer.
APP-TSWD Apprentissage Par Problèmes Techniques des Sites Web Dynamiques Licence Professionnelle FNEPI Valérie Bellynck, Benjamin Brichet-Billet, Mazen.
Transcription de la présentation:

Outils pour le traitement des textes Outils Unix Éric Laporte Université Paris-Est Marne-la- Vallée

Sommaire Outils Unix pour le traitement des textes grep sed : reconnaître des séquences ambiguës sed : substitutions successives sed : déplacer, intervertir, copier "uniq" et "sort -u" head tail

Outils Unix pour le traitement des textes grepextraire des lignes sedpasser d'un format à un autre (syntaxe interne aux lignes) uniqquand plusieurs lignes identiques se suivent, n'en garder qu'une sort -uquand plusieurs lignes sont identiques, n'en garder qu'une headgarder les premières lignes tailgarder les dernières lignes

Avantages Disponibles sur tout environnement Unix Simples : traitement en quelques lignes sans déclaration de structures de données Efficaces sur de grosses ressources (textes, lexiques)

Inconvénients Mal normalisés : toutes les versions ne font pas la même chose, donc faire des tests... Certaines versions sont incompatibles avec Unicode Seule structure de données : la ligne, donc incompatible avec XML Les scripts doivent rester simples, sinon mieux vaut utiliser perl, python, java...

grep 1. Extraire des entrées d'un lexique egrep "+hum" lexique.lst extraire les noms marqués comme désignant des personnes 2. Quand un format n'est pas documenté et que la syntaxe est interne aux lignes, rechercher des exemples de configurations egrep -v "^[^,.]*,[^,.]*\.[^,.]*$" lexique.lst extraire les entrées qui n'ont pas exactement les deux délimiteurs attendus dans l'ordre attendu

sed En général, passer d'un format à un autre par des substitutions sed -f treetagger2unitex.sed treetagger.txt > unitex.txt passer du format de sortie de treetagger au format d'entrée d'unitex (texte tagué) FranceNAMFrance :PUN: laDET:ARTle nouvelleADJnouveau générationNOMgénération {France,France.N+PR} : {la,le.DET} {nouvelle,nouveau.A} {génération,génération.N}

sed Scripts sed sed -f treetagger2unitex.sed treetagger.txt > unitex.txt # treetagger2unitex.sed s/\tNOM\t/\t.N\t/ # remplacer \tNOM\t par \t.N\t générationNOMgénération génération.Ngénération

sed Reconnaître des séquences ambiguës SENT : code (sentence) ou mot (sentir) ? Reconnaître une partie du contexte avec s/\tSENT\t/\t{S}\t/ ?SENT? ?{S}? Rechercher des exemples de la séquence egrep "SENT" treetagger.txt > auxiliaire.lst

sed Substitutions successives s/\t/,/ génération.NOMgénération génération.NOM,génération Dans les substitutions qui viennent ensuite, les tabulations ont déjà été remplacées par des virgules Confusion entre niveaux : - virgule du texte ? - virgule-délimiteur ? Créer des niveaux intermédiaires non ambigus s/\t/\t,/ génération.NOMgénération génération.NOM,génération

sed Déplacer, intervertir s/\t\([^:]*\):\([^:]*\)\t/\t\2:\1\t/ laDET:ARTle laART:DETle Copier &(dans la zone sortie, copie de la zone reconnue)

sed Reconnaître les débuts et fins de lignes.*toute la ligne ^début de ligne $fin de ligne

"uniq" et "sort -u" uniqUtiliser sur une liste déjà classée sort -uUtiliser sur une liste non classée

head, tail head lexique.lst extraire les premières lignes (pour tests) tail lexique.lst extraire les dernières lignes