Outils pour le traitement des textes Commandes Unix pour traiter les ressources linguistiques Éric Laporte Université Paris-Est Marne-la- Vallée.

Slides:



Advertisements
Présentations similaires
Présentation du Stage en Entreprise
Advertisements

Le dossier documentaire
Les outils pour améliorer la dictée vocale
1 3.Langage XSL = XSLT + XSL-FO transformationFormatage.
Abes agence bibliographique de l’enseignement supérieur Les scripts.
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
UNIX Pour débutant. Applications En directNavigateurCourrierMode consoleFenêtrage http smtp ssh X protocoles - langages de programmation protocoles -
LA GESTION DE PROJETS APPLIQUÉE AU SECTEUR DE LA TRADUCTION
Cours n°2M2. IST-IE (S. Sidhom) UE 303 Promo. M2 IST-IE 2005/06 Conception dun système d'information multimédia Architecture trois-tiers : PHP/MySQL &
ACCESS Requêtes et états.
Outils de développements
Master 1 ANI Les requêtes. Requêtes de sélection simple 1. Sélection de la table 2. Sélectionner les champs à afficher Exemple : Afficher les noms des.
Création d'un script LSMW
11:16:331 Programmation Web Programmation Web : Formulaires HTML Jérôme CUTRONA
Comment fonctionne ?. Cest un site de synthèse de lavancement du projet au niveau national. Ce nest pas une base de donnée intégrale.
Gestion de la communication par établissement sur le site ville
Introduction à l'informatique linguistique
Cours n°3 Les formulaires
1 GPA435 Systèmes dexploitation et programmation de système Copyright, 2000 © Tony Wong, Ph.D., ing. Chapitre 5 Interpréteur de commande, Bourne shell,
Systèmes d'exploitations GRARI Mounir ESTO Année 2011.
Développement d’applications web
Page 1 Introduction à ATEasy 3.0 Page 2 Quest ce quATEasy 3.0? n Ensemble de développement très simple demploi n Conçu pour développer des bancs de test.
Construire une base de données bibliographiques Elaborer un site web
Microsoft Excel Avancé
OMNIDIA 5.3. OMNIDIA 5.3 OMNIDIA 5.3 OMNIDIA 5.3.
Traitement de texte ++.
Créer un index.
DCL 5501: Méthodologie de la recherche juridique Cecilia Tellis, Bibliothécaire de droit 17 septembre 2008.
CLUB DES UTILISATEURS SAS DE QUÉBEC
TracenPoche Les fichiers >.
1 GPA435 Systèmes dexploitation et programmation de système Copyright, 2001 © Julie Dufort, M. Ing. Chapitre 3 - ajout Systèmes de fichiers.
28 novembre 2012 Grégory Petit
Localisation dans le Sudoc des ressources électroniques JABES 2012.
Recommandations et procédure d’attribution de DOI
REPRISE DES DONNEES DE BASE
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Maîtriser Ariane 2.0 Module 5 Déroulement : Souhaiter la bienvenue
SEANCE 10 Python Entrée et sortie de fichiers Lycée Louis Vincent Lundi 20 janvier
1 GPA435 Systèmes dexploitation et programmation de système Copyright, 2000 © Tony Wong, Ph.D. Chapitre 9 Programmation nawk(1)
Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques Éric Laporte Université Paris-Est Marne-la- Vallée.
Outils pour le traitement des textes Outils Unix Éric Laporte Université Paris-Est Marne-la- Vallée.
OUTILEX Présentation des résultats
Outils pour le traitement des textes Commandes Unix pour traiter les ressources linguistiques Éric Laporte Université Paris-Est Marne-la- Vallée.
IFT 6800 Atelier en Technologies d’information
Procédures d ’Utilisation
Les formats Débutant – Semaine 4.
Document élaboré à Centrale Paris par Pascal Morenton LES TECHNOLOGIES DU WEB 1. LES PHASES D UN DEPLOIEMENT DE RESEAUX 2. LE LANGAGE HTML 3. LE LANGAGE.
Conversion de fichiers
TP Scripts 1 Commandes périodiques 2 Droits d'accès 3 Liste de processus 4 Application 5 Application graphique © BTS II 2002 [tv]
Animateur : Med HAIJOUBI
Utilisation avancée de linux
PHP & My SQL.
FORMATION Unix/Linux CHAPITRE 1: LES PREMIERS PAS.
B4 Mise en forme d’un texte long – D.MARKOWSKI Mettre en forme son guide du bon usage Question 4 Question 5 Question 6 Question 7 Question 8 et 9 Question.
1 F o r m a t i o n A R S World Wide Web (WWW). 2 F o r m a t i o n A R S Contributions m Création: Claude Gross (UREC) m Modifications: Bernard Tuy,
Restaurations : cas réel
1 Base de données CVIP2 Remplir ou modifier un CV.
Initiation aux bases de données
1 F o r m a t i o n A R S FTP anonyme, Archie 2 F o r m a t i o n A R S FTP ANONYMOUS m Premier service d'accès à des documents publics. m Repose très.
Master 1 SIGLIS Java Lecteur Stéphane Tallard Les erreurs communes en Java.
05/02/98WEB ESNIG Modèle logique de données Oracle Designer/2000 & Oracle Web Server.
Unix Raymond Ripp.
Deug 11 Systèmes d ’Information : 5a Michel de Rougemont Université Paris II Les Formulaires.
Problèmes sur Excel PB1 Constructions de la liste des établissements publics du second degré De l’académie de Toulouse (À partir du site national)
Introduction à l’utilitaire
U TILISATION DE ELAN AVEC D ’ AUTRES LOGICIELS Christophe Parisse, Inserm, Modyco/CNRS Université Paris Ouest Nanterre.
Présentation du Moodle de Joliot Curie Collège Joliot-Curie Le vendredi 19 sept Karine LÉPOUCHARD.
Contribution. Accueil Vous êtes actuellement connecté à votre espace de contribution de la médiathèque de l'Université Paris Descartes. Dans cette espace.
Abes agence bibliographique de l’enseignement supérieur Les scripts.
Transcription de la présentation:

Outils pour le traitement des textes Commandes Unix pour traiter les ressources linguistiques Éric Laporte Université Paris-Est Marne-la- Vallée

Sommaire Construire l'index d'un ensemble de tables cut, sed, SortTxt Construire une table de classes sed, awk, sort, cat

Construire l'index d'un ensemble de tables dédicacerV_38RR.txt dédierV_36DT.txt dédireV_8.txt dédommagerV_13.txt dédommagerV_36DT.txt Index : liste de mots qui indique à quelle classe appartient chaque mot Un outil pour les linguistes qui construisent et mettent à jour les classes

Transcoder les tables d'Excel en texte Convert-XLS Méthode de conversion : utiliser MS Excel Format de fichier résultat : Unicode Text Préciser le délimiteur : tabulation Résultat : UTF-16

Transcoder en UTF-8 Pour un fichier : iconv -f UTF-16 -t UTF-8 V_38RR.lgt.txt Pour plusieurs fichiers : les mettre dans un nouveau répertoire ls unicode for file in *; do iconv -f UTF-16 -t UTF-8 $file >../etape1/$file; done

for for file in *; do iconv -f UTF-16 -t UTF-8 $file >../etape1/$file; done Parcourir les fichiers d'un répertoire Le nom de chaque fichier est mis dans une variable Utilisation de la variable : $

Sélectionner les champs Pour un fichier : cut -f 5 etape1/V_38RR.lgt.txt > etape2/V_38RR.txt Pour plusieurs fichiers : le champ à sélectionner n'est pas toujours le même cut -f 7 etape1/V_1.lgt.txt > etape2/V_1.txt cut -f 8 etape1/V_10.lgt.txt > etape2/V_10.txt cut -f 8 etape1/V_11.lgt.txt > etape2/V_11.txt cut -f 7 etape1/V_12.lgt.txt > etape2/V_12.txt cut -f 7 etape1/V_13.lgt.txt > etape2/V_13.txt

Construction automatique d'un script Entrée : V_1.lgt.txt V_10.lgt.txt V_11.lgt.txt Sortie : cut -f etape1/V_1.lgt.txt > etape2/V_1.txt cut -f etape1/V_10.lgt.txt > etape2/V_10.txt cut -f etape1/V_11.lgt.txt > etape2/V_11.txt Révision manuelle : cut -f 7 etape1/V_1.lgt.txt > etape2/V_1.txt cut -f 8 etape1/V_10.lgt.txt > etape2/V_10.txt cut -f 8 etape1/V_11.lgt.txt > etape2/V_11.txt

Construction automatique d'un script Entrée : V_1.lgt.txt V_10.lgt.txt V_11.lgt.txt ls etape1 | sed -f ecriveur.sed > ecrit.brut.sh # ecriveur.sed s:\([^.]*\)\.lgt\.txt:cut -f etape1/\1.lgt.txt > etape2/\1.txt: Sortie : cut -f etape1/V_1.lgt.txt > etape2/V_1.txt cut -f etape1/V_10.lgt.txt > etape2/V_10.txt cut -f etape1/V_11.lgt.txt > etape2/V_11.txt

Ajouter le nom du fichier Entrée : costumer dédicacer défendre Sortie : costumerV_38RR.txt dédicacerV_38RR.txt défendreV_38RR.txt Méthode : utiliser for et sed Mettre les fichiers résultats dans un nouveau répertoire

Classement alphabétique Le classement alphabétique dépend de la langue reculerV_2.txt récupérerV_32H.txt recyclerV_38LD.txt Classement alphabétique par l'outil Unix sort reculerV_2.txt recyclerV_38LD.txt récupérerV_32H.txt Le linguiste ne trouve pas les mots Méthode : utiliser l'outil SortTxt d'Unitex

Classement alphabétique Transcoder d'UTF-8 en UTF-16 et concaténer iconv -f UTF-8 -t UTF-16 etape3/* > V.txt Transcoder avec l'outil Convert d'Unitex Classer avec l'outil SortTxt d'Unitex