Outils pour le traitement des textes Commandes Unix pour traiter les ressources linguistiques Éric Laporte Université Paris-Est Marne-la- Vallée
Sommaire Construire l'index d'un ensemble de tables cut, sed, SortTxt Construire une table de classes sed, awk, sort, cat
Construire l'index d'un ensemble de tables dédicacerV_38RR.txt dédierV_36DT.txt dédireV_8.txt dédommagerV_13.txt dédommagerV_36DT.txt Index : liste de mots qui indique à quelle classe appartient chaque mot Un outil pour les linguistes qui construisent et mettent à jour les classes
Transcoder les tables d'Excel en texte Convert-XLS Méthode de conversion : utiliser MS Excel Format de fichier résultat : Unicode Text Préciser le délimiteur : tabulation Résultat : UTF-16
Transcoder en UTF-8 Pour un fichier : iconv -f UTF-16 -t UTF-8 V_38RR.lgt.txt Pour plusieurs fichiers : les mettre dans un nouveau répertoire ls unicode for file in *; do iconv -f UTF-16 -t UTF-8 $file >../etape1/$file; done
for for file in *; do iconv -f UTF-16 -t UTF-8 $file >../etape1/$file; done Parcourir les fichiers d'un répertoire Le nom de chaque fichier est mis dans une variable Utilisation de la variable : $
Sélectionner les champs Pour un fichier : cut -f 5 etape1/V_38RR.lgt.txt > etape2/V_38RR.txt Pour plusieurs fichiers : le champ à sélectionner n'est pas toujours le même cut -f 7 etape1/V_1.lgt.txt > etape2/V_1.txt cut -f 8 etape1/V_10.lgt.txt > etape2/V_10.txt cut -f 8 etape1/V_11.lgt.txt > etape2/V_11.txt cut -f 7 etape1/V_12.lgt.txt > etape2/V_12.txt cut -f 7 etape1/V_13.lgt.txt > etape2/V_13.txt
Construction automatique d'un script Entrée : V_1.lgt.txt V_10.lgt.txt V_11.lgt.txt Sortie : cut -f etape1/V_1.lgt.txt > etape2/V_1.txt cut -f etape1/V_10.lgt.txt > etape2/V_10.txt cut -f etape1/V_11.lgt.txt > etape2/V_11.txt Révision manuelle : cut -f 7 etape1/V_1.lgt.txt > etape2/V_1.txt cut -f 8 etape1/V_10.lgt.txt > etape2/V_10.txt cut -f 8 etape1/V_11.lgt.txt > etape2/V_11.txt
Construction automatique d'un script Entrée : V_1.lgt.txt V_10.lgt.txt V_11.lgt.txt ls etape1 | sed -f ecriveur.sed > ecrit.brut.sh # ecriveur.sed s:\([^.]*\)\.lgt\.txt:cut -f etape1/\1.lgt.txt > etape2/\1.txt: Sortie : cut -f etape1/V_1.lgt.txt > etape2/V_1.txt cut -f etape1/V_10.lgt.txt > etape2/V_10.txt cut -f etape1/V_11.lgt.txt > etape2/V_11.txt
Ajouter le nom du fichier Entrée : costumer dédicacer défendre Sortie : costumerV_38RR.txt dédicacerV_38RR.txt défendreV_38RR.txt Méthode : utiliser for et sed Mettre les fichiers résultats dans un nouveau répertoire
Classement alphabétique Le classement alphabétique dépend de la langue reculerV_2.txt récupérerV_32H.txt recyclerV_38LD.txt Classement alphabétique par l'outil Unix sort reculerV_2.txt recyclerV_38LD.txt récupérerV_32H.txt Le linguiste ne trouve pas les mots Méthode : utiliser l'outil SortTxt d'Unitex
Classement alphabétique Transcoder d'UTF-8 en UTF-16 et concaténer iconv -f UTF-8 -t UTF-16 etape3/* > V.txt Transcoder avec l'outil Convert d'Unitex Classer avec l'outil SortTxt d'Unitex