La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Outils pour le traitement des textes Commandes Unix pour traiter les ressources linguistiques Éric Laporte Université Paris-Est Marne-la- Vallée.

Présentations similaires


Présentation au sujet: "Outils pour le traitement des textes Commandes Unix pour traiter les ressources linguistiques Éric Laporte Université Paris-Est Marne-la- Vallée."— Transcription de la présentation:

1 Outils pour le traitement des textes Commandes Unix pour traiter les ressources linguistiques Éric Laporte Université Paris-Est Marne-la- Vallée

2 Sommaire Construire l'index d'un ensemble de tables cut, sed, SortTxt Construire une table de classes sed, awk, sort, cat

3 Construire l'index d'un ensemble de tables dédicacerV_38RR.txt dédierV_36DT.txt dédireV_8.txt dédommagerV_13.txt dédommagerV_36DT.txt Index : liste de mots qui indique à quelle classe appartient chaque mot Un outil pour les linguistes qui construisent et mettent à jour les classes

4 Transcoder les tables d'Excel en texte Convert-XLS Méthode de conversion : utiliser MS Excel Format de fichier résultat : Unicode Text Préciser le délimiteur : tabulation Résultat : UTF-16

5 Transcoder en UTF-8 Pour un fichier : iconv -f UTF-16 -t UTF-8 V_38RR.lgt.txt Pour plusieurs fichiers : les mettre dans un nouveau répertoire ls unicode for file in *; do iconv -f UTF-16 -t UTF-8 $file >../etape1/$file; done

6 for for file in *; do iconv -f UTF-16 -t UTF-8 $file >../etape1/$file; done Parcourir les fichiers d'un répertoire Le nom de chaque fichier est mis dans une variable Utilisation de la variable : $

7 Sélectionner les champs Pour un fichier : cut -f 5 etape1/V_38RR.lgt.txt > etape2/V_38RR.txt Pour plusieurs fichiers : le champ à sélectionner n'est pas toujours le même cut -f 7 etape1/V_1.lgt.txt > etape2/V_1.txt cut -f 8 etape1/V_10.lgt.txt > etape2/V_10.txt cut -f 8 etape1/V_11.lgt.txt > etape2/V_11.txt cut -f 7 etape1/V_12.lgt.txt > etape2/V_12.txt cut -f 7 etape1/V_13.lgt.txt > etape2/V_13.txt

8 Construction automatique d'un script Entrée : V_1.lgt.txt V_10.lgt.txt V_11.lgt.txt Sortie : cut -f etape1/V_1.lgt.txt > etape2/V_1.txt cut -f etape1/V_10.lgt.txt > etape2/V_10.txt cut -f etape1/V_11.lgt.txt > etape2/V_11.txt Révision manuelle : cut -f 7 etape1/V_1.lgt.txt > etape2/V_1.txt cut -f 8 etape1/V_10.lgt.txt > etape2/V_10.txt cut -f 8 etape1/V_11.lgt.txt > etape2/V_11.txt

9 Construction automatique d'un script Entrée : V_1.lgt.txt V_10.lgt.txt V_11.lgt.txt ls etape1 | sed -f ecriveur.sed > ecrit.brut.sh # ecriveur.sed s:\([^.]*\)\.lgt\.txt:cut -f etape1/\1.lgt.txt > etape2/\1.txt: Sortie : cut -f etape1/V_1.lgt.txt > etape2/V_1.txt cut -f etape1/V_10.lgt.txt > etape2/V_10.txt cut -f etape1/V_11.lgt.txt > etape2/V_11.txt

10 Ajouter le nom du fichier Entrée : costumer dédicacer défendre Sortie : costumerV_38RR.txt dédicacerV_38RR.txt défendreV_38RR.txt Méthode : utiliser for et sed Mettre les fichiers résultats dans un nouveau répertoire

11 Classement alphabétique Le classement alphabétique dépend de la langue reculerV_2.txt récupérerV_32H.txt recyclerV_38LD.txt Classement alphabétique par l'outil Unix sort reculerV_2.txt recyclerV_38LD.txt récupérerV_32H.txt Le linguiste ne trouve pas les mots Méthode : utiliser l'outil SortTxt d'Unitex

12 Classement alphabétique Transcoder d'UTF-8 en UTF-16 et concaténer iconv -f UTF-8 -t UTF-16 etape3/* > V.txt Transcoder avec l'outil Convert d'Unitex Classer avec l'outil SortTxt d'Unitex


Télécharger ppt "Outils pour le traitement des textes Commandes Unix pour traiter les ressources linguistiques Éric Laporte Université Paris-Est Marne-la- Vallée."

Présentations similaires


Annonces Google