Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parJean-Paul Albert Modifié depuis plus de 8 années
1
Introduction à l’utilisation des corpus 2. Comment constituer un corpus?
2
2.2. Comment stocker les textes ?
3
Parenthèse : formats des fichiers Moyen d’encoder de l’information afin de la stocker sur l’ordinateur. IMAGES uniquement :.jpg,.png, etc Formats de fichiers ‘documents’ sans aucun formatage :.txt : uniquement des caractères textuels ordinaires formatés : .doc : formats propriétaires Microsoft .rtf : formats propriétaires Microsoft : Lisible, inter-opérable .odt (OpenOffice Text Doc) : logiciel libre sources disponibles .html,.xml : langages à balises .pdf : format propriétaire de Adobe Systems, même si ouvert préserve polices, images, graphiques et la mise en forme EXTENSIONS
4
Démonstration : comparaison entre les documents de type.txt,.doc,.html,.rtf,.odt (Observer la taille des documents)
5
A lire : Formats de fichiers (documentation de l’équipe système de l’UFR EILA) : www.eila.univ-paris-diderot.fr/sysadmin/gestion-docs/formats
6
Fichiers texte /vs/ binaires Fichiers texte : contenu pouvant être interprété comme du texte. Suite de caractères d’un ensemble donné. – en codage ASCII ou une extension de ASCII (UTF-8, UTF-16 ou extension régionale). Exemples : fichiers.XML ;.txtASCIIUTF-8 Le contenu d'un fichier binaire n'est pas du texte et correspond souvent à un format précis. – fichier exécutable ; – fichier de base de données structuré en enregistrements de taille fixe ou variable ; – document de traitement de texte ;traitement de texte – fichiers multimédias : images, sons, vidéos.
7
Encodage des caractères associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers. Exemples d’encodage : – Le code Morse Le code ASCII ISO-8859-1 UNICODE
8
Encodage des caractères associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers. Exemples d’encodage : – Le code Morse
9
Encodage de caractères I – US-ASCII (1967): American Standard Code of Information Interchange – Lettres (alphabète anglais), numéraux, ponct – 7 bits (128 codes) 98 signes définis – Ex : A : 065, B : 066, C : 067 a : 097, b : 098, c : 099, etc. – Très limité extensions.
10
Encodage des caractères II ISO 8859 (1987) : International Standards Organization étend US-ASCII en ajoutant les caractères accentuésUS-ASCII – 8 bits (256 codes) 191 signes définis ISO 8859-1 : Europe le l’Ouest – 8859-2 : Latin 2, Europe de l’Est – 8859-3 : Latin 3, Europe du Sud Est – 8859-4 : Latin 4, Scandinavie, Baltique – 8859-5 : cyrillique – 8859-6 : arabe, 8859-7 : grec, etc
11
Encodage des caractères III UNICODE – Approche systématique : UNICODE (norme d’encodage) : tous les systèmes d’écriture (100.000 caractères) permet le mélange de langues – Permet l’encodage de toutes les langues vivantes et mortes UTF-8 UNICODE UTF-8 (8-bit UCS/Unicode Transformation Format) un format d’encodage pour UNICODE UTF-16 UTF-16
12
Formats des fichiers : comment stocker le corpus ? CORPUS_PRENOM_NOM ANGLAISFRANCAISALLEMAND SOURCES TEXTES STEP_biblio_c orpus_EN_NO M.xls CL_1996_BAUM.p df CL_1996_BAUM.t xt
13
Comment citer la source ? Quels champs indiquer pour chaque type de document ? Article : Auteur|Auteur et al. (2008). Titre. Revue, Vol, No., pages Site web : Titre, (Auteur|institution), Url (localisation), date de consultation. Livre : Auteur|Auteur et al. (2008). Titre. Maison d’édition (collection)
14
Comment citer la source ? Thèse de doctorat : Auteur.(2008). Titre. Ecole. (directeur de recherche) Actes de colloque : Auteur(2008). Tire. Conférence (Date, Lieu), pages ou adresse URL.
15
Parenthèse : formats des fichiers Démonstration : comment stocker les fichiers constituant son corpus ?
16
Que faire avec les fichiers PDF ? Portable Document Format créé par Adobe SystemsAdobe Systems préserve la mise en forme (polices, images, objets graphiques…) quelles que soient l'application et la plate- forme PDF est un format ouvert (Adobe Systems autorise des programmes tiers à réutiliser son format), mais se réserve la propriété de nombreux brevets déposés et donc le droit de demander des redevances.format ouvertbrevetsredevances les spécifications sont publiques et utilisables librement et gratuitement (à l'exception de quelques très importantes sociétés commerciales).
17
Que faire avec les fichiers PDF ? Si aucun autre format n’est pas disponible (vérifier, écrire des mails, etc !!): Utiliser les logiciels OCR. Exemple : Omnipage ! Démonstration. Utiliser la version démo de Acrobat 8 Professional (30 jours seulement!). Démo. Vérifier l’intégrité du texte scanné (surtout lorsqu’il s’agit de texte en colonnes, avec images).
18
Comment trouver du corpus Rappel : Science Direct Des archives de thèses Google Google Qu’est-ce qu’on cherche (quel terme de requête) ? le domaine des termes qui apparaissent dans le texte Extracteur de termes (Terminology Extractor) / Fréquenceur Fréquenceur
19
Un peu de pratique maintenant ! Chercher des articles en Français et en Anglais liés au texte à traduire Les convertir en.txt et le sauvegarder dans le bon répertoire Utiliser – le bon logiciel de traitement de texte – la bonne convention de nommage – le bon encodage des caractères (UTF-8, en utilisant l’option « save as ») UTILISEZ NOTEPAD PLUTÔT QUE WORDPAD POURQUOI ???
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.