La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Présentations similaires


Présentation au sujet: "Introduction à lutilisation des corpus 2. Comment constituer un corpus?"— Transcription de la présentation:

1 Introduction à lutilisation des corpus 2. Comment constituer un corpus?

2 Questions abordées 2. Comment constituer un corpus ? Comment trouver des textes ? Ou et comment trouver des ressources (glossaires, dictionnaires, corpus parallèles) ? Comment exploiter au mieux les fonctionnalités des moteurs de recherche? Comment choisir quel texte inclure ou pas dans le corpus ? Sous quelle forme faut-il le stocker pour quil soit facilement utilisable ? (rappel : formats de fichiers)

3 Rappel : quel type de corpus ? On va constituer un mini corpus Électronique Bilingue comparable (quelles langues? ) Doriginaux (éviter les auteurs locuteurs non-natifs) Synchronique Annoté? Ou bien forme de textes bruts? Ouvert : constamment enrichi De spécialité. Domaines/sous-domaines couverts ? Exemples : Le volcans de boue Le circuit de leau dans les sols Les montagnes

4 Où trouver des textes? 1/ Science Direct (www.sciencedirect.com)www.sciencedirect.com ¼ de la littérature scientifique, médicale et technique en ligne plus de journaux, centaines de livres, manuels accès uniquement sur le campus droits dauteur ;-) 2/ PLOS (Public Library of Science) : 3/ Liens « périodiques et littérature grise » de Mme Geneviève Bordet.périodiques et littérature grise E.x.

5 Où trouver des textes? 4/ (recherche de thèses)www.sudoc.abes.fr 5/ ENT de luniversité Paris Diderot : - HAL - GEOBASE 6/ Recherche sur Internet

6 Recherche documentaire sur Internet Comment choisir ? Internet nest pas une grande bibliothèque. Tout nest pas crédible. Avant dinclure un texte récupéré sur Internet vérifier : la date de mise ajour du site qui est lauteur de la page ? le texte a été écrit par un locuteur natif? quelle institution cautionne le contenu? Cette information devra, en partie, être incluse dans la source bibliographique de chaque texte inclus dans le corpus !!!

7 Google Google : comment lutiliser au mieux ? Comment cibler au mieux les résultats formuler résultats plus pertinents Google Google Hacks Industrial- Strength Tips & Tricks Tara Calishain, Rael Dornfest, OReilly

8 Google Google : syntaxe de base pomme de terre (AND implicite) « pomme de terre » Paris OR London hôtel (Paris OR London) Bush -George –president Bush BUSH bush écri* ????? « trois * raisons » caractère joker glossary OR vocabulary OR lexicon ~glossary

9 Google Google : syntaxes spéciales Opérateurs google intitle: inurl: intext: inanchor: site: link: filetype: related: define: Et plein dautres!!! Lordre des termes de la requête et la répétition peuvent affecter les résultats.

10 Autres questions Que faire si une page nexiste plus? Google vérifier si elle existe encore en cache (retrouve une page que Google a indexée) Où trouver des glossaires et corpus parallèles?

11 Google hack Un dernier Google hack Google Chercher sur Google le terme hydracefallus et limiter les résultats aux fichiers de type.pdf.

12 Comment stocker les textes ?

13 Parenthèse : formats des fichiers Moyen dencoder de linformation afin de la stocker sur lordinateur. IMAGES uniquement :.jpg,.png, etc Formats de fichiers documents sans aucun formatage :.txt : uniquement des caractères textuels ordinaires formatés :.doc : formats propriétaires Microsoft.rtf : formats propriétaires Microsoft : Lisible, inter-opérable.odt (OpenOffice Text Doc) : logiciel libre sources disponibles.html,.xml : langages à balises.pdf : format propriétaire de Adobe Systems, même si ouvert préserve polices, images, graphiques et la mise en forme EXTENSIONS

14 Démonstration : comparaison entre les documents de type.txt,.doc,.html,.rtf,.odt (Observer la taille des documents)

15 A lire : Formats de fichiers (documentation de léquipe système de lUFR EILA) :

16 Fichiers texte /vs/ binaires Fichiers texte : contenu pouvant être interprété comme du texte. Suite de caractères dun ensemble donné. –en codage ASCII ou une extension de ASCII (UTF-8, UTF-16 ou extension régionale). Exemples : fichiers.XML ;.txtASCIIUTF-8 Le contenu d'un fichier binaire n'est pas du texte et correspond souvent à un format précis. –fichier exécutable ; –fichier de base de données structuré en enregistrements de taille fixe ou variable ; –document de traitement de texte ;traitement de texte –fichiers multimédias : images, sons, vidéos.

17 Encodage des caractères associations entre caractères et un code afin de faciliter le stockage et le transfert des fichiers. Exemples dencodage : –Le code Morse Le code ASCII ISO UNICODE

18 Encodage des caractères associations entre caractères et un code afin de faciliter le stockage et le transfert des fichiers. Exemples dencodage : –Le code Morse

19 Encodage de caractères I –US-ASCII (1967): American Standard Code of Information Interchange –Lettres (alphabète anglais), numéraux, ponct –7 bits (128 codes) 98 signes définis –Ex : A : 065, B : 066, C : 067 a : 097, b : 098, c : 099, etc. –Très limité extensions.

20 Encodage des caractères II ISO 8859 (1987) : International Standards Organization étend US-ASCII en ajoutant les caractères accentuésUS-ASCII – 8 bits (256 codes) 191 signes définis ISO : Europe le lOuest – : Latin 2, Europe de lEst – : Latin 3, Europe du Sud Est – : Latin 4, Scandinavie, Baltique – : cyrillique – : arabe, : grec, etc

21 Encodage des caractères III UNICODE –Approche systématique : UNICODE (norme dencodage) : tous les systèmes décriture ( caractères) permet le mélange de langues –Permet lencodage de toutes les langues vivantes et mortes UTF-8 UNICODEUTF-8 (8-bit UCS/Unicode Transformation Format) un format dencodage pour UNICODE UTF-16UTF-16

22 Formats des fichiers : comment stocker le corpus ? CORPUS_PRENOM_NOM ANGLAISFRANCAISALLEMAND SOURCES TEXTES Référence biblio dans la BD Termino !!!!! BAUM_1996.pdfBAUM_1996.txt

23 Comment citer la source ? Quels champs indiquer pour chaque type de document ? (JabRef) : Article : Auteur|Auteur et al. (2008). Titre. Revue, Vol, No., pages Site web : Titre, (Auteur|institution), Url (localisation), date de consultation. Livre : Auteur|Auteur et al. (2008). Titre. Maison dédition (collection)

24 Comment citer la source ? Thèse de doctorat : Auteur.(2008). Titre. Ecole. (directeur de recherche) Actes de colloque : Auteur(2008). Tire. Conférence (Date, Lieu), pages ou adresse URL.

25 Parenthèse : formats des fichiers Démonstration : comment stocker les fichiers constituant son corpus ?

26 Que faire avec les fichiers PDF ? Portable Document Format créé par Adobe SystemsAdobe Systems préserve la mise en forme (polices, images, objets graphiques…) quelles que soient l'application et la plate- forme PDF est un format ouvert (Adobe Systems autorise des programmes tiers à réutiliser son format), mais se réserve la propriété de nombreux brevets déposés et donc le droit de demander des redevances.format ouvertbrevetsredevances les spécifications sont publiques et utilisables librement et gratuitement (à l'exception de quelques très importantes sociétés commerciales).

27 Que faire avec les fichiers PDF ? Si aucun autre format nest pas disponible (vérifier, écrire des mails, etc !!): Utiliser les logiciels OCR. Exemple : Omnipage ! Démonstration. Utiliser la version démo de Acrobat 8 Professional (30 jours seulement!). Démo. Vérifier lintégrité du texte scanné (surtout lorsquil sagit de texte en colonnes, avec images).

28 Quel format pour le stockage ? Créer un répertoire CORPUS_NOM_PRENOM Créer les sous-répertoires ANGLAIS & FRANCAIS (non pas FRANÇAIS) Stocker dans les deux des articles convertis en format.txt, avec lencodage UFT-8 Nom du fichier : le nom de lauteur année de publication + a,b,c (optionnel, si plusieurs articles de la même année) +.txt Ex : DUPONT_2006.txt UTILISEZ NOTEPAD PLUTÔT QUE WORDPAD POURQUOI ???


Télécharger ppt "Introduction à lutilisation des corpus 2. Comment constituer un corpus?"

Présentations similaires


Annonces Google