Introduction à lutilisation des corpus 2. Comment constituer un corpus?

Slides:



Advertisements
Présentations similaires
Données structurées et XML
Advertisements

Le dossier documentaire
Lalimentation de STAR par imports STAR 8ième cercle – 27 septembre 2013.
Internet : serveurs Web
Le developpement web  Préparé par : ASSAL Lamiae JAMALI Zakarya
Données structurées et XML
Correction contrôle.
Correction du contrôle
Les ressources numériques
Domaines nominaux XSLT
Tutoriel XML – Première Partie F. Sajous & L. Tanguy ERSS – Sémantique et Corpus.
XML en 10 points1 Jean-Daniel Fekete Département Informatique École des Mines de Nantes
TP 3-4 BD21.
DOSSIER TICE 2006 MASSON Wendy 1 ère année sciences du langage
Charte Graphique Protestants en fête 2013.
Questions abordées 2. Comment constituer un corpus ?
Bonjour. 2 constats numériques Nos livres très clair Bilan.
L’ordinateur et les langues

Lycée Louis Vincent Séance 1
Algorithmique et programmation Informatique Cours 9 12/11/2001.
Notions sur le XML Réfs : manuel p 149. Introduction Le XML (eXtensible Markup Language) est un standard d'échange de données. Il fait partie comme le.
Equipe DI-fusion - DI-fusion, le dépôt institutionnel de lULB.
La recherche sur le Web Améliorer sa performance Compétences informationnelles – Activité 13 - Documentation Module 3: les moteurs académiques: Google.
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
INFORMATIQUE INF1B Les principes de fonctionnement de l’ordinateur
Les formats Débutant – Semaine 4.
OPTIMA, 6 novembre 2008, BnF 1 un outil daide à la transcription Thomas PALFRAY Stéphane NICOLAS Thierry PAQUET L aboratoire d I nformatique, T raitement.
Savoir-faire "Saisie de caractères API Savoir-faire "Saisie de caractères API Univ. Paris 3, Ecole doctorale 268 Univ. Paris 3, Ecole doctorale 268 Alexis.
Conversion de fichiers
Convertir un fichier en format .pdf
SUDOC (le catalogue des ouvrages, des thèses et des périodiques des bibliothèques françaises) Contenu Le catalogue du Système Universitaire de DOCumentation.
Les feuilles de style CSS
Internet WEB.
Formation Site Web Animation Pédagogique Ecole de Dommartin.
Le langage XML.
L’ ACCESSIBILITE « C’est mettre le Web et ses services à la disposition de tous les individus, quels que soient leur matériel ou logiciel, leur infrastructure.
Création d'un diaporama sous Open Office
Aide-mémoire sur Lync 2013 pour Office 365
Internet : serveurs Web  Clients et serveurs : le navigateur  Sites Web et urls  Fichier source d’une page  Langage HTML 1.
REPRESENTATION DE L’INFORMATION
23 mars 2008© présente Comprendre Les documents PDF Tous droits réservés.
7 mai 2006© présente Enregistrement et Sauvegarde Des courriers électroniques Outlook Express Tous droits réservés.
Traitement de texte +.
S'initier au HTML et aux feuilles de style CSS Cours 5.
PDF Un format universel?.
P.D.F. Qui es-tu?.
420-B63 Programmation Web Avancée Auteur : Frédéric Thériault 1.
S'initier au HTML et aux feuilles de style CSS Cours 5.
SI 28 - Écriture interactive & multimédia Dreamweaver Séance 1 Petit Clara & Palfart Julien Printemps2008 Printemps 2008.
Numéro 1 – JANVIER 2012 L e P O N T s o c i o l o g i q u e e n t r e R e c h e r c h e e t e n s e i g n e m e n t e n t r e U n i v e r s i t é e t C.
Service commun de documentation 1 Validation d’informations sur Internet Des outils pour vérifier la validité des informations.
Nassim Bouaziz Mariève Bureau
Pierre Malenfant Technologie 9 École du Carrefour
Formation GBIF France dans le cadre d’Ecoscope – Valoriser ses données d’observation sur la biodiversité : qualité, standards et publication Paris,
Formats d’échange ? Chap B11 FP10 page 143 Les enjeux …
Observatoire des pratiques Groupe TUICE 2014 Présentation de… Un espace numérique de travail… A partir d’un compte Google.
1 Présentation de DREAMWEAVER (1) Gaël TREMEAU GI05 Printemps 2006.
Bloc 1 - UE 5 - Technologies de l’information et de la communication TIC Bachelier en immobilier T. SOUMAGNE.
Introduction au HTML Qu’est ce que le HTML ?
Mise à jour en février 2013 Ecrire un commentaire Accéder au tableau de bord Changer son mot de passe Écrire un nouvel article Importer une image Publier.
Organiser l’information trouvée sur internet Félix Langevin Harnois Bibliothécaire Service de la bibliothèque École de technologie supérieure Hiver 2016.
IUT « A » P. Sabatier – Université Toulouse III Le projet tuteuré en 2 ème année RECHERCHES BIBLIOGRAPHIQUES Département Chimie IUT Paul Sabatier Site.
Révisions pour l’exam L2 Informatique Obligatoire.
Introduction à l’utilisation des corpus 2. Comment constituer un corpus?
Catherine Cyrot - bibliothèques numériques - cours 3
Transcription de la présentation:

Introduction à lutilisation des corpus 2. Comment constituer un corpus?

2.2. Comment stocker les textes ?

Parenthèse : formats des fichiers Moyen dencoder de linformation afin de la stocker sur lordinateur. IMAGES uniquement :.jpg,.png, etc Formats de fichiers documents sans aucun formatage :.txt : uniquement des caractères textuels ordinaires formatés :.doc : formats propriétaires Microsoft.rtf : formats propriétaires Microsoft : Lisible, inter-opérable.odt (OpenOffice Text Doc) : logiciel libre sources disponibles.html,.xml : langages à balises.pdf : format propriétaire de Adobe Systems, même si ouvert préserve polices, images, graphiques et la mise en forme EXTENSIONS

Démonstration : comparaison entre les documents de type.txt,.doc,.html,.rtf,.odt (Observer la taille des documents)

A lire : Formats de fichiers (documentation de léquipe système de lUFR EILA) :

Fichiers texte /vs/ binaires Fichiers texte : contenu pouvant être interprété comme du texte. Suite de caractères dun ensemble donné. –en codage ASCII ou une extension de ASCII (UTF-8, UTF-16 ou extension régionale). Exemples : fichiers.XML ;.txt Le contenu d'un fichier binaire n'est pas du texte et correspond souvent à un format précis. –fichier exécutable ; –fichier de base de données structuré en enregistrements de taille fixe ou variable ; –document de traitement de texte ; –fichiers multimédias : images, sons, vidéos.

Encodage des caractères associations entre caractères et un code afin de faciliter le stockage et le transfert des fichiers. Exemples dencodage : –Le code Morse

Encodage des caractères associations entre caractères et un code afin de faciliter le stockage et le transfert des fichiers. Exemples dencodage : –Le code Morse

Encodage des caractères associations entre caractères et un code afin de faciliter le stockage et le transfert des fichiers. Exemples dencodage : –Le code Morse –Le code ASCII –ISO –UNICODE

–US-ASCII (1967): American Standard Code of Information Interchange –Lettres (alphabète anglais), numéraux, ponct –7 bits (128 codes) 98 signes définis –Ex : A : 065, B : 066, C : 067 a : 097, b : 098, c : 099, etc. –Très limité extensions. Encodage des caractères I

ISO 8859 (1987) : International Standards Organization étend US-ASCII en ajoutant les caractères accentuésUS-ASCII – 8 bits (256 codes) 191 signes définis ISO : Europe le lOuest – : Latin 2, Europe de lEst – : Latin 3, Europe du Sud Est – : Latin 4, Scandinavie, Baltique – : cyrillique – : arabe, : grec, etc Encodage des caractères II

UNICODE –Approche systématique : UNICODE (norme dencodage) : tous les systèmes décriture ( caractères) permet le mélange de langues –Permet lencodage de toutes les langues vivantes et mortes UTF-8 UNICODEUTF-8 (8-bit UCS/Unicode Transformation Format) un format dencodage pour UNICODE UTF-16UTF-16 Encodage des caractères III

Démo Comprendre limportance du choix du bon encodage des caractères.

Formats des fichiers : comment stocker le corpus ? CORPUS_PRENOM_NOM ANGLAISFRANCAISALLEMAND SOURCES TEXTES STEP_biblio_corp us_EN_NOM.xls CL_1996_BAUM. pdf CL_1996_BAUM. txt

Comment citer la source ? Quels champs indiquer pour chaque type de document ? Article : Auteur|Auteur et al. (2008). Titre. Revue, Vol, No., pages Site web : Titre, (Auteur|institution), Url (localisation), date de consultation. Livre : Auteur|Auteur et al. (2008). Titre. Maison dédition (collection)

Comment citer la source ? Thèse de doctorat : Auteur.(2008). Titre. Ecole. (directeur de recherche) Actes de colloque : Auteur(2008). Tire. Conférence (Date, Lieu), pages ou adresse URL.

Parenthèse : formats des fichiers Démonstration : comment stocker les fichiers constituant son corpus ?

Que faire avec les fichiers PDF ? Portable Document Format créé par Adobe Systems préserve la mise en forme (polices, images, objets graphiques…) quelles que soient l'application et la plate- forme PDF est un format ouvert (Adobe Systems autorise des programmes tiers à réutiliser son format), mais se réserve la propriété de nombreux brevets déposés et donc le droit de demander des redevances. les spécifications sont publiques et utilisables librement et gratuitement (à l'exception de quelques très importantes sociétés commerciales).

Que faire avec les fichiers PDF ? Si aucun autre format nest pas disponible (vérifier, écrire des mails, etc !!): Utiliser les logiciels OCR. Exemple : Omnipage ! Démonstration. Utiliser la version démo de Acrobat 8 Professional (30 jours seulement!). Démo. Vérifier lintégrité du texte scanné (surtout lorsquil sagit de texte en colonnes, avec images).

Que faire avec les fichiers PDF ? ATTENTION : Le copier-coller à partir de documents.pdf ou le copier-coller à partir de la version.txt que google propose pour les documents.pdf nest pas acceptable. Si le fichier de départ est structuré en colonnes le texte risque dêtre complètement inutilisable.