Introduction à l’utilisation des corpus 2. Comment constituer un corpus?

Slides:



Advertisements
Présentations similaires
Questions abordées 2. Comment constituer un corpus ?
Advertisements

Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Bloc 1 - UE 5 - Technologies de l’information et de la communication TIC Bachelier en immobilier T. SOUMAGNE.
Bibliothèque Centrale de l’École Polytechnique Session pratique Recherches documentaires en sciences dures PSC 2011 septembre/octobre 2011 Denis Roura,
FAIRE SA BIBLIOGRAPHIE DE THESE AVEC ZOTERO Traitements de texte pris en compte: Word et LibreOffice.
GCstar Gestionnaire de collections personnelles Christian Jodar (Tian)
Qu'est ce que le logiciel libre ?. Qu'est-ce qu'un logiciel ? ● C'est une application informatique qui répond à un besoin : traitement de texte, navigateur.
Composants Matériels de l'Ordinateur Plan du cours : Ordinateurs et applications Types d'ordinateurs Représentation binaires des données Composants et.
SPIP Un logiciel libre pour la gestion d'un site web d'informations SPIP.
1 /31 Boîte à outils d'annotations de cartes et de textes dans un contexte d'application Web.
1 Le traitement de texte avec OpenOffice.org Mediatheque d'AurayVendredi 23 Novembre 2007.
1 Chaîne éditoriale et catalogue de formation Université de Picardie Jules Verne.
RMLL 2010 Un aperçu des nouvelles normes HTML 5 et CSS 3 Rencontres Mondiales des Logiciels Libres Bordeaux - mercredi 7 juillet 2010 Francis Draillard,
Politique de développement de collection : Bâtir sur les forces du réseau Isabelle Laplante, bibliothécaire _CAP du 15 avril 2011.
1 Le stage informatique de Masters APIM et PIE (2012/2013) Ivana Hrivnacova Vincent Lafage Basé sur le stage informatique du LAL et IPN par (2005/2006):
Savoirs en partage Le portail de ressources de l'AUF Objectifs ● Proposer de.
Go2ACT Echange de données entre les géomètres officiels et l’Administration du Cadastre et de la Topographie.
Présentation du programme
Traitement de texte OpenOffice 2 : première approche. B. Gugger – Novembre 2006 – Département RTC.
Master ESEEC Rédaction de documents (longs) structurés Patrice Séébold Bureau 109, Bât B.
NOTIONS INFORMATIQUES : RAPPEL
Cours de niveau Débutant Licences Université Paul Valéry Montpellier 3
Recherche Summon - HINARI (Module 3)
AMUE – SIFAC Intégration Fichier Mouvements BDF
Correspondance B2i - Technologie
Téléchargement de fichiers
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
1.2 Programmes et données Les programmes comme les données sont stockés dans les mémoires (centrales et périphériques) des ordinateurs Informatique.
Rappels et présentation du réseau local
Votre Archive ouverte du réseau collégial québécois
Quelques Termes INFORMATIQUE ? ORDINATEUR ( Système Informatique)?
Rechercher des articles et des sites web
La courbe ci-contre représente
KeePass Introduction - Les services Conseils I6T.
Installation et Configuration Internet Information Server (IIS 5)
Pour faire quoi? De la recherche documentaire à Twitter
NAPOLEON Ier Étude du tableau du Sacre de Napoléon par J.L DAVID
Joseph Larmarange – Atelier d’écriture – Abidjan – Octobre 2017
Module 1 : Réaliser un site internet
Le Club informatique 21 février 2008
Calibre Introduction - Les services Conseils I6T.
Extension de fichiers*
Je collecte l’information J’accède aux documents sources
Structure D’une Base De Données Relationnelle
REVUE DE LITTERATURE. Introduction Première partie majeure dans la rédaction du mémoire, la réalisation d’une revue de littérature consiste à effectuer.
Règles d'utilisation des images sur Internet
ADOBE FLASH PLAYER.
Les formats Stage – Semaine 4 1. Formats de fichiers  Qu’est-ce que le codage de données ?  Qu’est-ce qu’un format de fichier ? 2.
Power Point.
Transmission de données
Introduction à l’utilisation des corpus
Comment utiliser l’application ?
Niveau Intermédiaire 01/12/2018.
Messagerie (Orange - Gmail)
La recherche avancée.
Programmation Web : Introduction à XML
Formats Stage – Semaine 4.
Base de données Table des clients Table des fournisseurs Table des commandes clients Formulaire des clients Formulaire des fournisseurs Formulaire des.
PLATE FORME DE GESTION ÉLECTRONIQUE DE DOCUMENTS Présenté par: Amine LARIBI.
COMMENT REDIGER UNE BIBLIOGRAPHIE?
Chapitre 2 : Représentation de l’information dans la machine Introduction Représentation des nombres négatifs –Signe / valeur absolue –Complément à 1 –Complément.
Catherine Cyrot - bibliothèques numériques - cours 3
Projet CRImage UNIVERSITE STENDHAL GRENOBLE
Le droit d’auteur Le droit d’auteur protège les œuvres littéraires et artistique Le créateur est le seul propriétaire de son œuvre (livre, article de.
Module bibliothèques numériques - Formats de bibliothèques
CERN Onboarding 2018 Tullio Basaglia, RCS-SIS
Formats de fichiers Stage – Semaine 5.
Transcription de la présentation:

Introduction à l’utilisation des corpus 2. Comment constituer un corpus?

2.2. Comment stocker les textes ?

Parenthèse : formats des fichiers  Moyen d’encoder de l’information afin de la stocker sur l’ordinateur.  IMAGES uniquement :.jpg,.png, etc  Formats de fichiers ‘documents’  sans aucun formatage :.txt : uniquement des caractères textuels ordinaires  formatés : .doc : formats propriétaires Microsoft .rtf : formats propriétaires Microsoft : Lisible, inter-opérable .odt (OpenOffice Text Doc) : logiciel libre sources disponibles .html,.xml : langages à balises .pdf : format propriétaire de Adobe Systems, même si ouvert  préserve polices, images, graphiques et la mise en forme EXTENSIONS

Démonstration : comparaison entre les documents de type.txt,.doc,.html,.rtf,.odt (Observer la taille des documents)

A lire : Formats de fichiers (documentation de l’équipe système de l’UFR EILA) :

Fichiers texte /vs/ binaires Fichiers texte : contenu pouvant être interprété comme du texte. Suite de caractères d’un ensemble donné. – en codage ASCII ou une extension de ASCII (UTF-8, UTF-16 ou extension régionale). Exemples : fichiers.XML ;.txtASCIIUTF-8 Le contenu d'un fichier binaire n'est pas du texte et correspond souvent à un format précis. – fichier exécutable ; – fichier de base de données structuré en enregistrements de taille fixe ou variable ; – document de traitement de texte ;traitement de texte – fichiers multimédias : images, sons, vidéos.

Encodage des caractères associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers. Exemples d’encodage : – Le code Morse Le code ASCII ISO UNICODE

Encodage des caractères associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers. Exemples d’encodage : – Le code Morse

Encodage de caractères I – US-ASCII (1967): American Standard Code of Information Interchange – Lettres (alphabète anglais), numéraux, ponct – 7 bits (128 codes) 98 signes définis – Ex : A : 065, B : 066, C : 067 a : 097, b : 098, c : 099, etc. – Très limité  extensions.

Encodage des caractères II ISO 8859 (1987) : International Standards Organization étend US-ASCII en ajoutant les caractères accentuésUS-ASCII – 8 bits (256 codes) 191 signes définis ISO : Europe le l’Ouest – : Latin 2, Europe de l’Est – : Latin 3, Europe du Sud Est – : Latin 4, Scandinavie, Baltique – : cyrillique – : arabe, : grec, etc

Encodage des caractères III UNICODE – Approche systématique : UNICODE (norme d’encodage) : tous les systèmes d’écriture ( caractères)  permet le mélange de langues – Permet l’encodage de toutes les langues vivantes et mortes UTF-8 UNICODE UTF-8 (8-bit UCS/Unicode Transformation Format) un format d’encodage pour UNICODE UTF-16 UTF-16

Formats des fichiers : comment stocker le corpus ? CORPUS_PRENOM_NOM ANGLAISFRANCAISALLEMAND SOURCES TEXTES STEP_biblio_c orpus_EN_NO M.xls CL_1996_BAUM.p df CL_1996_BAUM.t xt

Comment citer la source ? Quels champs indiquer pour chaque type de document ? Article : Auteur|Auteur et al. (2008). Titre. Revue, Vol, No., pages Site web : Titre, (Auteur|institution), Url (localisation), date de consultation. Livre : Auteur|Auteur et al. (2008). Titre. Maison d’édition (collection)

Comment citer la source ? Thèse de doctorat : Auteur.(2008). Titre. Ecole. (directeur de recherche) Actes de colloque : Auteur(2008). Tire. Conférence (Date, Lieu), pages ou adresse URL.

Parenthèse : formats des fichiers Démonstration : comment stocker les fichiers constituant son corpus ?

Que faire avec les fichiers PDF ? Portable Document Format créé par Adobe SystemsAdobe Systems préserve la mise en forme (polices, images, objets graphiques…) quelles que soient l'application et la plate- forme PDF est un format ouvert (Adobe Systems autorise des programmes tiers à réutiliser son format), mais se réserve la propriété de nombreux brevets déposés et donc le droit de demander des redevances.format ouvertbrevetsredevances les spécifications sont publiques et utilisables librement et gratuitement (à l'exception de quelques très importantes sociétés commerciales).

Que faire avec les fichiers PDF ? Si aucun autre format n’est pas disponible (vérifier, écrire des mails, etc !!): Utiliser les logiciels OCR. Exemple : Omnipage ! Démonstration. Utiliser la version démo de Acrobat 8 Professional (30 jours seulement!). Démo. Vérifier l’intégrité du texte scanné (surtout lorsqu’il s’agit de texte en colonnes, avec images).

Comment trouver du corpus Rappel :  Science Direct  Des archives de thèses Google  Google Qu’est-ce qu’on cherche (quel terme de requête) ?  le domaine  des termes qui apparaissent dans le texte  Extracteur de termes (Terminology Extractor) / Fréquenceur Fréquenceur

Un peu de pratique maintenant ! Chercher des articles en Français et en Anglais liés au texte à traduire Les convertir en.txt et le sauvegarder dans le bon répertoire Utiliser – le bon logiciel de traitement de texte – la bonne convention de nommage – le bon encodage des caractères (UTF-8, en utilisant l’option « save as ») UTILISEZ NOTEPAD PLUTÔT QUE WORDPAD POURQUOI ???