Questions abordées 2. Comment constituer un corpus ?

Slides:



Advertisements
Présentations similaires
ZOTERO logiciel de gestion bibliographique
Advertisements

La recherche documentaire
La diffusion du document thèse
Documentation numérique sur l’Internet
Traduction française des formats UNIMARC
Exercices Recherche dinformation. Méthodo ? Connaissance des ressources Prise dindices (mots clès, type de doc, langue,...) Connaître les opérateurs /
La Recherche dInformation en Ligne Quelques outils Gabriel Gallezot.
EVALUER L’INFORMATION
Plateforme de revues et d’articles en sciences humaines et sociales
Bonjour. 2 constats numériques Nos livres très clair Bilan.
Intégrer IdRef dans les applications documentaires de votre université. Pourquoi ? Comment ? Atelier JABES2011.
Site web des bibliothèques Les accès : RECHERCHE, PROFIL, BIBLIOTHEQUE(S) 26/03/2013Service commun de la documentation.
LITTERATURE SCIENTIFIQUE STRATÉGIES DE RECHERCHE PMSS
DCL 5501: Méthodologie de la recherche juridique Cecilia Tellis, Bibliothécaire de droit 17 septembre 2008.
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Tout ce qu’il faut savoir pour déposer votre mémoire ou votre thèse dans Savoirs UdeS Par le Service des bibliothèques et archives.
Cours 16 LA BIBLIOGRAPHIE
Anthropologie 101: Projet de recherche
Lycée Louis Vincent Séance 1
Le portail documentaire de Paris 1
Bases de données documentaires Faculté de Médecine PCEM2.
Algorithmique et programmation Informatique Cours 9 12/11/2001.
Localisation dans le Sudoc des ressources électroniques JABES 2012.
Ressources web : évaluer leur validité et leur fiabilité... © Français et Informatique
Comment réaliser une recherche bibliographique ?
La recherche sur le Web Améliorer sa performance Compétences informationnelles – Activité 13 - Documentation Module 3: les moteurs académiques: Google.
La recherche sur le Web Améliorer sa performance Compétences informationnelles – Activité 13 - Documentation Module 3: les moteurs académiques: Google.
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Les formats Débutant – Semaine 4.
Recherche, évaluation et utilisation de linformation Martine Mottet www1.sites.fse.ulaval.ca/martine.mottet.
Savoir-faire "Saisie de caractères API Savoir-faire "Saisie de caractères API Univ. Paris 3, Ecole doctorale 268 Univ. Paris 3, Ecole doctorale 268 Alexis.
Le portail documentaire de Paris 1
Convertir un fichier en format .pdf
SUDOC (le catalogue des ouvrages, des thèses et des périodiques des bibliothèques françaises) Contenu Le catalogue du Système Universitaire de DOCumentation.
La bibliothèque électronique. Préambule. Dans tous les cas, tout se passe toujours à partir de la page d’accueil du site web des BU.
La veille numérique : un outil pour s'informer intelligemment &
BIBLIOTHEQUES NUMERIQUES Présentateur : Daniel MICHEL.
Internet WEB.
Le langage XML.
Les archives en ligne et l'histoire
Tous droits réservés 04 octobre 2005© présente Les Moteurs de Recherche.
REPRESENTATION DE L’INFORMATION
LA GESTION DOCUMENTAIRE BTS Assistant de direction 2e année, Janvier 2007.
420-B63 Programmation Web Avancée Auteur : Frédéric Thériault 1.
Science et technologie pour le préscolaire / primaire
S'initier au HTML et aux feuilles de style CSS Cours 5.
P.D.F. Qui es-tu?.
MCM 2007 Santé de la reproduction et l‘internet - une introduction Dirk Schoonbaert Bibliothèque IMT 16 mai, 2007.
S'initier au HTML et aux feuilles de style CSS Cours 5.
Recherche Bibliographique Master 1 Sciences de la Vie
Formation documentaire MOD 1100 « Méthodologie et développement des habiletés professionnelles » 1/29.
Recherche Documentaire et traitement de l’information
Service commun de documentation 1 Validation d’informations sur Internet Des outils pour vérifier la validité des informations.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Nassim Bouaziz Mariève Bureau
France Bilodeau Bibliothécaire-conseil 19 octobre 2015 La recherche d’information en éducation.
Présenter une bibliographie en lycée
Bloc 1 - UE 5 - Technologies de l’information et de la communication TIC Bachelier en immobilier T. SOUMAGNE.
De Zotero à Mendeley : découvrir comment gérer ses références Félix Langevin Harnois Bibliothécaire Service de la bibliothèque École de technologie supérieure.
La recherche documentaire & internet Sport, sciences et technologie Octobre 2009 Délimiter et définir son sujet Dictionnaires (Google, define:sport, sciences,
Master 1 « diffusion de la culture » Formation à la maîtrise de l’information scientifique et technique Séance 2 Jeudi 02/10/2014 SID2 1.
IUT « A » P. Sabatier – Université Toulouse III Le projet tuteuré en 2 ème année RECHERCHES BIBLIOGRAPHIQUES Département Chimie IUT Paul Sabatier Site.
Compétences informationnelles Choisir ses sources Connaître les outils de repérage.
Introduction à l’utilisation des corpus 2. Comment constituer un corpus?
Transcription de la présentation:

Introduction à l’utilisation des corpus 2. Comment constituer un corpus?

Questions abordées 2. Comment constituer un corpus ? Comment trouver des textes ? Ou et comment trouver des ressources (glossaires, dictionnaires, corpus parallèles) ? Comment exploiter au mieux les fonctionnalités des moteurs de recherche? Comment choisir quel texte inclure ou pas dans le corpus ? Sous quelle forme faut-il le stocker pour qu’il soit facilement utilisable ? (rappel : formats de fichiers)

Rappel : quel type de corpus ? On va constituer un mini corpus Électronique Bilingue comparable (quelles langues? ) D’originaux (éviter les auteurs locuteurs non-natifs) Synchronique Annoté? Ou bien forme de textes bruts? Ouvert : constamment enrichi De spécialité. Domaines/sous-domaines couverts ? Exemples : Le volcans de boue Le circuit de l’eau dans les sols Les montagnes

Où trouver des textes? 1/ Science Direct (www.sciencedirect.com) ¼ de la littérature scientifique, médicale et technique en ligne plus de 2.000 journaux, centaines de livres, manuels accès uniquement sur le campus droits d’auteur ;-) 2/ PLOS (Public Library of Science) : http://www.plos.org/ 3/ Liens « périodiques et littérature grise » de Mme Geneviève Bordet. E.x. http://docinsa.insa-lyon.fr/sapristi/trouver-20.php http://www.inria.fr/rrrt/index.fr.html

Où trouver des textes? 4/ www.sudoc.abes.fr (recherche de thèses) 5/ ENT de l’université Paris Diderot : - HAL - GEOBASE 6/ Recherche sur Internet

Recherche documentaire sur Internet Comment choisir ? Internet n’est pas une grande bibliothèque. Tout n’est pas crédible. Avant d’inclure un texte récupéré sur Internet vérifier : la date de mise ajour du site qui est l’auteur de la page ? le texte a été écrit par un locuteur natif? quelle institution cautionne le contenu? Cette information devra, en partie, être incluse dans la source bibliographique de chaque texte inclus dans le corpus !!!

Google : comment l’utiliser au mieux ? Comment cibler au mieux les résultats formuler  résultats plus pertinents http://www.googleguide.com/ Google Hacks - 100 Industrial- Strength Tips & Tricks Tara Calishain, Rael Dornfest, O’Reilly

Google : syntaxe de base pomme de terre  (AND implicite) « pomme de terre » Paris OR London hôtel (Paris OR London) Bush -George –president Bush BUSH bush écri* ????? «  trois * raisons   »  caractère joker glossary OR vocabulary OR lexicon  ~glossary

Google : syntaxes spéciales Opérateurs google intitle: inurl: intext: inanchor: site: link: filetype: related: define: Et plein d’autres!!! L’ordre des termes de la requête et la répétition peuvent affecter les résultats.

Autres questions Que faire si une page n’existe plus? vérifier si elle existe encore en cache (retrouve une page que Google a indexée) www.webarchive.org Où trouver des glossaires et corpus parallèles? http://www.multilingual.ch

Un dernier Google hack Chercher sur Google le terme hydracefallus et limiter les résultats aux fichiers de type .pdf.

Comment stocker les textes ?

Parenthèse : formats des fichiers Moyen d’encoder de l’information afin de la stocker sur l’ordinateur. IMAGES uniquement : .jpg, .png, etc Formats de fichiers ‘documents’ sans aucun formatage : .txt : uniquement des caractères textuels ordinaires formatés : .doc : formats propriétaires Microsoft .rtf : formats propriétaires Microsoft : Lisible, inter-opérable .odt (OpenOffice Text Doc) : logiciel libre sources disponibles .html, .xml : langages à balises .pdf : format propriétaire de Adobe Systems, même si ouvert préserve polices, images, graphiques et la mise en forme EXTENSIONS

(Observer la taille des documents) Démonstration : comparaison entre les documents de type .txt, .doc, .html, .rtf, .odt (Observer la taille des documents)

A lire : Formats de fichiers (documentation de l’équipe système de l’UFR EILA) : www.eila.univ-paris-diderot.fr/sysadmin/gestion-docs/formats

Fichiers texte /vs/ binaires Fichiers texte : contenu pouvant être interprété comme du texte. Suite de caractères d’un ensemble donné. en codage ASCII ou une extension de ASCII (UTF-8, UTF-16 ou extension régionale). Exemples : fichiers .XML ; .txt Le contenu d'un fichier binaire n'est pas du texte et correspond souvent à un format précis. fichier exécutable ; fichier de base de données structuré en enregistrements de taille fixe ou variable ; document de traitement de texte ; fichiers multimédias : images, sons, vidéos.

Encodage des caractères associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers. Exemples d’encodage : Le code Morse Le code ASCII ISO-8859-1 UNICODE

Encodage des caractères associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers. Exemples d’encodage : Le code Morse

Encodage de caractères I US-ASCII (1967): American Standard Code of Information Interchange Lettres (alphabète anglais), numéraux, ponct 7 bits (128 codes) 98 signes définis Ex : A : 065, B : 066, C : 067 a : 097, b : 098, c : 099, etc. Très limité  extensions.

Encodage des caractères II ISO 8859 (1987) : International Standards Organization étend US-ASCII en ajoutant les caractères accentués – 8 bits (256 codes) 191 signes définis ISO 8859-1 : Europe le l’Ouest 8859-2 : Latin 2, Europe de l’Est 8859-3 : Latin 3, Europe du Sud Est 8859-4 : Latin 4, Scandinavie, Baltique 8859-5 : cyrillique 8859-6 : arabe, 8859-7 : grec, etc

Encodage des caractères III Approche systématique : UNICODE (norme d’encodage) : tous les systèmes d’écriture (100.000 caractères)  permet le mélange de langues Permet l’encodage de toutes les langues vivantes et mortes UTF-8 (8-bit UCS/Unicode Transformation Format) un format d’encodage pour UNICODE UTF-16

Formats des fichiers : comment stocker le corpus ? CORPUS_PRENOM_NOM ANGLAIS ALLEMAND FRANCAIS Référence biblio dans la BD Termino !!!!! SOURCES TEXTES BAUM_1996.pdf BAUM_1996.txt

Comment citer la source ? Quels champs indiquer pour chaque type de document ? (JabRef) : Article : Auteur|Auteur et al. (2008). Titre. Revue, Vol, No., pages Site web : Titre, (Auteur|institution), Url (localisation), date de consultation. Livre : Auteur|Auteur et al. (2008). Titre. Maison d’édition (collection)

Comment citer la source ? Thèse de doctorat : Auteur.(2008). Titre. Ecole. (directeur de recherche) Actes de colloque : Auteur(2008). Tire. Conférence (Date, Lieu), pages ou adresse URL.

Parenthèse : formats des fichiers Démonstration : comment stocker les fichiers constituant son corpus ?

Que faire avec les fichiers PDF ? Portable Document Format créé par Adobe Systems préserve la mise en forme (polices, images, objets graphiques…) quelles que soient l'application et la plate- forme PDF est un format ouvert (Adobe Systems autorise des programmes tiers à réutiliser son format), mais se réserve la propriété de nombreux brevets déposés et donc le droit de demander des redevances. les spécifications sont publiques et utilisables librement et gratuitement (à l'exception de quelques très importantes sociétés commerciales).

Que faire avec les fichiers PDF ? Si aucun autre format n’est pas disponible (vérifier, écrire des mails, etc !!): Utiliser les logiciels OCR. Exemple : Omnipage ! Démonstration. Utiliser la version démo de Acrobat 8 Professional (30 jours seulement!). Démo. Vérifier l’intégrité du texte scanné (surtout lorsqu’il s’agit de texte en colonnes, avec images).

Quel format pour le stockage ? Créer un répertoire CORPUS_NOM_PRENOM Créer les sous-répertoires ANGLAIS & FRANCAIS (non pas FRANÇAIS) Stocker dans les deux des articles convertis en format .txt, avec l’encodage UFT-8 Nom du fichier : le nom de l’auteur + - + année de publication + a,b,c (optionnel, si plusieurs articles de la même année) + .txt Ex : DUPONT_2006.txt UTILISEZ NOTEPAD PLUTÔT QUE WORDPAD POURQUOI ???