Linguistique de corpus

Slides:



Advertisements
Présentations similaires
Ressources documentaires électroniques
Advertisements

Tutoriel - Les Ressources du BCH
[Nom du présentateur] [Titre/position/statut du présentateur] Webinaire pour [nom du groupe] [Nom de l'institution] [Date]
Analyse de corpus.
Analyse de corpus.
Linguistique de corpus
Le documentaliste, un professeur d'histoire et un professeur de SES cherchent des documents afin de mettre en œuvre une activité autour de la lecture.
Documentation numérique sur l’Internet
XHTML EXtensible HyperText Markup Language. HTML et XML HTML (HyperText Markup Language) et XML (eXtensible Markup Language) sont deux spécifications.
Domaines nominaux XSLT
version Beta Marie Calberg Ninni Louhelainen SLFN7
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Ressources web : évaluer leur validité et leur fiabilité
ETAPES DE LA RECHERCHE DOCUMENTAIRE
FACTIVA Présentation et guide d’utilisation
Quelles ressources sur linternet ? Méthodologie de recherche et validation de linformation Jean-Philippe Accart Bibliothèque nationale suisse Service de.
> a patent search service supplied by Patents & Technology Surveys Ltd PROFESSIONAL ONLINE PATENT INFORMATION SERVICE.
COME Bernard Comeau Commerce électronique Les éléments retrouvés dans une page Web. COME 2001.
XML-Family Web Services Description Language W.S.D.L.
1 Bibdoc 37 – Regards croisés Bibliothèques virtuelles, usages réels 7 avril 2009 – Tours « Les usages des bibliothèques virtuelles » Jean-Philippe Accart.
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Lycée Louis Vincent Séance 1
Le portail documentaire de Paris 1
Le portail des MSH
Introduction à la structuration des documents: les techniques M2: Gestion des connaissances.
Notions sur le XML Réfs : manuel p 149. Introduction Le XML (eXtensible Markup Language) est un standard d'échange de données. Il fait partie comme le.
Initiation aux outils de recherche bibliographique dans le cadre de la réalisation dune séquence de formation à la recherche documentaire Luc Verdebout.
Chercher et trouver Module 1 Déroulement : Souhaiter la bienvenue
Ressources web : évaluer leur validité et leur fiabilité... © Français et Informatique
PhP-MySQL Pagora 2012/2013 CTD 1 - Presentation de moi ^^
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
Les feuilles de style CSS
La veille numérique : un outil pour s'informer intelligemment &
l'information sur Internet
Le langage XHTML 420-S4W-GG Programmation Web Client
Enjeux, méthodologies, services.
BIBLIOTHEQUES NUMERIQUES Présentateur : Daniel MICHEL.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Le langage XML.
Amalia Todirascu 1.  Enseignants: Amalia Todirascu groupe  Contrôle de connaissances: examen.
Présentation de l’ENT L’ENT késako? Vous avez certainement déjà tous entendu parler de l’ENT mais qu’est-ce qu’un ENT? Le site :
Les réseaux - Internet Historique Réseau local Internet Les protocoles
Manuel Kervarker.org : l'accueil
Les grandes étapes de la recherche
Technologies web et web sémantique TP3 - XML. XML eXtensible Markup Language (langage extensible de balisage) – Caractéristiques: méta-langage = un langage.
LA RECHERCHE DOCUMENTAIRE
INTERNET Un réseau informatique mondial : ce sont des millions d'ordinateurs en permanence allumés (reliés entre-eux par des lignes téléphoniques, fibres.
B2i école : domaines, aptitudes et pistes d’activités
SI 28 - Écriture interactive & multimédia Dreamweaver Séance 1 Petit Clara & Palfart Julien Printemps2008 Printemps 2008.
Module : Langage XML (21h)
Présenter l’épreuve pratique
eXtensible Markup Language. Généralités sur le XML.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Dreamweaver Séance 1.
1 Présentation de DREAMWEAVER (1) Gaël TREMEAU GI05 Printemps 2006.
Dreamweaver MX Jauneau Marie Claude-Antoine Zarate.
Bloc 1 - UE 5 - Technologies de l’information et de la communication TIC Bachelier en immobilier T. SOUMAGNE.
Présentation Dreamweaver 8 (1) Nina BOUAZIZ et Matthieu DI RUSSO SI28.
SI28 Malépart Céline Jérémy Palmier
DREAMWEAVER SEANCE 1 Axel JACQUET GM05 – Julien VAN MOORLEGHEM GM05 A2008 Écriture interactive & multimédia Présentation Dreamweaver 8.
Introduction au HTML Qu’est ce que le HTML ?
1 er séance SI28 A2004 YIN Lei Emmanuel Eugene. Plan de l’exposé  Introduction au HTML  Le HTML dans le bloc-notes (notepad)  Présentation de Dreamweaver.
Amalia Todirascu 1.  Enseignants: Amalia Todirascu groupe  Contrôle de connaissances: examen.
Internet et la recherche documentaire Comment utiliser Internet de façon pertinente ?
Master 1 « diffusion de la culture » Formation à la maîtrise de l’information scientifique et technique Séance 2 Jeudi 02/10/2014 SID2 1.
Compétences informationnelles Choisir ses sources Connaître les outils de repérage.
Transcription de la présentation:

Linguistique de corpus

Détails administratifs Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselot salle informatique 4S.12, bâtiment 4 au sous-sol des séances de 3 heures 13.10, 03.11, 10.11, 17.11, 24.11, 01.12, 08.12, 15.12 évaluation: contrôle continu sur machine (2x1h)

Plan Mise en place des notions: Corpus: définition, exemples, formats Apport théorique: utilisation d'un concordancier simple AntConc Concordancier : définition, fonctionnement, fonctions génériques Utilisation d'AntConc, concordancier gratuit Corpus en ligne: Frantext

Plan (II) Le concordancier Xaira : exploitation de données en format XML Mesures statistiques Corpus étiquetés Etiquetage des textes : notions fondamentales, difficultés, outils Utilisation de Wordsmith, concordancier permettant des recherches sur des textes étiquetés. Exploitation des informations syntaxiques avec TigerSearch

Corpus: définitions, exemples, formats

Mise en place des notions Définition des corpus Corpus ou bases textuelles existants Constitution de corpus exemples concrets de problèmes de recherche : linguistiques – sociolinguistiques – historiques critères de sélection des corpus Formats des corpus: texte brut, langage de balises (XML), annotations (TEI).

Qu'est-ce que c'est un corpus? Un corpus est un recueil de textes ou de paroles en format électronique sélectionnés pour un objectif précis "A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language" (Sinclair, 1996)

Pourquoi des corpus? étudier une phénomène linguistique particulier vérifier les emplois "réels" constituer des ressources linguistiques pour une analyse automatique étudier l'évolution d'un dialecte ou d'une langue en diachronie introduction de mots nouveaux, changement des formes comparer les travaux de deux auteurs lexique, syntaxe, figures de style

Pourquoi des corpus (II)? retrouver toutes les informations liés à un personnage historique ou à un pays relations avec d'autres personnalités, avec les pays voisins, pour une période bien déterminée analyser les sources d'un conflit social acteurs, causes du conflit, phases du conflit vérifier les emplois pour la traduction rechercher les expressions pour voir si leur utilisation est fréquente

Corpus Taille de corpus: variable selon l'application Oral/écrit Des millions de mots Quelques miliers de mots Oral/écrit Annotations: morpho-syntaxiques sémantiques commentaires Texts complets ou fragments? Biber 1988: 1000 mots sont suffisants Habert 1993: texts complets

Corpus (II) disponibles en ligne ou téléchargeables (peu de disponibilités :0( ) corpus "fermés", pas d'accès au texte intégral outils d'exploration de corpus: les concordanciers proposent les contextes d'un mot ou d'une expression nécessitent l'apprentissage du langage d'intérrogation – pas toujours facile

Exemples de corpus ou bases textuelles Français Linguistique: base textuelle Frantext (textes littéraires et techniques) http://www.frantext.fr Corpus oral C-ORAL-ROM http://www.elda.org/en/proj/coralrom.html collection d'articles de journaux (L'Est républicain) http://www.cnrtl.fr/corpus/ Sociolinguistique corpus du français parlé à Ottawa-Hull http://www.sociolinguistique.uottawa.ca/materiel/canadien-fa.html Sociologie: CLAPI http://clapi.univ-lyon2.fr/feuilleter.php

Exemples de corpus multilingues débats parlementaires (Parlement européen) http://corp.hum.sdu.dk/cqp.fr.html corpus étiqueté, lemmatisé, disponible en plusieurs langues: français, anglais, esperanto, danois, portugais, espagnol corpus de normes européenes (Acquis Communautaire) http://langtech.jrc.it/JRC-Acquis.html – disponible en 22 langues

Anglais Linguistique et TAL : Histoire : Sociolinguistique : British National Corpus (http://www.natcorp.ox.ac.uk ) Brown Corpus (http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/list/private/brown/brown.html) Susanne (http://www.cs.cmu.edu/afs/cs/project/ai-repository/ai/areas/nlp/corpora/susanne/0.html) Histoire : ASChart (http://www.aschart.kcl.ac.uk/) CELT Corpus of Electronic Texts ( http://www.ucc.ie/celt/ ) Sociolinguistique : Corpus of Early English Correspondence Sampler (CEECS) (http://khnt.hit.uib.no/icame/manuals/ceecs/INDEX.HTM) Sociologie : Homepage corpus (http://www.inf.uszeged.hu/rgai/homepagecorpus)

British National Corpus corpus de référence répartition uniforme de genres: la partie écrite: le domaine: 75% de textes "informatifs", le reste appartient à la fiction; le support: 60% livres, 30% périodiques, supports de discours radio, télé etc. la datation: fiction (1960-1993), informatifs (1975-1993) la diffusion (meilleurs ventes, les ouvrages les plus prêtés) la partie orale: echantillon démographique: âge, sexe, groupe social, région (dates, environnement, participants)

Corpus en ligne – autres langues (I) Allemand TüPP-D/Z (articles de journaux, 200 millions de tokens) http://www.sfs.uni-tuebingen.de/en_nf_asc_resources.shtml Deutsches Referenzkorpus (DeReKo) http://www.ids-mannheim.de/kl/projekte/korpora/ Multilingue Wortschatz http://corpora.informatik.uni-leipzig.de/ Corpus Oslo – 2,6 millions de mots http://www.hf.uio.no/forskningsprosjekter/sprik/english/corpus/index.html norvégien, anglais, français, italien

Corpus en ligne – autres langues (II) Corpus international du portugais – 1 million de mots (http://cintil.ul.pt/index.jsp) Corpus pour de production écrite pour l’apprentissage d’une langue étrangère – norvégien (http://ask.uib.no/index.page) Corpus national croate (http://hnk.ffzg.hr/pretraga_en.html) 3,1 millions de mots Corpus bulgare http://www.bultreebank.org/btbmorf/ 1 million de mots Corpus littéraire – estonien (Multext-EAST) – 400000 mots (http://www.cl.ut.ee/korpused/morfkorpus/)

Bases textuelles Association des Bibliophiles Universels (ABU) http://abu.cnam.fr/ Gallica (BNF) http://gallica.bnf.fr/ Les bibliothèques virtuelles humanistes http://www.bvh.univ-tours.fr/numerisation.asp La bibliothèque virtuelle des manuscripts suisses http://www.e-codices.unifr.ch/fr

Bases textuelles vs. corpus documents en format numérique recherche par des critères "classiques" auteur, titre, editeur, année la recherche plein texte n'est pas toujours accessible documents en format numérique critères de sélection spécifiques, selon objectif recherches avancées plein texte catégorie lexicale, fonction syntaxique, information sémantique... texte enrichi, documenté

Corpus électroniques Corpus électronique = un ensemble de textes numériques qui sont sélectionnés sur des critères bien définis (paramètres de Biber) documentés (nom de la personne qui a numérisé le document, le format etc.) couplés à des outils d'exploration (concordanciers)

Comment constituer son propre corpus? Developping Linguistic Corpora: a Guide for Good Practices http://ahds.ac.uk/creating/guides/linguistic-corpora/index.htm

Un exemple de constitution de corpus (sociolinguistique) Étudier les moyens d’application d’une politique linguistique par les entreprises multinationales implantées en Alsace Corpus: entretiens avec plusieurs acteurs impliqués dans la mise en place d’une politique linguistique (PDG, responsables des services, simple employés)

Méthodologie de travail identifier l'objectif de l'étude à effectuer sur corpus définir des critères de sélection des textes en fonction de son objectif identifier les sources pertinentes définir les aspects techniques: le format des documents les informations d'annotation les outils nécessaires pour rassembler les textes et pour les annoter nettoyer le corpus constitué

Critères de sélection des textes typologie des textes, genres et registres (D.Biber,1999) types de textes: ensemble de caractéristiques linguistiques narratif, argumentatif, descriptif genre/registre: catégories intuitives qui utilisent les locuteurs pour répartir les productions langagières thèmes formes de textes

Critères de sélection (II) Paramètres situationnels (Biber 1999) canal: écrit/parlé/écrit lu; format: publié/non-publié; cadre: institutionnel/autre cadre public/ privé-interpersonnel destinataire pluralité: pluriel/individuel/non-compté présence: présent/absent interaction: aucune/peu/beaucoup connaissances partagées: générales/spécialisées/personnelles

Critères de sélection (III) destinataire: variation démographique: sexe, age, profession statut: individu/institution Factualité informatif-factuel/intermédiaire/imaginaire Objectifs persuader, amuser, édifier, informer, expliquer, donner des consignes, etc. Thèmes =>documenter le corpus annoter le corpus

Exemples de corpus constitué (I) Corpus Sociolinguistique Source des textes: entretiens oraux transcrits Critères de sélection: Canal: oral Interlocuteurs: Fonction occupé dans l’entreprise, sexe, age, langues maîtrisées (bi ou plurilinguisme) Cadre: institutionnel/privé Date Entreprise: caractère multinational

Exemple de corpus constitué (II) Format : Fichiers en format texte brut Informations provenant de la transcription (pauses, reprises etc.) Annotation: Les locuteurs La date L’entreprise concernée

Méthodologie de travail identifier l'objectif de l'étude à effectuer sur corpus définir des critères de sélection des textes en fonction de son objectif identifier les sources pertinentes définir les aspects techniques: le format des documents les informations d'annotation les outils nécessaires pour rassembler les textes et pour les annoter nettoyer le corpus constitué

Où trouver des documents numériques? Bibilothèques virtuelles faciliter la navigation utiliser des outils de recherche spécialisés archiver et numériser des documents outils de recherche (moteurs et méta-moteurs spécialisés) portails spécialisés

Portail une interface Web qui est le point d'accès unique vers plusieurs catégories de ressources disponibles sur Internet, sur un thème spécifique Pages Web Forums, listes de discussions Blog Moteurs de recherches dédiés a chaque site Catalogues en ligne

Portail (II) Quelques exemples le portail de l'Education Nationale http://www.education.gouv.fr/ le portail des revues en SHS http://www.revues.org/ le portail du CNRS http://www.drei.cnrs.fr le Bulletin Officiel http://www.education.gouv.fr/pid230/textes-officiels.html

Bibilothèques virtuelles Un portail regroupant des ressources ciblées Bases de données bibliographiques Accès aux revues électroniques Collection de documents numériques: livres, images, vidéos etc. Possibilités avancées de navigation et de recherche

Moteurs de recherches dédiés Moteur de recherche spécialisé pour la recherche des livres http://books.google.com/ Moteur de recherche spécialisé – indexation des articles scientifiques http://scholar.google.com HAL-SHS http://www.archives-ouvertes.fr/ Portails Actualités (GlossaNet http://glossa.fltr.ucl.ac.be/)

Le Web comme source le Web n'est pas un corpus!! taille importante environ 76 milliards de mots (Kilgariff & Greffenstette 2003) hétérogénéité pas de contrôle sur l'information publiée disparité de ressources thématique langues langage structuré – HTML

Techniques Aspiration directe d'un site pertinence choix des documents propres Désavantage: il faut connaître les adresses des sites exploiter les résultats des moteurs de recherche automatisé, mais beaucoup des documents inutiles plate-formes dédiées (Telanaute, projet SAFIR, BootCat)

Problèmes doublons inclusions des documents vérification manuelle du corpus impossible si taille trop importante Pas de contrôle sur l’auteur du texte documents indexés par les moteurs (taille variable de l'index)

Exercice: Un exemple de constitution de corpus Un corpus constitué pour étudier les conséquences de la crise financière sur l’augmentation du chômage en France Quelle sources? Quels critères de sélection? Quelles informations annotés?

Format en fonction de l'application utilisée pour créer les documents PDF, HTML (Page Web), document Microsoft Word etc. extension du fichier = une indication sur l'application à utiliser pour les lire txt – texte non-formaté pdf – Acrobat Reader doc – Microsoft Word html – Dreamweaver, Microsoft Word, Internet Explorer Utiliser le logiciel approprié pour lire le contenu et convertir vers d'autres formats

Formats (II) texte brut PDF texte enrichi d'annotation Extended Markup Language – XML (délimitation de la zone du texte marqué par l'annotation) format d'annotation de textes : TEI (Texte Encoding Initiative)

Formats - Exercice Ouvrez Microsoft Word tapez un texte dans le nouveau document, avec des mises en forme simples (gras, italique, liste, etc.) enregistrer ce document dans le répertoire "Mes documents" et sous divers formats (sélectionnez le menu Fichier|Enregistrer sous) et changez le Type du fichier: document Word (doc) texte simple (Texte brut) RTF (Rich Text Format) HTML (PageWeb)

Formats – Exercice (suite) fermez Microsoft Word ouvrez les applications suivantes et essayez de lire les fichiers que vous avez enregistré sous Word Acrobat Reader WordPad Bloc Notes Internet Explorer

Texte brut une suite de lettres et de chiffres, sans mise en forme seulement le caractère nouvelle ligne pas de mise en forme interprétable par tous les éditeurs de textes tous systèmes d'exploitation: Windows, Linux, MacOS code ASCII (limité à 128 caractères) plusieurs encodages possibles LATIN-1 Unicode (UTF-8, UTF-7, UTF-16)

Format HTML Langage interprété par les navigateurs Internet Visualisation du contenu et la navigation Mise en forme: en gras, en couleurs etc. Structuration du texte: paragraphes, tableaux, liens vers d’autres pages…

Notion de balise Une balise permet de distinguer un document HTML d’un fichier texte Les balises sont insérées dans le corps du document Elles permettent de contrôler le formatage et la présentation d’un document Mise en forme des paragraphes, insertion d’images, insertion de liens hypertexte, tableaux … Quatre balises sont obligatoires dans un document HTML <html>, <head>, <body>, <title>

    Notion de balise (II)‏ Une balise est encadrée par <…> et peut avoir aussi une balise de fin </…> Les balises peuvent être imbriquées mais elles doivent être fermées dans l’ordre inverse des balises d’ouverture Par exemple <font size="+1"><b><i>texte</i></b></font>

Notion de balise (III)‏ Une balise peut avoir trois formes <nombalise> <br> passage à la ligne <nombalise> … </nombalise> <b>texte à mettre en gras</b> <nombalise attribut1="valeur_1"… attributn="valeur_n"> texte </nombalise> <body bgcolor="#80fff" text="red"> le fond de la page sera de couleur bleu clair

Limites du langage HTML L’ensemble des balises est prédéfini, mais limité à celui défini par le World Wide Web consortium http://www.w3.org Seulement la mise en forme ou la structure du texte Pas de possibilité de marquer le contenu

Texte annoté - XML XML – Extended Markup Language marquage de plusieurs zones de textes pour: faciliter la recherche d'information faciliter le partage des connaissances Même principe que le langage HTML On peut définir les balises adaptées à notre propre application Annotation morpho-syntaxique Annotation sémantique (les noms de personnes, d’organisations, de métiers)

Pourquoi XML? Structurer l'information Accessibilité Identification du contenu des données Accessibilité divers types de présentations de données (XSL) interopérabilité des données re-utiliser les XML dans d'autres applications possibilité de vérifier si le document est valide: DTD, XML schémas définitions partagées

Texte annoté (II) Outils pour l’annotation en format XML Annotea, Gate, Oxygène, XML Starlet, Notepad++ Outils pour executer des requêtes sur les balises XML Xaira, XQuery

<?xml version="1.0" encoding="UTF-8" ?>   <!DOCTYPE corpus SYSTEM "def.dtd"> - <corpus> - <nouvelle lang="fr"> Solution à la crise financière et économique : L’intervention de l’Etat est nécessaire, selon les rénovateurs La financière et économique dans laquelle est englué le monde ne peut être résolue que par le retour aux fondements de la social-démocratie dont l’un des principes majeurs est <solution>l’interventionnisme de l’Etat dans l’économie</solution>. Telle est la conviction de <organisation id="1">l’Union pour le renouveau démocratique </organisation> qui a réfléchi sur le sujet lors de son université d’hivernage du week-end. Que doivent faire les socio-démocrates pour sortir de la crise ? A cette question, <Personne>Diégane Sène</Personne>, membre de la direction exécutive de <organisation id="1">l’Union pour le renouveau démocratique (Urd)</organisation> qui animait une conférence sur le thème : ‘Les recettes de la social-démocratie’ au deuxième jour de l’université d’hivernage de <organisation id="1">l’Urd</organisation>, tenue ce week-end, répond qu’il faut ‘retourner au fondement de la social démocratie’.   </nouvelle>   </corpus>

Un premier exemple d’annotation XML Elements XML <corpus>, <nouvelles>, <Personne>, <organisation>, <solution> Attributs: Lang pour l’élément <nouvelles> Id pour l’élément <organisation>

Un premier exemple (II) Interprétation Un document est constitué par un élément <corpus> Un <corpus> est composé par un ou plusieurs éléments <nouvelles> Un <nouvelles> est composé par plusieurs séquences de texte, par un ou plusieurs <organisation>, <Personne>, <solution>

MEXICO - Le Mexique s'est dit sur le point de maîtriser l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente. Malgré ces nouvelles rassurantes, l'épidémie continue de se propager, avec un nouveau cas annoncé lundi au Portugal et certains pays ont renforcé les mesures de protection. L’Express, Date: lundi 4 mai 2009

<?xml version="1.0" encoding="ISO-8859-1"?> <Lieu>MEXICO</Lieu> <épidémie> <épisode><pays>Le Mexique</pays> s'est dit sur <état type="maîtrise">le point de maîtriser l'épidémie</état> de <maladie>grippe porcine</maladie>, détectée dans vingt et un pays, mais <organisation>l'Organisation mondiale de la Santé</organisation> a averti lundi que <hypothèse>le virus pourrait prendre sa revanche à l'automne</hypothèse> </épisode>. <épisode><pays>Aux Etats-Unis </pays>aussi, les autorités se sont <état type="maîtrise">montrées prudemment optimistes</état>, tout en mettant en garde contre <hypothèse>une seconde vague du virus à l'automne sous une forme plus virulente</hypothèse> <épisode>Malgré ces nouvelles rassurantes, <état type="propagation">l'épidémie continue de se propager, avec un nouveau cas annoncé </état> <date>lundi</date> au <pays>Portugal</pays> </épisode> <épisode>et certains pays <état type="prévention">ont renforcé les mesures de protection.</état></épisode> </épidémie> <Source>L’Express</Source><Datepubli>lundi le 4 mai 2009</Datepubli>

Avantages du XML Structuration de l’information Définitions partagées Facilite le développement des standards TEI pour l’édition de corpus (http://www.tei-c.org/index.xml) Dublin Core (http://dublincore.org/) et OLAC (http://www.language-archives.org/) pour les bibliothèques virtuelles XCES pour l’annotation morpho-syntaxique (http://www.xces.org/) OWL pour l’annotation sémantique (http://www.w3.org/TR/owl-features/)

Exercice Annotez le corpus constitué sur la crise financière avec vos propres balises

Normes - TEI Text Encoding Initiative: Proposé par objectif: partage de l'information textuelle normalisation de l'annotation simple, clair et extensible représentation complète de l'information textuelle Proposé par Association for Computers and the Humanities the Association for Computational Linguistics the Association for Literary and Linguistic Computing Site officiel: http://www.tei-c.org/index.xml

TEI(II) <TEI>  <teiHeader> <!-- [ TEI Header information ] -->  </teiHeader>  <text>   <front>   </front>   <body> <!-- [ body of text ... ] -->   </body>   <back>   </back>  </text> </TEI>

TEI beaucoup d'outils pour l'édition des annotations et des meta-données validation des annotations plusieurs projets de bases textuelles et de corpus adopte le standard http://www.tei-c.org/Activities/Projects/

Quelques références Burnard, L., Sperberg-McQueen, C.M. (1996) La TEI simplifiée : une introduction au codage des textes électroniques en vue de leur échange, Cahiers GUTenberg, no 24, http://www.tei-c.org/Guidelines/Customization/Lite/teiu5_fr.html Biber, D., Conrad, S., Reppen, R. (1998) Corpus Linguistics : Investigating Language Structure and Use. Cambridge University Press Habert B. (2005) Instruments et ressources électroniques pour le français, Ed.Orphys Sinclair, J. (1991) Coocurrences, concordances, collocations

Autres ressources European Language Distribution Agency (http://www.elda.org/) Linguistic Data Consortium (http://www.ldc.upenn.edu/)

Plan Mise en place des notions: Corpus: définition, exemples, formats Apport théorique: utilisation d'un concordancier simple AntConc Concordancier : définition, fonctionnement, fonctions génériques Utilisation d'AntConc, concordancier gratuit Corpus en ligne: Frantext

Concordanciers recherches dans le corpus et outils d'exploration de corpus qu'est-ce que c'est un concordancier? fonctions de base un exemple: Antconc

Recherches sur les corpus en linguistique: trouver des exceptions ou renforcer une hypothèse linguistique en traduction: chercher des emplois réels en sociolinguistique: quel point de vue ont les divers acteurs? en littérature: comparer le style de deux auteurs en TAL: chercher les informations spécifiques: qui a fait quoi? quand? où?

Analyse quantitative vs. analyse qualitative analyse factorielle fréquence distance intertextuelle données structurées volume de données important qualitative analyse fine du contenu informations linguistiques à prendre en compte: catégorie lexicale fonctions syntaxiques informations sémantiques données non-structurées volume de données limité (si analyse manuelle)

Qu'est-ce que c'est un concordancier? un outil qui permet la recherche d'un pivot dans un texte et établit la liste des occurences de ce pivot en contexte pivot = un mot, un groupe de mots, une expression contextes gauche et droit à l'intérieur de la phrase au sein du même paragraphe

Les fonctions d'un concordancier définir un pivot: mot, terme, expression visualiser les contextes d'apparition du pivot tri des contextes sélection de contextes extraire des n-grammes (séquences de 2 ou plusieurs mots)

Concordanciers outils indépendants concordanciers en-ligne Antconc, Lexico, Wordsmith, ParaConc on peut les appliquer sur notre propre corpus concordanciers en-ligne interface Web permettant des recherches dans les corpus "fermés"

Antconc outil gratuit http://www.antlab.sci.waseda.ac.jp/ pivot: mot (avec respect de la casse) ou expression régulière expression régulière: une suite de lettres, chiffres et caractères spéciaux: .,?,*,+ format de sortie KWIC tri sur les contextes gauches ou droites 50 caractères la taille du contexte

Antconc (II) taille de corpus limitée visualisation d'occurences par rapport au corpus formats divers: fichier texte (Unicode, Latin-1) format HTML (mais balises confondues avec le texte)

Antconc (III) calcul de cooccurences sélection des contextes les contextes qui contiennent un ou plusieurs mots liste de mots exclusion des mots grammaticaux comparaison avec un corpus de référence extraction de n-gramms

Autres fonctions du Antconc Plot: la position de chaque collocateur dans le fichier Utiliser les balises: pour séparer des parties du corpus pour exclure des parties du corpus pour faire des recherches sur les balises

Recherches - méthodologie quoi chercher? établir la liste des mots les plus fréquents (mots contenus) extraire les séquences de n mots les plus fréquentes définir manuellement une liste de termes, mots, expressions pertinentes

Recherches – méthodologie (II) analyse des résultats identification de contextes inutiles ou erronées analyse des collocatifs position dans le document recherches complexes sélection des contextes pertinentes présence ou absence d'un mot dans les contextes position par rapport au pivot