La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Analyse de corpus.

Copies: 1
Analyse de corpus.

Présentations similaires


Présentation au sujet: "Analyse de corpus."— Transcription de la présentation:

1 Analyse de corpus

2 Détails administratifs
Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours Evaluation: dossier un corpus à constituer un outil d'exploration de corpus

3 Plan Mise en place des notions:
Corpus: définition, exemples, formats Apport théorique: utilisation d'un concordancier simple AntConc Concordancier : définition, fonctionnement, fonctions génériques Utilisation d'AntConc, concordancier gratuit.

4 Plan (II) Apport théorique/ utilisation de AtlasTi
Annotations de corpus citations réseau de citations Apport théorique / utilisation de WeftQDA annotations exploration de corpus

5 Corpus: définitions, exemples, formats

6 Mise en place des notions
Définition des corpus Corpus ou bases textuelles existants Constitution de corpus exemples concrets de problèmes de recherche : linguistiques – sociolinguistiques – historiques critères de sélection des corpus Formats des corpus: texte brut, langage de balises (XML), annotations (TEI).

7 Qu'est-ce que c'est un corpus?
Un corpus est un recueil de textes ou de paroles en format électronique sélectionnés pour un objectif précis "A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language" (Sinclair, 1996)

8 Pourquoi des corpus? étudier une phénomène linguistique particulier
vérifier les emplois "réels" étudier l'évolution d'un dialecte ou d'une langue en diachronie introduction de mots nouveaux, changement des formes comparer les travaux de deux auteurs lexique, syntaxe, figures de style

9 Pourquoi des corpus (II)?
retrouver toutes les informations liés à un personnage historique ou à un pays relations avec d'autres personnalités, avec les pays voisins, pour une période bien déterminée analyser les sources d'un conflit social acteurs, causes du conflit, phases du conflit vérifier les emplois pour la traduction rechercher les expressions pour voir si leur utilisation est fréquente

10 Corpus Taille de corpus: variable selon l'application oral/écrit
Des millions de mots Quelques miliers de mots oral/écrit Annotations: morpho-syntaxiques sémantiques commentaires Texts complets ou fragments? Biber 1988: 1000 mots sont suffisants Habert 1993: texts complets

11 Corpus (II) disponibles en ligne ou téléchargeables (peu de disponibilités :0( ) corpus "fermés", pas d'accès au texte intégral outils d'exploration de corpus: les concordanciers proposent les contextes d'un mot ou d'une expression nécessitent l'apprentissage du langage d'intérrogation – pas toujours facile

12 Exemples de corpus ou bases textuelles
Français Linguistique: base textuelle Frantext (textes littéraires et techniques) Corpus oral C-ORAL-ROM collection d'articles de journaux (L'Est républicain) Sociolinguistique corpus du français parlé à Ottawa-Hull Sociologie: CLAPI

13 FRANTEXT www.frantext.fr, version non-catégorisé et catégorisée
accès gratuit via la bibliothèque virtuelle de l’UMB base de textes littéraires (auteurs français) dates: XIIIème-20ème grande taille: version non-catégorisé: 3952 textes, 237 582 579 mots version catégorisée: 1940 textes, mots Définition d'un corpus selon plusieurs critères Auteur, titre Date, genre

14 Frantext (II) concordancier en ligne permettant :
recherche de cooccurrences recherche par liste de mots recherche de recherche par catégories "sûres" et "incertes" ou séquences d'étiquettes (version catégorisée)

15

16 Exemples de corpus multilingues
débats parlementaires (Parlement européen) corpus étiqueté, lemmatisé, disponible en plusieurs langues: français, anglais, esperanto, danois, portugais, espagnol corpus de normes européenes (Acquis Communautaire) – disponible en 22 langues

17 Anglais Linguistique et TAL : Histoire : Sociolinguistique :
British National Corpus (http://www.natcorp.ox.ac.uk ) Brown Corpus (http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/list/private/brown/brown.html) Susanne (http://www.cs.cmu.edu/afs/cs/project/ai-repository/ai/areas/nlp/corpora/susanne/0.html) Histoire : ASChart (http://www.aschart.kcl.ac.uk/) CELT Corpus of Electronic Texts ( http://www.ucc.ie/celt/ ) Sociolinguistique : Corpus of Early English Correspondence Sampler (CEECS) (http://khnt.hit.uib.no/icame/manuals/ceecs/INDEX.HTM) Sociologie : Homepage corpus (http://www.inf.uszeged.hu/rgai/homepagecorpus)

18 British National Corpus
corpus de référence répartition uniforme de genres: la partie écrite: le domaine: 75% de textes "informatifs", le reste appartient à la fiction; le support: 60% livres, 30% périodiques, supports de discours radio, télé etc. la datation: fiction ( ), informatifs ( ) la diffusion (meilleurs ventes, les ouvrages les plus prêtés) la partie orale: echantillon démographique: âge, sexe, groupe social, région (dates, environnement, participants)

19 Corpus en ligne – autres langues (I)
Allemand TüPP-D/Z (articles de journaux, 200 millions de tokens) Deutsches Referenzkorpus (DeReKo) Multilingue Wortschatz Corpus Oslo – 2,6 millions de mots norvégien, anglais, français, italien

20 Corpus en ligne – autres langues (II)
Corpus international du portugais – 1 million de mots (http://cintil.ul.pt/index.jsp) Corpus pour de production écrite pour l’apprentissage d’une langue étrangère – norvégien (http://ask.uib.no/index.page) Corpus national croate (http://hnk.ffzg.hr/pretraga_en.html) 3,1 millions de mots Corpus bulgare 1 million de mots Corpus littéraire – estonien (Multext-EAST) – mots (http://www.cl.ut.ee/korpused/morfkorpus/)

21 Bases textuelles Association des Bibliophiles Universels (ABU)
Gallica (BNF) Les bibliothèques virtuelles humanistes La bibliothèque virtuelle des manuscripts suisses

22 Bases textuelles vs. corpus
documents en format numérique recherche par des critères "classiques" auteur, titre, editeur, année la recherche plein texte n'est pas toujours accessible documents en format numérique critères de sélection spécifiques, selon objectif recherches avancées plein texte catégorie lexicale, fonction syntaxique, information sémantique... texte enrichi, documenté

23 Corpus électroniques Corpus électronique = un ensemble de textes numériques qui sont sélectionnés sur des critères bien définis (paramètres de Biber) documentés (nom de la personne qui a numérisé le document, le format etc.) couplés à des outils d'exploration (concordanciers)

24 Comment constituer son propre corpus?
Developping Linguistic Corpora: a Guide for Good Practices

25 Un exemple de constitution de corpus (sociolinguistique)
Étudier les moyens d’application d’une politique linguistique par les entreprises multinationales implantées en Alsace Corpus: entretiens avec plusieurs acteurs impliqués dans la mise en place d’une politique linguistique (PDG, responsables des services, simple employés)

26 Méthodologie de travail
identifier l'objectif de l'étude à effectuer sur corpus définir des critères de sélection des textes en fonction de son objectif identifier les sources pertinentes définir les aspects techniques: le format des documents les informations d'annotation les outils nécessaires pour rassembler les textes et pour les annoter nettoyer le corpus constitué

27 Critères de sélection des textes
typologie des textes, genres et registres (D.Biber,1999) types de textes: ensemble de caractéristiques linguistiques narratif, argumentatif, descriptif genre: catégories reconnues par une communauté registre : caractéristiques linguistiques utilisés avec un but communicatif

28 Critères de sélection (II)
Paramètres situationnels (Biber 1999) canal: écrit/parlé/écrit lu; format: publié/non-publié; cadre: institutionnel/autre cadre public/ privé-interpersonnel destinataire pluralité: pluriel/individuel/non-compté présence: présent/absent interaction: aucune/peu/beaucoup connaissances partagées: générales/spécialisées/personnelles

29 Critères de sélection (III)
destinataire: variation démographique: sexe, age, profession statut: individu/institution Factualité informatif-factuel/intermédiaire/imaginaire Objectifs persuader, amuser, édifier, informer, expliquer, donner des consignes, etc. Thèmes =>documenter le corpus annoter le corpus

30 Paramètres linguistiques
Biber et Conrad (2009) groupes nominaux complexes longueur de la phrase modifieurs (groupes prépositionnels, adverbes etc.) préférence pour un temps ou un mode particulier pronoms (personnels, impersonnels, demonstratifs)

31 Exemples de corpus constitué (I)
Corpus Sociolinguistique Source des textes: entretiens oraux transcrits Critères de sélection: Canal: oral Interlocuteurs: Fonction occupé dans l’entreprise, sexe, age, langues maîtrisées (bi ou plurilinguisme) Cadre: institutionnel/privé Date Entreprise: caractère multinational

32 Exemple de corpus constitué (II)
Format : Fichiers en format texte brut Informations provenant de la transcription (pauses, reprises etc.) Annotation: Les locuteurs La date L’entreprise concernée

33 Méthodologie de travail
identifier l'objectif de l'étude à effectuer sur corpus définir des critères de sélection des textes en fonction de son objectif identifier les sources pertinentes définir les aspects techniques: le format des documents les informations d'annotation les outils nécessaires pour rassembler les textes et pour les annoter nettoyer le corpus constitué

34 Où trouver des documents numériques?
Bibilothèques virtuelles faciliter la navigation utiliser des outils de recherche spécialisés archiver et numériser des documents outils de recherche (moteurs et méta-moteurs spécialisés) portails spécialisés

35 Portail une interface Web qui est le point d'accès unique vers plusieurs catégories de ressources disponibles sur Internet, sur un thème spécifique Pages Web Forums, listes de discussions Blog Moteurs de recherches dédiés a chaque site

36 Portail (II) Quelques exemples
le portail de l'Education Nationale le portail des revues en SHS le portail du CNRS le Bulletin Officiel

37 Bibilothèques virtuelles
Un portail regroupant des ressources ciblées Bases de données bibliographiques Accès aux revues électroniques Collection de documents numériques: livres, images, vidéos etc. Possibilités avancées de navigation et de recherche

38 Moteurs de recherches dédiés
Moteur de recherche spécialisé pour la recherche des livres Moteur de recherche spécialisé – indexation des articles scientifiques HAL-SHS Portails Actualités (GlossaNet

39 Le Web comme source le Web n'est pas un corpus!! taille importante
environ 76 milliards de mots (Kilgariff & Greffenstette 2003) hétérogénéité pas de contrôle sur l'information publiée disparité de ressources thématique langues langage structuré – HTML

40 Techniques Aspiration directe d'un site
pertinence choix des documents propres Désavantage: il faut connaître les adresses des sites exploiter les résultats des moteurs de recherche automatisé, mais beaucoup des documents inutiles plate-formes dédiées (Telanaute, projet SAFIR, BootCat)

41 Problèmes doublons inclusions des documents
vérification manuelle du corpus impossible si taille trop importante Pas de contrôle sur l’auteur du texte documents indexés par les moteurs (taille variable de l'index)

42 Exercice: Un exemple de constitution de corpus
Un corpus des nouvelles sur la reforme de la retraite Quelle sources? Quels critères de sélection? Quelles informations annotées?

43 Format (rappel) application spécialisée pour créer les documents
texte, PDF, HTML (Page Web), document Microsoft Word etc. extension du fichier = une indication sur l'application à utiliser txt – texte non-formaté pdf – Acrobat Reader doc – Microsoft Word html – Dreamweaver, Microsoft Word, Internet Explorer Utiliser le logiciel approprié pour lire le contenu et convertir vers d'autres formats

44 Formats (II) texte brut PDF texte enrichi d'annotation
Extended Markup Language – XML (délimitation de la zone du texte marqué par l'annotation) format d'annotation de textes : TEI (Texte Encoding Initiative)

45 Texte brut une suite de lettres et de chiffres, sans mise en forme
seulement le caractère nouvelle ligne pas de mise en forme interprétable par tous les éditeurs de textes tous systèmes d'exploitation: Windows, Linux, MacOS code ASCII (limité à 128 caractères) plusieurs encodages possibles LATIN-1 Unicode (UTF-8, UTF-7, UTF-16)

46 Format HTML Langage interprété par les navigateurs Internet
Visualisation du contenu et la navigation Mise en forme: en gras, en couleurs etc. Structuration du texte: paragraphes, tableaux, liens vers d’autres pages…

47 Notion de balise Une balise permet de distinguer un document HTML d’un fichier texte Les balises sont insérées dans le corps du document Elles permettent de contrôler le formatage et la présentation d’un document Mise en forme des paragraphes, insertion d’images, insertion de liens hypertexte, tableaux … Quatre balises sont obligatoires dans un document HTML <html>, <head>, <body>, <title>

48 Notion de balise (II)‏ Une balise est encadrée par <…> et peut avoir aussi une balise de fin </…> Les balises peuvent être imbriquées mais elles doivent être fermées dans l’ordre inverse des balises d’ouverture Par exemple <font size="+1"><b><i>texte</i></b></font>

49 Notion de balise (III)‏
Une balise peut avoir trois formes <nombalise> <br> passage à la ligne <nombalise> … </nombalise> <b>texte à mettre en gras</b> <nombalise attribut1="valeur_1"… attributn="valeur_n"> texte </nombalise> <body bgcolor="#80fff" text="red"> le fond de la page sera de couleur bleu clair

50 Limites du langage HTML
L’ensemble des balises est prédéfini, mais limité à celui défini par le World Wide Web consortium Seulement la mise en forme ou la structure du texte Pas de possibilité de marquer le contenu

51 Formats (Rappel) Ouvrez Microsoft Word
tapez un texte dans le nouveau document, avec des mises en forme simples (gras, italique, liste, etc.) enregistrer ce document dans le répertoire "Mes documents" et sous divers formats (sélectionnez le menu Fichier|Enregistrer sous) et changez le Type du fichier: texte simple (Texte brut) avec l'encodage Windows, Europe occidentale avec l'encodage Unicode, UTF-8 HTML

52 Formats – Exercice (suite)
fermez Microsoft Word ouvrez les applications suivantes et essayez de lire les fichiers que vous avez enregistré sous Word WordPad Bloc Notes Internet Explorer Notepad++

53 Formats – Exercice (suite)
Avec Microsoft Word, ouvrez le fichier .txt et changez l'encodage (du Latin vers du Unicode, UTF-7) enregistrez à nouveau

54 Texte annoté - XML XML – Extended Markup Language
marquage de plusieurs zones de textes pour: faciliter la recherche d'information faciliter le partage des connaissances Même principe que le langage HTML On peut définir les balises adaptées à notre propre application Annotation morpho-syntaxique Annotation sémantique (les noms de personnes, d’organisations, de métiers)

55 Pourquoi XML? Structurer l'information Accessibilité
Identification du contenu des données Accessibilité divers types de présentations de données (XSL) interopérabilité des données re-utiliser les XML dans d'autres applications possibilité de vérifier si le document est valide: DTD, XML schémas définitions partagées

56 Texte annoté (II) Outils pour l’annotation en format XML
Annotea, Gate, Oxygène, XML Starlet, Notepad++ Outils pour executer des requêtes sur les balises XML Xaira, XQuery

57 <?xml version="1.0" encoding="ISO-8859-1"?>
<Article> <Lieu>MEXICO</Lieu> <Texte> Le Mexique s'est dit sur le point de maîtriser l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente. Malgré ces nouvelles rassurantes, l'épidémie continue de se propager, avec un nouveau cas annoncé lundi au Portugal et certains pays ont renforcé les mesures de protection </Texte> <Source>L’Express</Source><Datepubli>lundi le 4 mai 2009</Datepubli> <Auteur>Christian Dupont</Auteur> <Commentaire auteur="A.Todirascu">un article sur la propagation de l'épidemie de grippe porcine</Commentaire></Article>

58 Un premier exemple d’annotation XML
Elements XML <Article>, <Texte><Lieu>, <Auteur>, <Source>, <Datepubli>, <Commentaire> Attributs: auteur pour l’élement <Commentaire> Lang pour l’élément <Texte>

59 Un premier exemple (II)
Interprétation Un texte est constitué par un élément <Article> Un <Article> est composé par un élément <Lieu><Texte><Source><Datepubli><Auteur><Commentaire>

60 La structure d’un document XML
Une première ligne sur la version du XML <?xml version="1.0"?> <?xml version="1.0" encoding="ISO "?> Une deuxième ligne avec le fichier de définitions Le fichier DTD ou le lien vers le XML schéma Un ou plusieurs éléments XML Un élement XML <balise>texte</balise>

61 MEXICO - Le Mexique s'est dit sur le point de maîtriser l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente. Malgré ces nouvelles rassurantes, l'épidémie continue de se propager, avec un nouveau cas annoncé lundi au Portugal et certains pays ont renforcé les mesures de protection. L’Express, Date: lundi 4 mai 2009

62 <?xml version="1.0" encoding="ISO-8859-1"?>
<Lieu>MEXICO</Lieu> <épidémie> <épisode><pays>Le Mexique</pays> s'est dit sur <état type="maîtrise">le point de maîtriser l'épidémie</état> de <maladie>grippe porcine</maladie>, détectée dans vingt et un pays, mais <organisation>l'Organisation mondiale de la Santé</organisation> a averti lundi que <hypothèse>le virus pourrait prendre sa revanche à l'automne</hypothèse> </épisode>. <épisode><pays>Aux Etats-Unis </pays>aussi, les autorités se sont <état type="maîtrise">montrées prudemment optimistes</état>, tout en mettant en garde contre <hypothèse>une seconde vague du virus à l'automne sous une forme plus virulente</hypothèse> <épisode>Malgré ces nouvelles rassurantes, <état type="propagation">l'épidémie continue de se propager, avec un nouveau cas annoncé </état> <date>lundi</date> au <pays>Portugal</pays> </épisode> <épisode>et certains pays <état type="prévention">ont renforcé les mesures de protection.</état></épisode> </épidémie> <Source>L’Express</Source><Datepubli>lundi le 4 mai 2009</Datepubli>

63 Avantages du XML Structuration de l’information Définitions partagées
Facilite le développement des standards TEI pour l’édition de corpus (http://www.tei-c.org/index.xml) Dublin Core (http://dublincore.org/) et OLAC (http://www.language-archives.org/) pour les bibliothèques virtuelles XCES pour l’annotation morpho-syntaxique (http://www.xces.org/) OWL pour l’annotation sémantique (http://www.w3.org/TR/owl-features/)

64 Quelques références Burnard, L., Sperberg-McQueen, C.M. (1996) La TEI simplifiée : une introduction au codage des textes électroniques en vue de leur échange, Cahiers GUTenberg, no 24, Biber, D., Conrad, S., Reppen, R. (1998) Corpus Linguistics : Investigating Language Structure and Use. Cambridge University Press Habert B. (2005) Instruments et ressources électroniques pour le français, Ed.Orphys Sinclair, J. (1991) Coocurrences, concordances, collocations

65 Concordanciers recherches dans le corpus et outils d'exploration de corpus qu'est-ce que c'est un concordancier? fonctions de base un exemple: Antconc

66 Recherches sur les corpus
en linguistique: trouver des exceptions ou renforcer une hypothèse linguistique en traduction: chercher des emplois réels en sociolinguistique: quel point de vue ont les divers acteurs? en littérature: comparer le style de deux auteurs en TAL: chercher les informations spécifiques: qui a fait quoi? quand? où?

67 Analyse quantitative vs. analyse qualitative
analyse factorielle fréquence distance intertextuelle données structurées volume de données important qualitative analyse fine du contenu informations linguistiques à prendre en compte: catégorie lexicale fonctions syntaxiques informations sémantiques données non-structurées volume de données limité (si analyse manuelle)

68 Qu'est-ce que c'est un concordancier?
un outil qui permet la recherche d'un pivot dans un texte et établit la liste des occurences de ce pivot en contexte pivot = un mot, un groupe de mots, une expression contextes gauche et droit à l'intérieur de la phrase au sein du même paragraphe

69 Les fonctions d'un concordancier
définir un pivot: mot, terme, expression visualiser les contextes d'apparition du pivot tri des contextes sélection de contextes extraire des n-grammes (séquences de 2 ou plusieurs mots)

70 Antconc outil gratuit http://www.antlab.sci.waseda.ac.jp/
pivot: mot (avec respect de la casse) ou expression régulière expression régulière: une suite de lettres, chiffres et caractères spéciaux: .,?,*,+ format de sortie KWIC (Keyword in Context) tri sur les contextes gauches ou droites 50 caractères la taille du contexte

71 Antconc (II) taille de corpus limitée
visualisation d'occurences par rapport au corpus formats divers: fichier texte (Unicode, Latin-1) format HTML (mais balises confondues avec le texte)

72 Antconc (III) calcul de cooccurences sélection des contextes
les contextes qui contiennent un ou plusieurs mots liste de mots exclusion des mots grammaticaux comparaison avec un corpus de référence extraction de n-grammes (séquences de n mots qui se succedent)

73 Autres fonctions du Antconc
Plot: la position de chaque collocateur dans le fichier Utiliser les balises: pour séparer des parties du corpus pour exclure des parties du corpus pour faire des recherches sur les balises

74 Recherches - méthodologie
quoi chercher? établir la liste des mots les plus fréquents (mots contenus) extraire les séquences de n mots les plus fréquentes définir manuellement une liste de termes, mots, expressions pertinentes

75 Recherches – méthodologie (II)
analyse des résultats identification de contextes inutiles ou erronées analyse des collocatifs position dans le document recherches complexes sélection des contextes pertinentes présence ou absence d'un mot dans les contextes position par rapport au pivot

76 Plan (II) Apport théorique: utilisation d'un concordancier WordSmith
Etiquetage des textes : notions fondamentales, difficultés, outils Utilisation de Wordsmith, concordancier permettant des recherches sur des textes étiquetés. Apport théorique/utilisation de Lexico Analyse lexicométrique : principes, intérêts et limites Utilisation de Lexico, concordancier offrant des fonctionnalités d'analyse lexicométrique. Apport théorique/ utilisation de AtlasTi

77 Corpus étiquetés (catégorisés)
corpus enrichi avec les informations morpho-syntaxiques chaque mot est associé à une catégorie lexicale parfois on spécifie le lemme et les propriétés morpho-syntaxiques associées: nombre, genre, cas pour le nom temps, mode, personne, nombre pour le verbe annotation réalisée automatiquement à l'aide d'un outil de catégorisation, suivie d'une correction manuelle

78 Les DET:ART le turbulences NOM turbulence de PRP de l' DET:ART le année NOM année 2003 NUM ont VER:pres avoir ébranlé VER:pper ébranler le DET:ART le secteur NOM secteur des PRP:det du transports NOM transport aériens ADJ aérien : PUN : plus ADV plus encore ADV encore qu' KON que en PRO:PER en témoignent VER:subp témoigner

79 Corpus étiquetés: ressources disponibles
corpus pré-étiquetés sélection de textes selon des critères bien définis genre, registre, date, auteur, catégorie jeu d'étiquettes spécifique étiquetage automatique + correction manuelle des erreurs existent toujours! recherches à l'aide d'un outil de type concordancier (identification des contextes d'un mot ou d'une séquence des mots) connaissance du jeu d'étiquettes et du langage d'interrogation

80 Ressources disponibles en ligne
Français Frantext (http://www.frantext.fr payant!) Freebank (http://freebank.loria.fr/) French Treebank (http://www.llf.cnrs.fr/Gens/Abeille/French-Treebank-fr.php) Anglais British National Corpus – 50 exemples (http://www.natcorp.ox.ac.uk/index.xml) International Corpus of English (http://www.ucl.ac.uk/english-usage/ice/) Anglais américain corpus Brown : LDC Online (https://online.ldc.upenn.edu/login.html)

81 Europarl débats parlementaires (Parlement européen)
corpus étiqueté, lemmatisé, disponible en plusieurs langues: français, anglais, esperanto, danois, portugais, espagnol

82

83

84 Corpus en ligne – autres langues (I)
Allemand TüPP-D/Z (articles de journaux, 200 millions de tokens) Deutsches Referenzkorpus (DeReKo) Multilingue Corpus Oslo – 2,6 millions de mots norvégien, anglais, français, italien

85 Limites possibilité de consulter le contenu, mais pas de rajouter de nouveaux textes langage d'intérrogation complexe intérface graphique pas toujours simple jeu d'étiquettes spécifique pour chaque projet

86 Créer son propre corpus étiqueté
sélection d'un ensemble de textes pour créer un corpus critères: date, auteur, genre, registre... sources: le Web, textes libres de droit... application d’un outil de catégorisation correction manuelle des erreurs d'étiquetage et de lemmatisation recherche d’information dans le corpus à l'aide d'un concordancier (WordSmith)

87 Etiqueteur(Catégoriseur)
Un étiqueteur(catégoriseur) est un outil qui découpe le texte en unités (lexicales, polylexicales ou signes de ponctuation) et qui associe à chaque unité une catégorie lexicale (étiquette) jeu d'étiquettes spécifique à chaque outil lemmatisation parfois disponible apprentisage à partir d'un corpus étiqueté manuellement

88 Exemples d'étiqueteurs
TreeTagger (IMS Stuttgart, Allemagne) (Schmid, 1994) allemand, anglais, français, espagnol, italien Catégoriseur de E.Brill (AdLabs, Microsoft Research) anglais, français Cordial (payant!)

89 TreeTagger (I) ressources disponibles pour le français
étiquetage et lemmatisation manipulation facile installation simple interface graphique disponible (http://www.smo.uhi.ac.uk/~oduibhin/oideasra/interfaces/winttinterface.htm)

90 TreeTagger (II) utilisation d'un dictionnaire
proposition des étiquettes et des lemmes pour les mots inconnus classes d'équivalence possibilité d'apprendre des ressources sur des nouveaux corpus étiquétés outil d'entraînement disponible

91 TreeTagger (III) entrée: texte brut ou SGML ou HTML
sortie: un mot par ligne, suivi de l'étiquette et du lemme, si le lemme est inconnu, alors marqué possibilité de segmenter le texte (module intégré ou module propre) expressions figées abréviations possibilité de préétiquetage noms propres mots étrangers

92 Jeu d'étiquettes utilisé par TreeTagger pour le français
ABR abréviation ADJ adjectif ADV adverbe DET:ART article DET:POS pronom possessif (ma, ta, ...) INT interjection KON conjonction NAM nom propre NOM nom NUM numéral PRO pronom PRO:DEM pronom démonstratif PRO:IND pronom indéfini PRO:PER pronom personnel PRO:POS pronom possessif (mien, tien, ...) PRO:REL pronom relatif PRP préposition PRP:det préposition plus article (au,du,aux,des) PUN ponctuation PUN:cit citation SENT fin de proposition SYM symbole VER:cond verbe conditionnel VER:futu verbe futur VER:impe verbe imperatif VER:impf verbe imparfait VER:infi verbe infinitif VER:pper verbe participe passé VER:ppre verbe participe présent VER:pres verbe présent VER:simp verbe passé simple VER:subi verb subjonctif imparfait VER:subp verb subjonctif présent

93 Limites des catégoriseurs
erreurs d'étiquetage provoquées par une mauvaise segmentation en phrases difficile d'identifier les catégories lexicales entre: préposition et verbe couvert: verbe participe passé, nom, adjectif participe passé dépendant des genres textuels composant le corpus taux d'erreurs important sur des textes spécialisés correction manuelle nécessaire coût important accord entre annotateurs nécessaire

94 Problèmes liés à l'étiquetage
étiquettes incomparables niveau morphologique, syntaxique divergences théoriques possessifs: adjectifs ou déterminants agrégats (du, des) ou de+le, de+les ambiguïtés déterminant mais aussi numéral « J’ai vu hier un chat et trois souris » « J’ai envoyé un courrier à Jean » verbe futur, mais aussi mot étranger « Il sera maire de Paris un jour » « Corrierre de la sera » différences entre les langues

95 Wordsmith ensemble d'outils pour exploiter les textes
fonctions similaires à AntConc Avantages possibilité de travailler avec des fichiers de grande taille (plusieurs millions de mots) plusieurs possibilités d'utiliser les balises pour faire les recherches plusieurs formats disponibles comme sortie

96 Wordsmith (II)

97 WordSmith - Concordancier
langage d'interrogation résultats affichés en format KWIC possiblité de voir les collocations plusieurs mesures statistiques tri par occurences à gauche, à droite (1-5 positions)

98 Langage d'interrogation
* : - ignorer la fin du mot: bio* ignorer le mot entier: book * hotel ? : tout caractère simple (y compris la ponctuation): Engl??? # n'importe quel chiffre entre 0 et 9 $### ^ n'importe quelle lettre de l'alphabet: Alle^agn^ == sensible à la casse: ==French== / séparer les mots de recherche: may/can/will <> début et fin de balises: <w NN1>

99 Concordancier (II) possibilité de sélectionner les contextes:
exclure les contextes incluant certains mots sélectionner les contextes contenant: un mot une balise une liste de mots et de balises

100 Recherches possibilité de faire des recherches
suite des étiquettes, lemmes et mots la sortie de TreeTagger sur plusieurs colonnes: <mot> <étiquette> <lemme> position: L1, L5, R1, R5 si balises, on peut identifier les élements entre les balises: sélection des mots entre les balises

101 Recherches - exemples on cherche les séquences Det Nom Adj PronRel
DET:ART * * Nom * * Adj * * PronRel on cherche les étiquetes du verbe suivi dans le contexte droit de l'étiquette NOM combiner les recherche lemme+étiquette faire * NOM

102 Concordanciers: Colocateurs
les cooccurrences triées par une relation statistique: information mutuelle autres mesures: MI3

103 Autres fonctions du concordancier
cluster: identifier les séquences de n-grammes Plot: la position de chaque collocateur dans le fichier Utiliser les balises: pour séparer des parties du corpus pour exclure des parties du corpus pour faire des recherches sur les balises

104

105

106 Liste de mots clés comparer son propre corpus avec un autre corpus de référence établir les listes de mots de chaque corpus mesure statistique pour calculer la distance entre le motx de la première liste et la distance entre le moty de la deuxième liste

107 Plan (II) Apport théorique: utilisation d'un concordancier WordSmith
Etiquetage des textes : notions fondamentales, difficultés, outils Utilisation de Wordsmith, concordancier permettant des recherches sur des textes étiquetés. Apport théorique/utilisation de Lexico Analyse lexicométrique : principes, intérêts et limites Utilisation de Lexico, concordancier offrant des fonctionnalités d'analyse lexicométrique. Apport théorique/ utilisation de AtlasTi

108 ATLAS.Ti outil pour l'analyse qualitative analyse au niveau
outil payant :0( demo gratuite, avec des limitations en nombre de documents analyse au niveau textuel (découpage en segments thématiques, citations, codes) conceptuel (représentation visuelle des annotations)

109 ATLAS.Ti (II) pour le travail coopératif à plusieurs auteurs
partage d'annotations (citations, mémo) partage de connaissances (codes, mémos, réseaux) liens entre les divers mémos, citations, ségments

110 ATLAS.Ti (III) Plusieurs catégories d'objets: fonctions de correction
text vidéo audio transcrits fonctions de correction transcriptions

111 Fonctions Visualisation des informations
Intégration des informations (unité hermeneutique) discussion autour des documents et des annotations du groupe Navigation facilitée: pour retrouver des expressions ou mots saillants Exploration des idées nouvelles

112 Le projet l'unité hermeneutique au moins un document principal
format divers citations définies à partir d'une sélection (d'un mot, d'une phrase, du paragraphe) correspondent à des parties de textes thématiquement homogènes, ayant un interêt pour l'étude liens à distance entre les citations

113 Le projet (II) les codes
étiquettes permettant d'associer à une citation un thème on peut associer une citation à plusieurs codes on peut extraire des codes à partir des textes sélectionnées

114 Le projet (III) les mémos
pour communiquer les informations entre les utilisateurs discussions autour des notions, citations, etc. contiennent des indications méthodologiques à mettre en application associés à un document ou à une citation

115 Le projet (IV) les familles les points de vue sur les réseaux
regroupements de mémos, de codes, de citations, documents utiles pour plusieurs facettes du même concept les points de vue sur les réseaux visualisation graphique des objets

116 Fonctions textuelles définir des sélections, des citations
créer des mémos recherche des mots, des expressions regulières ou des codes associer des mémos et des citations

117 Fonctions conceptuelles
définir des réseaux de noeuds codes citations mémos organiser les connaissances du domaine extraites à partir du texte définir une théorie identifier des concepts-clés

118 Autres plateformes Weft QDAWeft http://www.pressure.to/qda/

119 Exemples de sujets (I) constituer un petit corpus d'articles scientifiques sur le sujet de votre mémoire (maximum 8 documents) segmentez le corpus en fonction de la thématique (définir un ensemble de mots-clés) définir les codes associés construire un réseau des conceptes du domaine

120 Exemples de sujets (II)
sur un corpus journalistique comparable (anglais-français), qui vous sera fourni, effectuez des recherches, à l'aide d'un concordancier afin d'identifier les relations hiérarchiques ("chef de", "président de") sélectionnez les contextes qui contiennent des entités de type personnes ou organisations

121 Exemples de sujets (III)
constituez un corpus journalistique concernant les chefs du parti socialiste (en France, en Angleterre, en Allemagne) sur des sources disponibles en ligne. expliquez la procedure de constitution de corpus, les critères de sélection de corpus

122 Exemple de sujet (IV) constituez un corpus trilingue parallèle (le même contenu en anglais, en français, en allemand) à partir de rapports financiers de la compagnie Swiss.com (à partir du avril 2008) extraire le texte du PDF comparer les textes pour identifier les différences nettoyage éventuel balisage avec la date du rapport même sujet pour Lufthansa (anglais, allemand)


Télécharger ppt "Analyse de corpus."

Présentations similaires


Annonces Google