Les Données Textuelles

Les Données Textuelles
Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples d’utilisation Exemples de corpus textuels : le British National Corpus PAROLE Français, Le Monde Les corpus étiquetés et analysés - corpus syntaxiques Penn Treebank Corfrans www-rali.iro.umontreal.ca/corfrans NEGRA corpus -corpus sémantiques Framenet PropBank

Corpus Définition : Une collection quelconque de plus d'un texte
Propriétés : représentatif, de taille finie, lisible par une machine Référence standard Utilisations : Lexicographie—établir si un verbe est transitif Utilisations : Développement de grammaire—déterminer la couverture de la grammaire, les erreurs les plus fréquentes.

Corpus équilibrés En principe, une collection de plus d'un texte peut être appelée un corpus. Cependant, le terme corpus possède en général des connotations plus spécifiques. Le corpus doit être représentatif. Afin qu’une collection de textes soit représentative, elle doit être échantillonnée de façon équilibrée. La méthode la plus utilisée est la méthode d'échantillonnage stratifiée, où l'on crée une collection équilibrée de textes distribués uniformément à travers les genres (roman, journal, discours politique, etc.) et les modalités (écrite, orale) qui intéressent. Le corpus doit être de taille finie définie à l'avance. On parle alors de corpus fermé. D'habitude, les corpus sont des collections des textes fixées à l'avance, afin d'assurer que l'équilibre et la représentativité soient respectés. Un corpus doit être électronique (machinereadable) pour permettre des recherches et des manipulations rapides à large échelle.

Corpus équilibrés D'un point de vue statistique, on peut considérer un corpus comme un échantillon d'une population (d'événements langagiers). Comme tout échantillon, un corpus est passible de deux types d'erreurs statistiques qui menacent la généralité des résultats l'incertitude (random error) la déformation (bias error) L'incertitude survient quand un échantillon est trop petit pour représenter avec précision la population réelle. Une déformation se produit quand les caractéristiques d'un échantillon sont systématiquement différentes de celles de la population que cet échantillon a pour objectif de refléter.

Exemples d’erreurs Incertitude
Un extrait de mots d'une interview de F. Mitterrand par Y. Mourousi ne permet pas d'extrapoler et d'en tirer des conclusions sur le français mitterrandien ou sur l'interaction journaliste-homme politique. Déformation Si on utilise que les articles de la seule rubrique Économie du Monde, quel que soit le volume textuel rassemblé, on risque de déboucher sur une image déformée du français employé par ce journal.

Échantillonnage Pour atteindre une diversité maximale de situations de communication dans un corpus de référence on procède souvent à une démarche d'échantillonnage. L'échantillonnage touche à la fois le choix des documents à intégrer et la partie de ces documents à conserver. On essaye d'équilibrer en taille les échantillons retenus -- de taille limitée (de 2'000 à 40'000 mots) --, et à ne pas retenir des empans de texte continus, de manière à ne pas risquer de sur-représenter des «lieux» du texte aux caractéristiques particulières (l'introduction par exemple). Ce saucissonnage rend par contre impossible l'étude des changements de corrélations de traits linguistiques au fil des textes (étude longitudinale).

Corpus de contrôle (monitor corpus)
Il existe aussi un autre type de corpus, le corpus de contrôle, qui n'est pas de taille finie, mais plutôt il croit au fur et à mesure. Un corpus de contrôle est un corpus auquel on ajoute tout le temps des textes. C'est un corpus ouvert. Cela est très utile en lexicographie pour chercher les néologismes, mais on ne peut plus garantir que le corpus restera équilibré. La recherche scientifique courante où l'on utilise le Web en tant que corpus rentre dans ce cas de figure.

Corpus de référence On parle de corpus de référence lorsque un corpus devient représentatif de la langue - à un certain moment historique, - pour une certaine langue, - dans une certaine modalité. Un corpus de référence est conçu pour fournir une information en profondeur sur une langue. Il vise à être suffisamment grand pour représenter toutes les variétés pertinentes de cette langue et son vocabulaire caractéristique, de manière à pouvoir servir de base à des grammaires, des dictionnaires et d'autres usuels fiables. Il s'agit donc d'associer étroitement deux caractéristiques : une taille suffisante et la diversité des usages représentés. Par exemple, le Brown Corpus est le corpus de référence de l'anglais Américain écrit, le British National Corpus est le corpus de référence de l'anglais Britannique écrit et oral.

Utilisations en lexicographie
Les lexicographes ont utilisées des corpus, ou des ensembles de citations, bien avant que la linguistique de corpus ne se développe (voir par exemple le célèbre dictionnaire de Samuel Johnson, de même que l’Oxford English Dictionary). À présent, l'existence de larges collections de textes et la possibilité de les consulter et manipuler très rapidement est en train de changer la pratique de la lexicographie. D'habitude, les lexicographes compilent les entrées d'un dictionnaire sur la base de leurs propres intuitions et d'une collection d'exemples qu'ils collectent à la main (ils utilisent des fiches d'exemples). Un corpus peut ajouter de l'information supplémentaire.

Utilisations en lexicographie
Par exemple, Atkins and Levin se sont occupés de certaines verbes dans la même classes que le verbe shake (trembler). Elles ont consulté le LDOCE (Oxford's Advanced Learner's Dictionary) et COBUILD. Les deux dictionnaires indiquaient que les verbes quake et quiver sont toujours intransitifs (n'ont pas de COD). Par contre, si on consulte un corpus de 50 millions de mots, on trouvera que les deux verbes peuvent être utilisés dans la forme transitive.

Utilisations en théorie linguistique
Les corpus sont important pour la recherche linguistique au niveau des phrases et de la syntaxe, car, d'un côté, ils fournissent des informations quantitatives, et, de l'autre côté, ils sont des réservoirs d'exemples naturels de l'usage de la langue. Ils peuvent être utilisés comme ressources pour tester une théorie grammaticale donnée. Pour illustrer le deuxième point, voici un exemple.

Corpus et théorie linguistique
Sampson (1987) analysa manuellement un ensemble de syntagmes nominaux. Il arriva à la conclusion qu'une grammaire générative ne pouvait pas être utilisée pour analyser des données textuelles, car il y a trop de constructions différentes. Taylor,Grover et Briscoe (1989) contredirent cette hypothèse, à l'aide d'un analyseur syntaxique, basée sur une grammaire. Leur analyseur marche correctement dans % de cas. Les cas incorrectes sont facilement analysable comme lacune de couverture de la grammaire, et ils ne sont pas de cas isolés. La conclusion est que une grammaire générative peut, en principe, rendre compte des phénomènes naturels des données textuelles.

Le British National Corpus
Plusieurs projets de constitution de corpus de référence ont été menés à bien aux États-Unis : corpus Brown; et en Angleterre : corpus Lancaster-Oslo/Bergen (LOB). Rappel : Il s'agit d'associer étroitement deux caractéristiques une taille suffisante la diversité des usages représentés. Le BNC compte 100 millions de mots étiquetés. Il mêle oral (10 %) et écrit (textes de fiction à partir de 1960 et textes «informatifs» à partir de 1975).

The British National Corpus : les usages
En ce qui concerne l'écrit, les variables prises en compte sont le domaine (textes informatifs et textes de fiction), le support (livres, périodiques, discours), la datation et la diffusion (sélection parmi les listes des meilleures ventes, celles de prix littéraires, les indications de prêts en bibliothèque, etc.). L'accent mis sur la diffusion réelle certifie la représentation d'usages majeurs de l'anglais. Pour l'oral, des conversations spontanées ont été recueillies à partir d'un échantillonnage démographique en termes d'âge, de sexe, de groupe social et de région. Ont été également intégrées des transcriptions d'interactions orales typiques dans divers domaines : affaires (réunions, prises de parole syndicales, consultations médicales ou légales); éducation et information (cours et conférences, informations radio-télévisées); prises de parole publiques (sermons, discours politiques, discours parlementaires et légaux); loisirs (commentaires sportifs, réunions de clubs).

The British National Corpus : la taille
Le corpus compte 100’106’008 de mots, et il occupe 1,5 gigaoctets d’espace disque. Pour vous donner une perspective, si on imprimait le corpus en petite police sur papier très fin (comme livre de poche) il occuperait 10 mètres d’étagère. (Un livre de poche habituel consiste en 250 pages pour chaque centimètre d’épaisseur, et il a 400 mots par page.) Si on le lisait à haute voix, à la vitesse plutôt rapide de 150 mots par minute, 8 heures par jour, 365 jours par an, il nous faudrait un peu plus de 4 ans pour le lire entièrement. Il y a 6 million 250 milles phrase dans le corpus. La segmentation et l’étiquetage ont été fait automatiquement avec le tagger stochastique CLAWS développé à l’université de Lancaster. On utilise 65 partie du discours.

The British National Corpus : exemple
<s n="38"><w VVG-NN1>Raising <w NN1>money <w PRP>for <w DPS>your <w AJ0-NN1>favourite <w NN1>charity <w VM0>can <w VBI>be <w AJ0>fun<c PUN>. <s n="39"><w PNP>You <w VM0>can <w VDI>do <w PNP>it <w PRP-AVP>on <w DPS>your <w DT0>own <w CJC>or <w PNP>you <w VM0>can <w VVI>get <w AV0>together <w PRP>with <w NN1>family <w CJC>and <w NN2>friends<c PUN>. <s n="40"><w EX0>There <w VBZ>is <w AT0>no <w NN1>limit <w PRP>to <w AT0>the <w NN1>number <w PRF>of <w NN2>ways <w TO0>to <w VVI>raise <w NN1>money<c PUN>. <s n="41"><w CJS>Whether <w AT0>the <w AJ0>final <w NN1>total <w VBZ>is <w NN0>£5 <w CJC>or <w NN0>£5,000<c PUN>, <w PNP>it <w VBZ>is <w DT0>all <w AV0>very <w AV0>much <w VVN-VVD>needed<c PUN>. </p>

Autres Corpus pour l'anglais
The Bank of English The International Corpus of English (ICE)

Corpus français (projet PAROLE)
Différemment du BNC, les récents projets de constitution de corpus en France reposent plutôt sur l'assemblage de données préexistantes. Exemple : corpus réalisé dans le cadre du projet européen Parole ( ). Objectif : pour 12 langues, dont le français, fournir un corpus de 20 millions de mots, datant pour l'essentiel (80 % au moins) d'après 1980. mots étiquetés et vérifiés quant à la partie du discours, mots vérifiés quant à l'ensemble des traits attribués. Le corpus devait provenir pour 60 % de journaux, pour 30 % de livres, pour 10 % de périodiques (les 10 % restant pouvant relever de diverses provenances).

Corpus français (projet PAROLE)
Les mots obtenus se répartissent à l'issue du projet en mots de transcriptions de débats au parlement européen, mots d'une trentaine d'ouvrages de disciplines variées (en sciences humaines) fournis par CNRS-Éditions, mots provenant des notes de vulgarisation de la revue CNRS Info et d'articles sur la communication de la revue Hermès mots correspondant à articles provenant du choix aléatoire de numéros entiers parmi ceux des années 1987, 1989, 1991, 1993 et 1995 du journal Le Monde. Les données rassemblées sont variées, mais pas représentatives des emplois principaux du français : un seul journal, quotidien. La presse régionale, les hebdomadaires, la presse spécialisée sont absents, ainsi que les langages techniques et scientifiques. Néanmoins, très utile en pratique.

Corpus français (projet SILFIDE)
Cette perspective d'assemblage est explicite dans le projet SILFIDE (Serveur Interactif sur la Langue Française, son Identité, sa Diffusion et son Étude) de l'AUPELF-UREF (pour ) où il s'agit de rendre accessibles des ressources et des outils linguistiques pré-existants dans un cadre logiciel unifié.

Corpus Français University of Virginia Electronic Text Centre Corpus téléchargeables dans plusieurs langues (y compris le français) Corpus lexicaux québécois (Onze corpus (entre autres, le Trésor de la langue française au Québec) Corpus articles de journaux (français, canadiens, suisses) InaLF – Institut National de la Langue Française

Corpus arborés Une collection de textes permet d'engendrer de multiples corpus distincts. Chacun de ces corpus peut donner lieu à des annotations variées: étiquetage morpho-syntaxique, projection de catégories sémantiques, lemmatisation, etc. Description de corpus arborés :

Constitution du Penn Treebank
Le Penn Treebank a été constitué entre 1989 et 1992 (1ère phase). C’est un corpus annoté d’environ 4.5 millions de mots d’anglais-américain. L’ensemble de ce corpus a presque entièrement été analysé par arbres. Composition résumés du Département d’énergie (230'000 mots) articles du Dow Jones Newswire (3 mos de mots dont 1 mo arboré) bulletins du Département d’agriculture (80'000 mots) bibliothèque de textes américains (105'000 mots) messages MUC-3 (infos sur les terroristes en Amérique du Sud) (112K mots) phrases d’ATIS (phrases spontanées transcrites) (20'000 mots) phrases prononcées en radio (10'000 mots) Brown Corpus réétiqueté (1’200’000 mots) phrases des manuels IBM (90'000 mots)

Étiquetage du Penn Treebank
Le Penn Treebank est en fait un corpus semi-automatisé car l’étiquetage et la parenthétisation sont automatiquement analysés, mais ensuite corrigés par des annotateurs humains. L’étiquetage du Penn Treebank est basé sur celui du Brown Corpus qui comportait 87 étiquettes simples. Le nombre d’étiquettes a été réduit en éliminant les redondances (c'est-à-dire en tenant compte des informations lexicales et syntaxiques), on arrive ainsi à 48 étiquettes (36 étiquettes des parties du discours et 12 autres pour la ponctuation et les symboles monétaires. ) Lorsque les annotateurs ne réussissent pas à désambiguïser, ils ont la possibilité de combiner deux étiquettes. Ainsi, les décisions arbitraires sont évitées.

Exemples Le nombre d’étiquettes a été réduit. On a éliminé les distinctions que l’on peut déduire en tenant compte des 1) informations lexicales ) informations syntaxiques. (1) Brown PTB sing/VB am/BE sing/VB am/VB sang/VBD was/BEDZ sang/VBD was/VBD (2) conjonctions de subordination et prépositions reçoivent la même étiquette IN, car les conjonctions précèdent toujours une phrase tandis que les prépositions précèdent des SN.

Le jeu d'étiquette code la fonction grammatical si possible afin de faciliter une analyse syntaxique ultérieure. Exemple Brown PTB the one/CD the one/NN the ones/NNS the ones/NNS the fallen/JJ leaf the fallen/VBN leaf

1ère phase : l'étiquetage automatique Cet étiquetage est réalisé par PARTS, un algorithme développé par les laboratoires ATT. Il s'agit en fait d'une version modifiée de l'étiquetage du Brown Corpus, puis de plusieurs étiqueteurs. Le taux d'erreurs est de 7.9%. 2e phase : la correction manuelle Cette correction est réalisée simplement avec une souris en positionnant le curseur sur une étiquette fausse et en entrant l'étiquette souhaitée. Cette donnée entrée automatiquement est vérifiée afin de voir si elle appartient bien à la liste d'étiquettes. Si elle est valide, elle est ajoutée à la paire mot-étiquette séparée par un astérisque. L'étiquette fausse n'est pas supprimée afin d'identifier les erreurs produites à l'étiquetage automatique des parties du discours. (Dans la version de distribution du corpus, les étiquettes fausses de l'étape automatique sont supprimées.)

Parenthétisation du Penn Treebank
3e phase : la parenthétisation automatique (réalisé par Fidditch) Fidditch est un analyseur développé par Donald Hindle (d'abord à l'université de Pennsylvanie, puis aux laboratoires de l'ATT), qui est utilisé pour fournir une analyse initiale. Cet algorithme laisse beaucoup de constituants non rattachés qui sont étiquetés "?". Il s'agit des syntagmes prépositionnels, des propositions relatives et des compléments circonstanciels. À ce niveau-là, on n'a pas encore véritablement d'arbre, mais plutôt plusieurs fragments d'arbres. 4e phase : la parenthétisation simplifiée automatiquement Les représentations sont simplifiées et aplaties par la suppression des étiquettes de parties du discours, des nœuds lexicaux non-branchés et de certains nœuds.

Parenthétisation du Penn Treebank
5e phase : La correction du parenthétisation Cette correction est aussi réalisée à l'aide d'une souris. Les annotateurs collent tout d'abord les fragments ensemble, ils corrigent les analyses incorrectes et effacent certaines structures. La correction des structures parenthétisées est plus difficile à réaliser que la correction de l'étiquetage des parties du discours. Comme on veut que le Penn Treebank contienne seulement des structures certaines , il y a deux façons d'annoter les structures incertaines : l'étiquette de constituant X et le "pseudo-attachement". L'étiquette de constituant X est utilisé si un annotateur est sûr qu'une séquence de mots est un constituant majeur, mais pas sûr de sa catégorie syntaxique. Dans ces cas, l'annotateur parenthèse seulement la séquence et l'étiquette X. Le "pseudo-attachement" est utilisé pour annoter "les ambiguïtés permanentes prévisibles". L'annotateur indique cela quand une structure est globalement ambiguë même donnée dans un contexte.

Exemple d'arbres du Penn Treebank – phase 3
(NP (ADJP Battle-tested industrial) managers) (? here) (? always) (VP buck)) (? (PP up (NP nervous newcomers))) (? (PP with (NP the tale (PP of (NP the (ADJP first)))))) (? (PP of (NP their countrymen))) (? (S (NP *) to (VP visit (NP Mexico)))) (? ,) (? (NP a boatload (NP warriors)) (VP blown (? ashore) (NP 375 years)))) (? ago) (? .)) Battle-tested industrial managers here always buck up nervous newcomers with the tale of the first of their countrymen to visit Mexico a boatload of warriors blown ashore 375 years ago

Exemple d'arbres du Penn Treebank – phase 5
(NP Battle-tested industrial managers here) always (VP buck up (NP nervous newcomers) (PP with (NP the tale (PP of (NP (NP the (ADJP first (NP their countrymen))) (S (NP *) to (VP visit (NP Mexico)))) , (NP (NP a boatload (NP (NP warriors) (VP-1 blown ashore (ADVP (NP 375 years) ago))))) (VP-1 *pseudo-attach*)))))))) .)

Tests comparatifs et évaluation du Penn Treebank
Au tout début du projet, une expérience a été réalisée concernant deux modes d'annotation : - l'étiquetage manuel : des annotateurs ont étiqueté des textes entièrement non annotés, à la main - la "correction" : ils ont vérifié et corrigé la production de PARTS. Ce test a montré que l'étiquetage manuel est deux fois plus long que la simple correction (44 min/1000 mots contre 20 minutes) avec deux fois plus de taux de désaccord (7.2% contre 3.5%) et un taux d'erreurs 50% plus élevé. En ce qui concerne la structure, les annotateurs peuvent corriger la structure pleine fournie par Fidditch à une vitesse moyenne d'environ 375 m/h après 3 semaines et d'environ 475 m/h après 6 semaines. La réduction à une représentation plus squelettique augmente la productivité de l'annotateur d'environ 100 à 200 mots/heure. Après 3 ou 4 mois d'entraînement, les annotateurs produisent environ 750, voire même pour certains plus de 1000 mots/heure. Le taux d'erreurs de la version finale est estimé à environ 1 %.

Corfrans : corpus arboré en français
L'absence de corpus annoté pour la syntaxe freine le développement d’applications linguistiques, et empêche les chercheurs en linguistique informatique d’évaluer ou d’analyser leurs outils. L'équipe TaLaNa dirigée par A.Abeillé à l’Université Paris 7 a entrepris depuis 1996 la construction d’un corpus textuel annoté pour la syntaxe, en collaboration avec le LATL (Genève) et le RALI (Montréal). Objectif produire un corpus électronique annoté pour la syntaxe en français, de taille moyenne, et qui représente les principales difficultés grammaticales rencontrées en français normé

Annotation morpho-syntaxique d’environs 400’000 mots avec plusieurs variétés de français (présentés dans le Monde, le Hansard, l’hebdo…). Marquage syntaxique automatique avec l’analyseur Shallow parseur développé par A. Kinyon qui annote les frontières en minimisant les cas de rattachement (il se base sur les mots fonctionnels pour déterminer les frontières de constituants). Correction manuelle des erreurs commises lors de l’analyse. Un outil d’aide à la correction pour les annotateurs a été conçu. Définition d’un standard d’annotation en constituants qui évite les syntagmes vides, les syntagmes discontinus qui posent problème lors de la réalisation d’arbres syntaxiques. Évaluation et enrichissement du corpus, dans le but de faire le point sur les besoins et les outils des producteurs et utilisateurs de corpus.

Comment l’équipe gère-t-elle le problème de la discontinuité de la négation ? Ex : Jean ne veut pas venir ne pas pourrait éventuellement être adverbe continu car il existe des phrases comme Jean préfère ne pas venir mais pour une discontinuité avec d’autre mots négatifs je ne veux voir personne on ne peut pas faire un constituant ne personne car elle ne se trouve jamais dans une séquence *je préfère ne personne voir. Il n’y aura donc pas de syntagmes discontinues.

Les solutions L’adverbe négatif "ne" fait toujours parti du noyau verbal par contre les forclusifs (mots négatifs : pas, jamais, rien ) ne sont pas rattaché au VN sauf s’ils sont entre l’auxiliaire et le participe passé. Ex : Je <VN> ne veux </VN> pas <VPinf> <VN> venir </VN> </VPinf> Jean <VN> n’est pas venu </VN> Je <VN> n’ai <NP> rien : Pro </NP> vu </VN> L’adverbe composé ne-pas (ne-plus, ne-jamais…) ne fait pas parti du VN avec infinitif Ex : Je <VN> veux </VN> <VPinf> ne-pas : Ad <VN> venir </VN> </VPinf>

Les conséquences de ce projet Ce projet va permettre une mise à disposition de la communauté francophone d’un corpus de référence annoté et corrigé pour la syntaxe d’évaluer les analyseurs des équipes partenaires d’obtenir une documentation détaillée sur les annotations attendues pour les principales constructions rencontrées dans les textes mais négligées dans les grammaires.

Negr@ Corpus Corpus arborés de l'allemand
355,096 tokens (20,602 phrases) tirés du quotidien allemand Frankfurter Rundschau (Multilingual Corpus 1 de la European Corpus Initiative). Le corpus est étiqueté et arboré. Le corpus est entièrement codé dans une base de données SQL. Les arbres peuvent avoir des branches croisées. Si l'on désire, on peut transformer les branches croisés en trace et obtenir le même format du Penn Treebank.

Negr@ Corpus Différents types d'information dans le corpus
Part-of-Speech Tags -- Stuttgart-Tübingen-Tagset (STTS) Analyse Morphologique (60,000 tokens) Catégories syntaxiques et fonction grammaticales

Negr@ Corpus exemple (CS (S-CJ (PPER-SB Sie) (VVFIN-HD gehen) (CNP-OA
(NP-CJ (ADJA-NK gewagte) (NN-NK Verbindungen) ) (KON-CD und) (NN-CJ Risiken) (PTKVZ-SVP ein) ($, ,) (VVFIN-HD versuchen) (VP-OC (NP-OA (PPOSAT-NK ihre) (NN-NK Möglichkeiten) (VVIZU-HD auszureizen) ($. .)

Les corpus étiquetés sémantiques

Framenet The Berkeley FrameNet project is creating an
on-line lexical resource for English, based on frame semantics and supported by corpus evidence. The aim is to document the range of semantic and syntactic combinatory possibilities (valences) of each word in each of its senses, through manual annotation of example sentences and automatic capture and organization of the annotation results. So far, 7500 lexical units based 130’000 sentences have been annotated. The FrameNet database is in a platform-independent format, and can be displayed and queried via the web and other interfaces.

Framenet: basic concepts
A lexical unit is a pairing of a word with a meaning. Typically, each sense of a polysemous word belongs to a different semantic frame, a script-like structure of inferences that characterize a type of situation, object, or event. Each frame contains a predicates and what are called frame elements (FEs) - participants and props in the frame whose linguistic expressions are syntactically connected to the target word.

Framenet Annotation: example
Revenge frame Definition An Avenger performs some Punishment on an Offender as a response to an earlier action, the Injury, that was inflicted on an Injured_party. The Avenger need not be identical to the Injured_party but needs to consider the prior action of the Offender a wrong. Importantly, the punishment of the Offender by the Avenger is seen as justified by individual or group opinion rather than by law. Frame elements in the Revenge frame are Avenger, Punishment, Offender, Injury, and Injured_party.

Lexical units in this frame include avenge.v, avenger.n, get even.v, retaliate.v, retaliation.n, retribution.n, retributive.a, retributory.a, revenge.v, revenge.n, revengeful.a, revenger.n, vengeance.n, vengeful.a, and vindictive.a. Some example sentences with the lexical unit avenge are given here. [His brothers Avenger] avenged [him Injured_party]. With this, [El Cid Agent] at once avenged [the death of his son Injury]. [Hook Avenger] tries to avenge [himself Injured_party] [on Peter Pan Offender] [by becoming a second and better father Punishment].

Here goes a screen dump

Framenet Annotation: easy cases
Annotation is easiest when all and only the core frame elements (the conceptually necessary participants of the frame that a syntactic governor evokes) find syntactic expression in the sentence as separate immediate syntactic dependents of the governor.

Framenet Annotation:not so easy cases
Non-core frame elements are conceptually not necessary in the sense that they do not uniquely characterize the frame. Thus, for most frames standing for events or processes, Time and Place frame elements are not core, and therefore may not always be annotated. Similarly, actions often have a Purpose that the Agent intends to accomplish by performing the action indicated by the target word. However, having a purpose doesn't usually distinguish types of actions and so Purpose is often a non-core frame element, as in the following example: They wake you up [to give you a sleeping pill Purpose].

Framenet Annotation:missing frame elements
Sometimes FEs that are conceptually salient do not show up as lexical or phrasal material in the sentence chosen for annotation. They are however annotated to indicate omissibility conditions. Constructional Null Instantiation (CNI): Constructionally omitted constituents (also called structurally omitted) have their omission licensed by a grammatical construction in which the target word appears and are therefore more or less independent of the LU. Cases of CNI include: the omitted subject of imperative sentences, the omitted agent of passive sentences, the omitted subjects of independent gerunds and infinitives (PRO), and so on. In each of the following two examples, the FE Avenger is tagged with the symbol CNI.

Framenet Annotation:missing frame lements
Family feuds last for generations, and [slurs on honor Injury] are avenged [by murder Punishment] . [CNI Avenger] Get even [with her Offender] [for this Injury] [CNI Avenger] In addition, we use CNI for missing objects in instructional imperatives such as exemplified below, even though in this case the omission is not dependent on a particular construction, but rather on a genre. Cook on low heat until done. [CNI Food] Tie together loosely. [CNI Items]

Definite Null Instantiation (DNI): Cases of definite null (also called anaphoric) instantiation are those in which the missing element must be something that is already understood in the linguistic or discourse context. In the following example, the Offender is not expressed overtly in the syntax, but its referent has to be known in the context. [The monkey Avenger] avenged [himself Injured_party] [by growing to the size of a giant and setting fire to the city Punishment]. [Offender DNI]

Indefinite Null Instantiation (INI): The indefinite cases (sometimes also referred to as existential) are illustrated by the missing objects of verbs like eat, sew, bake, drink, etc., that is, cases in which these ordinarily transitive verbs can be spoken of as used intransitively. Molly rarely eats alone; Granny begins baking about a month before Christmas; Jo even drinks heavily on weeknights. There are often special interpretations of the existentially understood missing objects: for example, with eat the missing entity is likely to be a meal, with bake it is likely to be flour-based foods, with drink it is likely to be alcoholic beverages, etc.

Indefinite Null Instantiation (INI) continued There is no need to retrieve or construct a specific discourse referent. For example, in the Revenge frame, all lexical units happen to allow the frame element Punishment to be omitted under indefinite null instantiation. He took it out on Scarlet in the same way as [he Avenger] avenged [himself Injured_party] [on her Offender] [for the pressures at work and the demands of his first wife Injury]] . [INI Punishment] Note that usually verbs in a frame differ in this respect. For instance, while eat allows its object to be omitted, devour does not, even though they are both in the Ingestion frame.

Framenet Annotation:frame element conflation
In some cases, information about two frame elements is expressed in a single constituent, a situation we call conflation. For instance, in the Revenge frame, the Injured_party may be contained as a possessive in the phrase that realizes the Injury frame element as seen in the following example: [He Avenger] avenged [Pedro 's death Injury] [by taking out the poker-faced Guards Officer Punishment]. In this example, the possessive Pedro's realizes the frame element Injured_party, the person who suffered the Injury. Also, We ousted Jones as mayor vs. We ousted the mayor, where the direct object stands for both the office and the incumbent.

Penn Proposition Bank all following transparencies on Proposition Bank from web page of ACE project director:Professor Martha Palmer University of Pennsylvania soon to move to University of Colorado

Proposition Bank How much can current statistical NLP systems be made more domain-independent without prohibitive costs, either in terms of engineering or annotation? The Proposition Bank is designed as a broad-coverage resource to facilitate the development of more general systems. It focuses on the argument structure of verbs, and provides a complete corpus annotated with semantic roles. Correctly identifying the semantic roles of the sentence constituents is a crucial part of interpreting text, for information extraction machine translation or automatic summarization

PropBank The Proposition Bank project takes a practical approach to semantic representation, adding a layer of predicate-argument information, or semantic roles, to the syntactic structures of the Penn Treebank. The resulting resource can be thought of as shallow, in that it does not represent coreference, quantification, and many other higher-order phenomena, but also broad, in that it covers every verb in the corpus and allows representative statistics to be calculated.

meet(Powell, Zhu) discuss([Powell, Zhu], return(X, plane))
Proposition Bank: From Sentences to Propositions Powell met Zhu Rongji debate consult join wrestle battle Proposition: meet(Powell, Zhu Rongji) Powell and Zhu Rongji met Powell met with Zhu Rongji Powell and Zhu Rongji had a meeting meet(Somebody1, Somebody2) Finding the relations between entities is the primary goal. These are often conveyed by verbs. One verb can convey the same information using many different sentence forms. Knowing what type of verb it is allows you to predict the sentence forms it can occur in. Then all of these sentence forms can be mapped onto the same underlying representation. We call this underlying representation the proposition. Fortunately, language reuses the same sets of sentence forms for entire families of verbs. We can generalize our mapping from a set of forms to the underlying proposition for one verb to other verbs in the family. These can be in the same semantic class, they can also be in different semantic classes. Determining membership in a family will determine the associated sentence forms for that verb, and vice versa, i.e. finding a verb occurring in particular sentence forms will determine its class membership. . . . When Powell met Zhu Rongji on Thursday they discussed the return of the spy plane. meet(Powell, Zhu) discuss([Powell, Zhu], return(X, plane))

Capturing semantic roles. http://www. cis. upenn
SUBJ George broke [ ARG1 the laser pointer.] [ARG1 The windows] were broken by the hurricane. [ARG1 The vase] broke into pieces when it toppled over. SUBJ SUBJ

A TreeBanked Sentence http://www. cis. upenn
(S (NP-SBJ Analysts) (VP have (VP been (VP expecting (NP (NP a GM-Jaguar pact) (SBAR (WHNP-1 that) (S (NP-SBJ *T*-1) (VP would (VP give (NP the U.S. car maker) (NP (NP an eventual (ADJP 30 %) stake) (PP-LOC in (NP the British company)))))))))))) VP have VP been VP NP-SBJ Analysts expecting NP that SBAR WHNP-1 a GM-Jaguar pact NP S VP NP-SBJ VP give *T*-1 would NP Analysts have been expecting a GM-Jaguar pact that would give the U.S. car maker an eventual 30% stake in the British company. Here is an example from the Wall Street Journal Treebank II. The sentence is in the light blue box on the bottom left corner, the syntactic structure as a parse tree is in the middle, the actual annotation is in the light gray box. the US car maker NP PP-LOC an eventual 30% stake NP the British company NP in

an eventual 30% stake in the British company
The same sentence, PropBanked have been expecting (S Arg0 (NP-SBJ Analysts) (VP have (VP been (VP expecting Arg1 (NP (NP a GM-Jaguar pact) (SBAR (WHNP-1 that) (S Arg0 (NP-SBJ *T*-1) (VP would (VP give Arg2 (NP the U.S. car maker) Arg1 (NP (NP an eventual (ADJP 30 %) stake) (PP-LOC in (NP the British company)))))))))))) Arg0 Arg1 Analysts a GM-Jaguar pact that would give *T*-1 the US car maker an eventual 30% stake in the British company Arg0 Arg2 Arg1 Here the same annotation is still in the gray box, with the argument labels added. The tree represents the dependency structure, which gives rise to the predicates in the light blue box. Notice that the trace links back to the GM-Jaguar Pact. Notice also that it could just as easily have said, “a GM-Jaguar pact that would give an eventual…stake to the US car maker.” where it would be “ ARG0: a GM-Jaguar pact that would give an ARG1: eventual…stake to ARG2: the US car maker.” This works in exactly the same way for Chinese and Korean as it works for English (and presumably will for Arabic as well.) expect(Analysts, GM-J pact) give(GM-J pact, US car maker, 30% stake)

Frames File Example: expect
Roles: Arg0: expecter Arg1: thing expected Example: Transitive, active: Portfolio managers expect further declines in interest rates. Arg0: Portfolio managers REL: expect Arg1: further declines in interest rates

Frames File example: give
Roles: Arg0: giver Arg1: thing given Arg2: entity given to Example: double object The executives gave the chefs a standing ovation. Arg0: The executives REL: gave Arg2: the chefs Arg1: a standing ovation

Word Senses in PropBank
Orders to ignore word sense not feasible for 700+ verbs Mary left the room Mary left her daughter-in-law her pearls in her will Frameset leave.01 "move away from": Arg0: entity leaving Arg1: place left Frameset leave.02 "give": Arg0: giver Arg1: thing given Arg2: beneficiary

Annotation procedurehttp://www. cis. upenn
PTB II - Extraction of all sentences with given verb Create Frame File for that verb Paul Kingsbury (3100+ lemmas, 4400 framesets,118K predicates) Over 300 created automatically via VerbNet First pass: Automatic tagging (Joseph Rosenzweig) Second pass: Double blind hand correction Paul Kingsbury Tagging tool highlights discrepancies Scott Cotton Third pass: Solomonization (adjudication) Betsy Klipple, Olga Babko-Malaya

Trends in Argument Numbering http://www. cis. upenn
Arg0 = agent Arg1 = direct object / theme / patient Arg2 = indirect object / benefactive / instrument / attribute / end state Arg3 = start point / benefactive / instrument / attribute Arg4 = end point Per word vs frame level – more general?

Additional tags http://www. cis. upenn. edu/~mpalmer/project_pages/ACE
Additional tags (arguments or adjuncts?) Variety of ArgM’s (Arg#>4): TMP - when? LOC - where at? DIR - where to? MNR - how? PRP -why? REC - himself, themselves, each other PRD -this argument refers to or modifies another ADV –others

Inflection http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm
Verbs also marked for tense/aspect Passive/Active Perfect/Progressive Third singular (is has does was) Present/Past/Future Infinitives/Participles/Gerunds/Finites Modals and negations marked as ArgMs

Frames: Multiple Framesetshttp://www. cis. upenn
Framesets are not necessarily consistent between different senses of the same verb Framesets are consistent between different verbs that share similar argument structures, (like FrameNet) Out of the 787 most frequent verbs: 1 FrameNet – 521 2 FrameNet – 169 3+ FrameNet - 97 (includes light verbs)

Ergative/Unaccusative Verbs http://www. cis. upenn
Roles (no ARG0 for unaccusative verbs) Arg1 = Logical subject, patient, thing rising Arg2 = EXT, amount risen Arg3* = start point Arg4 = end point Sales rose 4% to $3.28 billion from $3.16 billion. The Nasdaq composite index added 1.01 to on paltry volume.

Actual data for leave http://www. cis. upenn
Leave .01 “move away from” Arg0 rel Arg1 Arg3 Leave .02 “give” Arg0 rel Arg1 Arg2 sub-ARG0 obj-ARG1 44 sub-ARG0 20 sub-ARG0 NP-ARG1-with obj-ARG2 17 sub-ARG0 sub-ARG2 ADJP-ARG3-PRD 10 sub-ARG0 sub-ARG1 ADJP-ARG3-PRD 6 sub-ARG0 sub-ARG1 VP-ARG3-PRD 5 NP-ARG1-with obj-ARG2 4 obj-ARG1 3 sub-ARG0 sub-ARG2 VP-ARG3-PRD 3

Buy Sell More generic, more neutral – maps readily to VN,TR
PropBank/FrameNet Buy Arg0: buyer Arg1: goods Arg2: seller Arg3: rate Arg4: payment Sell Arg0: seller Arg1: goods Arg2: buyer Arg3: rate Arg4: payment More generic, more neutral – maps readily to VN,TR Rambow, et al, PMLB03

Annotator accuracy – ITA 84% http://www. cis. upenn

Résumé du cours Corpus collection de plus d’un texte
Propriétés représentatif, de taille finie, électronique Types de corpus équilibré par échantillonnage de contrôle référence Utilisations lexicographie, théorie linguistique données d’entraînement pour apprentissage automatique Exemples de corpus de référence British National Corpus arboré Penn Treebank, Corfrans, sémantique FrameNet PropBank

Les Données Textuelles

Présentations similaires

Présentation au sujet: "Les Données Textuelles"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Les Données Textuelles

Présentations similaires

Présentation au sujet: "Les Données Textuelles"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back