La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels.

Présentations similaires


Présentation au sujet: "1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels."— Transcription de la présentation:

1 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels : le British National Corpus PAROLE Français, Le Monde Les corpus étiquetés et analysés - corpus syntaxiques Penn Treebank Corfrans www-rali.iro.umontreal.ca/corfrans NEGRA corpus -corpus sémantiques Framenet PropBank

2 2 Corpus Définition : Une collection quelconque de plus d'un texte Propriétés : représentatif, de taille finie, lisible par une machine Référence standard Utilisations : Lexicographieétablir si un verbe est transitif Utilisations : Développement de grammairedéterminer la couverture de la grammaire, les erreurs les plus fréquentes.

3 3 Corpus Le page suivantes sur lécahntillonage et lutilisations des corpus sont tiré des ouvrages Benoît Habert, Adeline Nazarenko, et André Salem, Les linguistiques de corpus, Armand Colin Tony Mc Enery et Andrew Wilson, Corpus Lingusitics, Edinburgh Press

4 4 Corpus équilibrés En principe, une collection de plus d'un texte peut être appelée un corpus. Cependant, le terme corpus possède en général des connotations plus spécifiques. Le corpus doit être représentatif. Afin quune collection de textes soit représentative, elle doit être échantillonnée de façon équilibrée. La méthode la plus utilisée est la méthode d'échantillonnage stratifiée, où l'on crée une collection équilibrée de textes distribués uniformément à travers les genres (roman, journal, discours politique, etc.) et les modalités (écrite, orale) qui intéressent. Le corpus doit être de taille finie définie à l'avance. On parle alors de corpus fermé. D'habitude, les corpus sont des collections des textes fixées à l'avance, afin d'assurer que l'équilibre et la représentativité soient respectés. Un corpus doit être électronique (machine­readable) pour permettre des recherches et des manipulations rapides à large échelle.

5 5 Corpus équilibrés D'un point de vue statistique, on peut considérer un corpus comme un échantillon d'une population (d'événements langagiers). Comme tout échantillon, un corpus est passible de deux types d'erreurs statistiques qui menacent la généralité des résultats l'incertitude (random error) la déformation (bias error) L'incertitude survient quand un échantillon est trop petit pour représenter avec précision la population réelle. Une déformation se produit quand les caractéristiques d'un échantillon sont systématiquement différentes de celles de la population que cet échantillon a pour objectif de refléter.

6 6 Exemples derreurs Incertitude Un extrait de mots d'une interview de George Bush ne permet pas d'extrapoler et d'en tirer des conclusions sur l'interaction journaliste-homme politique. Déformation Si on utilise que les articles de la seule rubrique Economie du Monde, quel que soit le volume textuel rassemblé, on risque de déboucher sur une image déformée du français.

7 7 Échantillonnage Pour atteindre une diversité maximale de situations de communication dans un corpus de référence on procède souvent à une démarche d'échantillonnage. L'échantillonnage touche à la fois le choix des documents à intégrer et la partie de ces documents à conserver. On essaye d'équilibrer en taille les échantillons retenus -- de taille limitée (de 2'000 à 40'000 mots) --, et à ne pas retenir des empans de texte continus, de manière à ne pas risquer de sur-représenter des «lieux» du texte aux caractéristiques particulières (l'introduction par exemple). Ce saucissonnage rend par contre impossible l'étude des changements de corrélations de traits linguistiques au fil des textes (étude longitudinale).

8 8 Corpus de contrôle (monitor corpus) Il existe aussi un autre type de corpus, le corpus de contrôle, qui n'est pas de taille finie, mais plutôt il croit au fur et à mesure. Un corpus de contrôle est un corpus auquel on ajoute tout le temps des textes. C'est un corpus ouvert. Cela est très utile en lexicographie pour chercher les néologismes, mais on ne peut plus garantir que le corpus restera équilibré. La recherche scientifique courante où l'on utilise le Web en tant que corpus rentre dans ce cas de figure.

9 9 Corpus de référence On parle de corpus de référence lorsque un corpus devient représentatif de la langue- à un certain moment historique, - pour une certaine langue, - dans une certaine modalité. Un corpus de référence est conçu pour fournir une information en profondeur sur une langue. Il vise à être suffisamment grand pour représenter toutes les variétés pertinentes de cette langue et son vocabulaire caractéristique, de manière à pouvoir servir de base à des grammaires, des dictionnaires et d'autres usuels fiables. Il s'agit donc d'associer étroitement deux caractéristiques : une taille suffisante et la diversité des usages représentés. Par exemple, le Brown Corpus est le corpus de référence de l'anglais Américain écrit, le British National Corpus est le corpus de référence de l'anglais Britannique écrit et oral.

10 10 Utilisations en lexicographie Les lexicographes ont utilisées des corpus, ou des ensembles de citations, bien avant que la linguistique de corpus ne se développe (voir par exemple le célèbre dictionnaire de Samuel Johnson, de même que lOxford English Dictionary). À présent, l'existence de larges collections de textes et la possibilité de les consulter et manipuler très rapidement est en train de changer la pratique de la lexicographie. D'habitude, les lexicographes compilent les entrées d'un dictionnaire sur la base de leurs propres intuitions et d'une collection d'exemples qu'ils collectent à la main (ils utilisent des fiches d'exemples). Un corpus peut ajouter de l'information supplémentaire.

11 11 Utilisations en lexicographie Par exemple, Atkins and Levin se sont occupés de certaines verbes dans la même classes que le verbe shake (trembler). Elles ont consulté le LDOCE (Oxford's Advanced Learner's Dictionary) et COBUILD. Les deux dictionnaires indiquaient que les verbes quake et quiver sont toujours intransitifs (n'ont pas de COD). Par contre, si on consulte un corpus de 50 millions de mots, on trouvera que les deux verbes peuvent être utilisés dans la forme transitive.

12 12 Utilisations en théorie linguistique Les corpus sont important pour la recherche linguistique au niveau des phrases et de la syntaxe, car, d'un côté, ils fournissent des informations quantitatives, et, de l'autre côté, ils sont des réservoirs d'exemples naturels de l'usage de la langue. Ils peuvent être utilisés comme ressources pour tester une théorie grammaticale donnée. Pour illustrer le deuxième point, voici un exemple.

13 13 Corpus et théorie linguistique Sampson (1987) analysa manuellement un ensemble de syntagmes nominaux. Il arriva à la conclusion qu'une grammaire générative ne pouvait pas être utilisée pour analyser des données textuelles, car il y a trop de constructions différentes. Taylor,Grover et Briscoe (1989) contredirent cette hypothèse, à l'aide d'un analyseur syntaxique, basée sur une grammaire. Leur analyseur marche correctement dans % de cas. Les cas incorrectes sont facilement analysable comme lacune de couverture de la grammaire, et ils ne sont pas de cas isolés. La conclusion est que une grammaire générative peut, en principe, rendre compte des phénomènes naturels des données textuelles.

14 14 Le British National Corpus Plusieurs projets de constitution de corpus de référence ont été menés à bien aux États-Unis : corpus Brown; et en Angleterre : corpus Lancaster-Oslo/Bergen (LOB). Rappel : Il s'agit d'associer étroitement deux caractéristiques une taille suffisante la diversité des usages représentés. Le BNC compte 100 millions de mots étiquetés. Il mêle oral (10 %) et écrit (textes de fiction à partir de 1960 et textes «informatifs» à partir de 1975).

15 15 The British National Corpus : les usages En ce qui concerne l'écrit, les variables prises en compte sont le domaine (textes informatifs et textes de fiction), le support (livres, périodiques, discours), la datation et la diffusion (sélection parmi les listes des meilleures ventes, celles de prix littéraires, les indications de prêts en bibliothèque, etc.). L'accent mis sur la diffusion réelle certifie la représentation d'usages majeurs de l'anglais. Pour l'oral, des conversations spontanées ont été recueillies à partir d'un échantillonnage démographique en termes d'âge, de sexe, de groupe social et de région. Ont été également intégrées des transcriptions d'interactions orales typiques dans divers domaines : affaires (réunions, prises de parole syndicales, consultations médicales ou légales); éducation et information (cours et conférences, informations radio-télévisées); prises de parole publiques (sermons, discours politiques, discours parlementaires et légaux); loisirs (commentaires sportifs, réunions de clubs).

16 16 Le corpus compte de mots, et il occupe 1,5 gigaoctets despace disque. Pour vous donner une perspective, si on imprimait le corpus en petite police sur papier très fin (comme livre de poche) il occuperait 10 mètres détagère. (Un livre de poche habituel consiste en 250 pages pour chaque centimètre dépaisseur, et il a 400 mots par page.) Si on le lisait à haute voix, à la vitesse plutôt rapide de 150 mots par minute, 8 heures par jour, 365 jours par an, il nous faudrait un peu plus de 4 ans pour le lire entièrement. Il y a 6 million 250 milles phrase dans le corpus. La segmentation et létiquetage ont été fait automatiquement avec le tagger stochastique CLAWS développé à luniversité de Lancaster. On utilise 65 partie du discours. The British National Corpus : la taille

17 17 The British National Corpus : exemple Raising money for your favourite charity can be fun. You can do it on your own or you can get together with family and friends. There is no limit to the number of ways to raise money. Whether the final total is £5 or £5,000, it is all very much needed.

18 18 Autres Corpus pour l'anglais The Bank of English The International Corpus of English (ICE)

19 19 Corpus français (projet PAROLE) Différemment du BNC, les récents projets de constitution de corpus en France reposent plutôt sur l'assemblage de données préexistantes. Exemple : corpus réalisé dans le cadre du projet européen Parole ( ).

20 20 Corpus français (projet PAROLE) Les mots obtenus se répartissent à l'issue du projet en mots de transcriptions de débats au parlement européen, mots d'une trentaine d'ouvrages de disciplines variées (en sciences humaines) fournis par CNRS-Éditions, mots provenant des notes de vulgarisation de la revue CNRS Info et d'articles sur la communication de la revue Hermès mots correspondant à articles provenant du choix aléatoire de numéros entiers parmi ceux des années 1987, 1989, 1991, 1993 et 1995 du journal Le Monde. Les données rassemblées sont variées, mais pas représentatives des emplois principaux du français : un seul journal, quotidien. La presse régionale, les hebdomadaires, la presse spécialisée sont absents, ainsi que les langages techniques et scientifiques. Néanmoins, très utile en pratique.

21 21 Corpus Français University of Virginia Electronic Text Centre Corpus téléchargeables dans plusieurs langues (y compris le français) Corpus lexicaux québécois (Onze corpus (entre autres, le Trésor de la langue française au Québec) Corpus articles de journaux (français, canadiens, suisses) InaLF – Institut National de la Langue Française

22 22 Corpus arborés Une collection de textes permet d'engendrer de multiples corpus distincts. Chacun de ces corpus peut donner lieu à des annotations variées: étiquetage morpho-syntaxique, projection de catégories sémantiques, lemmatisation, etc. Description de corpus arborés :

23 23 Constitution du Penn Treebank Le Penn Treebank a été constitué entre 1989 et 1992 (1ère phase). Cest un corpus annoté denviron 4.5 millions de mots danglais-américain. Lensemble de ce corpus a presque entièrement été analysé par arbres. Composition résumés du Département dénergie (230'000 mots) articles du Dow Jones Newswire (3 mos de mots dont 1 mo arboré) bulletins du Département dagriculture (80'000 mots) bibliothèque de textes américains (105'000 mots) messages MUC-3 (infos sur les terroristes en Amérique du Sud) (112K mots) phrases dATIS (phrases spontanées transcrites) (20'000 mots) phrases prononcées en radio (10'000 mots) Brown Corpus réétiqueté ( mots) phrases des manuels IBM (90'000 mots)

24 24 Étiquetage du Penn Treebank Le Penn Treebank est en fait un corpus semi-automatisé car létiquetage et la parenthétisation sont automatiquement analysés, mais ensuite corrigés par des annotateurs humains. Létiquetage du Penn Treebank est basé sur celui du Brown Corpus qui comportait 87 étiquettes simples. Le nombre détiquettes a été réduit en éliminant les redondances (c'est-à-dire en tenant compte des informations lexicales et syntaxiques), on arrive ainsi à 48 étiquettes (36 étiquettes des parties du discours et 12 autres pour la ponctuation et les symboles monétaires. ) Lorsque les annotateurs ne réussissent pas à désambiguïser, ils ont la possibilité de combiner deux étiquettes. Ainsi, les décisions arbitraires sont évitées.

25 25 Étiquetage du Penn Treebank Exemples Le nombre détiquettes a été réduit. On a éliminé les distinctions que lon peut déduire en tenant compte des 1) informations lexicales 2) informations syntaxiques. (1) Brown PTB sing/VB am/BE sing/VB am/VB sang/VBD was/BEDZ sang/VBD was/VBD (2) conjonctions de subordination et prépositions reçoivent la même étiquette IN, car les conjonctions précèdent toujours une phrase tandis que les prépositions précèdent des SN.

26 26 Étiquetage du Penn Treebank Le jeu d'étiquette code la fonction grammatical si possible afin de faciliter une analyse syntaxique ultérieure. Exemple Brown PTB the one/CD the one/NN the ones/NNS the fallen/JJ leaf the fallen/VBN leaf

27 27 Étiquetage du Penn Treebank 1ère phase : l'étiquetage automatique Cet étiquetage est réalisé par PARTS, un algorithme développé par les laboratoires ATT. Il s'agit en fait d'une version modifiée de l'étiquetage du Brown Corpus, puis de plusieurs étiqueteurs. Le taux d'erreurs est de 7.9%. 2e phase : la correction manuelle Cette correction est réalisée simplement avec une souris en positionnant le curseur sur une étiquette fausse et en entrant l'étiquette souhaitée. Cette donnée entrée automatiquement est vérifiée afin de voir si elle appartient bien à la liste d'étiquettes. Si elle est valide, elle est ajoutée à la paire mot- étiquette séparée par un astérisque. L'étiquette fausse n'est pas supprimée afin d'identifier les erreurs produites à l'étiquetage automatique des parties du discours. (Dans la version de distribution du corpus, les étiquettes fausses de l'étape automatique sont supprimées.)

28 28 Parenthétisation du Penn Treebank 3e phase : la parenthétisation automatique (réalisé par Fidditch) Fidditch est un analyseur développé par Donald Hindle (d'abord à l'université de Pennsylvanie, puis aux laboratoires de l'ATT), qui est utilisé pour fournir une analyse initiale. Cet algorithme laisse beaucoup de constituants non rattachés qui sont étiquetés "?". Il s'agit des syntagmes prépositionnels, des propositions relatives et des compléments circonstanciels. À ce niveau-là, on n'a pas encore véritablement d'arbre, mais plutôt plusieurs fragments d'arbres. 4e phase : la parenthétisation simplifiée automatiquement Les représentations sont simplifiées et aplaties par la suppression des étiquettes de parties du discours, des nœuds lexicaux non-branchés et de certains nœuds.

29 29 Parenthétisation du Penn Treebank 5e phase : La correction du parenthétisation Cette correction est aussi réalisée à l'aide d'une souris. Les annotateurs collent tout d'abord les fragments ensemble, ils corrigent les analyses incorrectes et effacent certaines structures. La correction des structures parenthétisées est plus difficile à réaliser que la correction de l'étiquetage des parties du discours. Comme on veut que le Penn Treebank contienne seulement des structures certaines, il y a deux façons d'annoter les structures incertaines : l'étiquette de constituant X et le "pseudo-attachement". L'étiquette de constituant X est utilisé si un annotateur est sûr qu'une séquence de mots est un constituant majeur, mais pas sûr de sa catégorie syntaxique. Dans ces cas, l'annotateur parenthèse seulement la séquence et l'étiquette X. Le "pseudo-attachement" est utilisé pour annoter "les ambiguïtés permanentes prévisibles". L'annotateur indique cela quand une structure est globalement ambiguë même donnée dans un contexte.

30 30 Exemple d'arbres du Penn Treebank – phase 3 ( (S (NP (ADJP Battle-tested industrial) managers) (? here) (? always) (VP buck)) (? (PP up (NP nervous newcomers))) (? (PP with (NP the tale (PP of (NP the (ADJP first)))))) (? (PP of (NP their countrymen))) (? (S (NP *) to (VP visit (NP Mexico)))) (?,) (? (NP a boatload (PP of (NP warriors)) (VP blown (? ashore) (NP 375 years)))) (? ago) (?.)) Battle-tested industrial managers here always buck up nervous newcomers with the tale of the first of their countrymen to visit Mexico a boatload of warriors blown ashore 375 years ago

31 31 Exemple d'arbres du Penn Treebank – phase 5 ( (S (NP Battle-tested industrial managers here) always (VP buck up (NP nervous newcomers) (PP with (NP the tale (PP of (NP (NP the (ADJP first (PP of (NP their countrymen))) (S (NP *) to (VP visit (NP Mexico)))), (NP (NP a boatload (PP of (NP (NP warriors) (VP-1 blown ashore (ADVP (NP 375 years) ago))))) (VP-1 *pseudo-attach*)))))))).)

32 32 Tests comparatifs et évaluation du Penn Treebank Au tout début du projet, une expérience a été réalisée concernant deux modes d'annotation : - l'étiquetage manuel : des annotateurs ont étiqueté des textes entièrement non annotés, à la main - la "correction" : ils ont vérifié et corrigé la production de PARTS. Ce test a montré que l'étiquetage manuel est deux fois plus long que la simple correction (44 min/1000 mots contre 20 minutes) avec deux fois plus de taux de désaccord (7.2% contre 3.5%) et un taux d'erreurs 50% plus élevé. En ce qui concerne la structure, les annotateurs peuvent corriger la structure pleine fournie par Fidditch à une vitesse moyenne d'environ 375 m/h après 3 semaines et d'environ 475 m/h après 6 semaines. La réduction à une représentation plus squelettique augmente la productivité de l'annotateur d'environ 100 à 200 mots/heure. Après 3 ou 4 mois d'entraînement, les annotateurs produisent environ 750, voire même pour certains plus de 1000 mots/heure. Le taux d'erreurs de la version finale est estimé à environ 1 %.

33 33 Corfrans : corpus arboré en français Annotation morpho-syntaxique denvirons mots avec plusieurs variétés de français (présentés dans le Monde, le Hansard, lhebdo…). Marquage syntaxique automatique avec lanalyseur Shallow parseur développé par A. Kinyon qui annote les frontières en minimisant les cas de rattachement (il se base sur les mots fonctionnels pour déterminer les frontières de constituants). Correction manuelle des erreurs commises lors de lanalyse. Un outil daide à la correction pour les annotateurs a été conçu. Définition dun standard dannotation en constituants qui évite les syntagmes vides, les syntagmes discontinus qui posent problème lors de la réalisation darbres syntaxiques. Évaluation et enrichissement du corpus, dans le but de faire le point sur les besoins et les outils des producteurs et utilisateurs de corpus.

34 34 Corfrans : corpus arboré en français Comment léquipe gère-t-elle le problème de la discontinuité de la négation ? Ex : Jean ne veut pas venir ne pas pourrait éventuellement être adverbe continu car il existe des phrases comme Jean préfère ne pas venir mais pour une discontinuité avec dautre mots négatifs je ne veux voir personne on ne peut pas faire un constituant ne personne car elle ne se trouve jamais dans une séquence *je préfère ne personne voir. Il ny aura donc pas de syntagmes discontinues.

35 35 Corfrans : corpus arboré en français Les solutions Ladverbe négatif "ne" fait toujours parti du noyau verbal par contre les forclusifs (mots négatifs : pas, jamais, rien ) ne sont pas rattaché au VN sauf sils sont entre lauxiliaire et le participe passé. Ex : Je ne veux pas venir Jean nest pas venu Je nai rien : Pro vu

36 36 Corpus Corpus arborés de l'allemand 355,096 tokens (20,602 phrases) tirés du quotidien allemand Frankfurter Rundschau (Multilingual Corpus 1 de la European Corpus Initiative). Le corpus est étiqueté et arboré. Les arbres peuvent avoir des branches croisées. Si l'on désire, on peut transformer les branches croisés en trace et obtenir le même format du Penn Treebank.

37 37 Corpus Différents types d'information dans le corpus Part-of-Speech Tags -- Stuttgart-Tübingen-Tagset (STTS) Analyse Morphologique (60,000 tokens) Catégories syntaxiques et fonction grammaticales

38 38 Corpus exemple (CS (S-CJ (PPER-SB Sie) (VVFIN-HD gehen) (CNP-OA (NP-CJ (ADJA-NK gewagte) (NN-NK Verbindungen) ) (KON-CD und) (NN-CJ Risiken) ) (PTKVZ-SVP ein) ) ($,,) (S-CJ (VVFIN-HD versuchen) (VP-OC (NP-OA (PPOSAT-NK ihre) (NN-NK Möglichkeiten) ) (VVIZU-HD auszureizen) ) ($..)

39 39 Canadian Hansards A bilingual corpus of the proceedings of the Canadian parliament Contains parallel texts in English and French which have been used to investigate statistically based machine translation.

40 40 no, it is a falsehood. non, ce est un mensonge. Mr. Speaker, the record speaks for itself with regard to what I said about the price of fertilizer. monsieur le Orateur, ma déclaration sur le prix de les engrais a été confirmée par les événements.

41 41 Les corpus étiquetés sémantiques

42 42 Framenet (from their web page) The Berkeley FrameNet project is creating an on-line lexical resource for English, based on frame semantics and supported by corpus evidence. The aim is to document the range of semantic and syntactic combinatory possibilities (valences) of each word in each of its senses, through manual annotation of example sentences and automatic capture and organization of the annotation results.

43 43 Framenet: basic concepts A lexical unit is a pairing of a word with a meaning. Typically, each sense of a polysemous word belongs to a different semantic frame, a script-like structure of inferences that characterize a type of situation, object, or event. Each frame contains a predicates and what are called frame elements (FEs) - participants and props in the frame whose linguistic expressions are syntactically connected to the target word.

44 44 Framenet Annotation: example Revenge frame Definition An Avenger performs some Punishment on an Offender as a response to an earlier action, the Injury, that was inflicted on an Injured_party. The Avenger need not be identical to the Injured_party but needs to consider the prior action of the Offender a wrong. Importantly, the punishment of the Offender by the Avenger is seen as justified by individual or group opinion rather than by law. Frame elements in the Revenge frame are Avenger, Punishment, Offender, Injury, and Injured_party.

45 45 Framenet Annotation: example Lexical units in this frame include avenge.v, avenger.n, get even.v, retaliate.v, retaliation.n, retribution.n, retributive.a, retributory.a, revenge.v, revenge.n, revengeful.a, revenger.n, vengeance.n, vengeful.a, and vindictive.a. Some example sentences with the lexical unit avenge are given here. [His brothers Avenger] avenged [him Injured_party]. With this, [El Cid Agent] at once avenged [the death of his son Injury]. [Hook Avenger] tries to avenge [himself Injured_party] [on Peter Pan Offender] [by becoming a second and better father Punishment].

46 46 Framenet Annotation: example Here goes a screen dump

47 47 Framenet Annotation: easy cases Annotation is easiest when all and only the core frame elements (the conceptually necessary participants of the frame that a syntactic governor evokes) find syntactic expression in the sentence as separate immediate syntactic dependents of the governor.

48 48 Framenet Annotation:not so easy cases Non-core frame elements are conceptually not necessary in the sense that they do not uniquely characterize the frame. Thus, for most frames standing for events or processes, Time and Place frame elements are not core, and therefore may not always be annotated. Similarly, actions often have a Purpose that the Agent intends to accomplish by performing the action indicated by the target word. However, having a purpose doesn't usually distinguish types of actions and so Purpose is often a non-core frame element, as in the following example: They wake you up [to give you a sleeping pill Purpose].

49 49 Framenet Annotation:missing frame elements Sometimes FEs that are conceptually salient do not show up as lexical or phrasal material in the sentence chosen for annotation. They are however annotated to indicate omissibility conditions. Constructional Null Instantiation (CNI): Constructionally omitted constituents (also called structurally omitted) have their omission licensed by a grammatical construction in which the target word appears and are therefore more or less independent of the LU. Cases of CNI include: the omitted subject of imperative sentences, the omitted agent of passive sentences, the omitted subjects of independent gerunds and infinitives (PRO), and so on

50 50 Framenet Annotation:missing frame lements Family feuds last for generations, and [slurs on honor Injury] are avenged [by murder Punishment]. [CNI Avenger] Get even [with her Offender] [for this Injury] [CNI Avenger] In addition, we use CNI for missing objects in instructional imperatives such as exemplified below, even though in this case the omission is not dependent on a particular construction, but rather on a genre. Cook on low heat until done. [CNI Food] Tie together loosely. [CNI Items]

51 51 Framenet Annotation:missing frame elements Definite Null Instantiation (DNI): Cases of definite null (also called anaphoric) instantiation are those in which the missing element must be something that is already understood in the linguistic or discourse context. In the following example, the Offender is not expressed overtly in the syntax, but its referent has to be known in the context. [The monkey Avenger] avenged [himself Injured_party] [by growing to the size of a giant and setting fire to the city Punishment]. [Offender DNI]

52 52 Framenet Annotation:missing frame elements Indefinite Null Instantiation (INI): The indefinite cases (sometimes also referred to as existential) are illustrated by the missing objects of verbs like eat, sew, bake, drink, etc., that is, cases in which these ordinarily transitive verbs can be spoken of as used intransitively. Molly rarely eats alone; Granny begins baking about a month before Christmas; Jo even drinks heavily on weeknights. There are often special interpretations of the existentially understood missing objects: for example, with eat the missing entity is likely to be a meal, with bake it is likely to be flour-based foods, with drink it is likely to be alcoholic beverages, etc.

53 53 Framenet Annotation:missing frame elements Indefinite Null Instantiation (INI) continued There is no need to retrieve or construct a specific discourse referent. For example, in the Revenge frame, all lexical units happen to allow the frame element Punishment to be omitted under indefinite null instantiation. He took it out on Scarlet in the same way as [he Avenger] avenged [himself Injured_party] [on her Offender] [for the pressures at work and the demands of his first wife Injury]]. [INI Punishment] Note that usually verbs in a frame differ in this respect. For instance, while eat allows its object to be omitted, devour does not, even though they are both in the Ingestion frame.

54 54 Framenet Annotation:frame element conflation In some cases, information about two frame elements is expressed in a single constituent, a situation we call conflation. For instance, in the Revenge frame, the Injured_party may be contained as a possessive in the phrase that realizes the Injury frame element as seen in the following example: [He Avenger] avenged [Pedro 's death Injury] [by taking out the poker-faced Guards Officer Punishment]. In this example, the possessive Pedro's realizes the frame element Injured_party, the person who suffered the Injury. Also, We ousted Jones as mayor vs. We ousted the mayor, where the direct object stands for both the office and the incumbent.

55 55 Proposition Bank all following transparencies on Proposition Bank from web page of ACE project /ACE.htm director:Professor Martha Palmer University of Colorado /ACE.htm Penn

56 56 Proposition Bank How much can current statistical NLP systems be made more domain-independent without prohibitive costs, either in terms of engineering or annotation? The Proposition Bank is designed as a broad-coverage resource to facilitate the development of more general systems. It focuses on the argument structure of verbs, and provides a complete corpus annotated with semantic roles. Correctly identifying the semantic roles of the sentence constituents is a crucial part of interpreting text, for information extraction machine translation or automatic summarization.

57 57 PropBank The Proposition Bank project takes a practical approach to semantic representation, adding a layer of predicate-argument information, or semantic roles, to the syntactic structures of the Penn Treebank. The resulting resource can be thought of as shallow, in that it does not represent coreference, quantification, and many other higher- order phenomena, but also broad, in that it covers every verb in the corpus and allows representative statistics to be calculated.

58 58 Proposition Bank: From Sentences to Propositions Powell met Zhu Rongji Proposition: meet(Powell, Zhu Rongji ) Powell met with Zhu Rongji Powell and Zhu Rongji met Powell and Zhu Rongji had a meeting... When Powell met Zhu Rongji on Thursday they discussed the return of the spy plane. meet(Powell, Zhu) discuss([Powell, Zhu], return(X, plane)) debate consult join wrestle battle meet(Somebody1, Somebody2)

59 59 Capturing semantic roles* George broke [ ARG1 the laser pointer.] [ARG1 The windows] were broken by the hurricane. [ARG1 The vase] broke into pieces when it toppled over. SUBJ

60 60 A TreeBanked Sentence Analysts S NP-SBJ VP have VP beenVP expecting NP a GM-Jaguar pact NP that SBAR WHNP-1 *T*-1 S NP-SBJ VP would VP give the US car maker NP an eventual 30% stake NP the British company NP PP-LOC in (S (NP-SBJ Analysts) (VP have (VP been (VP expecting (NP (NP a GM-Jaguar pact) (SBAR (WHNP-1 that) (S (NP-SBJ *T*-1) (VP would (VP give (NP the U.S. car maker) (NP (NP an eventual (ADJP 30 %) stake) (PP-LOC in (NP the British company)))))))))))) Analysts have been expecting a GM-Jaguar pact that would give the U.S. car maker an eventual 30% stake in the British company.

61 61 The same sentence, PropBanked Analysts have been expecting a GM-Jaguar pact Arg0 Arg1 (S Arg0 (NP-SBJ Analysts) (VP have (VP been (VP expecting Arg1 (NP (NP a GM-Jaguar pact) (SBAR (WHNP-1 that) (S Arg0 (NP-SBJ *T*-1) (VP would (VP give Arg2 (NP the U.S. car maker) Arg1 (NP (NP an eventual (ADJP 30 %) stake) (PP-LOC in (NP the British company)))))))))))) that would give *T*-1 the US car maker an eventual 30% stake in the British company Arg0 Arg2 Arg1 expect(Analysts, GM-J pact) give(GM-J pact, US car maker, 30% stake)

62 62 Frames File Example: expect Roles: Arg0: expecter Arg1: thing expected Example: Transitive, active: Portfolio managers expect further declines in interest rates. Arg0: Portfolio managers REL: expect Arg1: further declines in interest rates

63 63 Frames File example: give Roles: Arg0: giver Arg1: thing given Arg2: entity given to Example: double object The executives gave the chefs a standing ovation. Arg0: The executives REL: gave Arg2: the chefs Arg1: a standing ovation

64 64 Word Senses in PropBank Orders to ignore word sense not feasible for 700+ verbs Mary left the room Mary left her daughter-in-law her pearls in her will Frameset leave.01 "move away from": Arg0: entity leaving Arg1: place left Frameset leave.02 "give": Arg0: giver Arg1: thing given Arg2: beneficiary

65 65 Annotation procedure PTB II - Extraction of all sentences with given verb Create Frame File for that verb (3100+ lemmas, 4400 framesets,118K predicates) Over 300 created automatically via VerbNet First pass: Automatic tagging Second pass: Double blind hand correction Tagging tool highlights discrepancies Third pass: Solomonization (adjudication)

66 66 Trends in Argument Numbering Arg0 = agent Arg1 = direct object / theme / patient Arg2 = indirect object / benefactive / instrument / attribute / end state Arg3 = start point / benefactive / instrument / attribute Arg4 = end point Per word vs frame level – more general?

67 67 Additional tags (arguments or adjuncts?) Variety of ArgMs (Arg#>4): TMP - when? LOC - where at? DIR - where to? MNR - how? PRP -why? REC - himself, themselves, each other PRD -this argument refers to or modifies another ADV –others

68 68 Inflection Verbs also marked for tense/aspect Passive/Active Perfect/Progressive Third singular (is has does was) Present/Past/Future Infinitives/Participles/Gerunds/Finites Modals and negations marked as ArgMs

69 69 Frames: Multiple Framesets Framesets are not necessarily consistent between different senses of the same verb Framesets are consistent between different verbs that share similar argument structures, (like FrameNet)

70 70 Résumé du cours Corpuscollection de plus dun texte Propriétésreprésentatif, de taille finie, électronique Types de corpuséquilibré par échantillonnage de contrôle référence Utilisationslexicographie, théorie linguistique données dentraînement pour apprentissage automatique Exemples de corpus de référenceBritish National Corpus arboréPenn Treebank, Corfrans, sémantique FrameNet PropBank


Télécharger ppt "1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels."

Présentations similaires


Annonces Google