La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Reconnaissance automatique des constructions impersonnelles Laurence DANLOS Université Paris 7, LATTICE Institut Universitaire de France.

Présentations similaires


Présentation au sujet: "Reconnaissance automatique des constructions impersonnelles Laurence DANLOS Université Paris 7, LATTICE Institut Universitaire de France."— Transcription de la présentation:

1 Reconnaissance automatique des constructions impersonnelles Laurence DANLOS Université Paris 7, LATTICE Institut Universitaire de France

2 ILIMP Outil : ILIMP Entrée : texte brut en français Entrée : texte brut en français Sortie : le texte d’entrée où chaque occurrence de il est marqué par une des balises : Sortie : le texte d’entrée où chaque occurrence de il est marqué par une des balises : –[ANA] : Il [ANA] est violet (Elle est violette) –[IMP] : Il [IMP] pleut (*Elle pleut) –[AMB] : Il [AMB] est certain que Fred viendra

3 ILIMP Utilisation d’ILIMP En amont d’un système de résolution des anaphores Raffinement d’un tagger : étiquette PRO  PRO-ANA, PRO- IMP Intégration dans la chaîne de traitements d’un analyseur modulaire ILIMP Produits dérivés d’ILIMP

4 Travaux connexes (sur l’anglais) Lapin, Leass, 1994 : système à bases de régles linguistiques, mais qui repose sur une analyse syntaxique Kennedy, Bogurev, 1996 Evans 2001: techniques d’apprentissage

5 Méthode pour ILIMP Données linguistiques : le lexique- grammaire développé au LADL UNITEX Outil informatique : UNITEX développé par l’IGM (Institut Gaspard Monge)

6 Constructions impersonnelles Constructions intrinsèquement impersonnelles Constructions avec un « sujet profond » extraposé : –Phrastique (complétive ou infinitive) –Nominal

7 Constructions intrinsèquement impersonnelles 45 verbes météorologiques de (BGL 1976) il neige (V31i) il fait beau 21 verbes de la Table 17 de (Gross 1975) Il faut que Fred vienne 38 expressions figées de (Gross 1993) il était une fois s’il te plaît quoi qu’il en soit

8 Constructions impersonnelles avec sujet profond phrastique 682 Adjectifs (L. Picabia, A. Meunier) Il est probable que Fred viendra 88 être Prép X (L. Danlos) Il est de règle de porter un chapeau 21 Verbes de la Table 5 (M. Gross)Il plaît à Paul que Fred vienne 232 Verbes des Tables 6 au 9 (M. Gross) Il a été dit/se raconte que Fred viendra

9 Constructions impersonnelles avec sujet profond nominal Verbes sans complétive (J.P. Boons, A. Guillet, C. Leclère) : Langue courante Il manque/reste du pain Langue châtiée (verbes au passif ou verbes « inaccusatifs ») Il a été mangé trois gâteauxIl est venu / a dormi trois personnes dans ce lit

10 Complémentation des têtes lexicales Pour une même tête lexicale : construction impersonnelle ou personnelle selon la complémentation Impersonnel : Il est difficile de résoudre ce problème Personnel : Il est difficile à résoudre, ce problème

11 UNITEX Outil qui permet d’écrire des patrons linguistiques (expressions régulières, automates et transducteurs) qui sont localisés dans le texte d’entrée Pré-traitement du texte d’entrée : –découpage en phrases –assignement des parties du discours et traits flexionnels à chaque token (dico DELAS) –Pas de désambiguïsation (pas de tagging)

12 UNITEX pour ILIMP Ecrire un ensemble de patrons comme : Il :Adj1 de Il est difficile de résoudre ce problème [IMP][ANA] [ANA] valeur par défaut : Il est difficile à résoudre [IMP]

13 ILIMP Réalisation de ILIMP Contexte gauche de la tête lexicale Contexte droite de la tête lexicale

14 Contexte gauche de la tête lexicale Simple : Il est difficile de résoudre ce problème Complexe :Il peut lui paraître très difficile de résoudre ce problèmeIl ne s'est pas avéré difficile de résoudre ce problème Pas de réelles difficultés : laborieux

15 Contexte droite de la tête lexicale Ambiguïtés syntaxiques Ambiguïtés lexicales Autres ambiguïtés

16 Ambiguïtés syntaxiques Une séquence de parties de discours peut recevoir plusieurs analyses syntaxiques : Il est difficile pour * de Il est difficile pour ( *) GN de Il est difficile pour (les étudiants qui viennent ici) de résoudre ce problème Il est difficile pour ( * de ) GN Il est difficile pour (les étudiants qui viennent juste de résoudre ce problème) [IMP] [ANA]

17 Ambiguïtés syntaxiques Utiliser la balise [AMB] : [AMB] Il [AMB] est difficile pour * de A utiliser avec modération : peu utile pour les traitements ultérieurs Heuristiques basées sur des fréquences : [IMP] Il [IMP] est difficile pour * de Nombreuses heuristiques basées sur mon intuition linguistique et/ou sur des études quantitatives dans les corpus

18 Ambiguïtés lexicales Quelques cas : certain avec une complétive Il est certain que Fred viendra certain a deux sens : probable et convaincu Pas de différence de fréquences : balise [AMB] [AMB] Il [AMB] est certain que P

19 Autres ambiguïtés le verbe manquer ou rester suivi d’un GN : Il [ANA] manque de poivre (ce rôti)Il [IMP] manque du poivre (dans cette maison) Il [ANA] reste la priorité du gouvernement (le chômage)Il [IMP] reste la valise du chef (dans la voiture)

20 ILIMP Conclusion sur la réalisation d’ILIMP Recours à de nombreuses heuristiques pour éviter un emploi abusif de la balise [AMB]

21 Evaluation d’ILIMP UNITEX Corpus Le Monde 1994 de 3. 782.613 tokens segmenté par UNITEX en 71.293 phrases 13.611 occurrences de il 20.540 occurrences de il, elle, ils, elles 66% de il sur les pronoms personnels sujet approximativement : 1/5 phrase a pour sujet il

22 Evaluation d’ILIMP Extraction de 8544 phrases contenant au moins une occurrence de il Près de 10.000 occurrences de il Résultats d’ILIMP évalués manuelle- ment par des amis et collègues

23 ILIMP Evaluation d’ILIMP Sur 10 000 occurrences de il : 253 erreurs soit un taux de précision de 97,5 %

24 ILIMP Commentaires sur les erreurs de ILIMP Premier type d’erreur: il balisé à tort [IMP] au lieu de [ANA] : 33 Second type d’erreur: il balisé à tort [ANA] au lieu de [IMP] : 208 Autres erreurs : 12

25 il balisé à tort [IMP] au lieu de [ANA] Très peu d’erreurs : 0,3% il y a «théoriquement»ambiguë : –il[IMP] y a quatre ans / une solution à ce problème –Fred, dans ce village, il[ANA] y a des amis [IMP] Dans ILIMP : il[IMP] y a Sur corpus : 2 erreurs sur 1500 Il[ANA] revient de Rimini, il[ANA] y a donné la réplique à …

26 il balisé à tort [ANA] au lieu de [IMP] Plus d’erreurs : 2% [ANA] est la valeur par défaut Lacunes dans les patrons

27 il balisé à tort [ANA] au lieu de [IMP] 1/4 Lacunes de « paresse/manque de temps » : –les guillemets : Il[ANA] était " même souhaitable " que celui-ci soit issu " de l’opposition ". –les coordinations : Il[ANA] est donc indispensable et légitime de les aider –les inversions du sujet : Est-il[ANA] inconcevable que...

28 il balisé à tort [ANA] au lieu de [IMP] 2/4 Lacunes lexicales : –Il faut compléter la liste des 682 adjectifs à sujet phrastique extraposable Listes fermées et stables ? –Oui ? Il semble tout à fait myope, voire aveugle, de penser que la situation ne peut se détériorer ? Cette action/cette idée est myope

29 il balisé à tort [ANA] au lieu de [IMP] 3/4 Lacunes syntaxiques : –Sujet phrastique extraposé obligatoire, mais pas toujours le cas : Comme il a été annoncé / il a été prétendu Comme il arrive souvent / il conviendrait

30 il balisé à tort [ANA] au lieu de [IMP] 4/4 Lacunes linguistiques : –Erreurs dues à des sujets profonds nominaux : Il[ANA] s’est formé un cercle d’inimitié autour de cet individu abject Ce quatrième type d’erreur est difficile

31 Autres erreurs : 0,2% il pas pronom sujet : Cela a commencé dans la seconde moitié du 18ème, quand, à Milan, se publie cette revue illuministe appelée Il[ANA] Caffè. fautes de frappe/d’orthographe : Il[ANA] y vingt-cinq ansPuis Il[ANA] ont franchi les obstacles dans les bois

32 Corpus différents Le Monde – 42% des occurrences de il doivent être balisées [IMP] –Taux de précision d’ILIMP : 97,5% Textes littéraires du XIXème siècle –49,8% des occurrences de il doivent être balisées [IMP] –Taux de précision d’ILIMP : 96,8%

33 Erreurs provenant d'ambiguïtés morphologiques Comptabilisées dans les erreurs d’ILIMP Il [IMP] été (ADV) que P Il a été choisi que les séances se feraient le matin vers 9h Il a été choisi plutôt que l’acier ou le béton pour soutenir une toiture de 170 mètres mètres : forme finie du verbe métrer, pluriel du nom mètre

34 Intégration d’ILIMP dans une cha î ne de traitements Avant ou après un taggeur ? Avant ou après un système de reconnaissance d’entités nommées ?

35 ILIMP Conclusion sur ILIMP Outil qui donne de très bons résultats (surtout en considérant qu’il part d’un texte brut) Outil qui peut être complété par des produits dérivés, e.g. identification des fonctions syntaxiques « profondes » ou identification de l’amas verbal (Gerdes et Kahane)Il est probable que [ sujet-profond Fred viendra]

36 Conclusion sur la méthode ILIMP est portable à d’autres langues ILIMP est portable à d’autres langues La méthode (données linguistiques + UNITEX) est portable à d’autres tâches La méthode (données linguistiques + UNITEX) est portable à d’autres tâches –tri dans les constructions pronominales –désambiguïsation de que –désambiguïsation de que (voir la communication suivante de M. P. Jacques) Les petits ruisseaux font les grandes rivières


Télécharger ppt "Reconnaissance automatique des constructions impersonnelles Laurence DANLOS Université Paris 7, LATTICE Institut Universitaire de France."

Présentations similaires


Annonces Google