Reconnaissance automatique des constructions impersonnelles Laurence DANLOS Université Paris 7, LATTICE Institut Universitaire de France.

Slides:



Advertisements
Présentations similaires
Comment annoter un texte
Advertisements

Prof. Assist. Dr Penphan THIPKONG
Le discours indirect.
L’apprentissage de la lecture: Le CP
Analyse et structuration thématiques
L'étiquetage morpho-syntaxique d'un corpus oral Claudia-Mariana Ionescu Ripoll.
La maîtrise de la langue orale en maternelle
Etude de la langue LOrthographe grammaticale. Constat Les élèves connaissent les règles. Ils savent les appliquer dans les exercices. Et pourtant ! Ils.
La transformation passive
Chap 1 Grammaires et dérivations.
Cours présentielle avec 1er année.
Accord du verbe ► Règles générales
L’accord du verbe Trop facile?.
Les registres de langue
L’observation réfléchie de la langue au cycle 3
Un jour, un enseignant demanda à ses étudiants d'écrire les nom des autres étudiants dans la classe sur deux feuilles de papier et de laisser un espace.
Les Phrases subordonnées
Accord du verbe ► Règles générales
Pour un système formel de description linguistique
LES REGLES DE BASE DE L’ORTHOGRAPHE
La conjugaison Les Verbes.
La base textuelle FRANTEXT
La subordination complétive
Project de la langue française
Le langage oral en maternelle
Enseigner la conjugaison Observation Réfléchie de la Langue
Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.
1 DTSI / Service Cognitique Robotique et Interaction OUTILEX Démonstrateur du CEA-LIST : moteur d'interrogation crosslingue (français, anglais, espagnol)
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Forum des Industries de la Langue, 17 mars 2010
Grammaire – Leçon 10 Les verbes impersonnels
La compréhension en lecture
Les activités de langue .
Linguistique Contrastive
Paradigmes des Langages de Programmation
L'analyse doit mettre en évidence la nature et la fonction du mot
ACCORD DES PARTICIPES PASSES
L’observation réfléchie de la langue
Rédaction d’un dossier SVT 3eme.
Verbe pronominal au passé composé
Aide personnalisée Démarche Constat : Eléments d’évaluation, puis la différenciation s’avère une aide insuffisante. Définition d’objectifs s’inspirant.
D.E ZEGOUR Ecole Supérieure d’Informatique. Problèmes de décision Concepts de base Expressions régulières Notation particulière pour exprimer certaines.
Aujourd'hui, nous allons étudier les classes grammaticales des mots.
Mon cahier de réussite Classe de CM
L’INFINITIF : DEUXIEME PARTIE
Dominique LAURENT Patrick SEGUELA
L’adjectif qualificatif (ADJ)
Module : Langage XML (21h)
Phrase simple et phrase complexe
Le Traitement Automatique des Langues (TAL)
Quand j’écris un texte…
Module d’auto-apprentissage
La phrase de base Pour avoir une phrase de base, il faut:
SE PRÉPARER À L’ÉPREUVE DU BREVET
MAITRISE DE LA LANGUE FRANCAISE A LA MATERNELLE
Verbe Mot qui exprime / indique une action ou l’état d’une chose ou d’une personne. Action : manger, rire, voir État : être, sembler, paraitre.
Progression/Programmation – Français (1/3)
Progressivité de l’enseignement grammatical A partir d’un document rédigé par : - Claudine GARCIA-DEBANC - Véronique PAOLICCI - Nicole RAMIREZ - Pierre.
La phrase négative La négation « ne…pas ».
Les propositions dans la phrase
Les discours rapportés
Préparation d’un mémoire
Un mode impersonnel Les infinitifs présents et passés
Discours direct - indirect et alors il m’a demandé si tu...
L’adverbe et le syntagme adverbial. Adverbe  Classe résiduelle, difficile à définir par un ensemble de propriétés syntaxiques et morphologiques homogènes.
Le Verbe Transitif et intransitif. Définition  Le verbe (du latin verbum : mot, verbe) et le nom, ensemble constituent la partie du discours principale.
Le syntagme prépositionnel
LE COMPLÉMENT D’OBJET(CO ) GROUPE 12. DÉFINITION DU COMPLÉMENT D’OBJET(C0) Le CO ou complément du verbe est un complément essentiel qui fait partie du.
Les signes grammaticaux dans l’interface sémantique-syntaxe d’une grammaire d’unification Sylvain Kahane Lattice, Paris 7 / Paris 10 TALN 2003, Batz-sur-mer.
Verbes. 4 formes possibles!. Verbes à la forme active : Le verbe est à la forme active quand le sujet fait l'action : Philippe caresse le chien (le sujet.
Transcription de la présentation:

Reconnaissance automatique des constructions impersonnelles Laurence DANLOS Université Paris 7, LATTICE Institut Universitaire de France

ILIMP Outil : ILIMP Entrée : texte brut en français Entrée : texte brut en français Sortie : le texte d’entrée où chaque occurrence de il est marqué par une des balises : Sortie : le texte d’entrée où chaque occurrence de il est marqué par une des balises : –[ANA] : Il [ANA] est violet (Elle est violette) –[IMP] : Il [IMP] pleut (*Elle pleut) –[AMB] : Il [AMB] est certain que Fred viendra

ILIMP Utilisation d’ILIMP En amont d’un système de résolution des anaphores Raffinement d’un tagger : étiquette PRO  PRO-ANA, PRO- IMP Intégration dans la chaîne de traitements d’un analyseur modulaire ILIMP Produits dérivés d’ILIMP

Travaux connexes (sur l’anglais) Lapin, Leass, 1994 : système à bases de régles linguistiques, mais qui repose sur une analyse syntaxique Kennedy, Bogurev, 1996 Evans 2001: techniques d’apprentissage

Méthode pour ILIMP Données linguistiques : le lexique- grammaire développé au LADL UNITEX Outil informatique : UNITEX développé par l’IGM (Institut Gaspard Monge)

Constructions impersonnelles Constructions intrinsèquement impersonnelles Constructions avec un « sujet profond » extraposé : –Phrastique (complétive ou infinitive) –Nominal

Constructions intrinsèquement impersonnelles 45 verbes météorologiques de (BGL 1976) il neige (V31i) il fait beau 21 verbes de la Table 17 de (Gross 1975) Il faut que Fred vienne 38 expressions figées de (Gross 1993) il était une fois s’il te plaît quoi qu’il en soit

Constructions impersonnelles avec sujet profond phrastique 682 Adjectifs (L. Picabia, A. Meunier) Il est probable que Fred viendra 88 être Prép X (L. Danlos) Il est de règle de porter un chapeau 21 Verbes de la Table 5 (M. Gross)Il plaît à Paul que Fred vienne 232 Verbes des Tables 6 au 9 (M. Gross) Il a été dit/se raconte que Fred viendra

Constructions impersonnelles avec sujet profond nominal Verbes sans complétive (J.P. Boons, A. Guillet, C. Leclère) : Langue courante Il manque/reste du pain Langue châtiée (verbes au passif ou verbes « inaccusatifs ») Il a été mangé trois gâteauxIl est venu / a dormi trois personnes dans ce lit

Complémentation des têtes lexicales Pour une même tête lexicale : construction impersonnelle ou personnelle selon la complémentation Impersonnel : Il est difficile de résoudre ce problème Personnel : Il est difficile à résoudre, ce problème

UNITEX Outil qui permet d’écrire des patrons linguistiques (expressions régulières, automates et transducteurs) qui sont localisés dans le texte d’entrée Pré-traitement du texte d’entrée : –découpage en phrases –assignement des parties du discours et traits flexionnels à chaque token (dico DELAS) –Pas de désambiguïsation (pas de tagging)

UNITEX pour ILIMP Ecrire un ensemble de patrons comme : Il :Adj1 de Il est difficile de résoudre ce problème [IMP][ANA] [ANA] valeur par défaut : Il est difficile à résoudre [IMP]

ILIMP Réalisation de ILIMP Contexte gauche de la tête lexicale Contexte droite de la tête lexicale

Contexte gauche de la tête lexicale Simple : Il est difficile de résoudre ce problème Complexe :Il peut lui paraître très difficile de résoudre ce problèmeIl ne s'est pas avéré difficile de résoudre ce problème Pas de réelles difficultés : laborieux

Contexte droite de la tête lexicale Ambiguïtés syntaxiques Ambiguïtés lexicales Autres ambiguïtés

Ambiguïtés syntaxiques Une séquence de parties de discours peut recevoir plusieurs analyses syntaxiques : Il est difficile pour * de Il est difficile pour ( *) GN de Il est difficile pour (les étudiants qui viennent ici) de résoudre ce problème Il est difficile pour ( * de ) GN Il est difficile pour (les étudiants qui viennent juste de résoudre ce problème) [IMP] [ANA]

Ambiguïtés syntaxiques Utiliser la balise [AMB] : [AMB] Il [AMB] est difficile pour * de A utiliser avec modération : peu utile pour les traitements ultérieurs Heuristiques basées sur des fréquences : [IMP] Il [IMP] est difficile pour * de Nombreuses heuristiques basées sur mon intuition linguistique et/ou sur des études quantitatives dans les corpus

Ambiguïtés lexicales Quelques cas : certain avec une complétive Il est certain que Fred viendra certain a deux sens : probable et convaincu Pas de différence de fréquences : balise [AMB] [AMB] Il [AMB] est certain que P

Autres ambiguïtés le verbe manquer ou rester suivi d’un GN : Il [ANA] manque de poivre (ce rôti)Il [IMP] manque du poivre (dans cette maison) Il [ANA] reste la priorité du gouvernement (le chômage)Il [IMP] reste la valise du chef (dans la voiture)

ILIMP Conclusion sur la réalisation d’ILIMP Recours à de nombreuses heuristiques pour éviter un emploi abusif de la balise [AMB]

Evaluation d’ILIMP UNITEX Corpus Le Monde 1994 de tokens segmenté par UNITEX en phrases occurrences de il occurrences de il, elle, ils, elles 66% de il sur les pronoms personnels sujet approximativement : 1/5 phrase a pour sujet il

Evaluation d’ILIMP Extraction de 8544 phrases contenant au moins une occurrence de il Près de occurrences de il Résultats d’ILIMP évalués manuelle- ment par des amis et collègues

ILIMP Evaluation d’ILIMP Sur occurrences de il : 253 erreurs soit un taux de précision de 97,5 %

ILIMP Commentaires sur les erreurs de ILIMP Premier type d’erreur: il balisé à tort [IMP] au lieu de [ANA] : 33 Second type d’erreur: il balisé à tort [ANA] au lieu de [IMP] : 208 Autres erreurs : 12

il balisé à tort [IMP] au lieu de [ANA] Très peu d’erreurs : 0,3% il y a «théoriquement»ambiguë : –il[IMP] y a quatre ans / une solution à ce problème –Fred, dans ce village, il[ANA] y a des amis [IMP] Dans ILIMP : il[IMP] y a Sur corpus : 2 erreurs sur 1500 Il[ANA] revient de Rimini, il[ANA] y a donné la réplique à …

il balisé à tort [ANA] au lieu de [IMP] Plus d’erreurs : 2% [ANA] est la valeur par défaut Lacunes dans les patrons

il balisé à tort [ANA] au lieu de [IMP] 1/4 Lacunes de « paresse/manque de temps » : –les guillemets : Il[ANA] était " même souhaitable " que celui-ci soit issu " de l’opposition ". –les coordinations : Il[ANA] est donc indispensable et légitime de les aider –les inversions du sujet : Est-il[ANA] inconcevable que...

il balisé à tort [ANA] au lieu de [IMP] 2/4 Lacunes lexicales : –Il faut compléter la liste des 682 adjectifs à sujet phrastique extraposable Listes fermées et stables ? –Oui ? Il semble tout à fait myope, voire aveugle, de penser que la situation ne peut se détériorer ? Cette action/cette idée est myope

il balisé à tort [ANA] au lieu de [IMP] 3/4 Lacunes syntaxiques : –Sujet phrastique extraposé obligatoire, mais pas toujours le cas : Comme il a été annoncé / il a été prétendu Comme il arrive souvent / il conviendrait

il balisé à tort [ANA] au lieu de [IMP] 4/4 Lacunes linguistiques : –Erreurs dues à des sujets profonds nominaux : Il[ANA] s’est formé un cercle d’inimitié autour de cet individu abject Ce quatrième type d’erreur est difficile

Autres erreurs : 0,2% il pas pronom sujet : Cela a commencé dans la seconde moitié du 18ème, quand, à Milan, se publie cette revue illuministe appelée Il[ANA] Caffè. fautes de frappe/d’orthographe : Il[ANA] y vingt-cinq ansPuis Il[ANA] ont franchi les obstacles dans les bois

Corpus différents Le Monde – 42% des occurrences de il doivent être balisées [IMP] –Taux de précision d’ILIMP : 97,5% Textes littéraires du XIXème siècle –49,8% des occurrences de il doivent être balisées [IMP] –Taux de précision d’ILIMP : 96,8%

Erreurs provenant d'ambiguïtés morphologiques Comptabilisées dans les erreurs d’ILIMP Il [IMP] été (ADV) que P Il a été choisi que les séances se feraient le matin vers 9h Il a été choisi plutôt que l’acier ou le béton pour soutenir une toiture de 170 mètres mètres : forme finie du verbe métrer, pluriel du nom mètre

Intégration d’ILIMP dans une cha î ne de traitements Avant ou après un taggeur ? Avant ou après un système de reconnaissance d’entités nommées ?

ILIMP Conclusion sur ILIMP Outil qui donne de très bons résultats (surtout en considérant qu’il part d’un texte brut) Outil qui peut être complété par des produits dérivés, e.g. identification des fonctions syntaxiques « profondes » ou identification de l’amas verbal (Gerdes et Kahane)Il est probable que [ sujet-profond Fred viendra]

Conclusion sur la méthode ILIMP est portable à d’autres langues ILIMP est portable à d’autres langues La méthode (données linguistiques + UNITEX) est portable à d’autres tâches La méthode (données linguistiques + UNITEX) est portable à d’autres tâches –tri dans les constructions pronominales –désambiguïsation de que –désambiguïsation de que (voir la communication suivante de M. P. Jacques) Les petits ruisseaux font les grandes rivières