L’analyseur syntaxique Fips

Slides:



Advertisements
Présentations similaires
Les carrés et les racines carrées
Advertisements

1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
MOT Éditeur de modèles de connaissances par objets typés
CARACTERISTIQUES D’UN ENSEMBLE DE FORCES
Réflexivité et réseaux d’ information
Calcul géométrique avec des données incertaines
1 1 Momentum. 2 2 Tout objet en mouvement continuera son mouvement tant que rien nentrave sa progression.
Urbanisation de Systèmes d'Information
Transformez les adjectifs en adverbes
Module d’Enseignement à Distance pour l’Architecture Logicielle
OLST — Université de Montréal
Autorisations Utilisation eCATT
Travaux pratiques sur Nooj
Cours présentielle avec 1er année.
Cours de Syntaxe Formelle : Mise à niveau DEA / DES
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
1 Théorie des Graphes Cycle Eulérien. 2 Rappels de définitions On dit qu'une chaîne est un chemin passant par toutes les arêtes du graphe. On dit qu'un.
Améliorer les performances du chiffrage à flot SYND
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Université Paul Sabatier - Toulouse 3 - Département de GMP Enquête Insertion Professionnelle – Promotion
Contrôles d'accès aux données
Introduction : Compilation et Traduction
Pour un système formel de description linguistique
CONJ 1 CE2 Je comprends les notions daction passée, présente, future.
Les structures de données arborescentes
II. Chaînage, SDD séquentielles
Pour l’utilisation de l’Analyse en Constituants Immédiats
La base textuelle FRANTEXT
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Métagrammaire RLT, 7/02/02. Plan n Rappels : compilateur de BG n Essais sur les verbes n Questions.
Le français dans tous les sens
Projet de Compilation Manuel VACELET, Jean Pierre CAURIER, Gaël COLLE,
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Méthode des k plus proches voisins
4 - Les automates et les lexiques morphologiques : le contenu mot fléchilemmepartie du discourstraits de flexion Habituellement, un lexique morphologique.
La subordination complétive
D1 - 19/05/2014 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
Configuration de Windows Server 2008 Active Directory
Bases de données lexicales
SYSTEMES D’INFORMATION
Nature ou fonction d’un mot
MOT Éditeur de modèles de connaissances par objets typés
1 Du pixel à lobjet : méthodes stochastiques X. Descombes Projet Ariana Orféo, 14 juin 2005.
IFT313 Introduction aux langages formels Froduald Kabanza Département dinformatique Université de Sherbrooke Grammaires attribuées.
Expressions régulières et hash tables
SPI - Serial Peripheral Interface Pour aller lire le CAN et écrire dans le CNA.
Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.
1 DTSI / Service Cognitique Robotique et Interaction OUTILEX Démonstrateur du CEA-LIST : moteur d'interrogation crosslingue (français, anglais, espagnol)
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Module d’Enseignement à Distance pour l’Architecture Logicielle
Forum des Industries de la Langue, 17 mars 2010
Chapitre 3 Syntaxe et sémantique.
Chapitre 2 La description du langage
(A. Meurant - UCL )1 Chapitre Quatrième Quelques définitions de base.
Structures de données IFT-2000
Structures de données IFT-2000 Abder Alikacem La récursivité Département d’informatique et de génie logiciel Édition Septembre 2009.
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
1 Modèle pédagogique d’un système d’apprentissage (SA)
Paradigmes des Langages de Programmation
Master 1 – Sciences du Langage –
Le formalisme utilisé pour Lexical Functional Grammar Lionel Clément Signes - Labri Mosaïque 1er décembre 2006.
Architecture et modularité du modèle L'exemple de GUST et des grammaires de correspondance polarisées Sylvain Kahane Modyco, Université Paris.
Algorithmique et programmation (1)‏
Théories, formalismes, modèles Sylvain Kahane Modyco, Université Paris 10 - Nanterre Mosaïque, Paris, 1/12/2006.
Introduction Formalisation de GUST basée sur GUP (GUST = Grammaire d’Unification Sens-Texte, Kahane 2001) (GUP = Grammaire d’Unification Polarisée, Kahane.
Modélisation des documents: DTD et Schéma
Le Traitement Automatique des Langues (TAL)
SYNTAXE SYNTAXE Comment faire l’analyse logique de la phrase composée? Beata Śmigielska Institut des Langues Romanes et de Traduction Université de Silésie.
Les signes grammaticaux dans l’interface sémantique-syntaxe d’une grammaire d’unification Sylvain Kahane Lattice, Paris 7 / Paris 10 TALN 2003, Batz-sur-mer.
Transcription de la présentation:

L’analyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.ch, Luka.Nerima@unige.ch http://www.latl.unige.ch 9 octobre 2009 ATALA

La recherche en TAL au LATL Développement d’une plateforme multilingue pour le traitement automatique des langues Analyseurs, étiqueteurs, phonétiseurs, extracteurs terminologiques, générateurs de phrases, etc. Cœur du système : l’analyseur Fips Analyseur syntaxique « profond », basé sur une interprétation assez libre de la théorie de la grammaire générative chomskyenne Quelques propriétés de Fips analyseur ascendant, avec une stratégie d’attachement à droite traitement parallèle des alternatives recours à des heuristiques pour limiter le nombre d’alternatives 9 octobre 2009 ATALA

Le modèle de grammaire Basée sur le modèle chomskyen des principes et paramètres, ainsi qu’en partie sur le modèle minimaliste. Toutes les structures syntaxiques obéissent au même schéma: où X (∈ {N, V, A, D, P, Adv,Conj}) est la tête de la projection XP, L et R sont des listes de projections maximales (les sous-constituants gauches et droits du syntagme XP). Les attachements à gauche et à droite sont décrits dans un (pseudo) formalisme, à la fois relativement intuitif et facile à encoder. [XP L X R ] 9 octobre 2009 ATALA

Le mécanisme de projection Crée une projection syntaxique soit à partir d’un item lexical: X --> XP X ∈ {N, V, A, D, P, Adv, Conj} projection étendue (métaprojection): verbe conjugué --> pronoms et noms propres --> DP TP T VP 9 octobre 2009 ATALA

Combinaison (merge) Combine deux projections adjacentes A et B attache A comme sous-constituant de B (=attachement à gauche) ; attache B comme sous-constituant d’un nœud actif sur l’arête droite de A (attachement à droite) : A A B B 9 octobre 2009 ATALA

Procédure d’attachement « coin droit » Pile de nœuds actifs : TP … DP VP DP NP Jean a lu un poème 9 octobre 2009 ATALA

Exemples de règles d’attachement à gauche AP + NP a.AgreeWith(b, {number, gender}) a.HasFeature( prenominalAdj) DP + TP a.AgreeWith(b, {number, person}) a.IsArgumentOf(b, subject) DP + PP b.HasFeature(postposition) 9 octobre 2009 ATALA

Exemples de règles d’attachement à droite NP + AP a.AgreeWith(b, {number, gender}) ~b.HasFeature( prenominalAdj) VP + DP b.IsArgumentOf(a, {directObject}) PP + DP a.HasFeature(preposition) a.EmptyRight() 9 octobre 2009 ATALA

Grammaire procédurale La partie procédurale de la grammaire de Fips comprend : Un mécanisme de construction de chaînes (mouvement-wh, constructions clitiques dans les langues romanes, etc.) Un mécanisme de traitement des structures prédicat-arguments (verbes, noms, adjectifs prédicatifs) La structure argumentale est spécifiée dans l’entrée lexicale (nombre et type des arguments – fonction grammaticale et attributs, par ex. type de la préposition pour un argument de catégorie PP, type de phrase pour un argument S, etc.). 9 octobre 2009 ATALA

Opérations sur la structure argumentale Certains processus grammaticaux modifient la structure argumentale d’un prédicat : Le passif peut être vu comme un processus d’absorption du sujet, soit en syntaxe (anglais, langues romanes, etc.), soit dans la morphologie (hongrois, japonais, latin, etc.). Constructions causatives En français, la construction faire + Vinf est analysée comme un processus de modification de la structure argumentale du verbe infinitif par l’adjonction d’un argument supplémentaire (le sujet du verbe « faire »), ce qui provoque le reclassement du sujet du verbe infinitif sous la forme d’un objet direct ou d’un objet indirect. Paul corrige cette épreuve Jean a fait corriger cette épreuve à Paul Jean lui a fait corriger cette épreuve 9 octobre 2009 ATALA

Identification des collocations Les collocations associent deux unités lexicales qui entretiennent un rapport syntaxique étroit, soit de modification, soit de complémentation. La procédure de reconnaissance intervient au moment de l’attachement d’un constituant. Paul est un gros fumeur Paul a battu son record du saut en longueur Le mécanisme de chaînage permet d’exprimer la relation entre position de « surface » et position « profonde ». Le record qu’elle a battu datait d’une dizaine d’années Ce record, Jean le considère comme difficile à battre 9 octobre 2009 ATALA

Catalogue des lexiques lexique monolingue mots mots composés (mots contigus) lexique des collocations combinaison arbitraire et récurrente de mots, non nécessairement adjacents, nombreuses configurations syntaxiques p.e. exercer - profession, république bananière, code de la route contient aussi les idiomes - avaler la pilule, promettre la lune 9 octobre 2009 ATALA

Schéma conceptuel du lexique monolingue 1 < est réalisé par * Paradigme flexionnel Lexème forme de base « xor » autre forme Nom Verbe Adj Prep Det 1 * type Nom traits Nom type V traits syn traits sem traits Adj type type Variante Mot * varie 1 graphie alternative type variante chaîne orthographique chaîne phonétique Nom Verbe Adj Prep Det Adv Conj Interj genre nombre pers. temps mode genre nombre 0..1 (0)1..4 0..1 Arg N Arg V Arg Adj fct gram fct thema traits sel fct gram fct thema traits sel fct gram fct thema traits sel association généralisation (est un) composition 9 octobre 2009 ATALA

Le lexique des collocations ensemble d'associations binaires d’items lexicaux Item lexical 2 associe ^ Lexème Collocation chaîne orthographique type (configuration syntaxique) traits de figement * définition récursive de la collocation permet de prendre en compte des collocations > 2 termes p.e. tomber en panne sèche, arme de destruction massive 9 octobre 2009 ATALA

Interface monolingue 9 octobre 2009 ATALA

Interface monolingue 9 octobre 2009 ATALA

Interface monolingue - insertion 9 octobre 2009 ATALA

Interface monolingue - insertion 9 octobre 2009 ATALA

Interface monolingue - insertion 9 octobre 2009 ATALA

Interface monolingue - insertion 9 octobre 2009 ATALA

Interface collocation pour l'entrée manuelle des collocations outil d'assistance sophistiqué 1) analyse de la collocation entrée (Fips) 2) propose les unités lexicales (base et collocatif) 3) détermine le type de la collocation 4) détermine les traits de la collocation 9 octobre 2009 ATALA

Interface collocation - insertion 9 octobre 2009 ATALA

Lexiques - quelques chiffres lexèmes fr: 40’163 entrées mots fr: 237’729 entrées collocations fr: 14’091 entrées 9 octobre 2009 ATALA

Conclusion L’expérience accumulée avec les différentes versions de l’analyseur Fips a permis d’affiner (et souvent de simplifier) par étapes la structure et l’implémentation de ce modèle d’analyseur, jusqu’à la version actuelle. Le double choix d’un modèle linguistique abstrait (théorie chomskyenne) et d’une modélisation basée sur la notion d’objets se révèle judicieux pour la réalisation d’un analyseur multilingue. L’évaluation d’un analyseur syntaxique est une opération difficile, qui n’a pas encore été entreprise pour l’analyseur Fips. En attendant les résultats de la campagne d’évaluation PASSAGE, nous pouvons faire état des quelques chifffres suivants : > 80% d’analyses complètes (anglais et français) sur des corpus journalistiques ; ~0,2% de mots inconnus (hors noms propres) ; Temps de traitement : 100-250 mots/seconde. 9 octobre 2009 ATALA