Intex: une plate-forme pour les grammaires locales Du concordancier au moteur danalyse par grammaires locales Antonio BALVET Paris X, UMR MoDyCo Thales.

Slides:



Advertisements
Présentations similaires
Qu’est-ce que LingPro ? LingPro est la branche ingénierie linguistique de i-KM La collaboration i-KM / LingPro est le résultat d’un partenariat sous forme.
Advertisements

Les présentateurs doivent souvent transmettre des informations techniques à des auditeurs qui connaissent moins bien le sujet et le vocabulaire spécifique.
GPO Group Policy Object
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Rencontre avec… DICTIONNAIRES EN LIGNE ET OUTILS DE TRADUCTION
Reconnaissance de la parole
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Utilisation didactique des extractions lexicales des corpus
Utilisation didactique des extractions lexicales des corpus
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Par Aline Mahot et Charlyne Routier
Chap 1 Grammaires et dérivations.
Introduction à l'informatique linguistique
Archiaid scrl depuis 1989.
SECURITE DU SYSTEME D’INFORMATION (SSI)
Algorithmique et Programmation
Initiation à la conception de systèmes d'information
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
Méthode de scénarisation
Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT
Publispostage Menu Outils / Lettres et publipostage
Des outils pour le développement logiciel
MOT Éditeur de modèles de connaissances par objets typés
Xpath XML Path language par Yves Bekkers
IFT313 Introduction aux langages formels Froduald Kabanza Département dinformatique Université de Sherbrooke Révision de mi-session.
Expressions régulières et hash tables
IFT Complexité et NP-complétude
Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.
OUTILEX Présentation des résultats
1 DTSI / Service Cognitique Robotique et Interaction OUTILEX Démonstrateur du CEA-LIST : moteur d'interrogation crosslingue (français, anglais, espagnol)
Démonstrateur Lingway
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Module 2 : Préparation de l'analyse des performances du serveur
Forum des Industries de la Langue, 17 mars 2010
Chapitre 3 Syntaxe et sémantique.
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
IFT Complexité et NP-complétude Chapitre 0 Rappels.
Expressions régulières et hash tables
PROJET PEDAGOGIQUE MULTIMEDIA :
Algorithmes et Programmation
Le système informatique et le système d’information
Unified Modeling Langage
D.E ZEGOUR Ecole Supérieure d’Informatique. Problèmes de décision Concepts de base Expressions régulières Notation particulière pour exprimer certaines.
Stage « Lire-écrire au cycle 2 dans un contexte bilingue »
Initiation à la conception des systèmes d'informations
Dominique LAURENT Patrick SEGUELA
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Modélisation des documents: DTD et Schéma
Activités langagières Les questions à se poser. ACTIVITÉS LANGAGIÈRES DE COMMUNICATION: PRODUCTION ORALE EN CONTINU 2 Dote-t-on l’élève de stratégies.
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
TEXT MINING Fouille de textes
Initiation aux SGBD Frédéric Gava (MCF)
Chap 1 Grammaires et dérivations.
Le Traitement Automatique des Langues (TAL)
Pierre Malenfant Technologie 9 École du Carrefour
LA PROCÉDURE.
LOGIQUE ET PROGRAMMATION LOGIQUE
INTRODUCTION AUX BASES DE DONNEES
La conception détaillée. Objectifs Décrire la solution opérationnelle - étude détaillée des phases informatiques du MOT (écrans, états, algorithmes, …),
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Introduction Module 1.
Bilan du cours Information Spécialisée M1 RETIC. Objectifs du cours (annoncés) Acquérir une culture informationnelle en SIC ; Acquérir une culture informationnelle.
KOSMOS 1 Outils transversaux Module 7 1.L’annuaire 2.La recherche d’informations 3.La réservation de ressources.
Introduction à notre Cours  Quel est l’objectif de notre cours?  4 Compétences:  Compétence lexicale  Compétence grammaticale  Compétence communicationnelle.
Transcription de la présentation:

Intex: une plate-forme pour les grammaires locales Du concordancier au moteur danalyse par grammaires locales Antonio BALVET Paris X, UMR MoDyCo Thales RT

Automates/transducteurs à états finis Automates, définition simplifiée: –Un automate à états finis est un dispositif algorithmique décrivant un ensemble de « mots » (alphabet) et de « phrases » (séquences) reconnues. –Les automates à états finis possèdent des propriétés algorithmiques intéressantes: ils garantissent des traitements en temps « acceptable ». –Ex: (grep, search) grep « toto » *.txt

Automates/transducteurs à états finis Transducteurs, définition simplifiée: –Un transducteur à états finis est un dispositif algorithmique qui représente un ensemble de séquences en entrée et qui leur associe des séquences produites en sortie. Un transducteur permet de modifier les séquences en entrée (effacement, remplacement). –Ex (sed, search & replace): s/toto/tata/g *.txt

Grammaires locales Définition simplifiée –Une grammaire locale définit un ensemble de séquences reconnues (langage) par conjonction/disjonction/négation dautomates ou transducteurs à états finis. –Les grammaires locales peuvent être utilisées pour une analyse syntaxique partielle en contexte; elle nont pas pour vocation de décrire lensemble de la grammaire dune langue. Elles sont bien adaptées pour des tâches relativement spécialisées. –Ex: grammaire des noms de personne (expression régulière) [A-Z][a-z]+

Concordancier Définition –Un concordancier est un outil informatique permettant dexplorer des corpus textuels afin de mettre en évidence certaines constructions particulières ainsi que leurs contextes doccurrences. Ces constructions peuvent être définies par le linguiste en ayant recours à des grammaires, locales ou non. –Ex: KwicFinder, MonoConc, Cue …

Exemples dapplications dun concordancier Études sur corpus –Ex: oppositions entre les termes relevant de lamour et du devoir dans des phrases de La femme de trente ans (H. de Balzac)

Exemples dapplication dun concordancier - Maman !" dit Hélène en s'éveillant. A ce mot, Julie fondit en larmes. Lord Grenville s'assit et resta les bras croisés, muet et sombre. "Maman !" Cette jolie, cette naïve interpellation réveilla tant de sentiments nobles et tant d' irrésistibles sympathies, que l'amour fut un moment écrasé sous la voix puissante de la maternité. Julie ne fut plus femme, elle fut mère.

Exemples dapplication dun concordancier Requêtes « syntaxiques » –Structures comparatives dans La femme de trente ans

produisant d' inexplicables fantaisies, apparaît comme un spectre noir et décharné. Puis, dans ne ! Hélène !" lui dit-il. le chien bondit comme un lion, aboya furieusement et s'élança da re débordé par cette foule empressée et bourdonnant comme un essaim. "Cela sera donc bien be, blancs, jolis, à tourelles sculptées, brodés comme une dentelle de Malines; un de ces château stitution délabrée de Julie, il l'avait cultivée comme une fleur rare peut l'être par un hortic ême. En peu d' instants mon enfance est devenue comme un songe. Ma contenance pendant la journé nglais. Ces regards périodiques étaient devenus comme une habitude pour elle, et chaque jour el e-t-on pas aux vieillards lorsqu'ils s'effacent comme des ombres et ne veulent plus être qu'un rayons les couleurs de cet incendie. c' était comme un réseau, comme une écharpe qui voltigeait ratitude que la marquise regardait peut-être comme une punition. Elle cherchait des excuses à s est à Tours, il n'a vu personne, il est fier comme un paon; mais vous avez

Quelques caractéristiques dIntex Un format de représentation uniforme: les transducteurs à états finis Un pouvoir expressif accru par le recours aux grammaires imbriquées (ATN) –Préparation des textes Grammaires de découpage en phrases Listes associant un ensemble dinformations morphosyntaxiques à une entrée lexicale, simple ou composée Grammaires locales utilisées comme dictionnaires: grammaire des chiffres romains Tables du lexique-grammaire: expressions figées –Grammaires locales utilisées comme requêtes

Un moteur générique danalyse de textes par grammaires locales Format explicite de représentation –Une grammaire locale Intex consiste en une description des séquences à reconnaître, éventuellement associée à une spécification des séquences à réécrire –Possibilité davoir recours à des bases de données lexicales (tables du lexique-grammaire)tables Meilleure lisibilité par rapport à des expressions régulières –Représentation graphique: boîtes reliées par des chemins Possibilité dutiliser les fonctions Intex sans passer par linterface-utilisateur: –Enchaînement de scripts batch –Api Intex (V 4.30)

« Graphes » Intex vs. expressions régulières

(\(|\[) *(-| )(( | )|[\,\:\;\.\/\!\%\-\] ( |- )( | )*)(\]|\))

Un exemple dapplication: Corail La tâche de filtrage dinformation –Activité de « push » –Décision de sélection binaire: oui/non –Contrainte de temps réel Filtrage dinformation par grammaires locales –Intex comme moteur danalyse Paramétrage des ressources Intex Automatisation des étapes de traitement linguistique (transformations) Représentation de lensemble des profils sous la forme dun méta- automate Marquage des séquences reconnues + post-traitement

Édition de filtres

Consultation des filtrats

Intex & Corail Un premier bilan –Faisabilité Démonstrateur opérationnel –Performances: Temps de traitement dune dépêche AFP: ~ 10 secondes –Utilisabilité Tests en interne sur la lisibilité de filtres présentés graphiquement –Extensibilité Mise en œuvre dun démonstrateur pour langlais (AP) Ajout de nouvelles ressources –Qualité Dépendante du domaine

@E:Kms :Entreprise N0 V Const N1 PPV (V:P+V:F+V:Kms) Const :Capital :Entreprise Axa OK se désengage AAL

Autres applications potentielles Didactique des langues –Repérage des mots composés, expressions figées et autres locutions Terminologie –Extraction de termes et de leurs variantes Cf: C. Domingues 2000, Etude doutils informatiques et linguistiques pour laide à la recherche dinformation dans un corpus documentaire Vérification de conformité: correction grammaticale, stylistique, aide à la traduction Cf: A. Chrobot 1999 (TIA 99), « Extraction terminologique en anglais basée sur des dictionnaires généraux et spécialisés »