OUTILEX Présentation des résultats

Slides:



Advertisements
Présentations similaires
Les portails culturels - le rôle de Michael
Advertisements

Mise au point d'une base de données lexicale multifonctionnelle : le dictionnaire unilingue wolof et bilingue wolof-français IFAN (Institut fondamental.
Les Web Services Schéma Directeur des Espaces numériques de Travail
Normalisation pour les corpus et les lexiques multilingues
CHOUETTE Un outil pour le développement de données normalisées dans le champs de linformation voyageurs Jacques BIZE Groupe Technologie des transports.
03/05/05 - RB1 inJAC Présentation générale. 03/05/05 - RB 2 Lapproche ESUP du CMS Avoir un référentiel de documents structurés, intégré au portail en.
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Première expérience d’utilisation des Web Services dans SmartTools Didier Parigot Projet OASIS INRIA Sophia www-sop.inria.fr/oasis/SmartTools Journée.
Affichage interactif, bidimensionnel et incrémental de formules mathématiques Hanane Naciri et Laurence Rideau INRIA Sophia Antipolis CARI'2000.
Olivier Kraif, Agnès Tutin LIDILEM
Une solution personnalisable et extensible
TRACE ATELIER DE REVISION Centre International de Formation de lOIT, Turin (Italie) Les juin 2006 PRESENTATION DES MATERIELS DEVELOPPES Réseaux.
Educasources Paris, le 30 janvier 2007 Paris, le 30 janvier 2007.
2002 Compétitif XMiner : Plate-forme de structuration texte libre multi-approches par balisage XML de Tags Actifs Lobjectif du projet est de développer.
Navigation Interactive dans les documents
ANDRE Marine DABIN Julie WATERLOT Amandine
SYSTRAN Un outil du TAL Victoria AUPERT Marjorie LORSUNG.
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Par Aline Mahot et Charlyne Routier
JOME, un Composant Logiciel pour le Télé-Enseignement des Mathématiques via le WEB, Compatible OpenMath et MathML Laurent DIRAT OVE / I3S-UNSA.
Métadonnées pour les thèses numériques françaises
Travaux pratiques sur Nooj
Cordial, le TAL et les aides à la rédaction
Intex: une plate-forme pour les grammaires locales Du concordancier au moteur danalyse par grammaires locales Antonio BALVET Paris X, UMR MoDyCo Thales.
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Introduction à l'informatique linguistique
Bonjour. 2 constats numériques Nos livres très clair Bilan.
Université de La Rochelle Saisie et Mise à jour des fiches ECTS le 05/12/2001.
C. FORESTIER Journée d'étude sur les Archives Ouvertes Couperin 21 mai 2007 THESES EN LIGNE : comment faire simple !
Introduction à KB Crawl
Le portail des MSH
Le Travail Collaboratif ...
Université de La Rochelle Saisie et Mise à jour des fiches ECTS le 01/12/2000.
La communication de ce document est soumise à autorisation de France Télécom R&D (Nom du fichier) - D1 - 01/03/2000 France Télécom R&D Énoncé Représentation.
© Nuance Communications, Inc. Tous droits réservés. Page 1 OmniPage Ultimate mai 2013.
Traducteur Technique en Interne Christophe Jovelin DESS ILTS 2005
MOT Éditeur de modèles de connaissances par objets typés
Vers des composants TAL réutilisables
Présentation du mémoire
24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex.
1 DTSI / Service Cognitique Robotique et Interaction OUTILEX Démonstrateur du CEA-LIST : moteur d'interrogation crosslingue (français, anglais, espagnol)
Démonstrateur Lingway
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Date / references Research & Technology Démonstrateur Thales R&T Projet Outilex.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
CloudView Architecture
Mise en oeuvre dun outil original daide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
Forum des Industries de la Langue, 17 mars 2010
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
8èmes Journées INTEX/NooJ
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
Recherche par mots-clés vs recherche en langue naturelle.
Activités développées RTP 12 : Information et connaissance : "découvrir et résumer" Actions spécifiques et équipes-projets associées Objectifs thématiques.
Présentation du projet edot Revue intermédiaire - 29 Juin 2004.
E.Dot – juillet 2005 Page 1 Conclusion [ Lot 4. Validation et Évaluation ] Rapport Final 4 juillet 2005.
Guillaume TORRENTE Marc BOUISSOU Recherche & Développement
Système d’Information des Plans Régionaux de Santé Publique (SI-PRSP) MONS Jeudi 3 avril ème colloque international des programmes locaux et régionaux.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Agenda de la présentation
Programmation Web : Introduction à XML
Recherche d’information
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Interface de génération de blason Projet STLM.GIBERT / M.LIPPMANN.
La valorisation de l’information scientifique Colloque IFAN, 27 novembre 2007.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Transcription de la présentation:

OUTILEX Présentation des résultats Ministère de l'Industrie Vendredi 24 novembre 2006

Ordre du jour Présentation synthétique des résultats - Eric Laporte - Université de Marne-la-Vallée Démonstrations Plate-forme - Matthieu Constant - Université de Marne-la-Vallée Moteur de recherche interlingue - Romaric Besançon - CEA Reconnaissance d'expressions multi-mots - Hugues de Mazancourt - Lingway Moteur de recherche dans des documents XML - Massih Amini - Université Paris 6 Filtrage thématique de messages audio - Bénédicte Goujon - Thales R&T Extraction d'information pour alimentation d'une base de connaissances - Catherine Gouttas - Thales Com Discussion

Objectifs et structure du projet

Plate-forme du RNTL : traitement des langues naturelles Budget et durée : environ 3,2 M€ / 4 ans Démarrage : 1er octobre 2002 10 partenaires Structure 2002-2005 : Spécifications, réalisation et tests de la plate-forme 2005-2006 : Réalisation de démonstrateurs Répartition Grands groupes, grands instituts : 35 % PME : 31 % Instituts, universités : 34 %

Université de Marne-la-Vallée (IGM), coordinateur Industriels et grands instituts PME, start-ups LCI Lingway Systran Thales R&T Thales Com CEA Instituts de recherche, universités Université de Marne-la-Vallée (IGM), coordinateur Université Paris 6 (LIP6) Inria (Loria) Université de Rouen (PSY.CO)

Enjeux et objectifs du projet Normalisation des formats des ressources linguistiques Mise à la disposition de la communauté d'outils logiciels et de ressources linguistiques de base Interopérabilité avec les autres systèmes Fluidifier le marché des outils logiciels et des ressources

Systèmes existants GATE (Sheffield) FSM (AT&T) NLTK (communauté open-source) Intex (Univ. Franche-Comté) Unitex (Univ. Marne-la-Vallée)

La plate-forme

Architecture générale

Ressources linguistiques dictionnaires morphosyntaxiques pour le français (109 912 lemmes simples et 86 337 lemmes composés) pour l'anglais (166 150 lemmes simples et 13 361 lemmes composés) format XML (compatible avec LMF) jeu d'étiquettes riche et structuré (13 catégories grammaticales, 18 codes flexionnels, divers traits syntactico-sémantiques) niveau de généralité : langues européennes à suffixes

Description du jeu d'étiquettes <lingdef lang='fr'> <attrtype name="gender" type='enum'> <value name='m' alias='masculine'/> <value name='f' alias='feminine'/> </attrtype> <attrtype name='nounsubcat' type='enum'> <value name='abst' alias='Abst,abstract,abs'/> <value name='conc' alias='Conc,concret'/> <value name='hum' alias='Hum,human'/> [,,,] <value name='tps' alias='Tps,temporal'/> </attrtype> <pos name='noun' cutename='N'> <attribute name='subcat' type='nounsubcat' shortcut='yes'/> <attribute name='gender' type='gender' shortcut='yes'/> [,,,] <attribute name='proper' type='proper' default='false'/> </pos>

Ressources linguistiques dictionnaires terminologiques aéronautique dictionnaires bilingues une sélection des entrées des dictionnaires morphosyntaxiques format XML

Chaîne de traitement générale

Segmentation texte brut, HTML, RTF, PDF... en entrée segmentation en paragraphes, en phrases et en tokens pré-étiquetage des tokens (information sur l'alphabet, la casse, ponctuation ouvrante, etc.) opération réversible

Segmentation La police a saisi 164 procès-verbaux jeudi dernier <document original_format="txt"> <par id="1"><tu id="s0"> <token type="word" id="t1" alph="latin" case="capit">La</token> <token type="word" id="t2" alph="latin">police</token> <token type="word" id="t3" alph="latin">a</token> <token type="word" id="t4" alph="latin">saisi</token> <token type="numeric" id="t5">164</token> <token type="word" id="t6" alph="latin">procès</token><token type="punctuation" id="t7" subt="Pc">- </token><token type="word" id="t8" alph="latin">verbaux</token> <token type="word" id="t9" alph="latin">jeudi</token> <token type="word" id="t10" alph="latin">dernier</token><token type="punctuation" id="t11">.</token> </tu></par> </document>

Etiquetage morpho-syntaxique étiquetage lexical par consultation des lexiques représentation de l'ambiguïté par automate (MAF) 4,7 % de silence suite à l'application des dictionnaires livrés avec la plate-forme sur un corpus de dépèches AFP silence de 0,4 % en déduisant les mots inconnus commençant par une majuscule

Etiquetage morpho-syntaxique consultation des lexiques tolérante redressage orthographique et typographique texte étiqueté : représentation compatible avec le modèle MAF représentation plus compacte convertisseurs

Etiquetage morpho-syntaxique

Traitements par grammaires formalisme des RTN pondérés (ou WRTN) plus puissant que les automates et transducteurs finis possibilité de sorties (cf. transducteurs) poids : peuvent être établis grâce à des méthodes statistiques (démonstrateur Thales RT) opérations sur les grammaires conversion de formats XML (graphique ou opérationnel) émondation, déterminisation, minimisation... import/export : Unitex, dot

Traitements par grammaires moteur d'analyse basé sur l'algorithme d'Earley résultat sous la forme d'une forêt partagée d'arbres d'analyse pondérés et annotés par les sorties de la grammaire forêt fournie en entrée à des modules de traitement extérieurs durant l'analyse du corpus (phrase par phrase)

Applications concordancier annotation de textes format XML annotation de textes reconnaissance et étiquetage d'entités nommées et autres motifs extraction d'informations options : sortie texte ou sortie automate (itération possible) options : les parties reconnues sont conservées ou supprimées option : seuil sur le poids du chemin dans la grammaire analyse syntaxique avec unification

Exemple de grammaire

Annotation sur l'automate du texte

Autre grammaire

Gestion des ressources linguistiques module de flexion flexion des mots composés indexation des dictionnaires de formes fléchies efficace : 63 s pour 1,3 million de formes transcodage des ressources dans différents formats : texte (lisible, édition, maintenance) XML (format d'échange, maintenance) binaires (traitements)

Interfaces interface graphique utilisateur mise au point des ressources linguistiques utilisation en ligne de commande mise au point des traitements API optimisation utile pour le traitement de documents nombreux

Normalisation

Textes texte tokenisé texte étiqueté référence : MAF cadre d'annotation morphosyntaxique

Lexiques référence : LMF structuration de lexiques cadre de balisage de lexiques structuration de lexiques noms propres lexiques terminologiques

Diffusion

Le site web communication entre partenaires après la fin du projet : distribution de la plate-forme et des ressources cotisation annuelle : 100 euros paiement sécurisé sur le site

Publications nationales et internationales formats applications présentations générales

Conclusion http://www.at-lci.com/outilex opérations de base sur les textes utilisation de ressources à large couverture la plate-forme sera bientôt disponible et ouverte au développement collaboratif (licence LGPL) nouvelles fonctionnalités nouvelles langues