Un environnement de développement pour le TALN 15/12/2OO1

Slides:



Advertisements
Présentations similaires
France Telecom Matthieu Leclercq
Advertisements

Active Directory Windows 2003 Server
Applications N-Tiers Rappels: architecture et méthodologie
La plateforme.NET 2.0 vue par le développeur Pascal Belaud Microsoft France SAGA.NET
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Première expérience d’utilisation des Web Services dans SmartTools Didier Parigot Projet OASIS INRIA Sophia www-sop.inria.fr/oasis/SmartTools Journée.
Sébastien Moreau, Jérôme Daniel
D1 - 14/01/2014 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
Reconnaissance de la parole
THALES COMMUNICATIONS Projet RNRT SYMPATEX 16 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 10 décembre 2002.
T ravail E tude R echerche COUREUX Éric DUCK Christian ZENGERLÉ Olivier COUREUX Éric DUCK Christian ZENGERLÉ Olivier EncadrantsEncadrants M. Crescenzo.
Formation Technique 6èmepartie.
Module d’Enseignement à Distance pour l’Architecture Logicielle
Cours n°2M2. IST-IE (S. Sidhom) UE 303 Promo. M2 IST-IE 2005/06 Conception dun système d'information multimédia Architecture trois-tiers : PHP/MySQL &
TWP 3.1 TWP Videoshare.
Architecture de réseaux
(Nom du fichier) - D1 - 01/03/2000 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document.
SYSTRAN Un outil du TAL Victoria AUPERT Marjorie LORSUNG.
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
OLST — Université de Montréal
D1 - 01/03/2014 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
TP 3-4 BD21.
Optimisation de Requêtes
Cordial, le TAL et les aides à la rédaction
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Active Directory Windows 2003 Server
Licence de Libre Diffusion des Documents -- LLDD version 1 Ce document peut être librement lu, stocké, reproduit, diffusé, traduit et cité par tous moyens.
Etude des Technologies du Web services
(Nom du fichier) - D1 - 01/03/2000 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document.
La haute tour sombre 3 Des actions
Plugin B pour JEdit Matthias Meusburger Antoine Acquaviva
Analyse lexicale Généralités Expressions rationnelles Automates finis
Web Services - ADFS Pellarin Anthony En collaboration avec : Sogeti 1.
Métagrammaire RLT, 7/02/02. Plan n Rappels : compilateur de BG n Essais sur les verbes n Questions.
D1 - 19/05/2014 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
Bases de données lexicales
Des outils pour le développement logiciel
La communication de ce document est soumise à autorisation de France Télécom R&D (Nom du fichier) - D1 - 01/03/2000 France Télécom R&D Énoncé Représentation.
Traducteur Technique en Interne Christophe Jovelin DESS ILTS 2005
1 DTSI / Service Cognitique Robotique et Interaction OUTILEX Démonstrateur du CEA-LIST : moteur d'interrogation crosslingue (français, anglais, espagnol)
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Date / references Research & Technology Démonstrateur Thales R&T Projet Outilex.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Module 2 : Configuration de l'environnement Windows 2000.
D1 - 09/06/2014 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
Projet de Master première année 2007 / 2008
Processus d'un projet F.Pfister
JEE 5 F.Pfister 2 institut eerie JEE – Une plateforme serveur  Développement et exécution d'applications réparties.
Branche Développement Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
VTHD PROJECT (Very High Broadband Network Service): French NGI initiative C. GUILLEMOT FT / BD / FTR&D / RTA
Programmation Système et Réseau (sous Linux)
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Outil de gestion des cartes grises
D1 - 11/01/2015 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
1 Présentation. 2 Sommaire Flots de données Evolutions Conclusions.
Le formalisme utilisé pour Lexical Functional Grammar Lionel Clément Signes - Labri Mosaïque 1er décembre 2006.
Architecture et modularité du modèle L'exemple de GUST et des grammaires de correspondance polarisées Sylvain Kahane Modyco, Université Paris.
Licence de Libre Diffusion des Documents -- LLDD version 1 Ce document peut être librement lu, stocké, reproduit, diffusé, traduit et cité par tous moyens.
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
CAS COMPTOIR (TD1 / SI3) TRANSFORMATION D’UN SI EXISTANT 1.
Optimisation de requêtes
Aide à la rédaction. Plan L’aide à la rédaction : principes et outils La correction orthographique –Historique –Modélisation linguistique –Evaluation.
1 École des Mines de Saint-Etienne. 158, cours Fauriel Saint-Etienne Cedex 2. Tél Fax Jean-Jacques Girardot
Introduction Formalisation de GUST basée sur GUP (GUST = Grammaire d’Unification Sens-Texte, Kahane 2001) (GUP = Grammaire d’Unification Polarisée, Kahane.
Modélisation N-morphes en classification des textes de Wikipedia
L T I Laboratoire de Téléinformatique 2 Projet de semestre Parseur XML basé sur la DTD : Buts –Utiliser la grammaire définissant un type de fichiers XML.
Le Traitement Automatique des Langues (TAL)
Objectifs du développement Des agendas culturels et services quotidiens de La Libre Belgique et de La Dernière Heure et proposera des services d’informations.
Grammaire d'Unification Sens-Texte : modularité et polarisation Sylvain Kahane François Lareau Modyco, Université Paris 10 OLST, U. de Montréal Lattice,
Transcription de la présentation:

Un environnement de développement pour le TALN 15/12/2OO1 Christine Chardenon, FTR&D DMI/GRI

Plan Critères de développement Architecture : applicatifs Architecture : le Cœur TALN Données linguistiques Livrables Conclusion

Critères de développement Indépendance par rapport aux données linguistiques Robustesse Souplesse d’utilisation Sorties multiples Tracabilité de chaque module Portabilité (C,C++ sous Solaris UNIX, LINUX, … WINDOWS) Modules paramétrables Stockage des résultats dans un graphe d’analyse

Architecture : applicatifs TALN Analyse thématique Abrégeur QA topo Serveur

Architecture : le coeur Segmentation Analyse Minimale Chunking Analyse En Dépendance Graphe sémantique

Segmentation Le 15/12/2001, à 11h30, ellemange une peche avec son couto . Fr Segmentation (Le MOT)(15/12/2001 DATE)(, SEP) (à MOT)(11H30 HEURE)(, SEP) (ellemange MOT)(une MOT)(peche MOT)(avec MOT)(son MOT) (couto MOT)

Analyse minimale Analyse Minimale Méthodes correctives Interprétation de segments Analyse morphologique Création d’unité lexicale Analyse Lexicale Exact Utilisateur Correctif Traduction de Traits

Analyse lexicale Une, DET-SING-FEMN une, PRN-SING-FEMN Accès exact une Pêche,NOM-FEMN-SING Pèche,VERB-1PRS-SING Pêché,VERB, PART-PAS … Correction par réaccentuation peche Correction phonétique couto Couteau,NOM-MASC-SING couteaux,NOM-MASC-PL

Analyse morphologique Affixation : indéscotchable, lyaktubu Compositionnelle : SchneeBrettGefahr éclatement éclatement ellemange Elle, PRN-SUJ-3PRS-FEMN Elle, PRN-OBJI-3PRS-FEMN Mange, VERB-3PRS Mangé, VERB-PART-PASS

Analyse minimale : profil [[Corrections] ListeDesCorrections = "RéAccentuation","STOP", "CorrectionPhonétique" ,"CorrectionParConcaténation","STOP", "CorrectionMorpho", "CorrectionTypographique", "STOP","CorrectionMorphoPrédictive", "STOP" ListeDesCorrectionsFormesCapitalisées = "RéAccentuation " FichierPourLaCorrectionMorphoPre = morphoPredFCorrection.ini PasDAnalyseTypoPourUnMotAyantUnNombreDeCaracteresStrictementInferieurA = 5 FichierPourLaCorrectionMorpho = morphoFCorrection.ini [NomsPropres] CatégoriesDesMotsPouvantÊtreDesNomsPropresEnDébutDePhrase = "NOM" NomPropreAjoutésAuxAutresAnalyses = oui

Analyse morpho-syntaxique Chunking … ellemange une peche avec son couto … Elle/elle/P mange/manger/V une/un/D pêche/pêche/N avec/avec/S son/mon/P couteau/couteau/N

Analyse syntaxique Chunking … ellemange une peche avec son couto … Analyse en dépendance Elle/elle/P/1/SUJ(2) mange/manger/V/2 une/un/D/3/DET(4) pêche/pêche/N/4/OBJD(2) avec/avec/S/5/P(8) son/mon/PP/6/PP(7) couteau/couteau/N/7/GPN(2)

Arbre de dépendance GS1 GV-PT, ID3(31), ( NOMBRE/SINGULIER GENRE/FEMININ PERSONNE/3PRS SUJ TRANSITIF/OUI OBJD ) Terminaux mange [ manger , ( PERSONNE/1PRS/3PRS CATEP/GV-PT TRANSITIF/OUI NOMBRE/SINGULIER ), ( us_eat) ] Fonction: SUJ (3) ,PRN-S, ID1(24), ( NOMBRE/SINGULIER GENRE/FEMININ PERSONNE/3PRS ) elle [ je , ( PERSONNE/3PRS CATEP/PRN-S GENRE/FEMININ NOMBRE/SINGULIER ) , ( ) ] Fonction: OBJD (3), GN-NC, ID10(32), ( NOMBRE/SINGULIER GENRE/FEMININ DETER ) Terminaux pêche [ pêche , ( CATEP/GN-NC GENRE/FEMININ NOMBRE/SINGULIER COR/REACC ) , ( us_peach ) ] Fonction: DET(10),DET ID6(14), ( NOMBRE/SINGULIER GENRE/FEMININ ) une [ un, (CATEP/DET GENRE/FEMININ NOMBRE/SINGULIER ) , ( ) ]

Analyse en dépendance : profil [Dépendance_Fr] EnService = vrai FichierRègles = grammaireDep.txt NombreMaximumDeReglesAAppliquer = 300 ModeExtraction = faux CatégoriesPourLExtraction = "GN-NP" AnalyseAPartirDeTousLesGS1 = vrai SolutionsMultiplesàX% = 100

Graphe sémantique eat peach Anap3s agent patient entité entité Construction d’un graphe à partir De l’arbre en dépendance syntaxique De données sémantiques décrivant prédicats et arguments us_eat(eating, objd=patient:food, suj=agent:animate, arg0=situation:action) eat peach Anap3s agent patient entité entité Eat(agent=a,patient=b)&Anap3s(entité=a)&peach(entité=b)

Données(1) x En cours Segmentation Analyse Minimale Chunking Français Anglais Allemand Espagnol En cours Arabe Polonais

Données (2) x appli Analyse en dépendance Données sémantiques thésaurus Français x appli Anglais Allemand Espagnol Arabe Polonais

Livrables Exécutables (+ options d’appels) Librairie dynamique Mode client serveur Choix des sorties ASCII XML

Conclusion Evolution de l’architecture Exploitation de modèles de langage probabiliste Génération Lexicale Génération syntaxique Génération Sémantique

Format Données Lexique eau, [o], N23, -PREPGOUV/DEF-NOM_SEM/NOM_CONC, eau_23, , , , eaux, [o], N20P, -NOM_SEM/NOM_CONC, eau_22, , , ,