La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

OUTILEX Présentation des résultats

Présentations similaires


Présentation au sujet: "OUTILEX Présentation des résultats"— Transcription de la présentation:

1 OUTILEX Présentation des résultats
Ministère de l'Industrie Vendredi 24 novembre 2006

2 Ordre du jour Présentation synthétique des résultats - Eric Laporte - Université de Marne-la-Vallée Démonstrations Plate-forme - Matthieu Constant - Université de Marne-la-Vallée Moteur de recherche interlingue - Romaric Besançon - CEA Reconnaissance d'expressions multi-mots - Hugues de Mazancourt - Lingway Moteur de recherche dans des documents XML - Massih Amini - Université Paris 6 Filtrage thématique de messages audio - Bénédicte Goujon - Thales R&T Extraction d'information pour alimentation d'une base de connaissances - Catherine Gouttas - Thales Com Discussion

3 Objectifs et structure du projet

4 Plate-forme du RNTL : traitement des langues naturelles
Budget et durée : environ 3,2 M€ / 4 ans Démarrage : 1er octobre 2002 10 partenaires Structure : Spécifications, réalisation et tests de la plate-forme : Réalisation de démonstrateurs Répartition Grands groupes, grands instituts : 35 % PME : 31 % Instituts, universités : 34 %

5 Université de Marne-la-Vallée (IGM), coordinateur
Industriels et grands instituts PME, start-ups LCI Lingway Systran Thales R&T Thales Com CEA Instituts de recherche, universités Université de Marne-la-Vallée (IGM), coordinateur Université Paris 6 (LIP6) Inria (Loria) Université de Rouen (PSY.CO)

6 Enjeux et objectifs du projet
Normalisation des formats des ressources linguistiques Mise à la disposition de la communauté d'outils logiciels et de ressources linguistiques de base Interopérabilité avec les autres systèmes Fluidifier le marché des outils logiciels et des ressources

7 Systèmes existants GATE (Sheffield) FSM (AT&T)
NLTK (communauté open-source) Intex (Univ. Franche-Comté) Unitex (Univ. Marne-la-Vallée)

8 La plate-forme

9 Architecture générale

10 Ressources linguistiques
dictionnaires morphosyntaxiques pour le français ( lemmes simples et lemmes composés) pour l'anglais ( lemmes simples et lemmes composés) format XML (compatible avec LMF) jeu d'étiquettes riche et structuré (13 catégories grammaticales, 18 codes flexionnels, divers traits syntactico-sémantiques) niveau de généralité : langues européennes à suffixes

11 Description du jeu d'étiquettes
<lingdef lang='fr'> <attrtype name="gender" type='enum'> <value name='m' alias='masculine'/> <value name='f' alias='feminine'/> </attrtype> <attrtype name='nounsubcat' type='enum'> <value name='abst' alias='Abst,abstract,abs'/> <value name='conc' alias='Conc,concret'/> <value name='hum' alias='Hum,human'/> [,,,] <value name='tps' alias='Tps,temporal'/> </attrtype> <pos name='noun' cutename='N'> <attribute name='subcat' type='nounsubcat' shortcut='yes'/> <attribute name='gender' type='gender' shortcut='yes'/> [,,,] <attribute name='proper' type='proper' default='false'/> </pos>

12 Ressources linguistiques
dictionnaires terminologiques aéronautique dictionnaires bilingues une sélection des entrées des dictionnaires morphosyntaxiques format XML

13 Chaîne de traitement générale

14 Segmentation texte brut, HTML, RTF, PDF... en entrée
segmentation en paragraphes, en phrases et en tokens pré-étiquetage des tokens (information sur l'alphabet, la casse, ponctuation ouvrante, etc.) opération réversible

15 Segmentation La police a saisi 164 procès-verbaux jeudi dernier <document original_format="txt"> <par id="1"><tu id="s0"> <token type="word" id="t1" alph="latin" case="capit">La</token> <token type="word" id="t2" alph="latin">police</token> <token type="word" id="t3" alph="latin">a</token> <token type="word" id="t4" alph="latin">saisi</token> <token type="numeric" id="t5">164</token> <token type="word" id="t6" alph="latin">procès</token><token type="punctuation" id="t7" subt="Pc">- </token><token type="word" id="t8" alph="latin">verbaux</token> <token type="word" id="t9" alph="latin">jeudi</token> <token type="word" id="t10" alph="latin">dernier</token><token type="punctuation" id="t11">.</token> </tu></par> </document>

16 Etiquetage morpho-syntaxique
étiquetage lexical par consultation des lexiques représentation de l'ambiguïté par automate (MAF) 4,7 % de silence suite à l'application des dictionnaires livrés avec la plate-forme sur un corpus de dépèches AFP silence de 0,4 % en déduisant les mots inconnus commençant par une majuscule

17 Etiquetage morpho-syntaxique
consultation des lexiques tolérante redressage orthographique et typographique texte étiqueté : représentation compatible avec le modèle MAF représentation plus compacte convertisseurs

18 Etiquetage morpho-syntaxique

19 Traitements par grammaires
formalisme des RTN pondérés (ou WRTN) plus puissant que les automates et transducteurs finis possibilité de sorties (cf. transducteurs) poids : peuvent être établis grâce à des méthodes statistiques (démonstrateur Thales RT) opérations sur les grammaires conversion de formats XML (graphique ou opérationnel) émondation, déterminisation, minimisation... import/export : Unitex, dot

20 Traitements par grammaires
moteur d'analyse basé sur l'algorithme d'Earley résultat sous la forme d'une forêt partagée d'arbres d'analyse pondérés et annotés par les sorties de la grammaire forêt fournie en entrée à des modules de traitement extérieurs durant l'analyse du corpus (phrase par phrase)

21 Applications concordancier annotation de textes
format XML annotation de textes reconnaissance et étiquetage d'entités nommées et autres motifs extraction d'informations options : sortie texte ou sortie automate (itération possible) options : les parties reconnues sont conservées ou supprimées option : seuil sur le poids du chemin dans la grammaire analyse syntaxique avec unification

22 Exemple de grammaire

23 Annotation sur l'automate du texte

24 Autre grammaire

25 Gestion des ressources linguistiques
module de flexion flexion des mots composés indexation des dictionnaires de formes fléchies efficace : 63 s pour 1,3 million de formes transcodage des ressources dans différents formats : texte (lisible, édition, maintenance) XML (format d'échange, maintenance) binaires (traitements)

26 Interfaces interface graphique utilisateur
mise au point des ressources linguistiques utilisation en ligne de commande mise au point des traitements API optimisation utile pour le traitement de documents nombreux

27 Normalisation

28 Textes texte tokenisé texte étiqueté référence : MAF
cadre d'annotation morphosyntaxique

29 Lexiques référence : LMF structuration de lexiques
cadre de balisage de lexiques structuration de lexiques noms propres lexiques terminologiques

30 Diffusion

31 Le site web communication entre partenaires
après la fin du projet : distribution de la plate-forme et des ressources cotisation annuelle : 100 euros paiement sécurisé sur le site

32 Publications nationales et internationales formats applications
présentations générales

33 Conclusion http://www.at-lci.com/outilex
opérations de base sur les textes utilisation de ressources à large couverture la plate-forme sera bientôt disponible et ouverte au développement collaboratif (licence LGPL) nouvelles fonctionnalités nouvelles langues


Télécharger ppt "OUTILEX Présentation des résultats"

Présentations similaires


Annonces Google