La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

L’action nationale de R&D SYNTAX  Constat initial  Objectif  Durée  Contenu  Partenaires  Organisation  Budget  Recoupements et apports  Autres.

Présentations similaires


Présentation au sujet: "L’action nationale de R&D SYNTAX  Constat initial  Objectif  Durée  Contenu  Partenaires  Organisation  Budget  Recoupements et apports  Autres."— Transcription de la présentation:

1 L’action nationale de R&D SYNTAX  Constat initial  Objectif  Durée  Contenu  Partenaires  Organisation  Budget  Recoupements et apports  Autres projets

2 Constat initial  nombreux travaux menés à l’INRIA sur la création, la gestion ou la diffusion de documents organisation des bases documentaires traitement des contenus textuels de ces bases  différents logiciels ont été réalisés mais jamais réunis dans des contextes opérationnels  maturation de l’ingénierie documentaire et linguistique Technologies validées :  Couches basses: étiquetage morpho-syntaxique, chunking  Modules de plus haut niveau: extraction de termes, classification de documents, etc. Stabilisation des technologies autour de XML (W3C) Mise en place du comité de normalisation ISO TC37/SC4 sur les ressources linguistiques

3 Objectif  rassembler sur des plates-formes homogènes différents résultats existants pour répondre à des besoins d’intégration et de gestion de documents spécialisés intégration : les documents proviennent de sources multiples gestion : indexation, classification et extraction d’informations terminologiques documents spécialisés : documents présents sur un Intranet d’entreprise (  documents quelconques sur Internet)  cela suppose de compléter certains développements issus de projets INRIA ou industriels de standardiser des formats d’échange entre de tels composants de valider l’ensemble dans des conditions proches de l’opérationnel

4 Contenu (1)  3 sous-thèmes gestion d’informations entrantes acquisition et gestion de terminologies/lexiques multilingues plate-forme de modélisation et de gestion de référentiels XML

5 Sous-thème 1 : gestion d’informations entrantes  tâches acquisition de textes  gestion de formats hétérogènes (Word, LateX, …)  documents natifs XML intégration dans une base semi-structurée  méta-données  identification d’informations structurantes (date, auteur, noms propres) annotation par les utilisateurs  annotation de surface, enrichissement  publication des annotations classification (taxonomie existante ou non)  recherche de thèmes et segmentation (statistique)  identification de clefs d’indexation (linguistique)

6 Sous-thème 1 : gestion d’informations entrantes documents hétérogènes documents natifs XML base de documents métadonnées format vocabulaire édition accès annotation de surface date, … entités nommées : personnes, lieux, … structure Segmentation (autour de la notion de thème) critères lexicaux (statistiques) Topic Detection & Tracking classification non contrôlée indexation classification contrôlée (ontologies, …) poste d’annotation qualifier établir des liens etc.

7 Sous-thème 2 : acquisition et gestion de terminologies/lexiques multilingues  tâches extraction de termes à partir de textes  étiqueteur morphosyntaxique (Part Of Speech tagger)  chunker à base d’automates (Xerox), de patterns syntaxiques (IRIN) ou de statistiques markoviennes bases de lien termes-textes reprise de bases lexicales existantes édition collaborative des bases terminologiques

8 Sous-thème 2 : acquisition et gestion de terminologies/lexiques multilingues base de textes rédacteur technique traducteur terminologue liens poste d’édition collaborative graphe de termes variabilité importation de bases lexicales (Outilex) reconnaissance de termes ontologies chunker Part Of Speech tagger extraction de termes

9 Sous-thème 3 : modélisation et gestion de référentiels XML  tâches modélisation des structures (UML) gestion du référentiel de modélisation règles de passage et de génération de schéma XML, génération dynamique de modèles récupération de sous-schémas XML existants, cohérence des référentiels Force de proposition et de validation vis-à-vis du TC37/SC4 (cf. Normalangues)

10 Sous-thème 3 : modélisation et gestion de référentiels XML réutilisation de données existantes squelette format données externes autres formats filtreéchantillon valider (contrôler les postes d’édition) UML spécification des éléments à identifier modélisation répertoires (ISO) = gestion du référentiel de modélisation schéma XML catégories de données (genre, nombre, date de révision, …) = ensemble des descripteurs élémentaires

11 Durée et phasage (1)  3 ans 3 à 6 mois de discussion avec les partenaires  affiner le programme de travail  définir l’organisation à mettre en place  mettre au point les contrats (propriété des résultats) 2 ans de travaux 6 à 9 mois de dissémination des résultats  sous-thème 3 permanent tout au long de l’action  sous-thèmes 1 et 2 reposent sur le sous-thème 3 sont relativement indépendants car ne sont reliés que par les ontologies

12 Durée et phasage (2)  sous-thème 1 Définition de l’architecture logicielle globale, les protocoles d’interaction et la mise en place de la base de documents et de la base de liens En parallèle: identification précise des besoins des industriels (scénario d’expérimentation) Mise en conformité (formats, API) des composants à intégrer Intégration  sous-thème 2 Chaîne d’extraction de termes en parallèle, spécification précise de la plate-forme globale (identification des outils à intégrer) Couplage à l’outil de gestion de la base de liens Intégration (outil d’édition de terminologies)  sous-thème 3 répertoire de catégories de données API, de filtres, catalogue de méta-modèles et le

13 Organisation  Principes l'INRIA apportera des résultats de travaux de recherche et du personnel les partenaires apporteront certains travaux antérieurs et du personnel tous les développements réalisés seront réutilisables par tous les partenaires chaque industriel adaptera à son contexte propre les résultats obtenus pour chaque sous-thème, une équipe = personnel INRIA + personnel fourni par partenaires intéressés ces équipes pourront être hébergées par l'INRIA elles seront coordonnées par un comité scientifique réduit des séminaires techniques à intervalle régulier étroite collaboration avec le groupe miroir français du TC37/SC4

14 Critères de réussite  transfert technologique utilisation opérationnelle des plates-formes par au moins 2 partenaires industriels diffusion de composants par une ou des sociétés de technologie issues ou non de l’INRIA  impact sur le domaine : publication de normes pour l’ingénierie des langues et du document  création d’une dynamique dans la communauté française une des retombées = mobilisation pour des réponses à des appels à propositions  meilleure connaissance par les équipes INRIA des besoins opérationnels des industriels relance des travaux de recherches meilleur dialogue entre ces équipes

15 Budget : charges conduite de l’action : 1 personne sur 3 ans ………..…………. = 36 h x m gestion d’informations entrantes …………………………… …… = 114 h x m acquisition et gestion de terminologies/lexiques multilingues = 60 h x m plate-forme de modélisation et de gestion de référentiels …… = 50 h x m total = 260 h x m

16 Budget : financement autres projets dont RNIL et CODEX-termes (Technolangue) = 44 hommes x mois 6 partenaires industriels à 18 h x m chacun = 108 hommes x mois DirDRI (action nationale de R&D)  3 personnes sur 2 ans  l’équivalent d’1 personne à plein temps pour assurer la conduite de l’action sur 3 ans = 108 hommes x mois total = 260 h x m

17 Autres projets  projets Technolangue RNIL (accepté, démarrage prévu début novembre) CODEX-termes (accepté, démarrage prévu début novembre)  projet ITEA JULES VERNE (accepté dans son principe, en phase de négociation avec le ministère de l’industrie)  rassemble TMM, Philips (Eindhoven), quelques PME et l’INRIA  projets RNTL OUTILEX (accepté, démarrage prévu début octobre)  concerne la modélisation de données lexicales XMINER (accepté, a démarré début juillet)  projet européen E-content INTERA (accepté, démarrage prévu début octobre)  développe des outils de modélisation de données XML en lien avec la standardisation

18 Technolangue : RNIL (1)  objectif : définir, valider et diffuser des normes internationales pour l’ingénierie linguistique participation à la définition de normes internationales pour représenter et gérer des ressources linguistiques validation des propositions normatives  développement de librairies informatiques facilitant la mise aux normes des produits ou des composants logiciels issus de l’industrie  production de jeux de test diffusion d’informations  production d’une lettre d’information électronique régulière  organisation de séminaires techniques

19 Technolangue : RNIL (2)  Partenaires académiques et labos de recherche  AFNOR, ATILF, Imag (Clips), Limsi, université de Jussieu (Talana/Lattice et laboratoire de linguistique formelle), université de Nantes (IRIN), université de Rennes(RESO) gros industriels  CEA, XRCE, EDF R&D, Systran, EADS  (Dassault Aviation observateur) PME  Softissimo, Sinequa, Lucid-ID, J-way INRIA  Atoll, Langue & Dialogue, SYNTAX

20 Technolangue : RNIL (3)  Coût coût total = 700 000 euros (TTC) aide accordée = 450 000 euros (TTC)  Durée 36 mois

21 Technolangue : CODEX-termes  objectif élaboration d’un composant complet et performant d’extraction terminologique production de données terminologiques dans le domaine du TALN et pour la CN 36  partenaires AILF (Association des Informaticiens de Langue Française), CNSX SA (PME de Carquefou), DASSAULT AVIATION, EADS Corporate Research Center, l’IRIN, le LORIA (projet L&D), LUCID’I.T, National Institute of Informatics (Japon)  coût total = 600 000 euros (TTC)  aide demandée = 350 000 euros (TTC)  durée prévue = 24 mois

22 Recoupements et apports  gestion d’informations entrantes <---- XMINER acquisition de textes <---- XMINER intégration dans base semi-structurée <---- XMINER annotation par les utilisateurs <---- OPERA (Annotea) classification <---- ACACIA (Corese), TEXMEX, CORTEX, ORPAILLEUR  acquisition/gestion de terminologies multilingues <---- CODEX-termes extraction de termes à partir de textes <---- CODEX-termes, TEXMEX, ORPAILLEUR bases de lien termes-textes <---- Dassault Aviation import de bases lexicales existantes <---- OUTILEX édition collaborative des bases terminologiques <---- CODEX-termes, Lucid-IT  modélisation et gestion de référentiels XML <---- JULES VERNE, INTERA

23 Priorités immédiates  Validation d’une convention de participation Engagement des partenaires Mise en place du comité de pilotage  Stabilisation de l’annexe technique Base: priorités définies aujourd’hui Mise en place d’un groupe de travail (comité scientifique?)  Responsables de sous-thème  Localisation des forces de travail  Lancement du travail technique Rodage: cf. Projets technolangues Activation effective dès signature des conventions par une masse critique de partenaires


Télécharger ppt "L’action nationale de R&D SYNTAX  Constat initial  Objectif  Durée  Contenu  Partenaires  Organisation  Budget  Recoupements et apports  Autres."

Présentations similaires


Annonces Google