L’action nationale de R&D SYNTAX Constat initial Objectif Durée Contenu Partenaires Organisation Budget Recoupements et apports Autres projets
Constat initial nombreux travaux menés à l’INRIA sur la création, la gestion ou la diffusion de documents organisation des bases documentaires traitement des contenus textuels de ces bases différents logiciels ont été réalisés mais jamais réunis dans des contextes opérationnels maturation de l’ingénierie documentaire et linguistique Technologies validées : Couches basses: étiquetage morpho-syntaxique, chunking Modules de plus haut niveau: extraction de termes, classification de documents, etc. Stabilisation des technologies autour de XML (W3C) Mise en place du comité de normalisation ISO TC37/SC4 sur les ressources linguistiques
Objectif rassembler sur des plates-formes homogènes différents résultats existants pour répondre à des besoins d’intégration et de gestion de documents spécialisés intégration : les documents proviennent de sources multiples gestion : indexation, classification et extraction d’informations terminologiques documents spécialisés : documents présents sur un Intranet d’entreprise ( documents quelconques sur Internet) cela suppose de compléter certains développements issus de projets INRIA ou industriels de standardiser des formats d’échange entre de tels composants de valider l’ensemble dans des conditions proches de l’opérationnel
Contenu (1) 3 sous-thèmes gestion d’informations entrantes acquisition et gestion de terminologies/lexiques multilingues plate-forme de modélisation et de gestion de référentiels XML
Sous-thème 1 : gestion d’informations entrantes tâches acquisition de textes gestion de formats hétérogènes (Word, LateX, …) documents natifs XML intégration dans une base semi-structurée méta-données identification d’informations structurantes (date, auteur, noms propres) annotation par les utilisateurs annotation de surface, enrichissement publication des annotations classification (taxonomie existante ou non) recherche de thèmes et segmentation (statistique) identification de clefs d’indexation (linguistique)
Sous-thème 1 : gestion d’informations entrantes documents hétérogènes documents natifs XML base de documents métadonnées format vocabulaire édition accès annotation de surface date, … entités nommées : personnes, lieux, … structure Segmentation (autour de la notion de thème) critères lexicaux (statistiques) Topic Detection & Tracking classification non contrôlée indexation classification contrôlée (ontologies, …) poste d’annotation qualifier établir des liens etc.
Sous-thème 2 : acquisition et gestion de terminologies/lexiques multilingues tâches extraction de termes à partir de textes étiqueteur morphosyntaxique (Part Of Speech tagger) chunker à base d’automates (Xerox), de patterns syntaxiques (IRIN) ou de statistiques markoviennes bases de lien termes-textes reprise de bases lexicales existantes édition collaborative des bases terminologiques
Sous-thème 2 : acquisition et gestion de terminologies/lexiques multilingues base de textes rédacteur technique traducteur terminologue liens poste d’édition collaborative graphe de termes variabilité importation de bases lexicales (Outilex) reconnaissance de termes ontologies chunker Part Of Speech tagger extraction de termes
Sous-thème 3 : modélisation et gestion de référentiels XML tâches modélisation des structures (UML) gestion du référentiel de modélisation règles de passage et de génération de schéma XML, génération dynamique de modèles récupération de sous-schémas XML existants, cohérence des référentiels Force de proposition et de validation vis-à-vis du TC37/SC4 (cf. Normalangues)
Sous-thème 3 : modélisation et gestion de référentiels XML réutilisation de données existantes squelette format données externes autres formats filtreéchantillon valider (contrôler les postes d’édition) UML spécification des éléments à identifier modélisation répertoires (ISO) = gestion du référentiel de modélisation schéma XML catégories de données (genre, nombre, date de révision, …) = ensemble des descripteurs élémentaires
Durée et phasage (1) 3 ans 3 à 6 mois de discussion avec les partenaires affiner le programme de travail définir l’organisation à mettre en place mettre au point les contrats (propriété des résultats) 2 ans de travaux 6 à 9 mois de dissémination des résultats sous-thème 3 permanent tout au long de l’action sous-thèmes 1 et 2 reposent sur le sous-thème 3 sont relativement indépendants car ne sont reliés que par les ontologies
Durée et phasage (2) sous-thème 1 Définition de l’architecture logicielle globale, les protocoles d’interaction et la mise en place de la base de documents et de la base de liens En parallèle: identification précise des besoins des industriels (scénario d’expérimentation) Mise en conformité (formats, API) des composants à intégrer Intégration sous-thème 2 Chaîne d’extraction de termes en parallèle, spécification précise de la plate-forme globale (identification des outils à intégrer) Couplage à l’outil de gestion de la base de liens Intégration (outil d’édition de terminologies) sous-thème 3 répertoire de catégories de données API, de filtres, catalogue de méta-modèles et le
Organisation Principes l'INRIA apportera des résultats de travaux de recherche et du personnel les partenaires apporteront certains travaux antérieurs et du personnel tous les développements réalisés seront réutilisables par tous les partenaires chaque industriel adaptera à son contexte propre les résultats obtenus pour chaque sous-thème, une équipe = personnel INRIA + personnel fourni par partenaires intéressés ces équipes pourront être hébergées par l'INRIA elles seront coordonnées par un comité scientifique réduit des séminaires techniques à intervalle régulier étroite collaboration avec le groupe miroir français du TC37/SC4
Critères de réussite transfert technologique utilisation opérationnelle des plates-formes par au moins 2 partenaires industriels diffusion de composants par une ou des sociétés de technologie issues ou non de l’INRIA impact sur le domaine : publication de normes pour l’ingénierie des langues et du document création d’une dynamique dans la communauté française une des retombées = mobilisation pour des réponses à des appels à propositions meilleure connaissance par les équipes INRIA des besoins opérationnels des industriels relance des travaux de recherches meilleur dialogue entre ces équipes
Budget : charges conduite de l’action : 1 personne sur 3 ans ………..…………. = 36 h x m gestion d’informations entrantes …………………………… …… = 114 h x m acquisition et gestion de terminologies/lexiques multilingues = 60 h x m plate-forme de modélisation et de gestion de référentiels …… = 50 h x m total = 260 h x m
Budget : financement autres projets dont RNIL et CODEX-termes (Technolangue) = 44 hommes x mois 6 partenaires industriels à 18 h x m chacun = 108 hommes x mois DirDRI (action nationale de R&D) 3 personnes sur 2 ans l’équivalent d’1 personne à plein temps pour assurer la conduite de l’action sur 3 ans = 108 hommes x mois total = 260 h x m
Autres projets projets Technolangue RNIL (accepté, démarrage prévu début novembre) CODEX-termes (accepté, démarrage prévu début novembre) projet ITEA JULES VERNE (accepté dans son principe, en phase de négociation avec le ministère de l’industrie) rassemble TMM, Philips (Eindhoven), quelques PME et l’INRIA projets RNTL OUTILEX (accepté, démarrage prévu début octobre) concerne la modélisation de données lexicales XMINER (accepté, a démarré début juillet) projet européen E-content INTERA (accepté, démarrage prévu début octobre) développe des outils de modélisation de données XML en lien avec la standardisation
Technolangue : RNIL (1) objectif : définir, valider et diffuser des normes internationales pour l’ingénierie linguistique participation à la définition de normes internationales pour représenter et gérer des ressources linguistiques validation des propositions normatives développement de librairies informatiques facilitant la mise aux normes des produits ou des composants logiciels issus de l’industrie production de jeux de test diffusion d’informations production d’une lettre d’information électronique régulière organisation de séminaires techniques
Technolangue : RNIL (2) Partenaires académiques et labos de recherche AFNOR, ATILF, Imag (Clips), Limsi, université de Jussieu (Talana/Lattice et laboratoire de linguistique formelle), université de Nantes (IRIN), université de Rennes(RESO) gros industriels CEA, XRCE, EDF R&D, Systran, EADS (Dassault Aviation observateur) PME Softissimo, Sinequa, Lucid-ID, J-way INRIA Atoll, Langue & Dialogue, SYNTAX
Technolangue : RNIL (3) Coût coût total = euros (TTC) aide accordée = euros (TTC) Durée 36 mois
Technolangue : CODEX-termes objectif élaboration d’un composant complet et performant d’extraction terminologique production de données terminologiques dans le domaine du TALN et pour la CN 36 partenaires AILF (Association des Informaticiens de Langue Française), CNSX SA (PME de Carquefou), DASSAULT AVIATION, EADS Corporate Research Center, l’IRIN, le LORIA (projet L&D), LUCID’I.T, National Institute of Informatics (Japon) coût total = euros (TTC) aide demandée = euros (TTC) durée prévue = 24 mois
Recoupements et apports gestion d’informations entrantes <---- XMINER acquisition de textes <---- XMINER intégration dans base semi-structurée <---- XMINER annotation par les utilisateurs <---- OPERA (Annotea) classification <---- ACACIA (Corese), TEXMEX, CORTEX, ORPAILLEUR acquisition/gestion de terminologies multilingues <---- CODEX-termes extraction de termes à partir de textes <---- CODEX-termes, TEXMEX, ORPAILLEUR bases de lien termes-textes <---- Dassault Aviation import de bases lexicales existantes <---- OUTILEX édition collaborative des bases terminologiques <---- CODEX-termes, Lucid-IT modélisation et gestion de référentiels XML <---- JULES VERNE, INTERA
Priorités immédiates Validation d’une convention de participation Engagement des partenaires Mise en place du comité de pilotage Stabilisation de l’annexe technique Base: priorités définies aujourd’hui Mise en place d’un groupe de travail (comité scientifique?) Responsables de sous-thème Localisation des forces de travail Lancement du travail technique Rodage: cf. Projets technolangues Activation effective dès signature des conventions par une masse critique de partenaires