L’action nationale de R&D SYNTAX  Constat initial  Objectif  Durée  Contenu  Partenaires  Organisation  Budget  Recoupements et apports  Autres.

Slides:



Advertisements
Présentations similaires
de la recherche partenariale
Advertisements

Addis-Abeba novembre 2005 La Coordination du Système Statistique Atelier régional sur « Organisation et gestion des systèmes statistiques nationaux.
Projet ORI-OAI Réseau de portails OAI Printemps dUNIT 24 mai 2007.
Projet ORI-OAI Réseau de portails OAI 27/03/2007.
Sémantique et droit de la Fonction publique une boucle verticale
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Thème 3 : plate-forme de modélisation et de gestion de référentiels XML étapes modélisation des structures (UML) gestion du référentiel de modélisation.
N.C. – Décembre Page : 1 Action Syntax Identification des priorités daction EADS S&DE - BDSI / IT N. CHANCHEVRIER.
Avec le soutien de lUnion Européenne (FEDER) Programme Régional dActions Innovatrices– Colloque Biopuces et écologie microbienne – octobre 2006 Avec.
19 septembre 2006 Tendances Logicielles IBM Rational Data Architect Un outil complet de modélisation et de conception pour SGBD Isabelle Claverie-Berge.
Urbanisation de Systèmes d'Information
2002 Compétitif XMiner : Plate-forme de structuration texte libre multi-approches par balisage XML de Tags Actifs Lobjectif du projet est de développer.
Hôpital Expo 25 mai 2012.
Formation Ouverte A Distance individualisée et fortement tutorée
La mise en place du Règlement sur la diffusion de linformation Un travail déquipe.
Chapitre 4 : la gestion électronique des documents
MIAGE MASTER 1 Cours de gestion de projet
MINISTÈRE DES AFFAIRES ÉTRANGÈRES UGP: Appui à lEnseignement du Français FSP: "Création de pôles pédagogiques de référence pour lenseignement du français"
MANAGEMENT DU PRODUIT Organisation Technique du Produit (OTP) Objet Arborescence Produits Relation autres domaines Décomposition du système Gestion.
Thématique : [Intitulé du groupe de travail] Synthèse des actions proposées [développées dans les planches qui suivent] Les actions du contrat de filière.
B2i Lycée Circulaire BO n°31 du 29/08/2013.
Annotations sémantiques pour le domaine des biopuces
Le portail des MSH
Rencontre avec le comité de l'ACRI du 14 janvier 2009 Arezki Aït Oudhia 14 janvier 2009 Le cadre commun dinteropérabilité (CCI)
Alain Gervais, directeur adjoint Décembre 2004 Modèles de conception et de production.
Environnements de travail Schéma directeur des. SDET : un méta projet du S3IT S3IT : Une démarche globale Une démarche structurante Une démarche de projet.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
MINISTERE DE LA CULTURE ET DE LA COMMUNICATION Jean-Pierre DALBERA Chef de la mission de la recherche et de la technologie
École de bibliothéconomie et des sciences de linformation 1 Gestion de linformation électronique (GIE) Maîtrise en sciences de linformation EBSI Université.
Présentation de larchive ouverte « ArchiveTématice » Colloque Technologies pour lapprentissage et léducation, Paris,
Ingénierie Système en SysML appliquée à la rédaction du cahier des charges Y. Le Gallou Séminaire académique STI2D - Calais – 1er avril 2014.
Centre de ressources numériques TELMA Une plate forme de publications Richard Walter, IRHT.
E.Dot – juillet 2005 Page 1 Conclusion [ Lot 4. Validation et Évaluation ] Rapport Final 4 juillet 2005.
Corporate Research Center Software Department 1/14 UAC/L/99/0292 PROJET CALIFE Réunion de lancement 2 septembre 1999 Calife.
Le management de l'IVVQ Processus techniques IVVQ
Supports de formation au SQ Unifié
Réunion des directeurs d’unités ST2I 30 octobre 2007 Réseau Doc-ST2I Missions et perspectives (MI2S)
Avancement des équipes de rédaction INSPIRE CNIG - Groupe de liaison INSPIRE 8 septembre 2009 Marie-Louise ZAMBON - IGN.
CPER Thématique « Enseignement Supérieur, Recherche, Innovation » Réunion avec les SGAR – 9 octobre 2013 Direction générale pour l’enseignement.
Extrait du Referentiel BTS Systèmes numériques Options : Informatique et réseaux et Électronique et communication S1 à S9 Définition des savoirs et savoir-faire.
1 e.dot – septembre e.dot Entrepôts de Données Ouverts sur la Toile RNTL.
Présentation AICHA REVEL INGENIEUR D’ÉTUDE STERIA DEPARTEMENT TRD
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
SYSTEMES d’INFORMATION séance 1 : Introduction et définitions
Sites Pilotes Généralisation
Plateforme Opérationnelle pour le Livre Numérique
Réseau interaméricain de prévention de la violence et de la criminalité Mars 2015.
RPPS : Répertoire Partagé des Professionnels de Santé Groupe de coordination de l ’observation de la santé 22 janvier 2008.
2000 Plate-forme PERF-RV : Plate-forme Française de Réalité Virtuelle Répondre aux besoins de R&D, basé sur des dispositifs de réalité virtuelle interactifs.
OBJECTIFS : STOP à la recopie fastidieuse SÆCI « Recherche Structurée » permet de récupérer des informations de documents quelconques d’après leur positionnement.
Martine Miny - MPInstitut - Référentiels et métiers de management de projet - Mastère IESTO - 9 février 2004 Référentiels et métiers de management de projet.
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
AUTOÉVALUATION HCERES - ÉTABLISSEMENT
Document de spécification d’exigences Normes IEEE et 29148:2011
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
UNIMARC : contexte institutionnel Agnès Manneheut Agence bibliographique de l’Enseignement supérieur Deuxième journée d’information UNIMARC, Paris, 27.
MEN-MESR/SG/STSI-C1 1 lettres – 28 janvier 2008 Réunion d’interlocuteurs académiques Des services pour les enseignants par des enseignants Programme Usages.
R ETOURS SUR LE PROJET DISTIL ET PERSPECTIVES 2011 Sylvie Ranwez Gérard Dray.
1 G Gauthier, Novembre2014 Projet de Création d’une chaire d’excellence Chaire = Programme porté par la fondation de Grenoble INP : Chaire d’excellence.
1 Point Modélisation – ZHI 2.0 – MDO 2.0. Groupes ADD-GIGE 24/09/ ZHI 2.0.
Proposition au 20-dec-2005 Projet de partenariat co-initié par FdP Genève - LPA - Akis Ingénierie - KeyPartners 1 Plate-forme collaborative pour la conception.
1 Ecrire par et sur le Net Recherche subsidiée par la Communauté française de Belgique Comment associer les TIC à l'apprentissage de l'écriture ? Véronique.
Clés USB pour les nouveaux enseignants. Une clé pour démarrer » opération 2008  Généralisation à l’ensemble l’ensemble des nouveaux professeurs titulaires.
1 Master Data Management au SANDRE. GPA 17/10/ Une philosophie de diffusion des référentiels 3 grands blocs dans les systèmes d’information environnementaux:
BTS AGPME, journée académique de formation du 12 janvier 2009 M. DESSERTENNE Présentation d’une situation de formation Animanutrix 2 Gérer les documents.
Lancement du projet de refonte du portail eaufrance Groupe de coordination inter bassins 28/01/2014 – Anne Macaire.
1 Master Data Management au SANDRE. ADD 27/11/ Une philosophie de diffusion des référentiels 3 grands blocs dans les systèmes d’information environnementaux:
Transcription de la présentation:

L’action nationale de R&D SYNTAX  Constat initial  Objectif  Durée  Contenu  Partenaires  Organisation  Budget  Recoupements et apports  Autres projets

Constat initial  nombreux travaux menés à l’INRIA sur la création, la gestion ou la diffusion de documents organisation des bases documentaires traitement des contenus textuels de ces bases  différents logiciels ont été réalisés mais jamais réunis dans des contextes opérationnels  maturation de l’ingénierie documentaire et linguistique Technologies validées :  Couches basses: étiquetage morpho-syntaxique, chunking  Modules de plus haut niveau: extraction de termes, classification de documents, etc. Stabilisation des technologies autour de XML (W3C) Mise en place du comité de normalisation ISO TC37/SC4 sur les ressources linguistiques

Objectif  rassembler sur des plates-formes homogènes différents résultats existants pour répondre à des besoins d’intégration et de gestion de documents spécialisés intégration : les documents proviennent de sources multiples gestion : indexation, classification et extraction d’informations terminologiques documents spécialisés : documents présents sur un Intranet d’entreprise (  documents quelconques sur Internet)  cela suppose de compléter certains développements issus de projets INRIA ou industriels de standardiser des formats d’échange entre de tels composants de valider l’ensemble dans des conditions proches de l’opérationnel

Contenu (1)  3 sous-thèmes gestion d’informations entrantes acquisition et gestion de terminologies/lexiques multilingues plate-forme de modélisation et de gestion de référentiels XML

Sous-thème 1 : gestion d’informations entrantes  tâches acquisition de textes  gestion de formats hétérogènes (Word, LateX, …)  documents natifs XML intégration dans une base semi-structurée  méta-données  identification d’informations structurantes (date, auteur, noms propres) annotation par les utilisateurs  annotation de surface, enrichissement  publication des annotations classification (taxonomie existante ou non)  recherche de thèmes et segmentation (statistique)  identification de clefs d’indexation (linguistique)

Sous-thème 1 : gestion d’informations entrantes documents hétérogènes documents natifs XML base de documents métadonnées format vocabulaire édition accès annotation de surface date, … entités nommées : personnes, lieux, … structure Segmentation (autour de la notion de thème) critères lexicaux (statistiques) Topic Detection & Tracking classification non contrôlée indexation classification contrôlée (ontologies, …) poste d’annotation qualifier établir des liens etc.

Sous-thème 2 : acquisition et gestion de terminologies/lexiques multilingues  tâches extraction de termes à partir de textes  étiqueteur morphosyntaxique (Part Of Speech tagger)  chunker à base d’automates (Xerox), de patterns syntaxiques (IRIN) ou de statistiques markoviennes bases de lien termes-textes reprise de bases lexicales existantes édition collaborative des bases terminologiques

Sous-thème 2 : acquisition et gestion de terminologies/lexiques multilingues base de textes rédacteur technique traducteur terminologue liens poste d’édition collaborative graphe de termes variabilité importation de bases lexicales (Outilex) reconnaissance de termes ontologies chunker Part Of Speech tagger extraction de termes

Sous-thème 3 : modélisation et gestion de référentiels XML  tâches modélisation des structures (UML) gestion du référentiel de modélisation règles de passage et de génération de schéma XML, génération dynamique de modèles récupération de sous-schémas XML existants, cohérence des référentiels Force de proposition et de validation vis-à-vis du TC37/SC4 (cf. Normalangues)

Sous-thème 3 : modélisation et gestion de référentiels XML réutilisation de données existantes squelette format données externes autres formats filtreéchantillon valider (contrôler les postes d’édition) UML spécification des éléments à identifier modélisation répertoires (ISO) = gestion du référentiel de modélisation schéma XML catégories de données (genre, nombre, date de révision, …) = ensemble des descripteurs élémentaires

Durée et phasage (1)  3 ans 3 à 6 mois de discussion avec les partenaires  affiner le programme de travail  définir l’organisation à mettre en place  mettre au point les contrats (propriété des résultats) 2 ans de travaux 6 à 9 mois de dissémination des résultats  sous-thème 3 permanent tout au long de l’action  sous-thèmes 1 et 2 reposent sur le sous-thème 3 sont relativement indépendants car ne sont reliés que par les ontologies

Durée et phasage (2)  sous-thème 1 Définition de l’architecture logicielle globale, les protocoles d’interaction et la mise en place de la base de documents et de la base de liens En parallèle: identification précise des besoins des industriels (scénario d’expérimentation) Mise en conformité (formats, API) des composants à intégrer Intégration  sous-thème 2 Chaîne d’extraction de termes en parallèle, spécification précise de la plate-forme globale (identification des outils à intégrer) Couplage à l’outil de gestion de la base de liens Intégration (outil d’édition de terminologies)  sous-thème 3 répertoire de catégories de données API, de filtres, catalogue de méta-modèles et le

Organisation  Principes l'INRIA apportera des résultats de travaux de recherche et du personnel les partenaires apporteront certains travaux antérieurs et du personnel tous les développements réalisés seront réutilisables par tous les partenaires chaque industriel adaptera à son contexte propre les résultats obtenus pour chaque sous-thème, une équipe = personnel INRIA + personnel fourni par partenaires intéressés ces équipes pourront être hébergées par l'INRIA elles seront coordonnées par un comité scientifique réduit des séminaires techniques à intervalle régulier étroite collaboration avec le groupe miroir français du TC37/SC4

Critères de réussite  transfert technologique utilisation opérationnelle des plates-formes par au moins 2 partenaires industriels diffusion de composants par une ou des sociétés de technologie issues ou non de l’INRIA  impact sur le domaine : publication de normes pour l’ingénierie des langues et du document  création d’une dynamique dans la communauté française une des retombées = mobilisation pour des réponses à des appels à propositions  meilleure connaissance par les équipes INRIA des besoins opérationnels des industriels relance des travaux de recherches meilleur dialogue entre ces équipes

Budget : charges conduite de l’action : 1 personne sur 3 ans ………..…………. = 36 h x m gestion d’informations entrantes …………………………… …… = 114 h x m acquisition et gestion de terminologies/lexiques multilingues = 60 h x m plate-forme de modélisation et de gestion de référentiels …… = 50 h x m total = 260 h x m

Budget : financement autres projets dont RNIL et CODEX-termes (Technolangue) = 44 hommes x mois 6 partenaires industriels à 18 h x m chacun = 108 hommes x mois DirDRI (action nationale de R&D)  3 personnes sur 2 ans  l’équivalent d’1 personne à plein temps pour assurer la conduite de l’action sur 3 ans = 108 hommes x mois total = 260 h x m

Autres projets  projets Technolangue RNIL (accepté, démarrage prévu début novembre) CODEX-termes (accepté, démarrage prévu début novembre)  projet ITEA JULES VERNE (accepté dans son principe, en phase de négociation avec le ministère de l’industrie)  rassemble TMM, Philips (Eindhoven), quelques PME et l’INRIA  projets RNTL OUTILEX (accepté, démarrage prévu début octobre)  concerne la modélisation de données lexicales XMINER (accepté, a démarré début juillet)  projet européen E-content INTERA (accepté, démarrage prévu début octobre)  développe des outils de modélisation de données XML en lien avec la standardisation

Technolangue : RNIL (1)  objectif : définir, valider et diffuser des normes internationales pour l’ingénierie linguistique participation à la définition de normes internationales pour représenter et gérer des ressources linguistiques validation des propositions normatives  développement de librairies informatiques facilitant la mise aux normes des produits ou des composants logiciels issus de l’industrie  production de jeux de test diffusion d’informations  production d’une lettre d’information électronique régulière  organisation de séminaires techniques

Technolangue : RNIL (2)  Partenaires académiques et labos de recherche  AFNOR, ATILF, Imag (Clips), Limsi, université de Jussieu (Talana/Lattice et laboratoire de linguistique formelle), université de Nantes (IRIN), université de Rennes(RESO) gros industriels  CEA, XRCE, EDF R&D, Systran, EADS  (Dassault Aviation observateur) PME  Softissimo, Sinequa, Lucid-ID, J-way INRIA  Atoll, Langue & Dialogue, SYNTAX

Technolangue : RNIL (3)  Coût coût total = euros (TTC) aide accordée = euros (TTC)  Durée 36 mois

Technolangue : CODEX-termes  objectif élaboration d’un composant complet et performant d’extraction terminologique production de données terminologiques dans le domaine du TALN et pour la CN 36  partenaires AILF (Association des Informaticiens de Langue Française), CNSX SA (PME de Carquefou), DASSAULT AVIATION, EADS Corporate Research Center, l’IRIN, le LORIA (projet L&D), LUCID’I.T, National Institute of Informatics (Japon)  coût total = euros (TTC)  aide demandée = euros (TTC)  durée prévue = 24 mois

Recoupements et apports  gestion d’informations entrantes <---- XMINER acquisition de textes <---- XMINER intégration dans base semi-structurée <---- XMINER annotation par les utilisateurs <---- OPERA (Annotea) classification <---- ACACIA (Corese), TEXMEX, CORTEX, ORPAILLEUR  acquisition/gestion de terminologies multilingues <---- CODEX-termes extraction de termes à partir de textes <---- CODEX-termes, TEXMEX, ORPAILLEUR bases de lien termes-textes <---- Dassault Aviation import de bases lexicales existantes <---- OUTILEX édition collaborative des bases terminologiques <---- CODEX-termes, Lucid-IT  modélisation et gestion de référentiels XML <---- JULES VERNE, INTERA

Priorités immédiates  Validation d’une convention de participation Engagement des partenaires Mise en place du comité de pilotage  Stabilisation de l’annexe technique Base: priorités définies aujourd’hui Mise en place d’un groupe de travail (comité scientifique?)  Responsables de sous-thème  Localisation des forces de travail  Lancement du travail technique Rodage: cf. Projets technolangues Activation effective dès signature des conventions par une masse critique de partenaires