Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.

Slides:



Advertisements
Présentations similaires
Tutoriel - Les Ressources du BCH
Advertisements

MOT Éditeur de modèles de connaissances par objets typés
Architecture Technique de la plate-forme CASTORE
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Première expérience d’utilisation des Web Services dans SmartTools Didier Parigot Projet OASIS INRIA Sophia www-sop.inria.fr/oasis/SmartTools Journée.
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
Utilisation didactique des extractions lexicales des corpus
UML - Présentation.
1 DISIC Option Systèmes Intelligents / Données, Documents et Connaissances DISIC Option Systèmes Intelligents / Données, Documents et Connaissances.
Navigation Interactive dans les documents
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
JOME, un Composant Logiciel pour le Télé-Enseignement des Mathématiques via le WEB, Compatible OpenMath et MathML Laurent DIRAT OVE / I3S-UNSA.
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
VI. Analyse des solutions techniques
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
Loïc Thibaut, 05/2002 STATBASE un outil générique pour la gestion de statistiques de pêche dorigines multiples THIBAUT Loïc, CHAVANCE Pierre, DAMIANO Alain.
Réalisée par :Samira RAHALI
Sommaire Objectif de Peakup Principes de fonctionnement
Archimède : dépôt institutionnel de la Bibliothèque de lUniversité Laval Par Rida Benjelloun Chef de la section recherche.
Annotations sémantiques pour le domaine des biopuces
Des outils pour le développement logiciel
MOT Éditeur de modèles de connaissances par objets typés
Une chaîne éditoriale développée dans le cadre du CIRM François Dagorn Journées pédagogiques de lIFSIC.
Vers des composants TAL réutilisables
VI. Analyse des solutions techniques
Ressources web : évaluer leur validité et leur fiabilité... © Français et Informatique
Présentation et utilisation du logiciel R Komi Sodoké Université du Québec à Montréal Février 2007.
OUTILEX Présentation des résultats
1 DTSI / Service Cognitique Robotique et Interaction OUTILEX Démonstrateur du CEA-LIST : moteur d'interrogation crosslingue (français, anglais, espagnol)
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Projet de Master première année 2007 / 2008
Projet CONSULTING SA : GSA ( Gestion du suivi d’activités)
Retour dexpérience Supportech INSA.NET Daniel Boteanu – Michaël Piffret.
Solvent eXtraction Database - INTERNET -
Patrons de conceptions de créations
API StarOffice 6.0 Beta Franck COURTES Christophe DECIS Thomas FOREY Patrice SEURAT ESSI 2002.
09/11/2006 CMS Content Management System Système de Gestion de Contenu.
Human Knowledge La nouvelle génération de moteurs sémantiques.
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Martine Toussaint Desir
La fonction Adresser un patient permet en quelques clics et 24/24, de: Bienvenue sur La plateforme médicale exclusivement réservée aux médecins, un nouveau.
Web sémantique est pratique documentaire
Initiation à la conception des systèmes d'informations
Dominique LAURENT Patrick SEGUELA
Recherche d’information
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
La programmation par objets Principes et concepts Etude de Smalltalk.
Soutenance du mémoire de synthèse
Le Browser hiérarchique de Classes Java : En quoi cette application pourra faciliter le travail de Mr Leblanc ?
Introduction à MathML Par Katia Larrivée UQO Le 18 mars 2004.
Le Traitement Automatique des Langues (TAL)
Cours MIAGE M1 « Urbanisation des Systèmes d’Information » Henry Boccon-Gibod Urbanisation des Systèmes d’Information Plan de cours.
Apports des clients riches dans le monde du WEB 2.0
Les outils Multidimensionnels SAS ® 9 Atelier Technique SAS ® Eric WOLFF Jeudi 2 juin 2005.
31/05/2007Projet Master 11 Présentation ludique de la recherche opérationnelle à la fête de la science Année universitaire 2006/2007 Sylvain FIX Julien.
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
GFU (ABD) INTO INFO (Educate) 28 janvier 1998 De l’auto-formation... l Guides du lecteur et autres fascicules d’aide l Guides informatisés et « help »
Introduction à la Recherche
Proposition de possibilité d’évolution de nos spécialités Deux projets (liés) : Projet 1 : Informatique Computationnelle – Etudiants 4 e et 5 e IR Projet.
Dreamweaver MX Jauneau Marie Claude-Antoine Zarate.
Plan de la présentation Le langage HTML Dreamweaver MX Les premiers outils pour créer une page web :  Propriétés d’une page  Création de cadres  Création.
Introduction au HTML Qu’est ce que le HTML ?
1 CEC A.-CHAVANNE Sites Web et bases de données. 2 UNE BASE DE DONNÉES : POURQUOI ? Manipulation de grandes quantités d’information – représentation des.
De Zotero à Mendeley : découvrir comment gérer ses références Félix Langevin Harnois Bibliothécaire Service de la bibliothèque École de technologie supérieure.
Organiser l’information trouvée sur internet Félix Langevin Harnois Bibliothécaire Service de la bibliothèque École de technologie supérieure Hiver 2016.
module SIE depuis 2011 et IAMD depuis l’an dernier ! Gestion de Masse de Données (GMD) Introduction Adrien Coulet
Transcription de la présentation:

Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS et U. Paris 13)

De quoi parle-t-on ? Architecture permettant de recevoir des outils linguistiques de natures diverses Diversité des langages informatiques employés Diversité des langues traitées (multilinguisme) Diversité des types d’annotation Diversité des formats de données etc.

Pourquoi de telles architectures ? Faciliter la conception d’applications Chaînage d’outils linguistiques Réutilisation de modules existants Gestion aisée des données (corpus et annotations) Nouveaux besoins liés au web Informatique répartie Multilinguisme

Quelques plates-formes, classées par type d’annotation Ajout d’annotations au corpus LT-NSL/LT-XML toolkit, Edimburgh Stockage des annotations à part TIPSTER (dont Gate, Ellogon, Alembic…) Représentation uniforme (théorie ling.) Xtag U. Penn ; ENJU, U. Tokyo ; Alep … Aucun mode de gestion pré-définie ICE Intarc, VerbMobil ; TalLab, I-CDC

L’exemple de Gate Développé à Sheffield depuis 1996 Gratuit et open source Largement distribué (projets européens… ) « …des milliers d’utilisateurs sur des centaines de sites… » Initialement développé dans le cadre Tipster Gate 2 (depuis 2002) Entièrement en java (multi plate-forme) Unicode (multilinguisme)

Principaux composants Une infrastructure (architecture) Un ensemble de modules Un ensemble de données (textes, ressources, annotations) Une interface graphique permettant de manipuler les données Les traitements (chaînage de composant)

Outils intégrés Un système d’extraction d’information pour l’anglais (Segmentation, analyse morpho- syntaxique, entités nommées…) Un système de gestion de regex (Jape, module d’ expressions régulières en java) Interface d’annotation manuelle Outils d’évaluation (comparaison de l’annotation d’un module/référence)

Gestion des annotations Format Tipster Informations sous forme attribut-valeur Stockage en dehors du document Référence au document par des indices de position Format Gate 2 Possibilités de « sorties » au format XML Nouveau types de données supportées (dictionnaires, ontologies, etc) Données demandant des liens entre éléments, plus complexe que le format attribut-valeur

Développement d’applications Principales utilisations Extraction d’information, résumé automatique Annotation sémantique (AKT) Construire une application Choisir des composants Les intégrer à Gate (créolisation) Chaîner les traitements

L’expérience du projet Ecran Projet européen ( ) But Développer des systèmes d’extraction d’information en anglais, français, grec Moyens Plate-forme commune : Gate v1 Composants développés avec différents langages Français : extraction + indexation sémantique

Chaîne logicielle Modules intégrés Modules développés hors-projet (Multext) Modules propres (U. Fribourg, Thomson- CSF)

Visualiseur d’annotations Visualiseur de Gate 1 (format propre)

Résultat de l’extraction Formulaire d’extraction (développé en dehors de Gate, à partir des résultats de l’analyse)

Bilan du projet Ecran Des points intéressants Réutilisabilité des modules Visualiseurs intégrés Architecture modulable (chaînage) Des points problématiques Insertion de composants délicate (créolisation) Format d’annotation propriétaire (pas XML) Relativement « lourd » et lent

Quelques éléments sur Gate 2 Environnement de création d’application Cf. environnements de développement d’applications informatiques Enchaînement en pipe-line ou en parallèle Gestion intégrée des ressources Intégration d’outils de développement de base Jape : bibliothèque d’automates à états finis Annotation auto./manuelle de textes Plusieurs types de visualiseurs

Construire une application (Gate 2)

Annotation sémantique (Gate2)

Bilan sur Gate 2 Un environnement séduisant Nombreux modules disponibles Facilité de manipulation et de construction d’application Évaluation Quelques limites « Créolisation » de composants extérieurs Efficacité de java ?

Conclusion Des environnements nécessaires Réutilisation et intégration d’applications Modularité, évolutivité Échanges de données et de traitements Un investissement rentable pour le TAL