Participation de l’IRIT – IC3 à GEONTO

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

22 mai 2007 Clauvice Kenfack – Équipe MODEME
Eléments de Génie Logiciel
La Gestion de la Configuration
IREMIA : Institut de REcherche en Mathématiques et Informatique Appliquées Université de la Réunion Uniformisation des mécanismes de conception de SMA.
Constitution de produits terminologiques à partir de corpus
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Département Informatique Responsable :M. Huchard Responsables adjoints : A. Jean-Marie, F. Koriche, P. Séébold.
Olivier Kraif, Agnès Tutin LIDILEM
Urbanisation de Systèmes d'Information
UML - Présentation.
Analyse et structuration thématiques
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
ETAPES DE LA RECHERCHE DOCUMENTAIRE
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
le profil UML en temps réel MARTE
Exploitation du modèle holonique dans un cadre combinant IAD et IHM
DeltaPROD Suivi des interventions Gestion de configuration
Des outils pour le développement logiciel
SYSTEMES D’INFORMATION
SCIENCES DE L ’INGENIEUR
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
MOT Éditeur de modèles de connaissances par objets typés
Un modèle sémantique pour linteropérabilité de systèmes dinformation Equipe Ingénierie informatique et base de données – Laboratoire LE2I Université de.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
© Petko ValtchevUniversité de Montréal Janvier IFT 2251 Génie Logiciel Notions de Base Hiver 2002 Petko Valtchev.
La gestion par activités (ABM)
Tolerance Manager Un concept métier
B2i Niveau École B2i Niveau École Références : B.O. n° 42 du 16 novembre 2006.
Patrons de conceptions de créations
Vers une génération automatique du mapping de sources biomédicales
UN THESAURUS Pourquoi ? Pour qui ? Comment ?
La monarchie absolue en France
Bases de données phénotypique et ontologie
TRAITEMENT INSTRUMENTÉ DE CORPUS
Comparaison entre RIP et OSPF en utilisant OPNET
Marc Bouissou, Guillaume Torrente, EDF
LRI-INRIA Saclay LRI- UMR CNRS Univ Paris-Sud et UR-INRIA Saclay 12 Equipes au LRI - 7 projets INRIA Equipe IASI-GEMO (IA et BD) « Gestion de données et.
Présenté par : Attia Hamza Merzouk Abdelkrim 2003/2004
UFD 62. EC2 : cours n° 3 Gestion Electronique des Documents Par : Sahbi SIDHOM MCF. Université Nancy 2 Equipe de recherche KIWI – LORIA
Le contenu est basé aux transparents du 7 ème édition de «Software Engineering» de Ian Sommerville«Software Engineering» de Ian Sommerville B.Shishedjiev.
Les principes de la modélisation de systèmes
Séminaire 10 Juin 2008 Pervasive Learning Network : P-LearNet Institut TELECOM.
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
28/05/20021 DOE : une mise en œuvre d’une méthode de structuration différentielle pour les ontologies Raphaël TroncyAntoine Isaac
Supports de formation au SQ Unifié
Hatainville Les Moitiers d’Allonne – Tel : Website : stratic.online.com La démarche projet Mars 2001.
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
Vers une analyse syntaxique à granularité variable Tristan Van rullen
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Bureau d’études Présentation du sujet Organisation des projets Version 1 8 octobre 2004.
Human Knowledge La nouvelle génération de moteurs sémantiques.
Le contenu est basé aux transparents du 7 ème édition de «Software Engineering» de Ian Sommerville«Software Engineering» de Ian Sommerville B.Shishedjiev.
Introduction au Génie Logiciel
Initiation à la conception des systèmes d'informations
François CARCENAC,Frédéric BONIOL ONERA-DTIM Zoubir MAMMERI IRIT
Dominique LAURENT Patrick SEGUELA
Recherche d’information
Présentation AICHA REVEL INGENIEUR D’ÉTUDE STERIA DEPARTEMENT TRD
Management de la qualité
Stage à Ontomantics Master Pro TILDE
Le Traitement Automatique des Langues (TAL)
1 Structure en MC Principes Stockage des données dans la mémoire volatile d’un ordinateur Problèmes Stockage temporaire «Petits» volumes de données Langages.
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
Présentation de la méthode Merise
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Année Universitaire : 2013/2014 Réalisée par: Rahma DAIKHI Encadrants : M. Jean-Yves TIGLI M. Stéphane LAVIROTTE Au sein de : Laboratoire I3S, Equipe RAINBOW.
1 Philippe TRIGANO - Université de Technologie de Compiègne - FRANCE Philippe TRIGANO INGÉNIERIE MULTIMÉDIA PÉDAGOGIQUE.
Transcription de la présentation:

Participation de l’IRIT – IC3 à GEONTO Nathalie Aussenac-Gilles CR IRIT – CNRS Ollivier Haemmerlé PR IRIT - UTM Mouna Kamel MC IRIT – Univ. Perpignan GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

IRIT-IC3 M. Kamel, O. Haemmerlé Plan Présentation de l’IRIT et de l’équipe IC3 Compétences de l’IRIT en extraction de relations L’approche par patrons 2 outils pour extraire des relations par patrons Caméléon Gate Elargissement à l’extraction de relations distribuées sur plusieurs phrases Extraction de relations à partir de tableaux Notre rôle dans le projet Contribution aux lots Innovations et élargissements prévus dans Géonto GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

en Informatique de Toulouse Institut de Recherche en Informatique de Toulouse GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

Les 7 thèmes de recherche de l’IRIT (20 équipes) Analyse et synthèse de l’information (4) Indexation et recherche d’informations (2) Interaction, autonomie, dialogue et coopération (4) Raisonnement et décision (3) Modélisation, algorithmes, calcul haute performance (1) Architecture, systèmes et réseaux (4) Sûreté de développement du logiciel (2) GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

IRIT-IC3 M. Kamel, O. Haemmerlé Place de IC3 dans l’IRIT Interaction, autonomie, dialogue et coopération IC3 : Ingénierie des Connaissances, de la Cognition et de la Coopération Responsable : Nathalie Aussenac-Gilles 12 Permanents, 12 thésards, 1 post-doc Ontologies et textes Systèmes coopératifs Ergonomie, ingénierie de la cognition (Gric) GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

“Ontologies et textes” dans IC3 8 permanents, 3 thésards, 1 post-doc Thèmes de recherche Construction et maintenance de modèles de connaissances à partir de textes et de données Méthodes, cycle de maintenance Outils, approches basées sur le TAL, réutilisation de thésaurus, lexiques - > extraction de relations et de concepts Représentation de ressources termino-ontologiques Utilisation des graphes conceptuels Utilisation d’ontologies pour l’annotation sémantique et la recherche documentaire dans des domaines spécialisés Outils pour l’annotation sémantique -> patrons d’annotation Distances sémantiques Modes d’interrogation des documents annotés Confrontation d’ontologies et de textes pour la gestion des connaissances Évolution dans le temps, repérage de changements, … GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

IRIT-IC3 M. Kamel, O. Haemmerlé Plan Présentation de l’IRIT et de l’équipe IC3 Compétences de l’IRIT en extraction de relations L’approche par patrons 2 outils pour extraire des relations par patrons Caméléon Gate Elargissements : extraction de relations distribuées sur plusieurs phrases extraction de relations à partir de tableaux Notre rôle dans le projet Contribution aux lots Innovations et élargissements prévus dans Géonto GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

Extraction de relations à partir de textes Buts possibles Construction d’ontologie : identification de classes (concepts) et de relations entre concepts Annotation de documents : repérage d’instances Approche linguistique Termes partageant des contextes syntaxiques similaires peuvent être mis en relation (analyse syntaxique des textes : Tree Tagger, Cordial Université) Patrons lexicaux, lexico-syntaxiques Approche statistique Étude de termes co-occurrents, segments répétés Analyse distributionnelle SVM Limites : ne permettent pas d’interpréter la nature des relations GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

Extraction de relations à l’aide de patrons Un patron caractérise le contexte linguistique dans lequel une relation lexicale peut être observée Patron lexical : to define 1mot* as A Software Project may be defined as a Development Process. Patron lexico-syntaxique: to define {Prp.*|Noun|Adj|Num|pro.*|Adv|Det.*}* as The GDP manual defines Software project as a Development Process Projeter des patrons sur les textes requiert des traitements linguistiques préalables Mise en forme du texte pour le traitement, donner un identifiant à chaque phrase … Tokenisation, lemmatisation, Etiquetage grammatical … Particularités des relations La même relation peut être exprimée sous différentes formes. Le sens donné à un patron (la relation qu’il traduit) peut changer d’un corpus à l’autre. Ex. « est constitué de » peut exprimer soit une relation entre Composant/objet entier soit entre matière/Object Pour un type de relation donné, les patrons dépendent du corpus. GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

Des textes vers une ontologie 2 – Définition de concepts et de relations 1 – projection des patrons Corpus Relations lexicales Relations conceptuelles Relations Formelles 4 – Représentation des connaissances Def-concept A:B att a-pour-partie C att 3 - Normalisation Corpus : ensemble de textes sélectionnés pour leur pertinence Etape 1 : comporte du TAL, suppose la définition et la projection de patrons Etapes 2 et 3 : interprétation humaine indispensable GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

Des textes aux annotations / à un index 1 – projection des patrons 2 – marquage des textes /annotation Passages de texte corpus Liste de concepts ou relations + localisation corpus 2 – création d’un index En roulant, le moteur manque de puissance en accélération et en vitesse de pointe. Phase moteur : accélération Phase véhicule : grande vitesse Motorisation Manque de puissance GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

Caméléon (Séguéla, 2000, version de 2006) Caméléon : assiste les étapes de projection et de définition des concepts/relations de l’extraction de relations pour construire un modèle 2 grandes étapes A- Mise au point de patrons spécifiques au corpus Suppose un corpus étiqueté par analyseur (TreeTagger, Cordial ) : Paramétrable B- Interprétation de la projection des patrons sur le corpus et enrichissement de l’ontologie GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

Caméléon : A-Mise au point des patrons d’un projet Forme d’un patron où A, B et C sont des marqueurs linguistiques et X et Y sont les termes recherchés 2 possibilités pour définir 1 patron Par adaptation d’un patron de la bibliothèque Création à partir de l’interprétation (lecture) de contextes par l’ananlyste 4 étapes pour la mise au point d’un patron Écrire ou modifier le patron (éditeur) Le projeter L’évaluer : Observer / valider quelques phrases retournées Décider de retenir /modifier le patron (retour à 1) A X B Y C GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

Pattern evaluation in Caméléon Sentences where the pattern occur Precision rate GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

Caméléon : B- enrichir le modèle Étapes Projeter les patrons Pour chaque phrase retournée, fixer les termes en relation Charger un modèle en cours de construction Enrichir le modèle Pour chaque concept existant, Consulter les relations impliquant ses termes associés Décider de les ajouter ou non au modèle Ou : pour chaque hypothèse de relation Définir les concepts associés aux termes s’ils n’existent pas Ajouter la relation GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

IRIT-IC3 M. Kamel, O. Haemmerlé Bilan sur Caméléon Limites Processus faisant intervenir beaucoup l’humain Lent sur gros corpus Lourd à installer (MySql, TreeTagger, Emdros, Java, Code Caméléon) Pas de classe sémantique à l’intérieur des patrons Partie “enrichissement d’ontologie” à améliorer Outil fermé Points forts Gratuit et disponible Patrons disponibles : 70 patrons documentés (historique : phrases filtrées /corpus) , validés sur 8 corpus, pour des relations de définition (“est-un” en français) Adaptation des patrons Patrons définis par des non informaticiens Méthode / principes réutilisables GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

Gate : Outil pour l’Extraction de Concepts et de Relations ► Gate : General Architecture for Text Engineering ► Gate : Plate-forme d’ingénierie linguistique [Cunningam et al., 2002] ► Largement utilisé pour l’extraction d’informations dans différentes langues ► Principe : application successive (pipeline) de ressources linguistiques (Processing Ressources) ► Peut être utilisé : - en environnement de développement - bibliothèque GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

Gate : Outil pour l’Extraction de Concepts et de Relations Processing Ressources Tokeniser Sentence Splitter Pos Tagger (pas de lemmatisation)  Tree Tagger Gazetteer (compagnies, organisations, …) Coréférencers (nominal, pronominal) Morphological Analyser Parser (Minîpar, Supple, RASP) Chunker (VP, noun phrase) Jape Transducer etc. Corpus GATE Corpus annoté (1) Corpus annoté (2) … Corpus annoté (n) Corpus annoté  Possibilité de créer ses propres ressources GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

Gate : Outil pour l’Extraction de Concepts et de Relations Jape Transducer : permet de définir des patrons lexico-syntaxiques utilise les annotations fournies par les différentes ressources de traitement préalablement appliquées Gate intègre le langage Java : Traitement des annotations Projection d’une ontologie (OWL, RDFS) sur un corpus Enrichissement d’une ontologie Peuplement d’une ontologie GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

Gate : Outil pour l’Extraction de Concepts et de Relations Un exemple d’annotation : GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

Gate : Outil pour l’Extraction de Concepts et de Relations Classes Java Ontology addClass(Oclass), removeClass(Oclass), createClass(String, String) getClassByName(String), containsClassByName(String) getTaxonomicDistance(Oclass, Oclass) … Oclass addSubClass(Oclass), removeSubClass(Oclass) addSuperClass(Oclass), removeSuperClass(Oclass) addInstance(Oclass, String) GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

IRIT-IC3 M. Kamel, O. Haemmerlé Bilan sur Gate Limites Lent sur gros corpus Utilisable par des informaticiens Points forts Gratuit et disponible Facile à installer Application de ressources disponibles ou possibilité de créer ses propres ressources Intègre le langage Java Utilisation avec interface graphique ou de façon embarquée dans des applications autonomes Largement utilisé dans différentes communautés Systèmes utilisant Gate prennent part aux campagnes d’évaluation dans le domaine du traitement du langage naturel depuis 1995 GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

IRIT-IC3 M. Kamel, O. Haemmerlé Choix Caméléon - Gate Nature des utilisateurs (informaticien ou non) Objectifs : Enrichir une ontologie Peupler une ontologie Annoter des documents Indexer des documents Stabilité ou non des relations recherchées Nécessité de gérer de grandes listes d’entités nommées GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

IRIT-IC3 M. Kamel, O. Haemmerlé Elargissement : extraction d’informations distribuées sur plusieurs phrases Patrons lexico-syntaxiques : relations exprimées au sein de la même phrase Information distribuée sur plusieurs phrases ? Information pertinente dépend : du corpus étudié du type d’application Modèles de connaissances envisagés pour la résolution : graphes conceptuels structures de frame GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

IRIT-IC3 M. Kamel, O. Haemmerlé Elargissement : extraction d’informations distribuées sur plusieurs phrases Etude d’un corpus du domaine de la génomique les coréférences : "The authors used CGH analysis. They show deletion on 13q32.1 on 12 cases." les anaphores : "Deletion at 13q32.1 was showed by FISH. This analysis is also performed on 12 patients affected with EA." les ellipses qui : reposent sur des connaissances du domaine : "12 patients with MM were studied. DNA was extracted and subjected to CGH analysis." concernent les liens de cohérence et de cohésion existant entre différents paragraphes du texte : "A CGH analysis was performed on 22 Multiple Myeloma cases. 12 patients show deletion at 13q32.1." GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

IRIT-IC3 M. Kamel, O. Haemmerlé Elargissement : extraction d’informations distribuées sur plusieurs phrases DNA was subjected to CGH analysis Sixteen patients with MM were studied Graphe de Référence pour le contexte Conditions Expérimentales Traduction RASP Appariement GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

IRIT-IC3 M. Kamel, O. Haemmerlé Elargissement : extraction de relations à partir de tableaux GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

Contribution au projet Construction automatique d’ontologie(s) À partir de spécifications de schémas de BD (COGIT) À partir de textes grand public (fourni par LIUPPA) Usage Apparier les schémas de BD Indexer automatiquement les documents en vue de développer des techniques de recherche d’information GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

Contribution au projet Extraction de concepts À partir de ressources lexicales et ontologiques disponibles Règles de nommage pour identifier les EN (morphologie des termes) Utilisation d’outils éprouvés Extraction de relations Réadapter les patrons lexico-syntaxiques relatifs aux relations hiérarchiques (hyperonymie, méronymie, définition) et de synonymie Définir des patrons qui tiennent compte : Du type de document (exploitation des champs) De la structure du document (disposition matérielle et ponctuation) Rechercher les paramètres d’une relation en exploitant les relations argumentatives Identifier les relations exprimées sur plusieurs phrases si besoin est GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

IRIT-IC3 M. Kamel, O. Haemmerlé Questions Particularités des corpus à analyser ontologies existantes Taille et volume Types de relations spécifiques à chacun Disposer d’échantillons « Élargissements » nécessaires de la notion de patron Idem, évaluation des limites des patrons sur une phrase Besoin de disposer de relations « attendues » et voir si elles peuvent être retrouvées par patron Particularité des modèles Distinguer termes et concepts Disposer des termes associés aux concepts / les extraire GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

Gate : Outil pour l’Extraction de Concepts et de Relations ({Token}):Onto --> { gate.AnnotationSet ontos = (gate.AnnotationSet)bindings.get("Onto"); gate.Annotation ontoAnn = (gate.Annotation)ontos.iterator().next(); String className = (String)ontoAnn.getFeatures().get("string"); boolean aClass = ontology.containsClassByName(className); if (aClass) { gate.FeatureMap feature = Factory.newFeatureMap(); feature.put("Classe",ontoAnn.getFeatures().get("string")); outputAS.add(ontos.firstNode(), ontos.lastNode(), "Onto", feature); } GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

Gate : Outil pour l’Extraction de Concepts et de Relations Gate intègre le langage Java Enrichissement d’une ontologie Peuplement d’une ontologie ({Lookup}):l --> { String instances ; gate.AnnotationSet popus =gate.AnnotationSet)bindings.get("l"); gate.Annotation popuAnn = (gate.Annotation)popus.iterator().next(); String nomclasse = (String)popuAnn.getFeatures().get("majorType"); boolean aClass = ontology.containsClassByName(nomclasse); if (aClass) { int begOffset=popus.firstNode().getOffset().intValue(); int endOffset=popus.lastNode().getOffset().intValue(); String mydocContent=doc.getContent().toString(); String matchedString=mydocContent.substring(begOffset,endOffset); ontology.addInstance(matchedString, (OClass)ontology.getClassByName(nomclasse)); } } GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé

IRIT-IC3 M. Kamel, O. Haemmerlé GEONTO - 18 janvier 2008 IRIT-IC3 M. Kamel, O. Haemmerlé