La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Participation de l’IRIT – IC3 à GEONTO

Présentations similaires


Présentation au sujet: "Participation de l’IRIT – IC3 à GEONTO"— Transcription de la présentation:

1 Participation de l’IRIT – IC3 à GEONTO
Nathalie Aussenac-Gilles CR IRIT – CNRS Ollivier Haemmerlé PR IRIT - UTM Mouna Kamel MC IRIT – Univ. Perpignan GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

2 IRIT-IC3 M. Kamel, O. Haemmerlé
Plan Présentation de l’IRIT et de l’équipe IC3 Compétences de l’IRIT en extraction de relations L’approche par patrons 2 outils pour extraire des relations par patrons Caméléon Gate Elargissement à l’extraction de relations distribuées sur plusieurs phrases Extraction de relations à partir de tableaux Notre rôle dans le projet Contribution aux lots Innovations et élargissements prévus dans Géonto GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

3 en Informatique de Toulouse
Institut de Recherche en Informatique de Toulouse GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

4 Les 7 thèmes de recherche de l’IRIT (20 équipes)
Analyse et synthèse de l’information (4) Indexation et recherche d’informations (2) Interaction, autonomie, dialogue et coopération (4) Raisonnement et décision (3) Modélisation, algorithmes, calcul haute performance (1) Architecture, systèmes et réseaux (4) Sûreté de développement du logiciel (2) GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

5 IRIT-IC3 M. Kamel, O. Haemmerlé
Place de IC3 dans l’IRIT Interaction, autonomie, dialogue et coopération IC3 : Ingénierie des Connaissances, de la Cognition et de la Coopération Responsable : Nathalie Aussenac-Gilles 12 Permanents, 12 thésards, 1 post-doc Ontologies et textes Systèmes coopératifs Ergonomie, ingénierie de la cognition (Gric) GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

6 “Ontologies et textes” dans IC3
8 permanents, 3 thésards, 1 post-doc Thèmes de recherche Construction et maintenance de modèles de connaissances à partir de textes et de données Méthodes, cycle de maintenance Outils, approches basées sur le TAL, réutilisation de thésaurus, lexiques - > extraction de relations et de concepts Représentation de ressources termino-ontologiques Utilisation des graphes conceptuels Utilisation d’ontologies pour l’annotation sémantique et la recherche documentaire dans des domaines spécialisés Outils pour l’annotation sémantique -> patrons d’annotation Distances sémantiques Modes d’interrogation des documents annotés Confrontation d’ontologies et de textes pour la gestion des connaissances Évolution dans le temps, repérage de changements, … GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

7 IRIT-IC3 M. Kamel, O. Haemmerlé
Plan Présentation de l’IRIT et de l’équipe IC3 Compétences de l’IRIT en extraction de relations L’approche par patrons 2 outils pour extraire des relations par patrons Caméléon Gate Elargissements : extraction de relations distribuées sur plusieurs phrases extraction de relations à partir de tableaux Notre rôle dans le projet Contribution aux lots Innovations et élargissements prévus dans Géonto GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

8 Extraction de relations à partir de textes
Buts possibles Construction d’ontologie : identification de classes (concepts) et de relations entre concepts Annotation de documents : repérage d’instances Approche linguistique Termes partageant des contextes syntaxiques similaires peuvent être mis en relation (analyse syntaxique des textes : Tree Tagger, Cordial Université) Patrons lexicaux, lexico-syntaxiques Approche statistique Étude de termes co-occurrents, segments répétés Analyse distributionnelle SVM Limites : ne permettent pas d’interpréter la nature des relations GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

9 Extraction de relations à l’aide de patrons
Un patron caractérise le contexte linguistique dans lequel une relation lexicale peut être observée Patron lexical : to define 1mot* as A Software Project may be defined as a Development Process. Patron lexico-syntaxique: to define {Prp.*|Noun|Adj|Num|pro.*|Adv|Det.*}* as The GDP manual defines Software project as a Development Process Projeter des patrons sur les textes requiert des traitements linguistiques préalables Mise en forme du texte pour le traitement, donner un identifiant à chaque phrase … Tokenisation, lemmatisation, Etiquetage grammatical … Particularités des relations La même relation peut être exprimée sous différentes formes. Le sens donné à un patron (la relation qu’il traduit) peut changer d’un corpus à l’autre. Ex. « est constitué de » peut exprimer soit une relation entre Composant/objet entier soit entre matière/Object Pour un type de relation donné, les patrons dépendent du corpus. GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

10 Des textes vers une ontologie
2 – Définition de concepts et de relations 1 – projection des patrons Corpus Relations lexicales Relations conceptuelles Relations Formelles 4 – Représentation des connaissances Def-concept A:B att a-pour-partie C att 3 - Normalisation Corpus : ensemble de textes sélectionnés pour leur pertinence Etape 1 : comporte du TAL, suppose la définition et la projection de patrons Etapes 2 et 3 : interprétation humaine indispensable GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

11 Des textes aux annotations / à un index
1 – projection des patrons 2 – marquage des textes /annotation Passages de texte corpus Liste de concepts ou relations + localisation corpus 2 – création d’un index En roulant, le moteur manque de puissance en accélération et en vitesse de pointe. Phase moteur : accélération Phase véhicule : grande vitesse Motorisation Manque de puissance GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

12 Caméléon (Séguéla, 2000, version de 2006)
Caméléon : assiste les étapes de projection et de définition des concepts/relations de l’extraction de relations pour construire un modèle 2 grandes étapes A- Mise au point de patrons spécifiques au corpus Suppose un corpus étiqueté par analyseur (TreeTagger, Cordial ) : Paramétrable B- Interprétation de la projection des patrons sur le corpus et enrichissement de l’ontologie GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

13 Caméléon : A-Mise au point des patrons d’un projet
Forme d’un patron où A, B et C sont des marqueurs linguistiques et X et Y sont les termes recherchés 2 possibilités pour définir 1 patron Par adaptation d’un patron de la bibliothèque Création à partir de l’interprétation (lecture) de contextes par l’ananlyste 4 étapes pour la mise au point d’un patron Écrire ou modifier le patron (éditeur) Le projeter L’évaluer : Observer / valider quelques phrases retournées Décider de retenir /modifier le patron (retour à 1) A X B Y C GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

14 Pattern evaluation in Caméléon
Sentences where the pattern occur Precision rate GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

15 Caméléon : B- enrichir le modèle
Étapes Projeter les patrons Pour chaque phrase retournée, fixer les termes en relation Charger un modèle en cours de construction Enrichir le modèle Pour chaque concept existant, Consulter les relations impliquant ses termes associés Décider de les ajouter ou non au modèle Ou : pour chaque hypothèse de relation Définir les concepts associés aux termes s’ils n’existent pas Ajouter la relation GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

16 IRIT-IC3 M. Kamel, O. Haemmerlé
Bilan sur Caméléon Limites Processus faisant intervenir beaucoup l’humain Lent sur gros corpus Lourd à installer (MySql, TreeTagger, Emdros, Java, Code Caméléon) Pas de classe sémantique à l’intérieur des patrons Partie “enrichissement d’ontologie” à améliorer Outil fermé Points forts Gratuit et disponible Patrons disponibles : 70 patrons documentés (historique : phrases filtrées /corpus) , validés sur 8 corpus, pour des relations de définition (“est-un” en français) Adaptation des patrons Patrons définis par des non informaticiens Méthode / principes réutilisables GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

17 Gate : Outil pour l’Extraction de Concepts et de Relations
► Gate : General Architecture for Text Engineering ► Gate : Plate-forme d’ingénierie linguistique [Cunningam et al., 2002] ► Largement utilisé pour l’extraction d’informations dans différentes langues ► Principe : application successive (pipeline) de ressources linguistiques (Processing Ressources) ► Peut être utilisé : - en environnement de développement - bibliothèque GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

18 Gate : Outil pour l’Extraction de Concepts et de Relations
Processing Ressources Tokeniser Sentence Splitter Pos Tagger (pas de lemmatisation)  Tree Tagger Gazetteer (compagnies, organisations, …) Coréférencers (nominal, pronominal) Morphological Analyser Parser (Minîpar, Supple, RASP) Chunker (VP, noun phrase) Jape Transducer etc. Corpus GATE Corpus annoté (1) Corpus annoté (2) Corpus annoté (n) Corpus annoté  Possibilité de créer ses propres ressources GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

19 Gate : Outil pour l’Extraction de Concepts et de Relations
Jape Transducer : permet de définir des patrons lexico-syntaxiques utilise les annotations fournies par les différentes ressources de traitement préalablement appliquées Gate intègre le langage Java : Traitement des annotations Projection d’une ontologie (OWL, RDFS) sur un corpus Enrichissement d’une ontologie Peuplement d’une ontologie GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

20 Gate : Outil pour l’Extraction de Concepts et de Relations
Un exemple d’annotation : GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

21 Gate : Outil pour l’Extraction de Concepts et de Relations
Classes Java Ontology addClass(Oclass), removeClass(Oclass), createClass(String, String) getClassByName(String), containsClassByName(String) getTaxonomicDistance(Oclass, Oclass) Oclass addSubClass(Oclass), removeSubClass(Oclass) addSuperClass(Oclass), removeSuperClass(Oclass) addInstance(Oclass, String) GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

22 IRIT-IC3 M. Kamel, O. Haemmerlé
Bilan sur Gate Limites Lent sur gros corpus Utilisable par des informaticiens Points forts Gratuit et disponible Facile à installer Application de ressources disponibles ou possibilité de créer ses propres ressources Intègre le langage Java Utilisation avec interface graphique ou de façon embarquée dans des applications autonomes Largement utilisé dans différentes communautés Systèmes utilisant Gate prennent part aux campagnes d’évaluation dans le domaine du traitement du langage naturel depuis 1995 GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

23 IRIT-IC3 M. Kamel, O. Haemmerlé
Choix Caméléon - Gate Nature des utilisateurs (informaticien ou non) Objectifs : Enrichir une ontologie Peupler une ontologie Annoter des documents Indexer des documents Stabilité ou non des relations recherchées Nécessité de gérer de grandes listes d’entités nommées GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

24 IRIT-IC3 M. Kamel, O. Haemmerlé
Elargissement : extraction d’informations distribuées sur plusieurs phrases Patrons lexico-syntaxiques : relations exprimées au sein de la même phrase Information distribuée sur plusieurs phrases ? Information pertinente dépend : du corpus étudié du type d’application Modèles de connaissances envisagés pour la résolution : graphes conceptuels structures de frame GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

25 IRIT-IC3 M. Kamel, O. Haemmerlé
Elargissement : extraction d’informations distribuées sur plusieurs phrases Etude d’un corpus du domaine de la génomique les coréférences : "The authors used CGH analysis. They show deletion on 13q32.1 on 12 cases." les anaphores : "Deletion at 13q32.1 was showed by FISH. This analysis is also performed on 12 patients affected with EA." les ellipses qui : reposent sur des connaissances du domaine : "12 patients with MM were studied. DNA was extracted and subjected to CGH analysis." concernent les liens de cohérence et de cohésion existant entre différents paragraphes du texte : "A CGH analysis was performed on 22 Multiple Myeloma cases. 12 patients show deletion at 13q32.1." GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

26 IRIT-IC3 M. Kamel, O. Haemmerlé
Elargissement : extraction d’informations distribuées sur plusieurs phrases DNA was subjected to CGH analysis Sixteen patients with MM were studied Graphe de Référence pour le contexte Conditions Expérimentales Traduction RASP Appariement GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

27 IRIT-IC3 M. Kamel, O. Haemmerlé
Elargissement : extraction de relations à partir de tableaux GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

28 Contribution au projet
Construction automatique d’ontologie(s) À partir de spécifications de schémas de BD (COGIT) À partir de textes grand public (fourni par LIUPPA) Usage Apparier les schémas de BD Indexer automatiquement les documents en vue de développer des techniques de recherche d’information GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

29 Contribution au projet
Extraction de concepts À partir de ressources lexicales et ontologiques disponibles Règles de nommage pour identifier les EN (morphologie des termes) Utilisation d’outils éprouvés Extraction de relations Réadapter les patrons lexico-syntaxiques relatifs aux relations hiérarchiques (hyperonymie, méronymie, définition) et de synonymie Définir des patrons qui tiennent compte : Du type de document (exploitation des champs) De la structure du document (disposition matérielle et ponctuation) Rechercher les paramètres d’une relation en exploitant les relations argumentatives Identifier les relations exprimées sur plusieurs phrases si besoin est GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

30 IRIT-IC3 M. Kamel, O. Haemmerlé
Questions Particularités des corpus à analyser ontologies existantes Taille et volume Types de relations spécifiques à chacun Disposer d’échantillons « Élargissements » nécessaires de la notion de patron Idem, évaluation des limites des patrons sur une phrase Besoin de disposer de relations « attendues » et voir si elles peuvent être retrouvées par patron Particularité des modèles Distinguer termes et concepts Disposer des termes associés aux concepts / les extraire GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

31 Gate : Outil pour l’Extraction de Concepts et de Relations
({Token}):Onto --> { gate.AnnotationSet ontos = (gate.AnnotationSet)bindings.get("Onto"); gate.Annotation ontoAnn = (gate.Annotation)ontos.iterator().next(); String className = (String)ontoAnn.getFeatures().get("string"); boolean aClass = ontology.containsClassByName(className); if (aClass) { gate.FeatureMap feature = Factory.newFeatureMap(); feature.put("Classe",ontoAnn.getFeatures().get("string")); outputAS.add(ontos.firstNode(), ontos.lastNode(), "Onto", feature); } GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

32 Gate : Outil pour l’Extraction de Concepts et de Relations
Gate intègre le langage Java Enrichissement d’une ontologie Peuplement d’une ontologie ({Lookup}):l --> { String instances ; gate.AnnotationSet popus =gate.AnnotationSet)bindings.get("l"); gate.Annotation popuAnn = (gate.Annotation)popus.iterator().next(); String nomclasse = (String)popuAnn.getFeatures().get("majorType"); boolean aClass = ontology.containsClassByName(nomclasse); if (aClass) { int begOffset=popus.firstNode().getOffset().intValue(); int endOffset=popus.lastNode().getOffset().intValue(); String mydocContent=doc.getContent().toString(); String matchedString=mydocContent.substring(begOffset,endOffset); ontology.addInstance(matchedString, (OClass)ontology.getClassByName(nomclasse)); } } GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé

33 IRIT-IC3 M. Kamel, O. Haemmerlé
GEONTO - 18 janvier 2008 IRIT-IC M. Kamel, O. Haemmerlé


Télécharger ppt "Participation de l’IRIT – IC3 à GEONTO"

Présentations similaires


Annonces Google