Interface syntaxe-sémantique pour l ’extraction d ’information

Slides:



Advertisements
Présentations similaires
Ressources électroniques pour l’analyse syntaxique
Advertisements

Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Xavier Blanc Web Services Xavier Blanc
Département Informatique Responsable :M. Huchard Responsables adjoints : A. Jean-Marie, F. Koriche, P. Séébold.
Olivier Kraif, Agnès Tutin LIDILEM
19 septembre 2006 Tendances Logicielles IBM Rational Data Architect Un outil complet de modélisation et de conception pour SGBD Isabelle Claverie-Berge.
XML - Henry Boccon-Gibod 1 XML, Langage de description La question du choix de formalismes Les entités et leur représentations modalités de modèles et.
Indexation vidéo Indexation multimédia
Ontologie, Méta-données, Sémiotiques
Les méthodes formelles en ingénierie des connaissances Damien Lhomme-Desages Jérémie Barlet.
Understanding, building and using ontologies. Understanding Ontologie : la définition des concepts utilisés dans un langage donné Première approche (Gruber)
Approches formelles en syntaxe et sémantique Alain Lecomte UMR 7023 Structures Formelles de la Langue.
Indexation textuelle : Systèmes de recherche d’informations
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Contrôles d'accès aux données
Pour un système formel de description linguistique
Savoir and connaître both mean to know. They are both irregular verbs. Je ne sais pas!
Introduction à la conception de Bases de Données Relationnelles
HOW DO I KNOW WHICH ONE TO USE?!. -Both CEST and IL/ ELLE EST can mean it is as well as he/she is. -The expression you use depends on what is AFTER the.
Annotations sémantiques pour le domaine des biopuces
RDF(S)
GESTION DE PARCS D’ORDINATEURS
La communication de ce document est soumise à autorisation de France Télécom R&D (Nom du fichier) - D1 - 01/03/2000 France Télécom R&D Énoncé Représentation.
Complément Le diagramme des classes
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
Vers des composants TAL réutilisables
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,
An Introduction to distributed applications and ecommerce 1 1 Les services Web, XML et les places de marchés.
Systeme Question-Reponse SQR
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Chapitre 3 Syntaxe et sémantique.
Thésaurus de lactivité gouvernementale Richard Parent 17 novembre 2006 Ressource de soutien à linteropérabilité sémantique.
Sensibilisation a la modelisation
Les techniques des moteurs de recherche
Les logiques de descriptions
28/05/20021 DOE : une mise en œuvre d’une méthode de structuration différentielle pour les ontologies Raphaël TroncyAntoine Isaac
Web sémantique Par Lydia Carine Mampais KI Bamba SISSOKO
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
IFT 232 Méthodes de Conception Orientées Objets Introduction.
Introduction au Génie Logiciel
Initiation à la conception des systèmes d'informations
Dominique LAURENT Patrick SEGUELA
IFT 232 Méthodes de Conception Orientées Objets Introduction.
Problèmes du génie logiciel. H. Lounis Les problèmes zTaille et complexité des logiciels ; zTaille croissante des équipes ; zSpécifications peu précises.
2 Processus de conception de BD
Module : Langage XML (21h)
Le passe composé.
Your team’s name. Préselection file You have just downloaded the preselection file: it’s the first step for you to win the challenge! In this file, you.
Irregular Adjectives Not all adjectives are made the same.
Réalisé avec le soutien de Pied de page fixe Pied de page 1 Titre Sous titre.
PC. 1. Lisez ce texte. 1. Lisez ce texte. 2. Faites un deuxième exemplaire du texte en dessous. 2. Faites un deuxième exemplaire du texte en dessous.
1 Journee gdr COSMAL 27/01/2009 Exécution Distribuée et Agile de Compositions de Services Françoise Baude & Virginie Legrand
Une méthode pour la construction d’ontologies à partir de textes
8 Les pronoms interrogatifs et relatifs Les normes: Communication 1.2 Comparisons 4.1 Les questions essentielles: - What are the 2 ways to ask the question.
4 Avoir Les normes: –Communication 1.2 : –Comparisons 4.1 :
8 Les pronoms interrogatifs et relatifs Les normes: Communication 1.2 Comparisons 4.1 Les questions essentielles: - What are the 2 ways to ask the question.
Systèmes intelligents
What’s the weather like?. Look at the verb phrase fait-il above Turn it around and you have il fait The phrase Il fait can be used to describe lots of.
Dániel Darvas (CERN BE-ICS-PCS) Spécification formelle pour les API CERN-ESTEREL séminaire 21/01/2016, CERN Travail conjoint avec B. Fernández, E. Blanco,
Les bases de données Séance 3 Construction du Modèle Conceptuel de Données.
Diagrammes de comportement Présentation. Diagramme de séquence  Permet de modéliser les envois de messages entre objets chronologiquement.  Modélisation.
ARIANE : Interopérabilité sémantique et accès aux sources d'information sur Internet Sylvain Aymard, Michel Joubert, Dominique Fieschi, Marius Fieschi.
Mon enfance Quand tu étais petit, tu étais comment?
What’s the weather like?
Transcription de la présentation:

Interface syntaxe-sémantique pour l ’extraction d ’information Amalia Todirascu Equipe Langue et Dialogue LORIA

Plan Contexte Syntaxe Ontologies Interface syntaxe-sémantique problématique des systèmes d ’extraction d ’information objectifs Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG Ontologies formalismes de représentation:logiques de description Interface syntaxe-sémantique Perspectives

Systèmes d ’extraction d ’information But: identification des informations pertinentes pour un domaine structurer ces informations applications: recherche documentaire extraction d ’ontologies filtrage - projet Vulcain

Systèmes d ’extraction d ’information valider Analyse syntaxique locale Lexique concepts candidats Ontologie Extraction d ’information Patrons morpho- syntaxiques Ressources linguistiques Identification des noms Heuristiques (and password (some hasP root)) hacker Documents “the hacker had the root password”

Objectifs du projet Vulcain But: Filtrage des messages électroniques sur le domaine de sécurité des systèmes Augmenter la portabilité : réutilisation des ressources linguistiques (grammaire et lexique TAG) maintenir dynamiquement l ’ontologie du domaine (inférences en logiques de description) Augmenter la précision: ressources linguistiques validés par linguistes (grammaires TAG) concepts validés par l ’ontologie

Un exemple « Trond Hasle Amundsen wrote How can one run a DOS program when lilo and the BIOS are password protected ? ...Remains the question how are you going to run DOS if the first thing that the computer does after the password protected BIOS is coming up with a lilo prompt for a password ?» Corpus: erreurs de syntaxe, d ’orthographe corpus de grande taille construction syntaxiques spécifiques (noms de places, personnes, organisations, fonctions)

Plan Contexte Syntaxe Ontologies Interface syntaxe-sémantique problématique systèmes d ’extraction d ’information Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG Ontologies formalismes de représentation:logiques de description Interface syntaxe-sémantique Perspectives

Syntaxe (I) techniques d ’analyse syntaxique robuste pour gérer les erreurs: patrons morpho-syntaxiques automates à états finis statistiques (collocations) difficile à construire une représentation sémantique structure syntaxique primitive analyse syntaxique classique structure syntaxique et structure de dépendances besoin de ressources linguistiques adaptées pour les textes spécialisés mal adaptée pour des textes non-spécialisés: besoin de ressources de grande taille, complètes

Syntaxe (II) Grammaires TAGs: localité arbres dérivés et de dérivation grammaires TAGs disponibles combinaison des techniques statistiques et des grammaires locales liste des mots pertinents filtrage sur des mots pertinents choisir les arbres communs aux mots pertinents

Syntaxe (III) « the root password was used by an unknown user» N A N*

Syntaxe (IV) Modification de l’analyseur Lopez: modularité ressources en format standard (TAGML - XML) optimisations adapter les ressources pour les besoins lexique spécifique grammaire locale

Plan Contexte Syntaxe Ontologies Interface syntaxe-sémantique problématique systèmes d ’extraction d ’information Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG Ontologies formalismes de représentation:logiques de description Interface syntaxe-sémantique Perspectives

Ontologies Définition: une description simplifiée des connaissances du domaine portabilité réduite développement des méthodes d ’extraction d ’ontologies à partir des textes: identification des termes (instances des concepts) relation termes-concepts relations entre termes

Formalismes de représentation d ’ontologies structurer les connaissances (hiérarchie des concepts) manipuler des connaissances incomplètes ou incorrectes mise à jours dynamique des connaissances mécanismes d ’inférence mécanismes de vérification éviter les redondances

Logiques de description (I) Plusieurs propriétés d ’autres formalismes: réseaux sémantiques logique du première ordre, logique modale systèmes de cadres et orientés-objet organisation hiérarchique syntaxe et sémantique bien définies

Logiques de description (II) organisation hiérarchique: conceptuel (T-Box) concepts rôles asertionnel (A-Box) instances procédures d ’inférences et de vérification décidables implémentation disponibles: FaCT, Racer, CLASSIC

Constructeurs

Définitions

Exemples de définitions (define-concept OperatingSystem (and top (ALL hasFS FileSystem) (ALL hasCommands Command) (SOME hasType Type))) (define-concept PC (and Computer (ALL hasOS (and OperatingSystem (SOME hasType (OR Windows Linux))))) (define-concept Net1 (AND Network (SOME hasIde « x11»)) ) (implies (and (and Person (SOME hasRootPasswd (and Password (SOME hasApply Net1)))) (not Admin)) (and Hacker (SOME hasAttacked Net1)) )

LD - Inférences hiérarchie basée sur la subsomption (organisation de la hiérarchie) mécanismes de vérification cohérence appartenance des instances aux concepts algorithmes décidables pour certains expressivités définitions des rôles et des concepts (ALC) hiérarchie des rôles (H) rôles transitives (f+) rôles inverses (I) contraintes numériques (Q)

Applications LD Applications: données semi-structurées ou incomplètes recherche documentaire sémantique du langage naturel bases de données avec schéma évolutive terminologies, ontologies données semi-structurées ou incomplètes raisonnement au niveau d ’instance exploitation des hyponymies/hyperonymies hypothèse du « monde ouverte »

Données semi-structurés ou incomplètes (define-concept Root (AND Administrator (ALL hasAge Age) (ALL hasAdmin Network) (SOME hasRights Unlimited))) (instance y0 (AND Root (SOME hasAdmin (AND Network (SOME hasType WinNT))) ))

Plan Contexte Syntaxe Ontologies Interface syntaxe-sémantique problématique systèmes d ’extraction d ’information Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG Ontologies formalismes de représentation:logiques de description Interface syntaxe-sémantique Perspectives

Interface syntaxe-sémantique Besoin de relier les grammaires TAG et l ’ontologie Ressources nécessaires: lexique spécifique au domaine (mots-arbres élémentaires) lexique sémantique (pairs mots-concepts) module d ’interface entre les arbres dérivés et de dérivation

L ’architecture Entrée texte Extraction du Lexique Corpus de Référence Grammaire et Lexique TAG Analyseur LTAG Lexique spécifique au domaine et grammaire locale TAG Extraction du lexique sémantique Interface Syntaxe-Sémantique Entrée texte représentations conceptuelles

L’ontologie À partir de la liste des mots pertinents (verbes et noms) les performances du système dépendent de la granularité de l’ontologie concepts complexes découverts pendant l ’exploitation doivent être ajoutés à l ’ontologie

Le lexique TAG Méthode qui utilise Taille: grammaire TAG corpus de référence de 80000 mots TreeTagger (catégoriseur lexical) Taille: 2500 noms, 750 adjectifs verbes ajoutés manuellement

Le lexique sémantique Chaque entrée lexicale contient des descriptions LD des contraintes (ajoutées par la méta-grammaire) <sem concept="system" lemma=”system”/> <sem concept="(some hasMod main) ”  lemma=”main”/> <sem concept="connect” lemma=”connect”> <constr arg0="Substitution" address = "1"/> <constr arg1="Substitution" address = "3"/> </sem>

Interface syntaxe-sémantique (II) Arbre élémentaire A B C Subst Adjonction Interface syntaxe sémantique Sem(Tree) = (and Sem(A) (Some hasSubst Sem(B)) Sem(C))  (constraints A) Classifieur LD

Interface syntaxe-sémantique (exemple) Connect_to hacker server Substitution the Sem(connected_to) = (and Connect (some hasSubst A)(some hasSubst B)) (implies (some hasSubst A)(some arg0 A)) (implies (some hasSubst B)(some arg1 B)) Sem(hacker) = Hacker Sem(server) = Server Sem(the) = (some hasDefine Defined) Sem (the hacker)= (and Hacker (some hasDefine Defined) Sem(the server)= (and Server (some hasDefine Defined)) (concept-satisfiable? (and Connect (some arg0 (and hacker (some hasDefine Defined))) (some arg1 (and server (some hasDefine Defined)) )))

Perspectives optimisations possibles de l ’analyseur développement du lexique sémantique Intégration du système dans plusieurs projets: MIAMM, XMiner