Interface syntaxe-sémantique pour l ’extraction d ’information Amalia Todirascu Equipe Langue et Dialogue LORIA
Plan Contexte Syntaxe Ontologies Interface syntaxe-sémantique problématique des systèmes d ’extraction d ’information objectifs Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG Ontologies formalismes de représentation:logiques de description Interface syntaxe-sémantique Perspectives
Systèmes d ’extraction d ’information But: identification des informations pertinentes pour un domaine structurer ces informations applications: recherche documentaire extraction d ’ontologies filtrage - projet Vulcain
Systèmes d ’extraction d ’information valider Analyse syntaxique locale Lexique concepts candidats Ontologie Extraction d ’information Patrons morpho- syntaxiques Ressources linguistiques Identification des noms Heuristiques (and password (some hasP root)) hacker Documents “the hacker had the root password”
Objectifs du projet Vulcain But: Filtrage des messages électroniques sur le domaine de sécurité des systèmes Augmenter la portabilité : réutilisation des ressources linguistiques (grammaire et lexique TAG) maintenir dynamiquement l ’ontologie du domaine (inférences en logiques de description) Augmenter la précision: ressources linguistiques validés par linguistes (grammaires TAG) concepts validés par l ’ontologie
Un exemple « Trond Hasle Amundsen wrote How can one run a DOS program when lilo and the BIOS are password protected ? ...Remains the question how are you going to run DOS if the first thing that the computer does after the password protected BIOS is coming up with a lilo prompt for a password ?» Corpus: erreurs de syntaxe, d ’orthographe corpus de grande taille construction syntaxiques spécifiques (noms de places, personnes, organisations, fonctions)
Plan Contexte Syntaxe Ontologies Interface syntaxe-sémantique problématique systèmes d ’extraction d ’information Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG Ontologies formalismes de représentation:logiques de description Interface syntaxe-sémantique Perspectives
Syntaxe (I) techniques d ’analyse syntaxique robuste pour gérer les erreurs: patrons morpho-syntaxiques automates à états finis statistiques (collocations) difficile à construire une représentation sémantique structure syntaxique primitive analyse syntaxique classique structure syntaxique et structure de dépendances besoin de ressources linguistiques adaptées pour les textes spécialisés mal adaptée pour des textes non-spécialisés: besoin de ressources de grande taille, complètes
Syntaxe (II) Grammaires TAGs: localité arbres dérivés et de dérivation grammaires TAGs disponibles combinaison des techniques statistiques et des grammaires locales liste des mots pertinents filtrage sur des mots pertinents choisir les arbres communs aux mots pertinents
Syntaxe (III) « the root password was used by an unknown user» N A N*
Syntaxe (IV) Modification de l’analyseur Lopez: modularité ressources en format standard (TAGML - XML) optimisations adapter les ressources pour les besoins lexique spécifique grammaire locale
Plan Contexte Syntaxe Ontologies Interface syntaxe-sémantique problématique systèmes d ’extraction d ’information Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG Ontologies formalismes de représentation:logiques de description Interface syntaxe-sémantique Perspectives
Ontologies Définition: une description simplifiée des connaissances du domaine portabilité réduite développement des méthodes d ’extraction d ’ontologies à partir des textes: identification des termes (instances des concepts) relation termes-concepts relations entre termes
Formalismes de représentation d ’ontologies structurer les connaissances (hiérarchie des concepts) manipuler des connaissances incomplètes ou incorrectes mise à jours dynamique des connaissances mécanismes d ’inférence mécanismes de vérification éviter les redondances
Logiques de description (I) Plusieurs propriétés d ’autres formalismes: réseaux sémantiques logique du première ordre, logique modale systèmes de cadres et orientés-objet organisation hiérarchique syntaxe et sémantique bien définies
Logiques de description (II) organisation hiérarchique: conceptuel (T-Box) concepts rôles asertionnel (A-Box) instances procédures d ’inférences et de vérification décidables implémentation disponibles: FaCT, Racer, CLASSIC
Constructeurs
Définitions
Exemples de définitions (define-concept OperatingSystem (and top (ALL hasFS FileSystem) (ALL hasCommands Command) (SOME hasType Type))) (define-concept PC (and Computer (ALL hasOS (and OperatingSystem (SOME hasType (OR Windows Linux))))) (define-concept Net1 (AND Network (SOME hasIde « x11»)) ) (implies (and (and Person (SOME hasRootPasswd (and Password (SOME hasApply Net1)))) (not Admin)) (and Hacker (SOME hasAttacked Net1)) )
LD - Inférences hiérarchie basée sur la subsomption (organisation de la hiérarchie) mécanismes de vérification cohérence appartenance des instances aux concepts algorithmes décidables pour certains expressivités définitions des rôles et des concepts (ALC) hiérarchie des rôles (H) rôles transitives (f+) rôles inverses (I) contraintes numériques (Q)
Applications LD Applications: données semi-structurées ou incomplètes recherche documentaire sémantique du langage naturel bases de données avec schéma évolutive terminologies, ontologies données semi-structurées ou incomplètes raisonnement au niveau d ’instance exploitation des hyponymies/hyperonymies hypothèse du « monde ouverte »
Données semi-structurés ou incomplètes (define-concept Root (AND Administrator (ALL hasAge Age) (ALL hasAdmin Network) (SOME hasRights Unlimited))) (instance y0 (AND Root (SOME hasAdmin (AND Network (SOME hasType WinNT))) ))
Plan Contexte Syntaxe Ontologies Interface syntaxe-sémantique problématique systèmes d ’extraction d ’information Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG Ontologies formalismes de représentation:logiques de description Interface syntaxe-sémantique Perspectives
Interface syntaxe-sémantique Besoin de relier les grammaires TAG et l ’ontologie Ressources nécessaires: lexique spécifique au domaine (mots-arbres élémentaires) lexique sémantique (pairs mots-concepts) module d ’interface entre les arbres dérivés et de dérivation
L ’architecture Entrée texte Extraction du Lexique Corpus de Référence Grammaire et Lexique TAG Analyseur LTAG Lexique spécifique au domaine et grammaire locale TAG Extraction du lexique sémantique Interface Syntaxe-Sémantique Entrée texte représentations conceptuelles
L’ontologie À partir de la liste des mots pertinents (verbes et noms) les performances du système dépendent de la granularité de l’ontologie concepts complexes découverts pendant l ’exploitation doivent être ajoutés à l ’ontologie
Le lexique TAG Méthode qui utilise Taille: grammaire TAG corpus de référence de 80000 mots TreeTagger (catégoriseur lexical) Taille: 2500 noms, 750 adjectifs verbes ajoutés manuellement
Le lexique sémantique Chaque entrée lexicale contient des descriptions LD des contraintes (ajoutées par la méta-grammaire) <sem concept="system" lemma=”system”/> <sem concept="(some hasMod main) ” lemma=”main”/> <sem concept="connect” lemma=”connect”> <constr arg0="Substitution" address = "1"/> <constr arg1="Substitution" address = "3"/> </sem>
Interface syntaxe-sémantique (II) Arbre élémentaire A B C Subst Adjonction Interface syntaxe sémantique Sem(Tree) = (and Sem(A) (Some hasSubst Sem(B)) Sem(C)) (constraints A) Classifieur LD
Interface syntaxe-sémantique (exemple) Connect_to hacker server Substitution the Sem(connected_to) = (and Connect (some hasSubst A)(some hasSubst B)) (implies (some hasSubst A)(some arg0 A)) (implies (some hasSubst B)(some arg1 B)) Sem(hacker) = Hacker Sem(server) = Server Sem(the) = (some hasDefine Defined) Sem (the hacker)= (and Hacker (some hasDefine Defined) Sem(the server)= (and Server (some hasDefine Defined)) (concept-satisfiable? (and Connect (some arg0 (and hacker (some hasDefine Defined))) (some arg1 (and server (some hasDefine Defined)) )))
Perspectives optimisations possibles de l ’analyseur développement du lexique sémantique Intégration du système dans plusieurs projets: MIAMM, XMiner