La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Interface syntaxe-sémantique pour l ’extraction d ’information

Présentations similaires


Présentation au sujet: "Interface syntaxe-sémantique pour l ’extraction d ’information"— Transcription de la présentation:

1 Interface syntaxe-sémantique pour l ’extraction d ’information
Amalia Todirascu Equipe Langue et Dialogue LORIA

2 Plan Contexte Syntaxe Ontologies Interface syntaxe-sémantique
problématique des systèmes d ’extraction d ’information objectifs Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG Ontologies formalismes de représentation:logiques de description Interface syntaxe-sémantique Perspectives

3 Systèmes d ’extraction d ’information
But: identification des informations pertinentes pour un domaine structurer ces informations applications: recherche documentaire extraction d ’ontologies filtrage - projet Vulcain

4 Systèmes d ’extraction d ’information
valider Analyse syntaxique locale Lexique concepts candidats Ontologie Extraction d ’information Patrons morpho- syntaxiques Ressources linguistiques Identification des noms Heuristiques (and password (some hasP root)) hacker Documents “the hacker had the root password”

5 Objectifs du projet Vulcain
But: Filtrage des messages électroniques sur le domaine de sécurité des systèmes Augmenter la portabilité : réutilisation des ressources linguistiques (grammaire et lexique TAG) maintenir dynamiquement l ’ontologie du domaine (inférences en logiques de description) Augmenter la précision: ressources linguistiques validés par linguistes (grammaires TAG) concepts validés par l ’ontologie

6 Un exemple « Trond Hasle Amundsen wrote How can one run a DOS program when lilo and the BIOS are password protected ? ...Remains the question how are you going to run DOS if the first thing that the computer does after the password protected BIOS is coming up with a lilo prompt for a password ?» Corpus: erreurs de syntaxe, d ’orthographe corpus de grande taille construction syntaxiques spécifiques (noms de places, personnes, organisations, fonctions)

7 Plan Contexte Syntaxe Ontologies Interface syntaxe-sémantique
problématique systèmes d ’extraction d ’information Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG Ontologies formalismes de représentation:logiques de description Interface syntaxe-sémantique Perspectives

8 Syntaxe (I) techniques d ’analyse syntaxique robuste pour gérer les erreurs: patrons morpho-syntaxiques automates à états finis statistiques (collocations) difficile à construire une représentation sémantique structure syntaxique primitive analyse syntaxique classique structure syntaxique et structure de dépendances besoin de ressources linguistiques adaptées pour les textes spécialisés mal adaptée pour des textes non-spécialisés: besoin de ressources de grande taille, complètes

9 Syntaxe (II) Grammaires TAGs:
localité arbres dérivés et de dérivation grammaires TAGs disponibles combinaison des techniques statistiques et des grammaires locales liste des mots pertinents filtrage sur des mots pertinents choisir les arbres communs aux mots pertinents

10 Syntaxe (III) « the root password was used by an unknown user» N A N*

11 Syntaxe (IV) Modification de l’analyseur Lopez:
modularité ressources en format standard (TAGML - XML) optimisations adapter les ressources pour les besoins lexique spécifique grammaire locale

12 Plan Contexte Syntaxe Ontologies Interface syntaxe-sémantique
problématique systèmes d ’extraction d ’information Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG Ontologies formalismes de représentation:logiques de description Interface syntaxe-sémantique Perspectives

13 Ontologies Définition: une description simplifiée des connaissances du domaine portabilité réduite développement des méthodes d ’extraction d ’ontologies à partir des textes: identification des termes (instances des concepts) relation termes-concepts relations entre termes

14 Formalismes de représentation d ’ontologies
structurer les connaissances (hiérarchie des concepts) manipuler des connaissances incomplètes ou incorrectes mise à jours dynamique des connaissances mécanismes d ’inférence mécanismes de vérification éviter les redondances

15 Logiques de description (I)
Plusieurs propriétés d ’autres formalismes: réseaux sémantiques logique du première ordre, logique modale systèmes de cadres et orientés-objet organisation hiérarchique syntaxe et sémantique bien définies

16 Logiques de description (II)
organisation hiérarchique: conceptuel (T-Box) concepts rôles asertionnel (A-Box) instances procédures d ’inférences et de vérification décidables implémentation disponibles: FaCT, Racer, CLASSIC

17 Constructeurs

18 Définitions

19 Exemples de définitions
(define-concept OperatingSystem (and top (ALL hasFS FileSystem) (ALL hasCommands Command) (SOME hasType Type))) (define-concept PC (and Computer (ALL hasOS (and OperatingSystem (SOME hasType (OR Windows Linux))))) (define-concept Net1 (AND Network (SOME hasIde « x11»)) ) (implies (and (and Person (SOME hasRootPasswd (and Password (SOME hasApply Net1)))) (not Admin)) (and Hacker (SOME hasAttacked Net1)) )

20 LD - Inférences hiérarchie basée sur la subsomption (organisation de la hiérarchie) mécanismes de vérification cohérence appartenance des instances aux concepts algorithmes décidables pour certains expressivités définitions des rôles et des concepts (ALC) hiérarchie des rôles (H) rôles transitives (f+) rôles inverses (I) contraintes numériques (Q)

21 Applications LD Applications: données semi-structurées ou incomplètes
recherche documentaire sémantique du langage naturel bases de données avec schéma évolutive terminologies, ontologies données semi-structurées ou incomplètes raisonnement au niveau d ’instance exploitation des hyponymies/hyperonymies hypothèse du « monde ouverte »

22 Données semi-structurés ou incomplètes
(define-concept Root (AND Administrator (ALL hasAge Age) (ALL hasAdmin Network) (SOME hasRights Unlimited))) (instance y0 (AND Root (SOME hasAdmin (AND Network (SOME hasType WinNT))) ))

23 Plan Contexte Syntaxe Ontologies Interface syntaxe-sémantique
problématique systèmes d ’extraction d ’information Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG Ontologies formalismes de représentation:logiques de description Interface syntaxe-sémantique Perspectives

24 Interface syntaxe-sémantique
Besoin de relier les grammaires TAG et l ’ontologie Ressources nécessaires: lexique spécifique au domaine (mots-arbres élémentaires) lexique sémantique (pairs mots-concepts) module d ’interface entre les arbres dérivés et de dérivation

25 L ’architecture Entrée texte
Extraction du Lexique Corpus de Référence Grammaire et Lexique TAG Analyseur LTAG Lexique spécifique au domaine et grammaire locale TAG Extraction du lexique sémantique Interface Syntaxe-Sémantique Entrée texte représentations conceptuelles

26 L’ontologie À partir de la liste des mots pertinents (verbes et noms)
les performances du système dépendent de la granularité de l’ontologie concepts complexes découverts pendant l ’exploitation doivent être ajoutés à l ’ontologie

27 Le lexique TAG Méthode qui utilise Taille: grammaire TAG
corpus de référence de mots TreeTagger (catégoriseur lexical) Taille: 2500 noms, 750 adjectifs verbes ajoutés manuellement

28 Le lexique sémantique Chaque entrée lexicale contient
des descriptions LD des contraintes (ajoutées par la méta-grammaire) <sem concept="system" lemma=”system”/> <sem concept="(some hasMod main) ”  lemma=”main”/> <sem concept="connect” lemma=”connect”> <constr arg0="Substitution" address = "1"/> <constr arg1="Substitution" address = "3"/> </sem>

29 Interface syntaxe-sémantique (II)
Arbre élémentaire A B C Subst Adjonction Interface syntaxe sémantique Sem(Tree) = (and Sem(A) (Some hasSubst Sem(B)) Sem(C))  (constraints A) Classifieur LD

30 Interface syntaxe-sémantique (exemple)
Connect_to hacker server Substitution the Sem(connected_to) = (and Connect (some hasSubst A)(some hasSubst B)) (implies (some hasSubst A)(some arg0 A)) (implies (some hasSubst B)(some arg1 B)) Sem(hacker) = Hacker Sem(server) = Server Sem(the) = (some hasDefine Defined) Sem (the hacker)= (and Hacker (some hasDefine Defined) Sem(the server)= (and Server (some hasDefine Defined)) (concept-satisfiable? (and Connect (some arg0 (and hacker (some hasDefine Defined))) (some arg1 (and server (some hasDefine Defined)) )))

31 Perspectives optimisations possibles de l ’analyseur
développement du lexique sémantique Intégration du système dans plusieurs projets: MIAMM, XMiner


Télécharger ppt "Interface syntaxe-sémantique pour l ’extraction d ’information"

Présentations similaires


Annonces Google