La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Interface syntaxe-sémantique pour l extraction d information Amalia Todirascu Equipe Langue et Dialogue LORIA.

Présentations similaires


Présentation au sujet: "Interface syntaxe-sémantique pour l extraction d information Amalia Todirascu Equipe Langue et Dialogue LORIA."— Transcription de la présentation:

1 Interface syntaxe-sémantique pour l extraction d information Amalia Todirascu Equipe Langue et Dialogue LORIA

2 Plan zContexte yproblématique des systèmes d extraction d information yobjectifs zSyntaxe yanalyse superficielle vs. analyse classique ygrammaire & lexique TAG zOntologies yformalismes de représentation:logiques de description zInterface syntaxe-sémantique zPerspectives

3 Systèmes d extraction d information zBut: yidentification des informations pertinentes pour un domaine ystructurer ces informations zapplications: y recherche documentaire y extraction d ontologies yfiltrage - projet Vulcain

4 Systèmes d extraction d information Documentsvalider Analyse syntaxique locale Lexique concepts candidats Ontologie Extraction d information Patrons morpho- syntaxiques Ressources linguistiques Identification des noms Heuristiques the hacker had the root password (and password (some hasP root)) hacker

5 Objectifs du projet Vulcain zBut: Filtrage des messages électroniques sur le domaine de sécurité des systèmes zAugmenter la portabilité : yréutilisation des ressources linguistiques (grammaire et lexique TAG) ymaintenir dynamiquement l ontologie du domaine (inférences en logiques de description) zAugmenter la précision: yressources linguistiques validés par linguistes (grammaires TAG) yconcepts validés par l ontologie

6 Un exemple « Trond Hasle Amundsen wrote How can one run a DOS program when lilo and the BIOS are password protected ?... Remains the question how are you going to run DOS if the first thing that the computer does after the password protected BIOS is coming up with a lilo prompt for a password ? » zCorpus: yerreurs de syntaxe, d orthographe ycorpus de grande taille yconstruction syntaxiques spécifiques (noms de places, personnes, organisations, fonctions)

7 Plan zContexte yproblématique ysystèmes d extraction d information zSyntaxe yanalyse superficielle vs. analyse classique ygrammaire & lexique TAG zOntologies yformalismes de représentation:logiques de description zInterface syntaxe-sémantique zPerspectives

8 Syntaxe (I) ztechniques d analyse syntaxique robuste pour gérer les erreurs: ypatrons morpho- syntaxiques yautomates à états finis ystatistiques (collocations) zdifficile à construire une représentation sémantique ystructure syntaxique primitive z analyse syntaxique classique ystructure syntaxique et structure de dépendances ybesoin de ressources linguistiques adaptées pour les textes spécialisés z mal adaptée pour des textes non-spécialisés: ybesoin de ressources de grande taille, complètes

9 Syntaxe (II) zGrammaires TAGs: ylocalité yarbres dérivés et de dérivation ygrammaires TAGs disponibles zcombinaison des techniques statistiques et des grammaires locales yliste des mots pertinents yfiltrage sur des mots pertinents ychoisir les arbres communs aux mots pertinents

10 Syntaxe (III) « the root password was used by an unknown user» N A N* root N A N* unknown N user N password

11 Syntaxe (IV) zModification de lanalyseur Lopez: ymodularité yressources en format standard (TAGML - XML) yoptimisations zadapter les ressources pour les besoins ylexique spécifique ygrammaire locale

12 Plan zContexte yproblématique ysystèmes d extraction d information zSyntaxe yanalyse superficielle vs. analyse classique ygrammaire & lexique TAG zOntologies yformalismes de représentation:logiques de description zInterface syntaxe-sémantique zPerspectives

13 Ontologies zDéfinition: une description simplifiée des connaissances du domaine zportabilité réduite zdéveloppement des méthodes d extraction d ontologies à partir des textes: yidentification des termes (instances des concepts) yrelation termes-concepts yrelations entre termes

14 Formalismes de représentation d ontologies zstructurer les connaissances (hiérarchie des concepts) zmanipuler des connaissances incomplètes ou incorrectes zmise à jours dynamique des connaissances ymécanismes d inférence ymécanismes de vérification zéviter les redondances

15 Logiques de description (I) zPlusieurs propriétés d autres formalismes: yréseaux sémantiques ylogique du première ordre, logique modale ysystèmes de cadres et orientés-objet zorganisation hiérarchique zsyntaxe et sémantique bien définies

16 Logiques de description (II) zorganisation hiérarchique: yconceptuel (T-Box) xconcepts xrôles yasertionnel (A-Box) xinstances zprocédures d inférences et de vérification décidables yimplémentation disponibles: FaCT, Racer, CLASSIC

17 Constructeurs

18 Définitions

19 Exemples de définitions (define-concept OperatingSystem (and top (ALL hasFS FileSystem) (ALL hasCommands Command) (SOME hasType Type))) (define-concept PC (and Computer (ALL hasOS (and OperatingSystem (SOME hasType (OR Windows Linux))))) (define-concept Net1 (AND Network (SOME hasIde « x11»)) ) (implies (and (and Person (SOME hasRootPasswd (and Password (SOME hasApply Net1)))) (not Admin)) (and Hacker (SOME hasAttacked Net1)) )

20 LD - Inférences zhiérarchie basée sur la subsomption (organisation de la hiérarchie) zmécanismes de vérification ycohérence yappartenance des instances aux concepts yalgorithmes décidables pour certains expressivités définitions des rôles et des concepts ( ALC ) xhiérarchie des rôles (H) xrôles transitives (f+) xrôles inverses (I) xcontraintes numériques (Q)

21 Applications LD zApplications: yrecherche documentaire ysémantique du langage naturel ybases de données avec schéma évolutive yterminologies, ontologies zdonnées semi-structurées ou incomplètes zraisonnement au niveau d instance zexploitation des hyponymies/hyperonymies zhypothèse du « monde ouverte »

22 Données semi-structurés ou incomplètes (define-concept Root (AND Administrator (ALL hasAge Age) (ALL hasAdmin Network) (SOME hasRights Unlimited))) (instance y0 (AND Root (SOME hasAdmin (AND Network (SOME hasType WinNT))) ))

23 Plan zContexte yproblématique ysystèmes d extraction d information zSyntaxe yanalyse superficielle vs. analyse classique ygrammaire & lexique TAG zOntologies yformalismes de représentation:logiques de description zInterface syntaxe-sémantique zPerspectives

24 Interface syntaxe- sémantique zBesoin de relier les grammaires TAG et l ontologie zRessources nécessaires: ylexique spécifique au domaine (mots-arbres élémentaires) ylexique sémantique (pairs mots-concepts) ymodule d interface entre les arbres dérivés et de dérivation

25 L architecture Extraction du Lexique Corpus de Référence Grammaire et Lexique TAG Analyseur LTAG Lexique spécifique au domaine et grammaire locale TAG Extraction du lexique sémantique Interface Syntaxe- Sémantique Entrée texte représentations conceptuelles

26 Lontologie zÀ partir de la liste des mots pertinents (verbes et noms) zles performances du système dépendent de la granularité de lontologie zconcepts complexes découverts pendant l exploitation doivent être ajoutés à l ontologie

27 Le lexique TAG zMéthode qui utilise ygrammaire TAG ycorpus de référence de mots yTreeTagger (catégoriseur lexical) zTaille: y2500 noms, 750 adjectifs yverbes ajoutés manuellement

28 Le lexique sémantique zChaque entrée lexicale contient ydes descriptions LD ydes contraintes (ajoutées par la méta-grammaire)

29 Interface syntaxe- sémantique (II) A BC Subst Adjonction Sem(Tree) = (and Sem(A) (Some hasSubst Sem(B)) Sem(C)) (constraints A) Arbre élémentaire Interface syntaxe sémantique Classifieur LD

30 Interface syntaxe- sémantique (exemple) Sem(connected_to) = (and Connect (some hasSubst A)(some hasSubst B)) (implies (some hasSubst A)(some arg0 A)) (implies (some hasSubst B)(some arg1 B)) Sem(hacker) = Hacker Sem(server) = Server Sem(the) = (some hasDefine Defined) Sem (the hacker)= (and Hacker (some hasDefine Defined) Sem(the server)= (and Server (some hasDefine Defined)) (concept-satisfiable? (and Connect (some arg0 (and hacker (some hasDefine Defined))) (some arg1 (and server (some hasDefine Defined)) ))) Connect_to hackerserver Substitution the

31 Perspectives zoptimisations possibles de l analyseur zdéveloppement du lexique sémantique zIntégration du système dans plusieurs projets: MIAMM, XMiner


Télécharger ppt "Interface syntaxe-sémantique pour l extraction d information Amalia Todirascu Equipe Langue et Dialogue LORIA."

Présentations similaires


Annonces Google