La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

CloudView Architecture Sémantique Février 2009. Interact CloudView Search Management & Monitoring AccessProcessCollect Build-Time Semantic processing.

Présentations similaires


Présentation au sujet: "CloudView Architecture Sémantique Février 2009. Interact CloudView Search Management & Monitoring AccessProcessCollect Build-Time Semantic processing."— Transcription de la présentation:

1 CloudView Architecture Sémantique Février 2009

2 Interact CloudView Search Management & Monitoring AccessProcessCollect Build-Time Semantic processing Query-Time Semantic processing

3 Architecture MoT CloudView Search Architecture dédié aux traitements des langues et à lextraction dinformations Partage les objectifs des plateformes open sources GATE et UIMA : –Extraite des informations complexes (concepts, relations entre concepts,...) –Intégration de logiciels externes Mais surtout : –Orienté vers les performances (principal point faible des plateformes open sources) –Support du calcul distribué (Nativement Intégré dans la plateforme Exalead MapReduce)

4 CloudView Search Architecture MoT est utilisée : Pendant lindexation pour enrichir le document indexé, changer les scores, … Pendant la requête pour étendre la requête (synonymes, lemmatisation, …) Tous les composants ou algorithmes qui nécessite de transformer un document en liste de descripteurs (catégorisation, clustering, …) Une instance de larchitecture est un « Pipe » composé de plusieurs processeurs Chaque processeur enrichie le document en utilisant toutes les informations extraites par les précédents processeurs Architecture MoT

5 CloudView Search Nous avons une vingtaine de processeurs Exalead disponibles : Tous très configurable Performant car basé sur des API en flux Architecture Converter : transforme le texte en flux de tokens Resource : représente les données avec lesquelles travail un processeur Processeur : travail sur un flux de tokens et ajoute des annotations sur un ou plusieurs tokens. Architecture MoT

6 Example dinstance

7 Processeurs les plus importants CloudView Search Processeurs au niveau lexical Segmentation, normalisation, détection de phrases Processeurs au niveau morphologique/syntaxique Stemming Étiquetage morphosyntaxique Lemmatisation Processeurs au niveau sémantique Extraction dentités nommées (Transducteur) Matching via une ontologie (OntologyMatcher) Reconnaissance dentitées (IdentityMatcher) Catégorisation (Classification supervisée) Clustering (Classification non supervisée)

8 Niveau lexical CloudView Search Tokenisation (reconnaitre les mots) : Standard (supporte tous les langages avec séparateurs) Japonnais (Hiragana, Katakana, Kanji, romanji) Chinois Autres via partenaires (Russe, Arabe, …) Configurable: Définir le type dun caractère (alphabétique, nombre, séparateur) Définir une expression réguliére

9 CloudView Search Normalisation : Calculer la forme sans majuscules et sans accents Translitération des caractères, ex: ü to ue en allemand Gérer les exceptions : déjà = deja mais maïs != mais Reconnaissance des fins de phrases Dr., 1.000, le point nest pas une fin de phrase « … in New York. Researchers from … », ne pas extraire une entité ou un groupe nominal pour « New York Researchers » Niveau lexical

10 Niveau Morphologique/Syntaxique CloudView Search Etiquetage morphosyntaxique: Donner la catégorie grammaticale de chaque mot (verbe, nom commun, nom propre, …) Supprimer les ambigüités (nom/verbe par exemple) Phonétiseur et correcteur orthographique Lemmatisation et stemming: Identifier le lemme ou le stemme de chaque mot La lemmatisation utilise le part of speech pour trouver le bon lemme ou donne plusieurs lemmatisation possibles. Utilisation de traits flexionnels (singulier/pluriel/féminin/masculin)

11 Processeurs sémantiques CloudView Search OntologyMatcher : Extraction des entités ou des concepts dune ontologie Par exemple extraire la liste des employées / services …

12 Processeurs sémantiques CloudView Search Extraction dentités nommées: Utilisation de patrons complexes pour extraire : Personnes: Jean-Marie Martin Personnes célèbresBarack Obama, Madonna Organisations:Yahoo! France, Nestlé UK Ville: Paris, Londres, … Lieux: Sillicon Valley, Beverly Hills, Abbey Road, … Evénements: 2012 Olympic Games Dates: 1999/12/31, July 4th Adresses: 10 Downing Street, London, SW1A 2AA Quantités: $14,000 billion

13 Extraction dentités nommées CloudView Search

14 Transducteurs CloudView Search Utilisé par la détection dentités nommées Permet dextraire efficacement des patrons complexes Langage de règles en XML possédant :,,,,,,,,,, (dans un voisinage de x mots) (optionnel) (une expression répété n fois) (équivalent du + dans les regexps) (équivalent du * dans les regexps) (capture)

15 Transducteurs CloudView Search Exemple

16 Processeurs sémantiques CloudView Search Identity Matching: Permet dextraire des entités floues du texte Autorise lutilisation dopérateurs booléens entre des informations extraites (par un OntologyMatcher par exemple) Par exemple lexpression The Bill & Melissa Gates fundation va reconnaitre Bill Gates Fundation,Gates fundation, … Un score est donnée à tous ces matches en fonction de la distance dédition avec lentrée de lontologie

17 IdentityMatching CloudView Search Extraction entités floues Par exemple lexpression The Bill & Melissa Gates fundation va reconnaitre Bill Gates Fundation,Gates fundation, … Un score est donnée à tous ces matches en fonction de la distance dédition avec lentrée de lontologie : The Bill & Melissa Gates fundation : Distance = 0 Bill Gates Fundation : Distance = 2 Gates fundation : Distance = 3 Gère nativement les permutations, les ajouts et les suppressions de mots

18 IdentityMatching CloudView Search Utilisation dopérateurs booléens Par exemple un OntologyMatcher qui identifie les concepts A_ENSEIGNEMENT, O_ACTIVITE_CULTUREL_1 et B_ADULTE. La régle de lidentifie matcher peut être un ET logique entre ces trois informations. Les options sont : Prendre en compte lordre des constituantes de la règle Autoriser/refuser un chevauchement des constituantes de la règle

19 Processeurs sémantiques Catégorisation: Business Consumer Services Inqueries Customer Service ShoppingPets training document Business Consumer Services Inqueries Customer Service ShoppingPets new item class signature class signature training document Prédire la catégorie dun document en utilisant une base dapprentissage ou via des règles

20 Processeurs sémantiques CloudView Search Classification non supervisée Détection et suivie de thématique (dépêches) Découvrir les classes de documents similaires Découvrir les paires de documents quasi- similaires : Détecter que D1 contient D2 Détecter que D1 partage beaucoup de phrases ou de concepts avec D2


Télécharger ppt "CloudView Architecture Sémantique Février 2009. Interact CloudView Search Management & Monitoring AccessProcessCollect Build-Time Semantic processing."

Présentations similaires


Annonces Google