La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Présentation v1 Semiosys Elie Naulleau

Présentations similaires


Présentation au sujet: "Présentation v1 Semiosys Elie Naulleau"— Transcription de la présentation:

1 Présentation v1 Semiosys Elie Naulleau
Lingomation Corpus Présentation v1 Semiosys Elie Naulleau

2 Lingomation Lingo (langue) + automation
Langage interprété pour requêtes interactives Basé sur la syntaxe des expressions régulières (opérateurs de Kleen : * ? + {n,m} ) Définition de groupes nommés Flexible et multi-attributs : prise en compte des annotations linguistiques multicouches d’un document Basé sur Apache Lucene 4 pour le mode corpus

3 Lingomation – mode corpus
Requête Index Lucene 4 Documents Analyses TAL Lingomation Peut indexer des millions de documents (capacités de Lucene) Résultats, Extractions

4 Lingomation – mode LRXL*
Web service ou application Ressources Lexiques, dicos, etc. {Règles-Actions} xml Document Analyses TAL Lingomation Résultats: Extractions, validations, … Traitement de d’un seul document à la fois xml, json, txt Extension du mode Corpus : mode LRXL en cours d’implémentation, traitement document par document, visée applicative : fabrication d’automates linguistiques (*) LREE : Linguistic Regular eXpression Language,en cours de développement

5 Lingomation Corpus - applications
Exploration et étude de corpus, Travaux préparatifs pour la construction de cartouches Temis Mise au point de motifs d’extraction (candidats termes, relations sémantiques, génération de triplets RDF, etc.) Mise au point de motifs d’anomalies linguistiques

6 Lingomation - Points forts
Flexibilité et interactivité : requêtes interprétées, aucune compilation d’automates n’est nécessaire (contrairement à JAPE de GATE, ou les outils Temis) Performances (celles de Lucene pour le mode corpus, pour le mode LRXL: compilation DFA lors de l’interprétation et byte code Java pour les a ctions) Un dizaine de couches d’annotations linguistiques possibles (lemme, partie du discours, tonalités, attributs divers, etc. nombre de couches non limité pour LRXL). Notion de groupes nommés pour des extractions ciblées

7 Lingomation Corpus - exemples
[pos="ADV" & mot="n.*"] [pos="VER.*"]+ "pas|plus" actions:([pos="VER.*"]+) Collecte des actions verbales à ne pas faire preadjs:([pos="ADJ"]*) [mot="énergie.*"] postadjs:([pos="ADJ"]*) Collecte des adjectifs préfixés et suffixés autour du mot énergie ou énergies

8 Lingomation dans OSS - démo
OSS (Outils Statistiques et Sémantiques) est une plateforme d’exploration de corpus et de collecte de fragments textuels OSS conçu pour de petits corpus (on n’exploite pas les capacités de Lingomation-Lucene) Ajout du type d’analyse lingomation dans OSS : Lingomation greffé sur OSS. Côté serveur TreeTagger assure l’étiquetage et la lemmatisation Démonstration


Télécharger ppt "Présentation v1 Semiosys Elie Naulleau"

Présentations similaires


Annonces Google