Présentation v1 Semiosys Elie Naulleau Lingomation Corpus Présentation v1 Semiosys Elie Naulleau
Lingomation Lingo (langue) + automation Langage interprété pour requêtes interactives Basé sur la syntaxe des expressions régulières (opérateurs de Kleen : * ? + {n,m} ) Définition de groupes nommés Flexible et multi-attributs : prise en compte des annotations linguistiques multicouches d’un document Basé sur Apache Lucene 4 pour le mode corpus
Lingomation – mode corpus Requête Index Lucene 4 Documents Analyses TAL Lingomation Peut indexer des millions de documents (capacités de Lucene) Résultats, Extractions
Lingomation – mode LRXL* Web service ou application Ressources Lexiques, dicos, etc. {Règles-Actions} xml Document Analyses TAL Lingomation Résultats: Extractions, validations, … Traitement de d’un seul document à la fois xml, json, txt Extension du mode Corpus : mode LRXL en cours d’implémentation, traitement document par document, visée applicative : fabrication d’automates linguistiques (*) LREE : Linguistic Regular eXpression Language,en cours de développement
Lingomation Corpus - applications Exploration et étude de corpus, Travaux préparatifs pour la construction de cartouches Temis Mise au point de motifs d’extraction (candidats termes, relations sémantiques, génération de triplets RDF, etc.) Mise au point de motifs d’anomalies linguistiques
Lingomation - Points forts Flexibilité et interactivité : requêtes interprétées, aucune compilation d’automates n’est nécessaire (contrairement à JAPE de GATE, ou les outils Temis) Performances (celles de Lucene pour le mode corpus, pour le mode LRXL: compilation DFA lors de l’interprétation et byte code Java pour les a ctions) Un dizaine de couches d’annotations linguistiques possibles (lemme, partie du discours, tonalités, attributs divers, etc. nombre de couches non limité pour LRXL). Notion de groupes nommés pour des extractions ciblées
Lingomation Corpus - exemples [pos="ADV" & mot="n.*"] [pos="VER.*"]+ "pas|plus" actions:([pos="VER.*"]+) Collecte des actions verbales à ne pas faire preadjs:([pos="ADJ"]*) [mot="énergie.*"] postadjs:([pos="ADJ"]*) Collecte des adjectifs préfixés et suffixés autour du mot énergie ou énergies
Lingomation dans OSS - démo OSS (Outils Statistiques et Sémantiques) est une plateforme d’exploration de corpus et de collecte de fragments textuels OSS conçu pour de petits corpus (on n’exploite pas les capacités de Lingomation-Lucene) Ajout du type d’analyse lingomation dans OSS : Lingomation greffé sur OSS. Côté serveur TreeTagger assure l’étiquetage et la lemmatisation Démonstration http://semiosys.fr/prometil/lingomation.mp4