2 Outils de l’analyse textuelle « CORENLP » Ministère de l’Enseignement Supérieur et de la Recherche Scientifique Université d’Ibn Khaldoun – Tiaret faculté math et informatique Département Informatique Réalisé par : BEKKAR Ilyes Abdelhamid HENNI Ahmed Fawzi Proposé par : Dr. CHIKHAOUI Ahmed
Problématique Introduction classification des documents Le traitement du langage naturel (NLP) les outils de NLP coreNLP Les Annotations Conclusion 1
2 Informatique Historique Medecine Biologie Art
tous les systèmes intelligents et artificiels présents sur le marché à l’heure actuelle atteignent rapidement leurs limites et ils sont souvent basés que sur un système de réaction à certains mots-clés. il ne suffit pas de reconnaître un mot ou même un groupe de mots pour appréhender le sens d’un discours ou d’un texte, 2
L'Analyse de Données Textuelles regroupe aujourd’hui de nombreuses méthodes, et de nombreux outils, qui visent à découvrir l'information « essentielle » contenue dans un texte. 3
La classification des documents est l'activité du Traitement automatique des langues naturelles (NLP) qui consiste à classer de façon automatique des ressources documentaires, Cette classification peut prendre une infinité de formes. On citera ainsi la classification par genre, par thème, ou encore par opinion. 4
Le traitement du langage naturel (NLP) : est une gamme théoriquement motivée de techniques de calculs pour analyser et représenter des textes/discours naturels à un ou plusieurs niveaux d'analyse linguistique dans le but de réaliser un traitement du langage humain pour une gamme de tâches ou d'applications 5
Des ressources libres sont disponibles pour différentes étapes spécifiques à la recherche des données textuelles. 1. Unstructured Information Management applications(UIMA) :un environnement général pour le développement et l’organisation de services de gestion de données non structurées. 2. openNLP: est une suite intégrée en java qui propose la segmentation (tokenizer), l’étiquetage (tagger), la lemmatisation, l’analyse syntaxique, l’extraction d’entités nommées, le traitement des coréférences, la catégorisation de documents, etc. Une autre suite intégrée en java, bien développée, est Stanford CoreNLP.Stanford CoreNLP 6
Stanford CoreNLP fournit un ensemble d'outils d'analyse du langage naturel. Il peut donner des formes de base de mots, et leurs parties du discours, si ce sont des noms de sociétés, personnes, etc., normaliser les dates, les heures et les quantités numériques, marquent la structure des phrases en termes de phrases et les dépendances de mots. 7
L'objectif de Stanford CoreNLP est de rendre très facile l'application d’un tas d'outils d'analyse linguistique à un morceau de texte. Un pipeline d'outil peut être exécuté sur un morceau de texte brut avec seulement deux lignes de code. CoreNLP est conçu pour être très souple et extensible. Avec une seule option, vous pouvez changer les outils qui peuvent être activés ou désactivés. Il intègre un grand nombre des outils de NLP de Stanford, 8
9 Architecture générale du système
Cette analyse a pour but de découper le texte en plusieurs tokens. Les tokens sont les éléments les plus simples ils sont aussi porteurs de sens. Cette étape présente évidemment son lot de difficultés. Il serait en effet tentant d’utiliser un simple découpage en mots graphiques, c’est-à-dire de séparer les mots en fonction des espaces présents entre eux. Le but de la tokenisation est aussi d’apposer des étiquettes à chaque token, en déterminant la catégorie grammaticale à laquelle ils appartiennent. « La » est un article, « Mohamed » un nom, « marche » un verbe. Cela est compliqué par la forte ambiguïté qui règne dans beaucoup de langues. 10
11
assigne des parties de la parole à chaque mot (et autre jeton), tel que le nom, le verbe, l'adjectif, etc., 12
Génère les lemmas (formes de base) pour tous les jetons dans l'annotation. 13
Reconnaît les entités nommées (PERSON, LOCATION, ORGANISATION) et numériques (MONEY, NUMBER, DATE, TIME…). Avec les annotateurs par défaut, les entités nommées sont reconnues à l'aide d'une combinaison de marqueurs de séquence CRF formés sur divers corpus, tandis que les entités numériques sont reconnues à l'aide de deux systèmes fondés sur des règles, l'un pour l'argent et les nombres Système de pointe pour le traitement des expressions temporelles 14
15
16
Implémente la détection des mentions et la résolution de coréférence pronominale et nominale 17
Nous résumons les composantes d'analyse prises en charge pour les différentes langues humaines 19
Choisissez Stanford CoreNLP si vous avez besoin de: Une boîte à outils intégrée avec une bonne gamme d'outils d'analyse grammaticale Analyse rapide et fiable des textes arbitraires L'analyse globale de texte de meilleure qualité Soutien à un certain nombre de grandes langues (humaines) Interfaces disponibles pour la plupart des grands langages de programmations modernes Possibilité d'exécuter en tant que service Web simple 20
CoreNLP fournit un ensemble d'outils d'analyse du langage naturel. Il peut donner les formes de base des mots, leurs parties de la parole, qu'ils soient des noms d’entreprises ou de personnes, etc. Normaliser les dates, les heures et les quantités numériques, Marquer la structure des phrases en termes de phrase et de dépendance de mot, extraire les relations particulières, tout cela pour rendre très facile l'application d'un ensemble d'outils d'analyse linguistique à un morceau de texte 21