Télécharger la présentation
1
TEXT MINING Fouille de textes
Master Recherche Informatique TEXT MINING Fouille de textes Jérôme CHAMPAVÈRE Didier DEVAURS Kaouther DRIRA Nawal GUERMOUCHE Mohamed TOUKOUROU Meriem ZIDOUNI Projet dans le cadre du module Cognition et Connaissance
2
Plan Introduction Outils et démarches du text mining
Mise en œuvre des concepts Domaines de recherche Conclusion Text Mining
3
Introduction Quantité de documents électroniques en croissance permanente Exploration et récupération des connaissances manuellement extrêmement ardues ou presque impossibles Utilisation de la puissance de l’outil informatique pour en extraire les connaissances Text Mining
4
Text mining Data mining
Text mining s’adresse aux données textuelles Données non structurées Outils spécifiques pour le traitement de données textuelles non structurées Text Mining
5
Text mining Text mining
Extraction de l’information à partir des données textuelles non structurées dans des grands corpus de texte Combine Des outils du traitement du langage naturel Des outils de fouille de données Text Mining
6
Outils du Text Mining Outil d'accès et de collecte des documents
Outil d'ingénierie du document Outil d'ingénierie du langage Outil de fouille Outil de visualisation Text Mining
7
Démarches suivies par le text mining
Outils d’ingénierie du document - Formalisation des données textuelles - Etiquetage des textes (date, auteur, ...) Documents Collecte de documents du domaine Outils de fouille - Extraction de connaissances (des règles d’association, calcul statistique) Traitement linguistique Outils d’ingénierie du langage - Extraction des termes - Filtrage des termes - Indexation des documents - Création d’une taxonomie - Regroupement des documents par les termes qui leur sont associés Extraction de connaissances Outil de visualisation et navigation Explorer et analyser les résultats Interprétation Text Mining
8
Mise en œuvre des concepts de fouille de textes
Exemples Text Mining
9
Le projet LINDI Linking Information for Novel Discovery and Insight
Objectifs Découverte de nouvelles informations Mise en place d’un système Contexte : biologie moléculaire BioText : Text Mining
10
Le projet LINDI Enjeu : découverte automatique des fonctions des gènes
Question Un gène A connu (expression et fonction) Un gène X nouveau (expression connue) Quelle est la fonction de X ? Réponse Expressions de A et X similaires Fonction de X probablement similaire Text Mining
11
Le projet LINDI Démarche Problème : énorme quantité de documents
Explorer la littérature biomédicale Faire des recoupements d’informations Problème : énorme quantité de documents Recours à la fouille de textes Text Mining
12
Recherche de documents
Documents mentionnant des gènes donnés Source principale : le Web Relatif à une langue Text Mining
13
Structuration des données
Ensemble de documents traitant d’un même gène Recherche de mots-clés Compter les occurrences Enlever les mots non signifiants Retirer les mots sans intérêt : intervention de l’utilisateur Résultat : un ensemble de mots-clés pour chaque gène Text Mining
14
Exploration des données
Intersection des ensembles de mots-clés Ordonner les mots-clés trouvés Présentation à l’utilisateur Sélection d’une liste de mots-clés pertinents Text Mining
15
Exploration des données
Nouvelle requête Gènes A, B et C connus Meilleurs mots-clés sélectionnés Réduction de l’ensemble des documents à étudier Expression de X similaire à celle de A, B et C ? Si oui, fonction probablement similaire Text Mining
16
AIDE Assistant Intelligent for Data Exploration
Système de planification à initiative mixte Guidé par les connaissances de l’utilisateur … et par ses propres évaluations Aide l’utilisateur à s’orienter Justifie et ordonne ses propositions Text Mining
17
DocMiner Text Mining
18
Quelques domaines de recherche de fouille de textes
Text Mining
19
Domaines abordés Recherche d’informations fréquentes
Recherche d’informations inattendues Catégorisation de textes Text Mining
20
Catégorisation de textes
Engouement dans ce domaine de recherche Choisir les documents par degré de pertinence L’outil TileBars Text Mining
21
Recherche d’information inattendue
Nouvel horizon pour la veille et l’intelligence économique Audit des besoins Synthèse et Diffusion Collecte des données Traitement Automatiser le traitement des données collectées Text Mining
22
Unexpected Miner Outils inappropriés pour effectuer de la veille
Architecture du système Prétraitement des données Recherche de documents similaires Recherche d’information inattendue Evaluation du système Text Mining
23
Conclusion Découverte de “nouvelles” informations
Interactions homme-machine Nombreuses applications de “text mining” Text Mining
24
MERCI DE VOTRE ATTENTION
Text Mining
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.