TEXT MINING Fouille de textes Master Recherche Informatique TEXT MINING Fouille de textes Jérôme CHAMPAVÈRE Didier DEVAURS Kaouther DRIRA Nawal GUERMOUCHE Mohamed TOUKOUROU Meriem ZIDOUNI Projet dans le cadre du module Cognition et Connaissance
Plan Introduction Outils et démarches du text mining Mise en œuvre des concepts Domaines de recherche Conclusion Text Mining
Introduction Quantité de documents électroniques en croissance permanente Exploration et récupération des connaissances manuellement extrêmement ardues ou presque impossibles Utilisation de la puissance de l’outil informatique pour en extraire les connaissances Text Mining
Text mining Data mining Text mining s’adresse aux données textuelles Données non structurées Outils spécifiques pour le traitement de données textuelles non structurées Text Mining
Text mining Text mining Extraction de l’information à partir des données textuelles non structurées dans des grands corpus de texte Combine Des outils du traitement du langage naturel Des outils de fouille de données Text Mining
Outils du Text Mining Outil d'accès et de collecte des documents Outil d'ingénierie du document Outil d'ingénierie du langage Outil de fouille Outil de visualisation Text Mining
Démarches suivies par le text mining Outils d’ingénierie du document - Formalisation des données textuelles - Etiquetage des textes (date, auteur, ...) Documents Collecte de documents du domaine Outils de fouille - Extraction de connaissances (des règles d’association, calcul statistique) Traitement linguistique Outils d’ingénierie du langage - Extraction des termes - Filtrage des termes - Indexation des documents - Création d’une taxonomie - Regroupement des documents par les termes qui leur sont associés Extraction de connaissances Outil de visualisation et navigation Explorer et analyser les résultats Interprétation Text Mining
Mise en œuvre des concepts de fouille de textes Exemples Text Mining
Le projet LINDI Linking Information for Novel Discovery and Insight Objectifs Découverte de nouvelles informations Mise en place d’un système Contexte : biologie moléculaire BioText : http://biotext.berkeley.edu/ Text Mining
Le projet LINDI Enjeu : découverte automatique des fonctions des gènes Question Un gène A connu (expression et fonction) Un gène X nouveau (expression connue) Quelle est la fonction de X ? Réponse Expressions de A et X similaires Fonction de X probablement similaire Text Mining
Le projet LINDI Démarche Problème : énorme quantité de documents Explorer la littérature biomédicale Faire des recoupements d’informations Problème : énorme quantité de documents Recours à la fouille de textes Text Mining
Recherche de documents Documents mentionnant des gènes donnés Source principale : le Web Relatif à une langue Text Mining
Structuration des données Ensemble de documents traitant d’un même gène Recherche de mots-clés Compter les occurrences Enlever les mots non signifiants Retirer les mots sans intérêt : intervention de l’utilisateur Résultat : un ensemble de mots-clés pour chaque gène Text Mining
Exploration des données Intersection des ensembles de mots-clés Ordonner les mots-clés trouvés Présentation à l’utilisateur Sélection d’une liste de mots-clés pertinents Text Mining
Exploration des données Nouvelle requête Gènes A, B et C connus Meilleurs mots-clés sélectionnés Réduction de l’ensemble des documents à étudier Expression de X similaire à celle de A, B et C ? Si oui, fonction probablement similaire Text Mining
AIDE Assistant Intelligent for Data Exploration Système de planification à initiative mixte Guidé par les connaissances de l’utilisateur … et par ses propres évaluations Aide l’utilisateur à s’orienter Justifie et ordonne ses propositions Text Mining
DocMiner Text Mining
Quelques domaines de recherche de fouille de textes Text Mining
Domaines abordés Recherche d’informations fréquentes Recherche d’informations inattendues Catégorisation de textes Text Mining
Catégorisation de textes Engouement dans ce domaine de recherche Choisir les documents par degré de pertinence L’outil TileBars Text Mining
Recherche d’information inattendue Nouvel horizon pour la veille et l’intelligence économique Audit des besoins Synthèse et Diffusion Collecte des données Traitement Automatiser le traitement des données collectées Text Mining
Unexpected Miner Outils inappropriés pour effectuer de la veille Architecture du système Prétraitement des données Recherche de documents similaires Recherche d’information inattendue Evaluation du système Text Mining
Conclusion Découverte de “nouvelles” informations Interactions homme-machine Nombreuses applications de “text mining” Text Mining
MERCI DE VOTRE ATTENTION Text Mining