Services en Text Mining
Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle (IRIDIA) de l'Université de Bruxelles (ULB).
Introduction : quelle est l’offre de Mentis ? Mentis est une société spécialisée en analyse et en traitement automatique du contenu des textes non structurés (« Text Mining ») Création assistée de Taxonomies et de réseaux sémantiques Extraction d’informations au sein des textes libres Systèmes de Classification automatique de documents Moteurs de recherche sémantiques et collaboratifs Moteurs de veille Disposant d’une boîte d’outils logiciels performants, Mentis développe des solutions sur-mesure et offre les services suivants :
Particularités de l’offre de Mentis : offre modulaire à haut niveau de performances à la pointe de la technologie solutions capables de s’améliorer d’elles-mêmes par apprentissage automatique
5 Quelques Partenaires et Références
Exemples de références de projets de Mentis en Text Mining Moteur d’extraction des adresses pour les articles de presse Moteur de recherche sémantique pour l’ensemble des articles de la presse belge Moteur d’extraction d’informations et de comparaison pour les prescriptions médicales Moteur de structuration automatique d’informations pour l’aide à la création de catalogues de produits Moteur de recherche sémantique pour une collection de textes d’archives
Solutions en archivages Scan et Océrization de documents aux formats divers Classification automatique Extraction d’informations et création de documents sur mesure Moteurs de recherche Sémantique Collaboratif
Création semi-automatique de référentiels Les référentiels sont des systèmes de représentation des connaissances qui peuvent être plus ou moins structurés : listes, hiérarchies, réseaux Les référentiels sont utilisés lors de l’analyse automatique des textes pour identifier au sein d’un texte les informations reprises dans le référentiel (par exemple, si on a comme référentiel la liste des sociétés de distribution d’électricité, il est possible d’identifier tous les textes qui contiennent des noms de cette liste)
Création semi-automatique de référentiels l’extraction automatique d’informations prédéfinies au sein de textes libres la comparaison automatique de textes libres Des référentiels adaptés aux documents analysés sont des outils très efficaces qui permettent d’améliorer la qualité de l’analyse des textes libres et plus spécifiquement, les tâches suivantes :
Création semi-automatique de référentiels Mentis dispose d’outils logiciels qui permettent d’automatiser en grande partie la création de référentiels adaptés aux textes analysés. Ces systèmes analysent des larges collections de textes et cherchent à identifier à l’aide d’outils d’analyse statistique et sémantique les différentes catégories de sujets abordés au sein des textes analysés.
Extraction d’informations On peut extraire un ensemble d’entités d’information « atomiques » de documents tels que par exemple les offres et demande d’emplois : nom, métier, spécialisation, adresse, … L’idée est de minimiser la quantité de « texte libre » en essayant de reconnaître (c’est-à-dire pouvoir associer des éléments du texte à des catégories sémantiques prédéfinies (ex :nom, métier, …)) un maximum d’information au sein des documents analysés
Extraction d’informations Génération automatique de nouveaux documents (formattage de documents-types, rapports, …) Amélioration importante de la qualité du moteur de matching offre/demande d’emploi Permet d’implémenter un moteur de recherche efficace et capable de faire des recherches sémantiques (la qualité de la sémantique dépend de la qualité des informations extraites) (ex : avec la date) Les informations atomiques ainsi extraites peuvent ensuite être stockées dans une base de données structurée et être utilisé dans différents buts :
Extraction d’informations Une série de moteurs d’extractions déjà développés et capables d’extraire un ensemble d’informations prédéfinies (noms de personnes, noms de sociétés, adresses, informations numériques (dates, montants monétaires, code postal, …), …) Le développement de moteurs d’extractions pour des nouveaux types d’informations (profession, connaissance logicielle, …) à partir de systèmes d’apprentissage et de bases de connaissances En terme d’extraction d’informations, Mentis peut offrir 2 choses :
Un exemple simple : l’extraction de localités
Structuration automatique Améliore la lisibilité des documents (on sait directement où se trouvent les infos pour tous les documents) Permet d’améliorer la qualité du matching Une fois les informations atomiques extraites, on peut créer des nouvelles versions des documents dans le format que l’on désire. Ceci permet de mettre un ensemble de documents ayant des formats différents sous le même format
Extraction d’informations Formattage Textes Non Structurés Base de connaissances Textes Structurés Bases de Données
Un exemple de structuration
Moteur de recherche sémantique et collaboratif Module sémantique : permet de traiter les ambiguités, de gérer les synonymes et les textes sémantiquement proches des requêtes Module collaboratif : permet de regrouper les utilisateurs en communautés pour améliorer la qualité des recherches
Base de connaissances InterneExterne Réseau Collaboratif Utilisateur 1 Utilisateur 2Utilisateur 3
20 Contacts Merci de votre attention Contacts : Tel : 02/ Fax : 02/