Découverte de connaissances

Slides:



Advertisements
Présentations similaires
GEOGRAPHIE DU CANADA 1232 Lenquête, lanalyse et la pensée critique.
Advertisements

PC / Traitement numérique / Contrôle Environnement logiciel
La Gestion de la Configuration
Les points ECVET Outil de communication conçu à partir des documents développés pour l’organisation des réunions du projet.
Efficient Simplification of Point-Sampled Surfaces
Généralités sur la préparation et la conduite d’une séance
La Méthode TRIZ en Agroalimentaire?
Les étapes de conception d’un site web
Yann Chevaleyre et Jean-Daniel Zucker
Understanding, building and using ontologies. Understanding Ontologie : la définition des concepts utilisés dans un langage donné Première approche (Gruber)
Piecewise Affine Registration of Biological Images
Technologie Collège Document d’accompagnement du programme de
Christelle Scharff IFI Juin 2004
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Le cadrage dans le processus d’ÉIE
Aide à la décision multicritères
Algorithmique et Programmation
Applications du perceptron multicouche
UE : 3.4. S4 Initiation à la démarche de recherche
Introduction à la conception de Bases de Données Relationnelles
Annotations sémantiques pour le domaine des biopuces
ÉVALUATION DES SCÉNARIOS POUR L’AIDE À LA CONDUITE DU PROJET
SÉMINAIRE DE LANCEMENT DES COURS EN LIGNE
Construction de modèles visuels
Bases de données lexicales
SYSTEMES D’INFORMATION
MOT Éditeur de modèles de connaissances par objets typés
Reconnaissance Vocale
Séance d'information aux étudiants Présentation préparée par: Ghyslain Gagnon Professeur au département de génie électrique ELE792PROJET DE FIN D'ÉTUDES.
CDP Introduction Définie comme «un savoir-agir fondé sur la mobilisation et l utilisation efficaces d un ensemble de ressources», la compétence dépasse.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Systeme Question-Reponse SQR
Khyati, Boumahmaza, Talbi
Chapitre 4 : Morphologie Mathématique
Portée, arrimages et intervenants Évolution des méthodes
Programmation non procédurale Le projet ECOLE 2000
Patrons de conceptions de créations
LRI-INRIA Saclay LRI- UMR CNRS Univ Paris-Sud et UR-INRIA Saclay 12 Equipes au LRI - 7 projets INRIA Equipe IASI-GEMO (IA et BD) « Gestion de données et.
Paradigmes des Langages de Programmation
Mise en oeuvre et exploitation
Module 8 : Surveillance des performances de SQL Server
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
GNU Free Documentation License
LA TECHNIQUE DU RÉSUMÉ Résumer un texte, c'est réduire un énoncé selon un certain nombre de mots imposé, en en restituant l'essentiel des idées et la structure.
Algorithmes et Programmation
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Programmation linéaire en nombres entiers
Fast and Furious Decision Tree Induction
Une communication efficace au cœur de la démarche d’apprentissage et d’évaluation Intention: Prendre conscience qu’une communication efficace.
Formalisation de la politique qualité
Dominique LAURENT Patrick SEGUELA
Management de la qualité
 2007 École de Santé Publique John Hopkins Bloomberg Introduction à l’évaluation de programmes Frances Stillman, EdD Institute for Global Tobacco Control.
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Introduction et Généralités sur l’Algorithmique
Vers une intégration plus poussée de la recherche Web avec les Systèmes d’Information Géographiques Adapté de «Toward Tighter Integration of Web Search.
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.
Knowledge discovery in Databases (KDD)
( ) Collège de Maisonneuve
TEXT MINING Fouille de textes
La famille est un système ouvert :
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
METHODE POUR LE PARAGRAPHE ARGUMENTE
Le Traitement Automatique des Langues (TAL)
Copyright, 1996 © Dale Carnegie & Associates, Inc. Com7114 Technologies de la communication Objectifs de ce cours ? Sa place dans le programme ? La communication.
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Rédiger des procédures efficaces
mini projet maintenance:
Introduction à la rédaction Scientifique
MES STRATÉGIES DE LECTURE
Transcription de la présentation:

Découverte de connaissances Présentée par : Melle Jihene Rezgui Je vous presente aujoud’hui mon sujet intitule *** sous la direction de Mr Jihen Rezgui ©- Cours IFT6010 - GEODES – 02 Décembre 2005

Plan Introduction Motivations Objectifs Algorithmes proposés Synthèse Voici le plan que je vais suivre toute au long de la presentation Tout d’abord je vais commencer par l’ introduction Ensuite je vais enoncer les motivations ainsi que les objectifs de nos travaux Notre contribution consiste en la proposition d’une struc de donnees appellee IT et l’extraction de BGdeRA Apres je vais presenter les resultats des experimentations menee sur des bases benchmark la conclusion et les persepectives feront l’objet du dernier pt de la presentation Synthèse Conclusion & perspectives

et DM KDD n'est qu'une étape dans ce processus itératif et interactif. Introduction Motivations Objectifs et DM KDD Algorithmes Méthodologies n'est qu'une étape dans ce processus itératif et interactif. Synthèse a pour objet d'extraire des informations utiles des BD. Conclusion & perspectives Le processus de FT est alors similaire à celui de la FD. Les alg bases sur l’approche diviser et generer n’utilisent pas directement la base comme le cas dans les itemsets frequents , ils utilisent une representation de la base qui est generalement de type arbre, les arbbres les plus connuessont FP-Tree et Cats-Tree les types de traitement effectués sont plus adaptés au traitement automatique des textes.

les étapes nécessaires pour effectuer une FT [1] sont : 2 3 4 5 6

cartes de connaissances. pourcentage des termes Introduction Motivations Objectifs Filtrage des expressions Multiwords pour la construction des cartes de connaissances. La découverte des relations significatives entre les entités nommées. Algorithmes Méthodologies Synthèse Augmenter le pourcentage des termes utiles Conclusion & perspectives La forme la plus courante des connaissances sont les RA X->y materialise relation entre attributs A savoir minsup: seuil minmal de support fixe par utilisateur Minconf est un seuil de confiance(precision de la regle r) minimal fixe par l’utilisateur Support(la portee d’une RA: indique le pourcentage d’objets verifiant une RA) à partir des documents de large corpus

Besoin de corpus richement annotés. Introduction Introduction Plusieurs applications concrètes et réalisables Problématique Exiger Objectifs Extraction des séquences de mots ou des expressions Multiword dans un corpus de documents. Besoin de corpus richement annotés. Aussi tagger avec les relations d’instances. Ceci prend beaucoup de temps et d’effort pour préparer ces corpus annotés qui sont assez volumineux. Algorithmes Application d’intérêt Méthodologies Carte de connaissance= { collection de concepts , relations: spécialisation ou généralisation (concepts), évidence associée a un concept }. Construire les cartes de connaissances pour établir le lien entre chercheur et documents. Synthèse Conclusion & perspectives Pas de réponse pour les questions compliquées. Devoir Analyse des documents pertinents pour collectionner les informations nécessaires. Extraire Fournir les méthodes: (événement particulier, relations entre entités du texte)

Objectifs regrouper par contexte des paires d’entités nommées. Mesurer qualité des expressions ‘Multiword’ extraites des documents. Découvrir automatiquement des relations utiles entre les entités nommées incorporées dans un large corpus de texte Permettre aux utilisateurs de chercher dans un document de corpus plus large Objectifs Augmenter le pourcentage de mots utiles. Aider les ontologistes a construire leur cartes de connaissances. regrouper par contexte des paires d’entités nommées.

Analyse du premier article Multiword Expression Filtering for building Knowledge [2] Venkatsubramanyan et J. Perez-Carballo

Algorithme pour Extraction des n-grams fréquents Introduction Algorithme pour Extraction des n-grams fréquents Motivations Objectifs Algorithmes Convertir en expressions multiword utiles. Méthodologies Synthèse Extraction des termes utiles: Algorithme de filtrage Conclusion & perspectives Adoption de l’algorithme Tseng qui identifie des n-grams fréquemment répètes en raison de son efficacité Soit la base de transactions composee de lignes Chaque ligne est compose de numero transaction et les attributs associes a la transaction Dans cet IT chaque noeud contient deux informations Par rapport aux autres structures classiques L’arbre intialise est vide Nous allons inserer un noeud

Description de l’algorithme Tseng: se compose de 3 étapes principales Introduction Description de l’algorithme Tseng: se compose de 3 étapes principales Motivations Objectifs Exige seulement complexité linéaire pour convertir le texte d’entrée en liste. Algorithmes Complexité : O ( n )   Méthodologies Synthèse Conclusion & perspectives Répète les tests de fusions jusqu’ a épuisé tous les éléments. Ces deux courbes montrent nettement la difference entre les structures Utiliser pour filtrer hors les termes Bruyantes. stop liste Approche basée sur une heuristique qui détermine lesquels Des stopword peut être considérés accepter en début ou fin des expressions multiword.

Approche proposée Extraction n-grams Analyse de stopword Algorithme pour améliorer la qualité des expressions Multiword extraites a partir des documents. Algorithme Tseng [1998] Extraction n-grams Nettoyer accepter Mettre des seuils de fréquence plus élevé Analyse de stopword After, under Can, cannot Early, late Slow, fast, nb ……………….. a, an, the… Utiliser une liste standard de stopword employé par les systèmes? Augmenter proportion des expressions extraites qui ne doivent pas subir un traitement manuel par les ontologistes pour qu’elles soient utiles.

Analyse du deuxieme article Discovering Relations among Named entities from large Corpora [3] Hasegawa, Satoshi Sekine, Ralph Grishman

Principe de la méthode Relation: Idée de Base: Introduction Principe de la méthode Motivations Objectifs Approche basée sur le regroupement de pairs d’entités. Algorithmes Les relations entre entités sont découvertes a travers le processus de regroupement. Méthodologies Affiliation Rôle Location Sociale Etc .. Synthèse Relation: Conclusion & perspectives Idée de Base: Tagger les entités nommées dans le corpus de texte. Avoir les co-occurrences des paires des entités nommées et leur contexte. Mesurer les similarités de contexte entre les paires des entités nommées. Regrouper les paires des entités nommées selon des clusters. Étiqueter chaque groupe de paires des entités nommées.

La reconnaissance des entités nommées Repérer Les noms propres Les expressions définies dans les documents qui renvoient à un référent unique du domaine. Typer Exemple Dans des textes de presse, il s’agit de marques, les noms propres cités comme noms de personnes, d’entreprises, de lieu, etc. Autant plus complexe que les noms peuvent apparaître sous différentes formes (avec des phénomènes courants de variation typographique, de synonymie, d’abréviation... ). les noms peuvent être ambigus (correspondant à différents types). Étiquetage des entités nommées

Méthodes de regroupement [5] Introduction Single linkage clustering distance entre 2 clusters donnée par la valeur du lien le plus court entre les clusters. D(A,B) = Min { d(i,j)} Motivations Objectifs Algorithmes Méthodologies Complete linkage clustering distance entre 2 clusters donnée par la valeur du lien le plus long entre les clusters. D(A,B) = Max { d(i,j)}: highest F-measure Synthèse Conclusion & perspectives Average linkage clustering D(A,B) = Tab / ( Na * Nb) Tab est la somme de tous paires des distances entre le cluster a et le cluster b. Fgfhgfhgjhkjhljkljk,

Synthèse

Application de l’algorithme Non oui Réduction de la taille de la liste de termes Évaluation Au moins de 30%-40% Gain en temps et effort pour les ontologistes et autres utilisateurs. Étudier la liste manuellement pour éliminer les expressions non significatives. Manœuvrer d’autres termes pour les transformer en expressions utiles.

Total de nombre des pairs correct dans tous les clusters Le placement des pairs des EN dans les clusters. Attribution des étiquettes aux clusters. 1 étape: Évaluation 2 etape: Si 2 pairs partagent un mot commun de contexte, nous considérons ces pairs liées. Évaluer les clusters qui se compose de 2 pairs ou plus EN. Déterminer la relation (r) comme relation la plus fréquente: relation principale Considérer les mots communs fréquents comme les étiquettes appropriées pour les relations Les EN qui apparaissent avec la (r) sont considères correctes. Correct pairs : Ncorrect Évaluation des clusters basée sur { Recall, Précision, F-measure } Total de nombre des pairs correct dans tous les clusters Recall (R) : Ncorrect / Nkey Précision(P) : Ncorrect / (Ncorrect + Nincotrect) cosine(ө) : αβ / |α|| β| F-measure(R) : 2RP / (R + P)

Conclusion / Perspectives 1/2 Introduction Conclusion / Perspectives 1/2 Motivations Objectifs  La tâche de filtrage des expressions extraites automatique des documents nous permet d’avoir des expressions utiles et réduit le fardeau pour les utilisateurs qui se présente avec ces expressions. Algorithmes Méthodologies Synthèse utiliser des statistiques plus sophistiques: Telle que IDF autre que la fréquence des occurrences pour éliminer les termes avant qu’elles soient traitées par l’algorithme de filtrage des termes multiwords. Avant filtrage: 30%-50% = étendu 60%-80% (termes utiles). Exécuter l’algorithme sur corpus volumineux: Augmenter les termes utiles de 40%(+- 10) a 70%(+-10). Conclusion & perspectives Examinant cet l’algorithme sur des documents d’autres domaines tel que médical, pharmaceutiques et financiers. Employer les informations syntaxiques et sémantiques pour construire ’filtre positif’ qui identifie les modèles bien formés.

Conclusion/ Perspectives 2/2 Introduction Conclusion/ Perspectives 2/2 Motivations  Proposition d’une méthode non supervisée pour découvrir les relations entre entités nommées dans le corpus. Objectifs Algorithmes Découvrir les pairs EN les moins fréquents par la combinaison de la méthode proposée avec le bootstrapping . Méthodologies  le programme n’a pas besoin de corpus richement annoté.  non plus des instances de relations initiales. Synthèse Conclusion & perspectives = Gain en terme du temps et effort. = Besoin que NE tagger : les arguments de la relation: (programme existe et fonctionne parfaitement dans la pratique. )

Bibliographie [1] (http://www.inf.ufrgs.br/~wives/english/textmining.html ) [2] Multiword Expression Filteering for Building Knowledge Maps, S. Venkatsubramanyan and J. Perez-Carballo [3] Discovering Relations among Named Entities from Large Corpora Takaaki Hasegawa, Satoshi Sekine, Ralph Grishman [4] NooJ : un outil TAL de corpus pour l’enseignement des langues et de la linguistique. [5] http://www.resample.com/xlminer/help/HClst/HClst_intro.htm (Hierarchical Clustering )

MERCI POUR VOTRE ATTENTION ! Questions?