Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Découverte de connaissances
Présentée par : Melle Jihene Rezgui Je vous presente aujoud’hui mon sujet intitule *** sous la direction de Mr Jihen Rezgui ©- Cours IFT GEODES – 02 Décembre 2005
2
Plan Introduction Motivations Objectifs Algorithmes proposés Synthèse
Voici le plan que je vais suivre toute au long de la presentation Tout d’abord je vais commencer par l’ introduction Ensuite je vais enoncer les motivations ainsi que les objectifs de nos travaux Notre contribution consiste en la proposition d’une struc de donnees appellee IT et l’extraction de BGdeRA Apres je vais presenter les resultats des experimentations menee sur des bases benchmark la conclusion et les persepectives feront l’objet du dernier pt de la presentation Synthèse Conclusion & perspectives
3
et DM KDD n'est qu'une étape dans ce processus itératif et interactif.
Introduction Motivations Objectifs et DM KDD Algorithmes Méthodologies n'est qu'une étape dans ce processus itératif et interactif. Synthèse a pour objet d'extraire des informations utiles des BD. Conclusion & perspectives Le processus de FT est alors similaire à celui de la FD. Les alg bases sur l’approche diviser et generer n’utilisent pas directement la base comme le cas dans les itemsets frequents , ils utilisent une representation de la base qui est generalement de type arbre, les arbbres les plus connuessont FP-Tree et Cats-Tree les types de traitement effectués sont plus adaptés au traitement automatique des textes.
4
les étapes nécessaires pour effectuer une FT [1] sont :
2 3 4 5 6
5
cartes de connaissances. pourcentage des termes
Introduction Motivations Objectifs Filtrage des expressions Multiwords pour la construction des cartes de connaissances. La découverte des relations significatives entre les entités nommées. Algorithmes Méthodologies Synthèse Augmenter le pourcentage des termes utiles Conclusion & perspectives La forme la plus courante des connaissances sont les RA X->y materialise relation entre attributs A savoir minsup: seuil minmal de support fixe par utilisateur Minconf est un seuil de confiance(precision de la regle r) minimal fixe par l’utilisateur Support(la portee d’une RA: indique le pourcentage d’objets verifiant une RA) à partir des documents de large corpus
6
Besoin de corpus richement annotés.
Introduction Introduction Plusieurs applications concrètes et réalisables Problématique Exiger Objectifs Extraction des séquences de mots ou des expressions Multiword dans un corpus de documents. Besoin de corpus richement annotés. Aussi tagger avec les relations d’instances. Ceci prend beaucoup de temps et d’effort pour préparer ces corpus annotés qui sont assez volumineux. Algorithmes Application d’intérêt Méthodologies Carte de connaissance= { collection de concepts , relations: spécialisation ou généralisation (concepts), évidence associée a un concept }. Construire les cartes de connaissances pour établir le lien entre chercheur et documents. Synthèse Conclusion & perspectives Pas de réponse pour les questions compliquées. Devoir Analyse des documents pertinents pour collectionner les informations nécessaires. Extraire Fournir les méthodes: (événement particulier, relations entre entités du texte)
7
Objectifs regrouper par contexte des paires d’entités nommées.
Mesurer qualité des expressions ‘Multiword’ extraites des documents. Découvrir automatiquement des relations utiles entre les entités nommées incorporées dans un large corpus de texte Permettre aux utilisateurs de chercher dans un document de corpus plus large Objectifs Augmenter le pourcentage de mots utiles. Aider les ontologistes a construire leur cartes de connaissances. regrouper par contexte des paires d’entités nommées.
8
Analyse du premier article
Multiword Expression Filtering for building Knowledge [2] Venkatsubramanyan et J. Perez-Carballo
9
Algorithme pour Extraction des n-grams fréquents
Introduction Algorithme pour Extraction des n-grams fréquents Motivations Objectifs Algorithmes Convertir en expressions multiword utiles. Méthodologies Synthèse Extraction des termes utiles: Algorithme de filtrage Conclusion & perspectives Adoption de l’algorithme Tseng qui identifie des n-grams fréquemment répètes en raison de son efficacité Soit la base de transactions composee de lignes Chaque ligne est compose de numero transaction et les attributs associes a la transaction Dans cet IT chaque noeud contient deux informations Par rapport aux autres structures classiques L’arbre intialise est vide Nous allons inserer un noeud
10
Description de l’algorithme Tseng: se compose de 3 étapes principales
Introduction Description de l’algorithme Tseng: se compose de 3 étapes principales Motivations Objectifs Exige seulement complexité linéaire pour convertir le texte d’entrée en liste. Algorithmes Complexité : O ( n ) Méthodologies Synthèse Conclusion & perspectives Répète les tests de fusions jusqu’ a épuisé tous les éléments. Ces deux courbes montrent nettement la difference entre les structures Utiliser pour filtrer hors les termes Bruyantes. stop liste Approche basée sur une heuristique qui détermine lesquels Des stopword peut être considérés accepter en début ou fin des expressions multiword.
11
Approche proposée Extraction n-grams Analyse de stopword
Algorithme pour améliorer la qualité des expressions Multiword extraites a partir des documents. Algorithme Tseng [1998] Extraction n-grams Nettoyer accepter Mettre des seuils de fréquence plus élevé Analyse de stopword After, under Can, cannot Early, late Slow, fast, nb ……………….. a, an, the… Utiliser une liste standard de stopword employé par les systèmes? Augmenter proportion des expressions extraites qui ne doivent pas subir un traitement manuel par les ontologistes pour qu’elles soient utiles.
12
Analyse du deuxieme article
Discovering Relations among Named entities from large Corpora [3] Hasegawa, Satoshi Sekine, Ralph Grishman
13
Principe de la méthode Relation: Idée de Base:
Introduction Principe de la méthode Motivations Objectifs Approche basée sur le regroupement de pairs d’entités. Algorithmes Les relations entre entités sont découvertes a travers le processus de regroupement. Méthodologies Affiliation Rôle Location Sociale Etc .. Synthèse Relation: Conclusion & perspectives Idée de Base: Tagger les entités nommées dans le corpus de texte. Avoir les co-occurrences des paires des entités nommées et leur contexte. Mesurer les similarités de contexte entre les paires des entités nommées. Regrouper les paires des entités nommées selon des clusters. Étiqueter chaque groupe de paires des entités nommées.
14
La reconnaissance des entités nommées
Repérer Les noms propres Les expressions définies dans les documents qui renvoient à un référent unique du domaine. Typer Exemple Dans des textes de presse, il s’agit de marques, les noms propres cités comme noms de personnes, d’entreprises, de lieu, etc. Autant plus complexe que les noms peuvent apparaître sous différentes formes (avec des phénomènes courants de variation typographique, de synonymie, d’abréviation... ). les noms peuvent être ambigus (correspondant à différents types). Étiquetage des entités nommées
15
Méthodes de regroupement [5]
Introduction Single linkage clustering distance entre 2 clusters donnée par la valeur du lien le plus court entre les clusters. D(A,B) = Min { d(i,j)} Motivations Objectifs Algorithmes Méthodologies Complete linkage clustering distance entre 2 clusters donnée par la valeur du lien le plus long entre les clusters. D(A,B) = Max { d(i,j)}: highest F-measure Synthèse Conclusion & perspectives Average linkage clustering D(A,B) = Tab / ( Na * Nb) Tab est la somme de tous paires des distances entre le cluster a et le cluster b. Fgfhgfhgjhkjhljkljk,
16
Synthèse
17
Application de l’algorithme Non
oui Réduction de la taille de la liste de termes Évaluation Au moins de 30%-40% Gain en temps et effort pour les ontologistes et autres utilisateurs. Étudier la liste manuellement pour éliminer les expressions non significatives. Manœuvrer d’autres termes pour les transformer en expressions utiles.
18
Total de nombre des pairs correct dans tous les clusters
Le placement des pairs des EN dans les clusters. Attribution des étiquettes aux clusters. 1 étape: Évaluation 2 etape: Si 2 pairs partagent un mot commun de contexte, nous considérons ces pairs liées. Évaluer les clusters qui se compose de 2 pairs ou plus EN. Déterminer la relation (r) comme relation la plus fréquente: relation principale Considérer les mots communs fréquents comme les étiquettes appropriées pour les relations Les EN qui apparaissent avec la (r) sont considères correctes. Correct pairs : Ncorrect Évaluation des clusters basée sur { Recall, Précision, F-measure } Total de nombre des pairs correct dans tous les clusters Recall (R) : Ncorrect / Nkey Précision(P) : Ncorrect / (Ncorrect + Nincotrect) cosine(ө) : αβ / |α|| β| F-measure(R) : 2RP / (R + P)
19
Conclusion / Perspectives 1/2
Introduction Conclusion / Perspectives 1/2 Motivations Objectifs La tâche de filtrage des expressions extraites automatique des documents nous permet d’avoir des expressions utiles et réduit le fardeau pour les utilisateurs qui se présente avec ces expressions. Algorithmes Méthodologies Synthèse utiliser des statistiques plus sophistiques: Telle que IDF autre que la fréquence des occurrences pour éliminer les termes avant qu’elles soient traitées par l’algorithme de filtrage des termes multiwords. Avant filtrage: 30%-50% = étendu 60%-80% (termes utiles). Exécuter l’algorithme sur corpus volumineux: Augmenter les termes utiles de 40%(+- 10) a 70%(+-10). Conclusion & perspectives Examinant cet l’algorithme sur des documents d’autres domaines tel que médical, pharmaceutiques et financiers. Employer les informations syntaxiques et sémantiques pour construire ’filtre positif’ qui identifie les modèles bien formés.
20
Conclusion/ Perspectives 2/2
Introduction Conclusion/ Perspectives 2/2 Motivations Proposition d’une méthode non supervisée pour découvrir les relations entre entités nommées dans le corpus. Objectifs Algorithmes Découvrir les pairs EN les moins fréquents par la combinaison de la méthode proposée avec le bootstrapping . Méthodologies le programme n’a pas besoin de corpus richement annoté. non plus des instances de relations initiales. Synthèse Conclusion & perspectives = Gain en terme du temps et effort. = Besoin que NE tagger : les arguments de la relation: (programme existe et fonctionne parfaitement dans la pratique. )
21
Bibliographie [1] ( ) [2] Multiword Expression Filteering for Building Knowledge Maps, S. Venkatsubramanyan and J. Perez-Carballo [3] Discovering Relations among Named Entities from Large Corpora Takaaki Hasegawa, Satoshi Sekine, Ralph Grishman [4] NooJ : un outil TAL de corpus pour l’enseignement des langues et de la linguistique. [5] (Hierarchical Clustering )
22
MERCI POUR VOTRE ATTENTION !
Questions?
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.