La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

RECHERCHE DINFORMATION & REPRÉSENTATION DES CONNAISSANCES Soutenance de Projet Rabier Martin Tsemengue Patrick 5GI 24/01/2010.

Présentations similaires


Présentation au sujet: "RECHERCHE DINFORMATION & REPRÉSENTATION DES CONNAISSANCES Soutenance de Projet Rabier Martin Tsemengue Patrick 5GI 24/01/2010."— Transcription de la présentation:

1 RECHERCHE DINFORMATION & REPRÉSENTATION DES CONNAISSANCES Soutenance de Projet Rabier Martin Tsemengue Patrick 5GI 24/01/2010

2 Introduction Objectif: Développement d'un Système de Recherche dInformations Collection: Cookbooks sur des technologies de développements de logiciels Plusieurs notions: recherche, indexation, ontologie 2

3 Plan Système de Recherche dInformation Indexation Recherche Ontologie Construction de l'ontologie Appariement des termes Evaluation Conclusion 3

4 Indexation Objectif: Construction du fichier inverse Différentes étapes Parsing d'un fichier XML Extraction des termes de la balise & Distribution vers toutes les sections sous-jacentes Extraction des termes des balises Calcul des poids Stockage d'information 4

5 Deux tables dans la base de données FICHIER_INVERSE SECTION_MAP FieldType TermVarchar(255) Infostext Nb_occurences_colInt(11) FieldType Id_sectionInt(11) Doc_pathVarchar(255) XpathVarchar(255) 5

6 Calcul de poids Coefficient de pondération Calcul des poids Produits des balises Exemple: mot => poids à 4*2 mot => poids à 4*1 TagWeight meta4 title3 code2 image2 section1 subsection1 item1 paragraph1 …1 6

7 Taille collection/Taille indexation Taille de la collection 21 documents 109 sections mots au total (mots vides inclus) Taille de l'indexation 3209 termes différents (mots vides exclus) mots au total (mots vides exclus) Durée de lindexation 30 minutes 8 seconds Temps d'exécution rallongé par les accès à la base de donnée 7

8 Recherche 8

9 Recherche – Pertinence dun mot 9 Récupération du CLOB associé (idSection, poids, pos1, pos2, …, posN) (idSection2,…) Poids = Tf pondéré selon la balise contenant le terme Ajout de lIDF avec Tf : nombre d'occurrence du terme dans la section (pondéré selon la balise) N : nombre de sections dans la collection Ni : nombre de sections de la collection contenant le terme

10 Recherche- Pertinence dune expression 10 Expression : plusieurs mots entre guillemets Vérifier lordre correct des mots Récupération du CLOB de chacun des mots Récupération des positions des mots dans les sections

11 Recherche- Pertinence dune expression 11 Algorithme : premierMot = premierMotNonVide(expression) pour chaque section S ou premierMot est présent { nbOccurences = 0 pour chaque position de ce premierMot dans S { occurrenceExpr = true pour chaque mot suivant { si il n'est pas a la bonne position occurenceExpr = false } si (occurrenceExpr == true) nbOccurrences++ } }

12 Recherche- Pertinence dune expression 12 Calcul de la pertinence : Somme des poids des mots dans la section Nombre doccurrences de lexpression dans la section Calcul limité : Une expression possède une pertinence trop élevée par rapport à celle dun mot Possibilité damélioration

13 Recherche – Pertinence dune requête 13 Requête : plusieurs mots/expressions Quid de la pertinence Si tous les mots doivent être présents => Rappel limité Si => Ajout de bruit Calcul dun ratio : Classement des sections : Ordre décroissant du ratio En cas dégalité, Ordre décroissant de

14 Ontologie 14

15 Ontologie 15

16 Ontologie- Enrichissement de requête Parsing de lontologie Utilisation d OWL API Création dune table Terme => Classes ou Individus OWL Enrichissement de requête : 16 pour chaque mot ou expression de la requête { Récupération des classes et individus OWL pour chaque classe ou individu CouI { ajout des synonymes de CouI à la requête }

17 Evaluation Précision à 5, 10 et 25 éléments par requête 17

18 Evaluation Précision moyenne SRI Résultats identiques avec lontologie Rank AV Precision 50, , ,

19 Conclusion Indexation complète Stockage dinformation satisfaisant Recherche Amélioration par affinage des pertinences Ontologie Amélioration des résultats par la généralisation/spécification Extension par des termes couramment utilisés dans les domaines 19


Télécharger ppt "RECHERCHE DINFORMATION & REPRÉSENTATION DES CONNAISSANCES Soutenance de Projet Rabier Martin Tsemengue Patrick 5GI 24/01/2010."

Présentations similaires


Annonces Google