Recherche d’information & Représentation des Connaissances

Slides:



Advertisements
Présentations similaires
Le moteur
Advertisements

Présentation du prototype :
Approche graphique du nombre dérivé
E1 E1 E1 E1 E1 E1 E1 E1 E2 E2 E2 E2 E2 E2 E3 E3 E3 E3 E3 E4 E4 E4 E4
Classe : …………… Nom : …………………………………… Date : ………………..
ACTIVITES Les fractions (10).
Les Prepositions.
Groupe France Télécom Projet Cilia : collaboration LIG Adèle – Orange Labs/MAPS/MEP slide 1 Cilia, un framework de médiation ouvert, léger, multi-personnalités.
1 UMLV 1. Introduction 2. Hachage ouvert 3. Hachage fermé 4. Implémentation des fonctions Méthodes de hachage.
1. Les caractéristiques de dispersion. 11. Utilité.
Page : 1 / 6 INSA Rouen département ASI UV MGPI Examen du 25 juin 2003 Durée : 120 mn Le support de cours est toléré La notation tiendra compte très significativement.
Le codage de l ’information
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Défi écriture BEF Couverture. Défi écriture BEF Page 1.
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
Identités remarquables : introduction Les 3 identités remarquables
IronWEB : Une architecture distribuée
Construction de Box-Plot ou diagrammes en boîtes ou boîtes à moustaches Construire une boîte à moustaches …
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
Améliorer les performances du chiffrage à flot SYND
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Vue générale de Sharpdesk
Plugin B pour JEdit Matthias Meusburger Antoine Acquaviva
SUJET D’ENTRAINEMENT n°3
Les structures de données arborescentes
Annotations sémantiques pour le domaine des biopuces
Méthode des k plus proches voisins
SUJET D’ENTRAINEMENT n°2
1 Les pointeurs et quelques rappels sur certains éléments du langage C.
Tableaux de distributions
Tableaux de distributions
Indexation 1. Concepts de base 2. Arbre B 3. Indexes secondaires.
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Master 1 SIGLIS Java Lecteur Stéphane Tallard Chapitre 5 – Héritage, Interfaces et Listes génériques.
SYSTEMES D’INFORMATION
Test bilan de calcul mental N°1 :
Moteur de RechercheMoteur de recherche "from scratch"
Moteur de recherche d’information
Moteur de recherche d’information
1. 2 PLAN DE LA PRÉSENTATION - SECTION 1 : Code HTML - SECTION 2.1. : CSS (Méthode 1) - SECTION 2.2. : CSS (Méthode 2) - SECTION 3 : JavaScript - SECTION.
L’étrange ballet de la planète MARS
Évaluations nationales cm Réunions de directions et animation pédagogique du 13/01/10 Circonscription de PontChateau Briere – VG-
Notre calendrier français MARS 2014
Quelle heure est-il ??. THE TIME: OCLOCK IL EST HEURE IL EST + + HEURES etc.
Fourmis artistiques ou l'art artificiel pictural et musical
C'est pour bientôt.....
SUJET D’ENTRAINEMENT n°4
E 1 Rénovation STMG : programme dEconomie RUPTURE ET CONTINUITE Claude NAVA Inspecteur général de lEducation nationale.
Chapitre 3 Les bibliothèques de balises JSP et la JSTL
IFT6255 – Recherche d’information Jian-Yun Nie
Les techniques des moteurs de recherche
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
SUJET D’ENTRAINEMENT n°1
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Règles calcul au quotidien  4 = ?. Règles calcul au quotidien  4 = ?
10 paires -. 9 séries de 3 étuis ( n° 1 à 27 ) 9 positions à jouer 5 tables Réalisé par M..Chardon.
CALENDRIER-PLAYBOY 2020.
1. Présentation générale du système
USAM BRIDGE H O W E L L -CLASSIQUE
9 paires séries de 3 étuis ( n° 1 à 27 )
Projet SwitcHome Cahier des charges techniques Adeline COUPE, Hélène DRAUX, Ismaïla GIROUX, Loïc TACHET.
Rappels de statistiques descriptives
EG01 - Ergonomie 1 Le portail de recherche cartographique Soutenance finale Vincent GUYONGM02 Nordin MIMOUNIGM05.
PRESTO Programme d’étude de séries temporelles Projet 4 ème année Jean-Frédéric Berthelot Paul-Alain Bugnard Camille Capelle Sébastien Castiel.
Dominique LAURENT Patrick SEGUELA
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
Transcription de la présentation:

Recherche d’information & Représentation des Connaissances Rabier Martin Tsemengue Patrick 5GI 24/01/2010 Soutenance de Projet

Introduction Objectif: Développement d'un Système de Recherche d‘Informations Collection: Cookbooks sur des technologies de développements de logiciels Plusieurs notions: recherche, indexation, ontologie

Plan Système de Recherche d’Information Ontologie Evaluation Indexation Recherche Ontologie Construction de l'ontologie Appariement des termes Evaluation Conclusion

Indexation Objectif: Construction du fichier inverse Différentes étapes Parsing d'un fichier XML Extraction des termes de la balise <meta> & Distribution vers toutes les sections sous-jacentes Extraction des termes des balises <section> Calcul des poids Stockage d'information

Stockage d'information Deux tables dans la base de données FICHIER_INVERSE SECTION_MAP Field Type Term Varchar(255) Infos text Nb_occurences_col Int(11) Field Type Id_section Int(11) Doc_path Varchar(255) Xpath

Calcul de poids Coefficient de pondération Calcul des poids Produits des balises Exemple: <meta><title>mot</title></meta> => poids à 4*2 <meta><author>mot</author></meta> => poids à 4*1 Tag Weight meta 4 title 3 code 2 image section 1 subsection item paragraph …

Taille collection/Taille indexation Taille de la collection 21 documents 109 sections 55835 mots au total (mots vides inclus) Taille de l'indexation 3209 termes différents (mots vides exclus) 30367 mots au total (mots vides exclus) Durée de l’indexation 30 minutes 8 seconds Temps d'exécution rallongé par les accès à la base de donnée

Recherche

Recherche – Pertinence d’un mot Récupération du CLOB associé (idSection, poids, pos1, pos2, …, posN) (idSection2,…) Poids = Tf pondéré selon la balise contenant le terme Ajout de l’IDF avec Tf : nombre d'occurrence du terme dans la section (pondéré selon la balise) N : nombre de sections dans la collection Ni : nombre de sections de la collection contenant le terme

Recherche- Pertinence d’une expression Expression : plusieurs mots entre guillemets Vérifier l’ordre correct des mots Récupération du CLOB de chacun des mots Récupération des positions des mots dans les sections

Recherche- Pertinence d’une expression Algorithme : premierMot = premierMotNonVide(expression) pour chaque section S ou premierMot est présent { nbOccurences = 0 pour chaque position de ce premierMot dans S occurrenceExpr = true pour chaque mot suivant si il n'est pas a la bonne position occurenceExpr = false } si (occurrenceExpr == true) nbOccurrences++

Recherche- Pertinence d’une expression Calcul de la pertinence : Somme des poids des mots dans la section Nombre d’occurrences de l’expression dans la section Calcul limité : Une expression possède une pertinence trop élevée par rapport à celle d’un mot Possibilité d’amélioration

Recherche – Pertinence d’une requête Requête : plusieurs mots/expressions Quid de la pertinence Si tous les mots doivent être présents => Rappel limité Si => Ajout de bruit Calcul d’un ratio : Classement des sections : Ordre décroissant du ratio En cas d’égalité, Ordre décroissant de

Ontologie

Ontologie

Ontologie- Enrichissement de requête Parsing de l’ontologie Utilisation d’ OWL API Création d’une table Terme => Classes ou Individus OWL Enrichissement de requête : pour chaque mot ou expression de la requête { Récupération des classes et individus OWL pour chaque classe ou individu CouI ajout des synonymes de CouI à la requête }

Evaluation Précision à 5, 10 et 25 éléments par requête

Evaluation Précision moyenne SRI Résultats identiques avec l’ontologie Rank AV Precision 5 0,584615 10 0,461538 25 0,292308

Conclusion Indexation complète Recherche Ontologie Stockage d’information satisfaisant Recherche Amélioration par affinage des pertinences Ontologie Amélioration des résultats par la généralisation/spécification Extension par des termes couramment utilisés dans les domaines