Introduction à la Recherche Indexation Sémantique Damien Levin Gaëtan Hervouet Louis-Alexandre Celton
Plan Introduction Notions Objectifs Première Partie : Etat de l’art Equipe Présentation Notions Indexation Corpus Ontologie Objectifs Première Partie : Etat de l’art Indexeur Sémantique Indexeur Syntaxique Seconde Partie : Conception d’une architecture modulaire Besoins Conception Implémentation Bilan Conclusion
Contexte L’équipe ATLAS-GDD
Notions Indexation : repérage des mots-clés significatifs (termes) et création des liens entre ces termes et le document indexé Introduction de ces notions Indexation : consiste à repérer des mots-clés significatifs dans un texte donné, permet d’avoir une représentation du document et savoir en gros de quoi il traite.
Notions Corpus : collections de documents. Exemple : Cranfield, 1400 documents rédigés en anglais au format HTML Ontologie : Modèle de données représentatif d’un ensemble de concepts Exemple : WordNet, base de données lexicale développée par des linguistes du laboratoire des sciences cognitives de l’Université de Princeton. Corpus : collection de données sur lesquels on lance une indexation. Cranfield en anglais car la plus complète Ontologie : avec les liens entre les différents concepts qui les relient.
Notions RIIO : indexeur sémantique développé par ATLAS-GDD Légende : Une ontologie restreinte, composée de douze concepts avec les liens de subsomption RIIO : indexeur sémantique développé par ATLAS-GDD Voici un exemple d’ontologie resteinte composée de 12 concepts
Objectifs Premier objectif : Lister des indexeurs sémantiques Second objectif : rendre le projet RIIO modulaire
Etat de l’art : Indexeur Syntaxique
Etat de l’art : Indexeur Sémantique
Conception d’une architecture modulaire Définitions
Conception d’une architecture modulaire Besoins Pouvoir utiliser indépendamment les différents modules : indexation syntaxique, expansion de requêtes L’utilisation des modules ne doit pas être fixe : aussi bien en local que en service. Première réunion avec Antho: Définition d’un module, decoupage de RIO en partie distinctes, indépendante les unes des autres Utilisation d’un module : librairie locale, service distant (exemple d’un module hébergé à l’autre bout du monde)
Conception d’une architecture modulaire
Conception d’une architecture modulaire Implémentation
Bilan Objectifs presque atteints Recherche indexeurs sémantiques peu fructueuse Conception modulaire MySIn Recherche peu fructueuse : remaniement de notre objectif avec un état de l’art des indexeurs syntaxiques ce qui nous a permis lors de notre seconde partie du projet dans le découpage modulaire de les intégrer au projet MySIn. Ce deuxième objectif a été atteint puisque toute l’analyse et la conception répondent aux critères de modularité et d’utilisation imposés. L’implémentation n’a pu être terminée car Anthony Ventresque n’a pas eu le temps d’utiliser l’architecture pour y remplir les briques restantes dont il disposait. Toutefois, elles possèdent toute une définition au sein du projet, il suffit alors d’adapter le code disponible pour que chaque module soit fonctionnel.
Conclusion Intégration au sein d’une équipe Connaitre les projets sur lesquels elle travaille Nouvelles méthodes de travail Enrichissement des connaissances Mode de fonctionnement d’un indexeur Webservice L’intégration au sein d’une équipe nécessite de connaitre les projets sur lesquels elle travail S’interesser à leur environnement de travail Nouvelle methode : reunion minimum toutes les 2 semaines pour avancement, travail en équipe svn Enrichissement des connaissances : Fonctionnement géénral d’un indexeur
Question ?