1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM Université Tlemcen, Algérie Laboratoire de Traitement Automatique de Langue Arabe (LTALA) Réinjection Automatique de la pertinence pour la Recherche d’Informations dans les textes Arabes
2 Traitement Automatique de Langue Naturelle « TALN » Introduction Linguistique Informatique Traduction automatiqueraduction automatique Correction orthographique orrection orthographique Recherche d'informationecherche d'information Résumé automatique ésumé automatique Génération automatique de textesénération automatique de textes Synthèse de la paroleynthèse de la parole Reconnaissance vocaleeconnaissance vocale Reconnaissance de l'écriture manuscriteeconnaissance de l'écriture manuscrite Domaine Recherche d’Information
3 Introduction Stocker Organiser (indexer) 1 2 Un système de RI Rechercher des données 3
4 Introduction « RI » Trois types de connaissance C. utilisateurs C. documents Les informations sur le contenu et le contenant Les informations sur les les utilisateurs C. Dom. app. Les dictionnaires les thesaurus… Introduction
5 La récupération de mots clé est jugée insuffisante Introduction Des variations morphologiques comme dans « مدرسة » et « مدرستان », « خيل » et « خيول » Des variations lexicales (on utilise pour le même sens des mots différents) comme dans le cas dans « فرس » et « خيل » ; Des variations sémantiques comme dans le cas de « الصـخــر : مـرادف الـحــجـر » et « الحـجر: أنثى الخيـل ».
6 Ré-ordonnancement des documents Reformulation de la requête Introduction Solutions Réduire la distance entre la pertinence système et la pertinence utilisateur Combinaison des résultats issus de différents SRI ou l’intégration du profil utilisateur
7 Reformulation de la requête. « plusieurs démarches » Introduction Par l’utilisation d’une représentation du domaine de recherche Par l’utilisation des relations sémantiques de bases terminologiques. Par l’utilisation d’un espace d’information structuré et construit automatiquement. L’interrogation se fait par navigation (query by navigation). Par l’utilisation des points de vue, les points de vue représentent des besoins élémentaires en information par exemple : causalité, définition, citation, thème,…
8 Introduction Reformulation de la requête. « plusieurs Approches »
9 Introduction Reformulation de la requête. « deux modes » Avant interrogation (pré-interrogation) Après interrogation (post-interrogation)
10 Reformulation de la requête. « deux manières » Introduction Reformulation automatique (la reformulation se déroule sans l’intervention de l’utilisateur) Reformulation automatique (la reformulation se déroule sans l’intervention de l’utilisateur) Reformulation interactive (consiste à utiliser la requête initiale de l’utilisateur pour amorcer la recherche, puis modifier celle-ci à partir de l’analyse des documents retournés) Reformulation interactive (consiste à utiliser la requête initiale de l’utilisateur pour amorcer la recherche, puis modifier celle-ci à partir de l’analyse des documents retournés)
11 La reformulation de la requête interactive permet d’améliorer la précision des résultats. Reformulation de la requête. « Résultats » Introduction L’efficacité du processus de reformulation est fortement lié à la disposition des utilisateurs et leurs aptitudes à juger la pertinence des documents
12 Pour éviter la lourdeur de l’opération de jugement de pertinence des documents initialement restitués Reformulation de la requête. « Solution » Introduction Le SRI considère les « n » premiers documents restitués initialement comme pertinents. Cette nouvelle forme de réinjection de pertinence est appelée aveugle (pseudo réinjection ou ad-hoc).
13 Cette étude entre dans le cadre de l’assistance de l’utilisateur par l’amélioration de sa requête. Nous proposons d’évaluer la technique de réinjection automatique de la pertinence pour les textes arabes. Introduction Objectif
14 Plan 1)Introduction 2)La réinjection de la pertinence 3)Expérimentation 4)Discussion 5)Conclusion
15 Plan 1)Introduction 2)La réinjection de la pertinence 3)Expérimentation 4)Discussion 5)Conclusion
16 2) Réinjection de la pertinence Figure : Les trois étapes de la réinjection de la pertinence
17 Plan 1)Introduction 2)La réinjection de la pertinence 3)Expérimentation 4)Discussion 5)Conclusion
18 3) Expérimentation Un corpus Nombre de fichiers texte Domainessanté, sport, politique, science, religion Taille180 Mo Nombre de mots Nombre de mots différents requêtes API Lucene (Ver 3.0) + Java Technique de Clustering Locale
19 3) Expérimentation
20 Avant réinjection de la pertinence Après réinjection de la pertinence N° Requête Nbr doc retrouvés Nbr doc Pertinents retrouvés Nbr doc retrouvés Nbr doc Pertinents retrouvés …………… ) Expérimentation Précis ion moy enne Avant réinjection de la pertinence 0,3920,6160,6060,6190,5860,340 Après réinjection de la pertinence 0,3380,6400,6180,5980,5580,332 Tableau : Les différentes valeurs de précision obtenues avant et après réinjection de la pertinence. Tableau : Le nombre des documents trouvés et pertinents avant et après réinjection de la pertinence
21 Plan 1)Introduction 2)La réinjection de la pertinence 3)Expérimentation 4)Discussion 5)Conclusion
22 4) Discusion Le rappel : Il y a une augmentation en nombre de documents retournés après la RFA dans 35 requêtes (soit 70% des requêtes) et une augmentation en nombre de documents pertinents retournés après la RFA dans 29 requêtes (soit 58% des requêtes) Par conséquent nous pouvons annoncer que la RFA améliore le rappel du SRI pour les textes Arabes. Le rappel : Il y a une augmentation en nombre de documents retournés après la RFA dans 35 requêtes (soit 70% des requêtes) et une augmentation en nombre de documents pertinents retournés après la RFA dans 29 requêtes (soit 58% des requêtes) Par conséquent nous pouvons annoncer que la RFA améliore le rappel du SRI pour les textes Arabes. La précision : une amélioration de l’ordre de 3,8% et de 1,9% dans les précisions à 5 et 10 documents respectivement. On peut déduire que le FRA n’améliore pas considérablement la précision d’un SRI arabe. La précision : une amélioration de l’ordre de 3,8% et de 1,9% dans les précisions à 5 et 10 documents respectivement. On peut déduire que le FRA n’améliore pas considérablement la précision d’un SRI arabe.
23 Plan 1)Introduction 2)La réinjection de la pertinence 3)Expérimentation 4)Discussion 5)Conclusion
24 5) Conclusion Dans cet article, nous avons évalué la stratégie de la RFA locale. Elle repose sur une expansion de la requête initiale par des termes (corrélés avec les termes de la requête initiale) issus de la matrice d’association. Cette stratégie a l’avantage d’être indépendante du SRI et donc elle pourra être facilement intégrer dans un moteur de recherche. Les résultats obtenus nous ont permet de : confirmer l’hypothèse de départ, à savoir, l’amélioration des performances du SRI Arabe. D’ouvrir la voie pour tester d’autres techniques avec les mêmes données de cette expérimentation pour déterminer la meilleure méthode pour la RFA dans un SRI Arabe. Les résultats obtenus nous ont permet de : confirmer l’hypothèse de départ, à savoir, l’amélioration des performances du SRI Arabe. D’ouvrir la voie pour tester d’autres techniques avec les mêmes données de cette expérimentation pour déterminer la meilleure méthode pour la RFA dans un SRI Arabe.
25 Merci pour votre attention