Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parArthur Petit Modifié depuis plus de 8 années
1
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM Université Tlemcen, Algérie Laboratoire de Traitement Automatique de Langue Arabe (LTALA) Réinjection Automatique de la pertinence pour la Recherche d’Informations dans les textes Arabes
2
2 Traitement Automatique de Langue Naturelle « TALN » Introduction Linguistique Informatique Traduction automatiqueraduction automatique Correction orthographique orrection orthographique Recherche d'informationecherche d'information Résumé automatique ésumé automatique Génération automatique de textesénération automatique de textes Synthèse de la paroleynthèse de la parole Reconnaissance vocaleeconnaissance vocale Reconnaissance de l'écriture manuscriteeconnaissance de l'écriture manuscrite Domaine Recherche d’Information
3
3 Introduction Stocker Organiser (indexer) 1 2 Un système de RI Rechercher des données 3
4
4 Introduction « RI » Trois types de connaissance C. utilisateurs C. documents Les informations sur le contenu et le contenant Les informations sur les les utilisateurs C. Dom. app. Les dictionnaires les thesaurus… Introduction
5
5 La récupération de mots clé est jugée insuffisante Introduction Des variations morphologiques comme dans « مدرسة » et « مدرستان », « خيل » et « خيول » Des variations lexicales (on utilise pour le même sens des mots différents) comme dans le cas dans « فرس » et « خيل » ; Des variations sémantiques comme dans le cas de « الصـخــر : مـرادف الـحــجـر » et « الحـجر: أنثى الخيـل ».
6
6 Ré-ordonnancement des documents Reformulation de la requête Introduction Solutions Réduire la distance entre la pertinence système et la pertinence utilisateur Combinaison des résultats issus de différents SRI ou l’intégration du profil utilisateur
7
7 Reformulation de la requête. « plusieurs démarches » Introduction Par l’utilisation d’une représentation du domaine de recherche Par l’utilisation des relations sémantiques de bases terminologiques. Par l’utilisation d’un espace d’information structuré et construit automatiquement. L’interrogation se fait par navigation (query by navigation). Par l’utilisation des points de vue, les points de vue représentent des besoins élémentaires en information par exemple : causalité, définition, citation, thème,…
8
8 Introduction Reformulation de la requête. « plusieurs Approches »
9
9 Introduction Reformulation de la requête. « deux modes » Avant interrogation (pré-interrogation) Après interrogation (post-interrogation)
10
10 Reformulation de la requête. « deux manières » Introduction Reformulation automatique (la reformulation se déroule sans l’intervention de l’utilisateur) Reformulation automatique (la reformulation se déroule sans l’intervention de l’utilisateur) Reformulation interactive (consiste à utiliser la requête initiale de l’utilisateur pour amorcer la recherche, puis modifier celle-ci à partir de l’analyse des documents retournés) Reformulation interactive (consiste à utiliser la requête initiale de l’utilisateur pour amorcer la recherche, puis modifier celle-ci à partir de l’analyse des documents retournés)
11
11 La reformulation de la requête interactive permet d’améliorer la précision des résultats. Reformulation de la requête. « Résultats » Introduction L’efficacité du processus de reformulation est fortement lié à la disposition des utilisateurs et leurs aptitudes à juger la pertinence des documents
12
12 Pour éviter la lourdeur de l’opération de jugement de pertinence des documents initialement restitués Reformulation de la requête. « Solution » Introduction Le SRI considère les « n » premiers documents restitués initialement comme pertinents. Cette nouvelle forme de réinjection de pertinence est appelée aveugle (pseudo réinjection ou ad-hoc).
13
13 Cette étude entre dans le cadre de l’assistance de l’utilisateur par l’amélioration de sa requête. Nous proposons d’évaluer la technique de réinjection automatique de la pertinence pour les textes arabes. Introduction Objectif
14
14 Plan 1)Introduction 2)La réinjection de la pertinence 3)Expérimentation 4)Discussion 5)Conclusion
15
15 Plan 1)Introduction 2)La réinjection de la pertinence 3)Expérimentation 4)Discussion 5)Conclusion
16
16 2) Réinjection de la pertinence Figure : Les trois étapes de la réinjection de la pertinence
17
17 Plan 1)Introduction 2)La réinjection de la pertinence 3)Expérimentation 4)Discussion 5)Conclusion
18
18 3) Expérimentation Un corpus Nombre de fichiers texte 22 000 Domainessanté, sport, politique, science, religion Taille180 Mo Nombre de mots17 000 000 Nombre de mots différents 612 650 50 requêtes API Lucene (Ver 3.0) + Java Technique de Clustering Locale
19
19 3) Expérimentation
20
20 Avant réinjection de la pertinence Après réinjection de la pertinence N° Requête Nbr doc retrouvés Nbr doc Pertinents retrouvés Nbr doc retrouvés Nbr doc Pertinents retrouvés 1788658788658 263736466373646 …………… 50112321547127431566 3) Expérimentation Précis ion moy enne P@ 5 P@ 10 P@ 20 P@ 100 P@ 1000 Avant réinjection de la pertinence 0,3920,6160,6060,6190,5860,340 Après réinjection de la pertinence 0,3380,6400,6180,5980,5580,332 Tableau : Les différentes valeurs de précision obtenues avant et après réinjection de la pertinence. Tableau : Le nombre des documents trouvés et pertinents avant et après réinjection de la pertinence
21
21 Plan 1)Introduction 2)La réinjection de la pertinence 3)Expérimentation 4)Discussion 5)Conclusion
22
22 4) Discusion Le rappel : Il y a une augmentation en nombre de documents retournés après la RFA dans 35 requêtes (soit 70% des requêtes) et une augmentation en nombre de documents pertinents retournés après la RFA dans 29 requêtes (soit 58% des requêtes) Par conséquent nous pouvons annoncer que la RFA améliore le rappel du SRI pour les textes Arabes. Le rappel : Il y a une augmentation en nombre de documents retournés après la RFA dans 35 requêtes (soit 70% des requêtes) et une augmentation en nombre de documents pertinents retournés après la RFA dans 29 requêtes (soit 58% des requêtes) Par conséquent nous pouvons annoncer que la RFA améliore le rappel du SRI pour les textes Arabes. La précision : une amélioration de l’ordre de 3,8% et de 1,9% dans les précisions à 5 et 10 documents respectivement. On peut déduire que le FRA n’améliore pas considérablement la précision d’un SRI arabe. La précision : une amélioration de l’ordre de 3,8% et de 1,9% dans les précisions à 5 et 10 documents respectivement. On peut déduire que le FRA n’améliore pas considérablement la précision d’un SRI arabe.
23
23 Plan 1)Introduction 2)La réinjection de la pertinence 3)Expérimentation 4)Discussion 5)Conclusion
24
24 5) Conclusion Dans cet article, nous avons évalué la stratégie de la RFA locale. Elle repose sur une expansion de la requête initiale par des termes (corrélés avec les termes de la requête initiale) issus de la matrice d’association. Cette stratégie a l’avantage d’être indépendante du SRI et donc elle pourra être facilement intégrer dans un moteur de recherche. Les résultats obtenus nous ont permet de : confirmer l’hypothèse de départ, à savoir, l’amélioration des performances du SRI Arabe. D’ouvrir la voie pour tester d’autres techniques avec les mêmes données de cette expérimentation pour déterminer la meilleure méthode pour la RFA dans un SRI Arabe. Les résultats obtenus nous ont permet de : confirmer l’hypothèse de départ, à savoir, l’amélioration des performances du SRI Arabe. D’ouvrir la voie pour tester d’autres techniques avec les mêmes données de cette expérimentation pour déterminer la meilleure méthode pour la RFA dans un SRI Arabe.
25
25 Merci pour votre attention
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.