1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.

Slides:



Advertisements
Présentations similaires
Qu’est-ce que LingPro ? LingPro est la branche ingénierie linguistique de i-KM La collaboration i-KM / LingPro est le résultat d’un partenariat sous forme.
Advertisements

Conférence « Compétences Informatiques » 10 avril 2006
Les outils pour améliorer la dictée vocale
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Animation pédagogique cycle 1 Sciences et Albums
Olivier Kraif, Agnès Tutin LIDILEM
Chercher pour trouver Nous quittons l'ère où on courait après l'information pour entrer dans celle où l'information nous court après"Nous quittons l'ère.
Présentation BAOBAZ pour le Bargento du 2 février Magento -> SEO -> SEM -> SEO -> Magento.
BCDI UTILISER LE THESAURUS POUR FAIRE UNE RECHERCHE
SYSTRAN Un outil du TAL Victoria AUPERT Marjorie LORSUNG.
Par Aline Mahot et Charlyne Routier
La démarche clinique infirmière
Indexation textuelle : Systèmes de recherche d’informations
ETAPES DE LA RECHERCHE DOCUMENTAIRE
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Mettre en place un dispositif dévaluation formative en 1 ère année détudes de Bacheliers en Sciences Dewalque Jennifer Malherbe Cédric Département de Chimie.
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
Mettre en place un dispositif d’évaluation formative en 1ère année d’études de Bacheliers en Sciences Dewalque Jennifer Malherbe Cédric Département de.
L’enseignement en terminale S, un an après la réforme
DPC et APP en 2014 : les nouveaux fondamentaux pratiques
Annotations sémantiques pour le domaine des biopuces
Université Mouloud Mammeri de Tizi-Ouzou
Le Travail Collaboratif ...
Bases de données lexicales
Recherche Documentaire et traitement de l’information
Moteur de RechercheMoteur de recherche "from scratch"
Moteur de recherche d’information
Introduction à la recherche en science politique
Gouvernement du Québec Présentation par : Alain Thibault : PDG Efoé Wallace : Directeur du développement.
24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex.
Universté de la Manouba
Travail préparatoire > Processus de recherche dinformation LeBlanc, L.; Boisvert, D.; Séguin, C. ; Laframboise, M.-R. et Tardif, G. (2007). Méthodes de.
Activité 6 : Les étapes d’une démarche de recherche efficace
VOUS ALLEZ ASSISTER A UNE DEMONSTRATION DU FONCTIONNEMENT DE LA BASE DE DONNEES DIPOUEST OUBLIEZ SOURIS ET CLAVIER ET LAISSEZ-VOUS GUIDER.
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Projet de Master première année 2007 / 2008
Développement dapplication avec base de données Semaine 10 : WCF avec Entité Framework Automne 2013.
IFT6255 – Recherche d’information Jian-Yun Nie
Les techniques des moteurs de recherche
1 Gestion des intérêts d’une communauté au moyen d’un agent intelligent El Bachir Boukherouaa, El Bachir Gardouh, Claude Frasson Laboratoire HERON Informatique.
Presenter les résultats de la capitalisation
Thésaurus et accès à l’information Sylvie Dalbin Assistance & Techniques Documentaires Conseil en ingénierie documentaire,
Les tests adaptatifs en langue: quel est leur avenir ? Michel D. LAURIER Université de Montréal Colloque ACFAS 2006 Solutions apportées et problèmes engendrés.
Amélioration de la performance des SISR et de l’utilisation de l’information pour la gestion des systèmes de santé CESAG, Dakar, du 03 au 21 Mai 2010 Solutions.
INTEROPERABILITE & ADMINISTRATION NUMERIQUE - e-forum Maroc – Rabat - 22 juin 2006.
Le rapport aux valeurs (à ce qui importe) est le sens étymologique de Evaluation (Vial, 2006). Selon Le Larousse, 2000.
1 Management des unités commerciales Management des unités commerciales LANGUE VIVANTE ÉTRANGÈRE I - coefficient 3 L’usage d’un dictionnaire bilingue est.
Travaux Pratiques Optimisation Combinatoire
Initiation à la conception des systèmes d'informations
Dominique LAURENT Patrick SEGUELA
Recherche d’information
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Rapports M1 Terrain Géophysique Le rapport doit tenir en 25 pages maximum ; les tableaux de mesures peuvent être en annexe (non comprises dans les 25 pages).
David COLL Université de Genève 19 novembre 2008.
Vers une intégration plus poussée de la recherche Web avec les Systèmes d’Information Géographiques Adapté de «Toward Tighter Integration of Web Search.
TEXT MINING Fouille de textes
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Intégration des Tableaux Multidimensionnels en Pig pour
Le Traitement Automatique des Langues (TAL)
Devenir lecteur tout au long du cycle 2
Structures de données avancées : MLH (Multidimensional linear hashing) D. E ZEGOUR Institut National d ’Informatique.
Gestion des documents internes avec SQL Server 2005 Date de publication : janvier 2006.
LES TEXTES ET LES SHADOKS (Docs d’application et d’accompagnement)
Introduction à la Recherche
Démarche d’enseignement de l’APL : analyser
PROJET DE SESSION DANS LE CADRE DU COURS: SCG Réalisation d’applications en SIG PRÉSENTÉ PAR: Marie-Andrée Levesque 18 AVRIL 2006.
Transcription de la présentation:

1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM Université Tlemcen, Algérie Laboratoire de Traitement Automatique de Langue Arabe (LTALA) Réinjection Automatique de la pertinence pour la Recherche d’Informations dans les textes Arabes

2 Traitement Automatique de Langue Naturelle « TALN » Introduction Linguistique Informatique Traduction automatiqueraduction automatique Correction orthographique orrection orthographique Recherche d'informationecherche d'information Résumé automatique ésumé automatique Génération automatique de textesénération automatique de textes Synthèse de la paroleynthèse de la parole Reconnaissance vocaleeconnaissance vocale Reconnaissance de l'écriture manuscriteeconnaissance de l'écriture manuscrite Domaine Recherche d’Information

3 Introduction Stocker Organiser (indexer) 1 2 Un système de RI Rechercher des données 3

4 Introduction « RI » Trois types de connaissance C. utilisateurs C. documents Les informations sur le contenu et le contenant Les informations sur les les utilisateurs C. Dom. app. Les dictionnaires les thesaurus… Introduction

5 La récupération de mots clé est jugée insuffisante Introduction Des variations morphologiques comme dans « مدرسة » et « مدرستان », « خيل » et « خيول » Des variations lexicales (on utilise pour le même sens des mots différents) comme dans le cas dans « فرس » et « خيل » ; Des variations sémantiques comme dans le cas de « الصـخــر : مـرادف الـحــجـر » et « الحـجر: أنثى الخيـل ».

6 Ré-ordonnancement des documents Reformulation de la requête Introduction Solutions Réduire la distance entre la pertinence système et la pertinence utilisateur Combinaison des résultats issus de différents SRI ou l’intégration du profil utilisateur

7 Reformulation de la requête. « plusieurs démarches » Introduction Par l’utilisation d’une représentation du domaine de recherche Par l’utilisation des relations sémantiques de bases terminologiques. Par l’utilisation d’un espace d’information structuré et construit automatiquement. L’interrogation se fait par navigation (query by navigation). Par l’utilisation des points de vue, les points de vue représentent des besoins élémentaires en information par exemple : causalité, définition, citation, thème,…

8 Introduction Reformulation de la requête. « plusieurs Approches »

9 Introduction Reformulation de la requête. « deux modes » Avant interrogation (pré-interrogation) Après interrogation (post-interrogation)

10 Reformulation de la requête. « deux manières » Introduction Reformulation automatique (la reformulation se déroule sans l’intervention de l’utilisateur) Reformulation automatique (la reformulation se déroule sans l’intervention de l’utilisateur) Reformulation interactive (consiste à utiliser la requête initiale de l’utilisateur pour amorcer la recherche, puis modifier celle-ci à partir de l’analyse des documents retournés) Reformulation interactive (consiste à utiliser la requête initiale de l’utilisateur pour amorcer la recherche, puis modifier celle-ci à partir de l’analyse des documents retournés)

11 La reformulation de la requête interactive permet d’améliorer la précision des résultats. Reformulation de la requête. « Résultats » Introduction L’efficacité du processus de reformulation est fortement lié à la disposition des utilisateurs et leurs aptitudes à juger la pertinence des documents

12 Pour éviter la lourdeur de l’opération de jugement de pertinence des documents initialement restitués Reformulation de la requête. « Solution » Introduction Le SRI considère les « n » premiers documents restitués initialement comme pertinents. Cette nouvelle forme de réinjection de pertinence est appelée aveugle (pseudo réinjection ou ad-hoc).

13 Cette étude entre dans le cadre de l’assistance de l’utilisateur par l’amélioration de sa requête. Nous proposons d’évaluer la technique de réinjection automatique de la pertinence pour les textes arabes. Introduction Objectif

14 Plan 1)Introduction 2)La réinjection de la pertinence 3)Expérimentation 4)Discussion 5)Conclusion

15 Plan 1)Introduction 2)La réinjection de la pertinence 3)Expérimentation 4)Discussion 5)Conclusion

16 2) Réinjection de la pertinence Figure : Les trois étapes de la réinjection de la pertinence

17 Plan 1)Introduction 2)La réinjection de la pertinence 3)Expérimentation 4)Discussion 5)Conclusion

18 3) Expérimentation Un corpus Nombre de fichiers texte Domainessanté, sport, politique, science, religion Taille180 Mo Nombre de mots Nombre de mots différents requêtes API Lucene (Ver 3.0) + Java Technique de Clustering Locale

19 3) Expérimentation

20 Avant réinjection de la pertinence Après réinjection de la pertinence N° Requête Nbr doc retrouvés Nbr doc Pertinents retrouvés Nbr doc retrouvés Nbr doc Pertinents retrouvés …………… ) Expérimentation Précis ion moy enne Avant réinjection de la pertinence 0,3920,6160,6060,6190,5860,340 Après réinjection de la pertinence 0,3380,6400,6180,5980,5580,332 Tableau : Les différentes valeurs de précision obtenues avant et après réinjection de la pertinence. Tableau : Le nombre des documents trouvés et pertinents avant et après réinjection de la pertinence

21 Plan 1)Introduction 2)La réinjection de la pertinence 3)Expérimentation 4)Discussion 5)Conclusion

22 4) Discusion Le rappel : Il y a une augmentation en nombre de documents retournés après la RFA dans 35 requêtes (soit 70% des requêtes) et une augmentation en nombre de documents pertinents retournés après la RFA dans 29 requêtes (soit 58% des requêtes) Par conséquent nous pouvons annoncer que la RFA améliore le rappel du SRI pour les textes Arabes. Le rappel : Il y a une augmentation en nombre de documents retournés après la RFA dans 35 requêtes (soit 70% des requêtes) et une augmentation en nombre de documents pertinents retournés après la RFA dans 29 requêtes (soit 58% des requêtes) Par conséquent nous pouvons annoncer que la RFA améliore le rappel du SRI pour les textes Arabes. La précision : une amélioration de l’ordre de 3,8% et de 1,9% dans les précisions à 5 et 10 documents respectivement. On peut déduire que le FRA n’améliore pas considérablement la précision d’un SRI arabe. La précision : une amélioration de l’ordre de 3,8% et de 1,9% dans les précisions à 5 et 10 documents respectivement. On peut déduire que le FRA n’améliore pas considérablement la précision d’un SRI arabe.

23 Plan 1)Introduction 2)La réinjection de la pertinence 3)Expérimentation 4)Discussion 5)Conclusion

24 5) Conclusion Dans cet article, nous avons évalué la stratégie de la RFA locale. Elle repose sur une expansion de la requête initiale par des termes (corrélés avec les termes de la requête initiale) issus de la matrice d’association. Cette stratégie a l’avantage d’être indépendante du SRI et donc elle pourra être facilement intégrer dans un moteur de recherche. Les résultats obtenus nous ont permet de : confirmer l’hypothèse de départ, à savoir, l’amélioration des performances du SRI Arabe. D’ouvrir la voie pour tester d’autres techniques avec les mêmes données de cette expérimentation pour déterminer la meilleure méthode pour la RFA dans un SRI Arabe. Les résultats obtenus nous ont permet de : confirmer l’hypothèse de départ, à savoir, l’amélioration des performances du SRI Arabe. D’ouvrir la voie pour tester d’autres techniques avec les mêmes données de cette expérimentation pour déterminer la meilleure méthode pour la RFA dans un SRI Arabe.

25 Merci pour votre attention