Indexation et recherche d'information en langue arabe

Slides:



Advertisements
Présentations similaires
La place accordée à l’expression des salariés sur leur travail et leurs conditions de travail dans l’entreprise Résultats sondage exclusif CSA/ANACT.
Advertisements

Mais vous comprenez qu’il s’agit d’une « tromperie ».
Le Marché Publicitaire de la Presse Professionnelle
Reporting de la Cellule Nationale Droit dOption Situation au 31 décembre 2011.
MEDIAS MONITORING- ALGERIE-2012 Conférence de presse 8 Mai 2012.
Présentation de la circonscription Année 2011/2012 Jeudi 24 novembre 2011.
Additions soustractions
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
W3Line | 10 Ter, Rue Pasteur – BOURG LES VALENCE | Tél. : – Fax : | – Web :
Michel LE MANDAT Chef du bureau des classes préparatoires à la Direction de l’Enseignement Supérieur du Ministère de l’Éducation Nationale.
7 juin 2012 DGAL.
Les nombres.
Les numéros 70 –
Les identités remarquables
Xavier Mouranche Registre e-MUST Evaluation en Médecine dUrgence des Stratégies Thérapeutiques de lInfarctus du Myocarde.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Données statistiques sur le droit doption au 31/01 8 février 2012.
ETALONNAGE D’UN CAPTEUR
Les moteurs de recherche Par Pauline RAUDET
Analyse Factorielle des Correspondances
Correspondances en Onco-Urologie - Vol. III - n° 3 – juillet-août-septembre VESSIE Daprès James ND et al., N Engl J Med 2012;366:16:
Technologies et pédagogie actives en FGA. Plan de latelier 1.Introduction 2.Les technologies en éducation 3.iPads 4.TNI 5.Ordinateurs portables 6.Téléphones.
Révision (p. 130, texte) Nombres (1-100).
La législation formation, les aides des pouvoirs publics
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Cours présentielle avec 1er année.
SFADA : Projet d’un Système de Formation à Distance de l’Arabe
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
La méthodologie………………………………………………………….. p3 Les résultats
Véronique Narbonne & Ginette Provencher dans le cadre du programme CERTIC 1.
Structure(djs)TéléphoneFax ADRA R049,96,03,21 CHLEF027,77,22,66 /77,49, LAGHOUAT029,90,41,08029,90,42,47 OUM EL BOUAGHI032,42,16,26032,42,45,32.
La mesure de tendance centrale
II e réunion des investigateurs KBP-2000-CPHG Rueil-Malmaison 5 décembre 2003.
Jack Jedwab Directeur général Association détudes canadiennes Octobre 2011 Jack Jedwab Directeur général Association détudes canadiennes Octobre 2011 Est-ce.
Daprès Davies C et al., abstr. S1-2 actualisé Rechute : 617 versus 711 femmes (2 p = 0,002) Mortalité par cancer du sein : 331 versus 397 (2 p = 0,01)
Présentation générale
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Si le Diaporama ne s'ouvre pas en plein écran Faites F5 sur votre clavier.
Statistiques personnelles John Weisnagel, M.D.
Les nombres.
Les quartiers Villeray – La Petite-Patrie et les voisinages
Fierté envers les symboles et institutions canadiens Jack Jedwab Association détudes canadiennes 26 novembre 2012.
La consommation de boissons alcooliques chez les jeunes LICEO SCIENTIFICO N. COPERNICO PRATO ELEVES (age ans): 342 F: 192 M: 150.
CLL11 : chlorambucil (CLB) versus CLB + rituximab (R)
S ervice A cadémique de l I nspection de l A pprentissage dOrléans-Tours Nombre de CFA par académie 1 CFA académique avec 25 UFA 1 CFA académique avec.
Les chiffres & les nombres
Les Monnaies et billets du FRANC Les Monnaies Euro.
RACINES CARREES Définition Développer avec la distributivité Produit 1
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Les définitions: Les nombres premiers et les nombres composés
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Natalie Meystre Maciej Macowicz Conférence des Webmasters 22 mars 2005 Moteurs de recherche, meta-moteurs.
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Forum des Industries de la Langue, 17 mars 2010
Moteurs de recherche Modex Web Modex Web 441 professeur Go
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Les Nombres 0 – 100 en français.
Aire d’une figure par encadrement
Les fondements constitutionnels
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
(analyse en modèle de Cox multivarié - HR [IC95])
+0.42% +8.48% +0.6% +4.33% +6.48% -0.77% +3.79% +6.48% +4.02% +4.53%
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Certains droits réservés pour plus d’infos, cliquer sur l’icône.
Nom:____________ Prénom: ___________
Annexe Résultats provinciaux comparés à la moyenne canadienne
PREFECTURE DU TARN. Taux de criminalité Tarn : en 2009, taux de 38,01/ 1000 habitants soit le 70 ème rang sur les 96 départements métropolitains / rappel.
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Transcription de la présentation:

Indexation et recherche d'information en langue arabe Ramzi ABBES, ICAR-CNRS/Lyon 2 Malek Boualem, France Télécom R&D Mohamed Hassoun, ELICO/ENSSIB

Plan Moteurs de recherche ou Google Étude : coté requêtes Étude : coté corpus Importance des outils linguistiques Limites des outils linguistiques

Moteurs de recherche par défaut ou Google

Moteurs de recherche par défaut ou Google PageRank Pondération des pages +/- Sensible aux comportements des internautes Nombre de visites Navigation dans le site Les liens hypertextes Priorité d’indexation Lemmatisation Singulier – Pluriel Masculin - Féminin Mots sémantiquement proches « ~ »

Exploration, Indexation, Recherche Indépendante de la langue Google, Yahoo, Exalead (COLTEC) Popularité المنتديات Moteur arabe pour la langue arabe Couverture réduite Durée de vie limitée Utilisation locale Internautes arabes = bilingues

Exploration, Indexation, Recherche Balise « meta » Balise « titre »… Quelques contenus Indexation du contenu Regroupement des formes de la même famille morphologique, Tailles plus ou moins importantes Lemmatisation الكتب, والكتب, كتباً, لكتب, كتبنا أكاتب يسين اللامركزية

Exploration, Indexation, Recherche Précisions La vocalisation n’est pas prise en compte, Troncature Essentiel à cause des clitiques Proclitique : liaison, interrogation … Enclitique : pronoms Parcours de surface, insuffisant « *قال* » E:\Fes-Freq\corpus hayet avec chadda\traitement minimalisé « *كتب* »

Exploration, Indexation, Recherche Dissymétrie كتب = كَتَب, كُتُب, كَتْب شعر = شَعْر, شِعْر, شَعُر علم = عَلَم, عَلِم, عِلْم Les noms propres كاتب يسين أكاتب يسين

Recherche Google Lemmatisation Famille morphologique « سماء », Google renvoi 594 000 pour سماء 279 000 pour أسماء, الأسماء أسماء السماوات Famille morphologique كَتَب = كُتُب Recherche avec كتب, donne les livres Y a t’il une priorité pour les noms Recherche avec جمال donne … Et le EN Pas de lien entre جمال et الزعيم

Requêtes – Corpus et répartitions 2880 requêtes arabes Sur deux mois Catégories grammaticales 94,2% Formes nominales (تونس) 3,3% formes verbales (اخترع) 2,5% mots grammaticaux (من, متى) كتب, نزل, طلب, شعر, رقص

Genres – Généralités Sans marque et sans masculin Masculin Féminin شاعر, رئيس… Féminin Classique أميرة, رئيسة Avec marque et sans masculin شجرة, غرفة, دراسة Sans marque mais avec masculin سكرى, حمراء Sans marque et sans masculin حبلى خليفة

Genres - Statistiques Généralité 50,13% de masculin 49,84% de féminin ة mais pas uniquement, اثارة 50,13% de masculin 49,84% de féminin 47,11% marque morphologique + masculin 23,38% féminin du pluriel d’un masculin singulier 16,81% Féminin sans marque, ayant un masculin 11,69% Féminin avec marque, sans masculin 1,01% Féminin sans marque, sans masculin

Nombre – Généralité Suffixation ! Le pluriel brisé كتابات = كتاب + ات ------- كتابة فتاتان = فتات + ان --------- فتاة Le pluriel brisé رجال – رجل امرأة – نساء – نسوة

Nombre - Statistiques 74,21% Singulier 1,77% Duel 24,02% Pluriel 71,09% Pluriel brisé 21,29% Pluriel féminin régulier 6,19% Pluriel masculin régulier 1,33% autres البحرين, محمدين

Noms propres 74,75% Pays 23,41% Noms/Prénoms 1,84% ville …… …..

Détermination 61,03% Indéterminé 37,97% Déterminé avec ال Augment la précision ….. الوان

Autres Origine, 100% en caractères arabes 3,19% Dialecte 1,74% autres Erreurs orthographiques, 5,73% 96,36% Hamza 3,64% ta marbouta ….. Et au niveau du corpus

Étude sur corpus 4 338 articles de l’année 1995 2 006 631 mots arabes => 149 990 termes 1 075 347, Titres de la une 866 764, éditos, culture, critiques littéraires, débats, courrier des lecteurs… 64 520, Automobiles 366 447 autres : ponctuations, chiffres, mots en caractères latins

Étude sur corpus - Pratique d’écriture - Hamza أَ+إِ= ا Exemple : 26923 الى; 2089 إلى 33901 ان; 50569 أن; 769 إن Extraire des mots, hors mots outils Termes hors analyse; 5,79% Mots hors analyse; 6,76%

Étude sur corpus - Pratique d’écriture - Ya ي = ى يبقي = يبقى الاولي = الأولى = الاولى

Étude sur corpus - Pratique d’écriture - Ya ـًا => ـا ً 1174 خصوصا ً; 376 مشيرا ً 3,66% des mots, 2,07% des termes.

limite du TAL - classique Deuxième langue‌ بروكسال، بروكسيل Déclinaison دولار: الدولارات, دولاراً, الدولار, دولارات, بالدولار, للدولار, دولارا, والدولار, ودولارهم, البترودولار, دولاران, كالدولار, ودولارات, دولارين, بدولار موديل: 44 dérivés … Des noms propres امريكا كلينتن

ِConclusion - Précision de la recherche Comment préciser la recherche La vocalisation Index non vocalisé Textes non vocalisés Les outils linguistiques permettront D’élargir la recherche à une famille morphologique Singulier – duel - pluriel Masculin – féminin Lemmatisation Ne peut pas réduire le résultat, les textes ne sont pas vocalisés Nécessité de lemmatisation