La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Journées du groupe SILAT, Lyon, :

Présentations similaires


Présentation au sujet: "Journées du groupe SILAT, Lyon, :"— Transcription de la présentation:

1 Journées du groupe SILAT, Lyon, 26-27.03.2010:
 Génération et analyse de mots arabes (GAMAR) : vers une plateforme d’enrichissement des requêtes pour la recherche d’information ou la fouille de textes Joseph Dichy Université Lumière-Lyon 2 ICAR – UMR 5191 (CNRS/Lyon 2-ENS_LSH) Journées du groupe SILAT, Lyon, : Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais)

2 Mots clés recherche d'information et fouille de textes
ressource lexicale (base de connaissances) théorie des spécificateurs linguistiques propriétés lexico-sémantiques ; ontologies linguistiques ; relations lexique-grammaire  Génération vs analyse lexiques générés J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

3 Objet général Quelles ressources lexicales (conçues comme bases de connaissances) sont nécessaires/utiles pour la recherche d'information, la fouille de textes, la veille stratégique, l'indexation automatique, etc. ? J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

4 Domaine d'illustration
La recherche d'information, la fouille de textes, la veille stratégique J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

5 Recherche d'information avec Google 1a
Dans la veille stratégique, la recherche d'information ou la fouille de textes, il y a en gros deux approches: l'analyse morphologique au plein sens du terme, coûteuse en temps celle de Google (très rapide), que je vais rappeler en qq mots: Dans la 1re phase: page ranking (note de 0 à 10) - "Google dance" J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

6 Recherche d'information avec Google 1a (rappel - suite)
Cette approche exclut le recours à un analyseur morphologique associé à une base de données lexicales, en raison des ralentissements qui en résulteraient : Pour la recherche وزراء التربية wuzarâ' al-tarbiya "ministres de l'éducation" , on obtient 5 M de résultats en 0,21 sec. Avec un analyseur analysant mots par seconde, cela prendrait 50 x plus de temps, soit 17,5 minutes! A quoi s'ajouteraient les ralentissements des phases 1 (crawling, pageranking…) et 2 (indexation…) J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

7 Recherche d'information avec Google 2a qq résultats
Pour ra'as al-mal رأس المال "capital", au : résultats, incluant: la forme avec l'article ra'as al-mal رأس المال la forme-"valise" (en arabe naḥt) رأسمال , variante graphique راسمال N'incluant pas les pluriels avec variation du patron morphosyllabique (≠ pluriels par suffixation): رؤوس (ال)أموال – rés. (recherche propre) رساميل – rés. (recherche propre) J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

8 Recherche d'information avec Google 2b qq résultats
En français, il faut faire deux requêtes, l'une pour "capital", l'autre pour "capitaux" En anglais, on rencontre un problème d'ambiguïté: capital au sens de "capitale" et capital au sens de "capitaux" Dans les trois langues, il est difficile de rechercher sélectivement l'ouvrage de Karl Marx, Le Capital. Mais ne pleurons pas! Nous sommes "contents" d'avoir ce que nous avons… Question: peut-on faire mieux sans perdre ce que nous avons? J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

9 Recherche d'information avec Google 2c qq résultats
Avec wizâra, وزارة "ministère", on a: pour (al-)wizâra (al-)xârijiyya, (الـ)وزارة (الـ)خارجية , "ministère des affaires étrangères" rés. J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

10 Recherche d'information avec Google 2c qq résultats
Avec wizâra, وزارة "ministère", on a: pour (al-)wizâra (al-)xârijiyya, (الـ)وزارة (الـ)خارجية , "ministère des affaires étrangères" rés. pour xârijiyya, rés. J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

11 Recherche d'information avec Google 2c qq résultats
Avec wizâra, وزارة "ministère", on a: pour (al-)wizâra (al-)xârijiyya, (الـ)وزارة (الـ)خارجية , "ministère des affaires étrangères" rés. pour xârijiyya, rés. pour wazîr (al-)xârijiyya, وزير (الـ)خارجية "ministre des affaires étrangères", résult. qui recoupent en grande partie les précédents en raison de phénomènes de cooccurrence; J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

12 Recherche d'information avec Google 2c qq résultats
Avec wizâra, وزارة "ministère", on a: pour (al-)wizâra (al-)xârijiyya, (الـ)وزارة (الـ)خارجية , "ministère des affaires étrangères" rés. pour xârijiyya, rés. pour wazîr (al-)xârijiyya, وزير (الـ)خارجية "ministre des affaires étrangères", résult. qui recoupent en grande partie les précédents en raison de phénomènes de cooccurrence; pour wazîr (al-)tarbiya, وزير (الـ)تربية "ministre de l'éducation" rés. (incluant wazîrat (al-)tarbiya, la seule ministre de l'éducation arabe, qui est palestinienne) J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

13 Recherche d'information avec Google 2c qq résultats
Avec wizâra, وزارة "ministère", on a: pour (al-)wizâra (al-)xârijiyya, (الـ)وزارة (الـ)خارجية , "ministère des affaires étrangères" rés. pour xârijiyya, rés. pour wazîr (al-)xârijiyya, وزير (الـ)خارجية "ministre des affaires étrangères", résult. qui recoupent en grande partie les précédents en raison de phénomènes de cooccurrence; pour wazîr (al-)tarbiya, وزير (الـ)تربية "ministre de l'éducation" rés. (incluant wazîrat (al-)tarbiya, la seule ministre de l'éducation arabe, qui est palestinienne) pour wuzarâ' (al-)tarbiya, وزراء (الـ)تربية "ministres de l'éducation" (au plur.), de rés., ne recoupant les précédents qu'en cas de cooccurrence (elles sont fréquentes) J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

14 Recherche d'information 2d : synthèse sur résultats avec Google
Une meilleure prise en charges des mots composés qu'en mars-avril derniers Trop d'information, les requêtes n'étant que très difficilement contextualisabes (avec les "__") Pas assez d'information: les variations morphologiques ne sont pas prises en charge (en arabe comme en français) les recoupements entre formes morphologiquement apparentées (par ex., sing.-plur.) restent aléatoires …et le resteront, car les cooccurrences ne constituent pas une relation sémantique stable pour l'apprentissage automatique J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

15 Peut-on améliorer ces résultats?
Oui, dans certaines conditions. Deux cas généraux: 1- Recherche du niveau du mot 2- Recherche contextualisée Dans les deux cas: quelle base de connaissances est nécessaire? Dans cet exposé: cas 1 Dans l'exposé avec M. Anizi: cas 2 J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

16 Au niveau du mot De quoi peut avoir besoin?
 des différentes formes morphologiques d'un même mot – en l'occurrence de noms pluriel par suffixation : našâṭ نشاط, "activité", plur. suffixé: našâṭât نشاطات plur. par modification du patron (ou "pluriel brisé") :'anašṭa أنشطة  NB. Les verbes ne font en principe pas l'objet d'une recherche d'information. J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

17 Autres ex. du niveau du mot
ḥummâ حمى‎, "fièvre" : 1 240 000 résultats (0,28 secondes ) – pas de pluriel le plur. ḥummâyât حمايات : 129 000 rés.‎ (0,36 sec.) – c'est un plur. par suffixation, mais avec une transformation de ى â en ي y, ce qui supposerait soit une analyse par règles, soit la consultation d'une base de données lexicale. naḫla نخلة‎, "palmier-dattier" (mais aussi: nom de famille, par ex. du chanteur N'ûla Nakhlé) : 1 340 000 rés. (0,41 secondes)  - pas d'occurrence de naḫl نخل (collectif, dont naḫla نخلة‎ est le singulatif) naḫl نخل : 520 000 résultats J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

18 Problèmes de polysémie 1
Des bruits peuvent résulter du fait qu'un même mot peut avoir plusieurs sens, exemple: Nom 1: câmil عامل, plur. par suffixation: câmilûn (fem. –ât) = "travailleur", "employé", "salarié" Nom 2: -- plur. "interne" (par modification du patron): cawâmil عوامل = "facteur" (de qqch) Nom 3:-- plur. "interne" (par modification du patron): cummâl عمال = "ouvrier" Adjectif: = "actif", "en fonction", "effectif" Requête عامل : 12 000 000 de résultats (0,23 secondes) : le bruit est très élevé, la requête ne pouvant porter que sur un seul sens J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

19 Problèmes de polysémie 2
Des bruits peuvent résulter du fait qu'un même mot peut avoir plusieurs sens, exemple: Nom 1: câmil عامل, plur. par suffixation: câmilûn (fem. –ât) = "travailleur", "employé", "salarié"  74 700 pour عاملون (ss occ. du sing. ni de عاملو)  148 000 pour عاملو (ss occ. du sing)  144 000 pour عاملات (ss occ. du sing) Nom 2: -- plur. "interne" (par modification du patron): cawâmil عوامل = "facteur" (de qqch)  5 370 000 résultats (ss occurrence du sing.) Nom 3:-- plur. "interne" (par modification du patron): cummâl عمال = "ouvrier"  2 610 000 résultats (ss occurrence du sing.) Adjectif: = "actif", "en fonction", "effectif" J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

20 Recours au générateur de DIINAR
Les lexiques générés à partir de DIINAR peuvent permettre – au niveau du mot – de sélectionner une requête pertinente, en passant par le pluriel.  agent lexical morphologique J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

21 Base de connaissances de cooccurrences
au niveau des groupes de mots, des cooccurrences peuvent être repérées, ex.: عامل (الـ)بناء - (الـ)زراعة – câmil (al-)binâ' – (al-)zirâca : "ouvrier en bâtiment", "agricole" عاملات (الـ)منازل – "travailleuses ménagères"  agent lexical de cooccurrence J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

22 Vers une interface d'interrogation 1
Saisie: câmil عامل Consultation des lexiques générés de DIINAR: L'interface morpho-lexicale demande à l'utilisateur le sens qui l'intéresse: Nom 1: câmil عامل, plur. par suffixation: câmilûn (fem. –ât) = "travailleur", "employé", "salarié" Nom 2: -- plur. "interne" (par modification du patron): cawâmil عوامل = "facteur" (de qqch) Nom 3:-- plur. "interne" (par modification du patron): cummâl عمال = "ouvrier" Adjectif: = "actif", "en fonction", "effectif" J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

23 Vers une interface d'interrogation 2
Saisie: câmil عامل Consultation des lexiques de cooccurrence (à construire!) L'interface de cooccurrence lexicale demande à l'utilisateur le contexte qui l'intéresse: عامل (الـ)بناء câmil (al-)binâ' , "ouvrier en bâtiment"  عامل (الـ)زراعة câmil (al-)zirâca, "ouvrier agricole"  عامل عضو cudw câmil, "membre actif" (câmil = adjectif) En cas de recherche par les pluriels: collaboration des deux agents d'aide à la recherche ou à la fouille… J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

24 Les ressources lexicales nécessaires
Pour le niveau du mot: DIINAR (8 hommes/années) Pour le niveau des collocations: beaucoup de travail à faire, avec une démarche prolongeant la théorie des spécificateurs implémentée dans DIINAR + un format lexical nouveau (travaux en cours) J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

25 Annexe : DIINAR.1 J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

26 Abdelfattah Braham, Université de la Manouba et IRSIT
DIINAR.1 (DIctionnaire INformatisé de l’ARabe – version 1) en arabe : Ma‘âlî – معالي « Mu‘jam al-‘Arabiyya l-’âlî » (معجم العربية الآلي) Joseph Dichy, Université Lumière-Lyon 2 et groupe de recherche SILAT (ICAR CNRS-Lyon 2) Abdelfattah Braham, Université de la Manouba et IRSIT Salem Ghazali, Institut Supérieur des Langues de Tunis et IRSIT Mohamed Hassoun, ENSSIB (Villeurbanne) et groupe de recherche SILAT (commun à ICAR et à ELICO ) J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

27 La base de connaissances DIINAR.1 comprend 129.000 entrées environ
Entrées verbales : env. Entrées déverbales : env. Entrées nominales : env. (+ env pluriels 'brisés') Noms propres : env. Mots-outils : 200 env. + l’ensemble complet des enclitiques, proclitiques, préfixes et suffixes de l’arabe lexiques générés: formes fléchies (mots minimaux): 7,7 M formes développées (mots maximaux): 230 M J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

28 Les spécificateurs morphosyntaxiques inclus dans DIINAR.1
A chaque unité lexicale sont associés des spécificateurs morphosyntaxiques correspon-dant aux relations grammaire-lexique opérant au niveau du mot (Hassoun, 1987, Dichy, 1990). Les spécificateurs incluent également les liens dérivationnels entre formes morphologiquement reliées, telles que: verbe  déverbal ou, pour les noms, singulier  “pluriel brisé”, etc. Les spécificateurs morphosyntaxiques appartien-nent à des inventaires finis et exhaustifs (Dichy, 1997). J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

29 Principe de compatibilité connaissances-processus
La base de données DIINAR.1 est soumise à une contrainte méthodologique fondamentale, celle de la compatibilité : (1) avec les deux processus asymétriques de la génération et de l’analyse de textes écrits (Dichy 1990 et 1993), et  (2) avec les deux réalisations en graphie vocalisée ou non de l’arabe (Hassoun 1987).  On dira que DIINAR.1 est conçu en fonction du principe de compatibilité connaissances-processus (Dichy 1997). J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

30 Génération ET analyse traitement exhaustif des données
lexiques générés J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

31 beaucoup de travail fait, et de travail à faire, mais en recherche d'information…
Où sont les grands explorateurs à qui l'on devra l'oubli d'un continent ? Guillaume Apollinaire J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon

32 Merci de votre attention
أشكر لكم إصغاءكم J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon


Télécharger ppt "Journées du groupe SILAT, Lyon, :"

Présentations similaires


Annonces Google