Journées du groupe SILAT, Lyon, :

Slides:



Advertisements
Présentations similaires
Le Nom L’adjectif Le verbe Objectif: Orthogram
Advertisements

ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Produit Gammes Nomenclatures Modules Techniques Prix de Revient Prix de Vente Modules Techniques Client Marges Mise en route Temps Unitaire Prix (Ex:
ATELIER LMD-ENS N°9 MARDI 10 MAI 2011.
Les résultats de l’étude « OBÉSITÉ » menée auprès de patients adultes et de soignants : situation wallonne Pr. M. GUILLAUME C. CRUTZE – S. STREEL – AF.
Fabrice Lauri, François Charpillet, Daniel Szer
Mon carnet De comportement
1 CCGD ENERGIE Les panneaux solaires 2 Information publique 20 mars 2008 Salle communale Dampicourt.
SÉMINAIRE NATIONAL – LYCÉE RASPAIL – 29 et 30 MAI LE CONTRÔLE EN COURS DE FORMATION.
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Classe : …………… Nom : …………………………………… Date : ………………..
Reconnaissance de la parole
ACTIVITES Les fractions (10).
Les Prepositions.
1 La Commission européenne pour l'efficacité de la justice Association des magistrats du pouvoir judiciaire de la République et canton de Genève, 26 janvier.
Initiation et perfectionnement à lutilisation de la micro-informatique Publier des films sur DailyMotion (sur Mac et sur PC) ©Yves Roger Cornil
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
Journée détude régionale du 23 mai Lévaluation interne des établissements et services sociaux et médico-sociaux : Où en sommes-nous ? 1 Résultats.
Nom du module Date Lieu de la formation. 2 Genèse du projet Historique, partenaires, publics Pour qui ? Pourquoi ? Qui ? Comment ? Quand ?
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
1 7 Langues niveaux débutant à avancé. 2 Allemand.
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
1 Théorie des Graphes Cycle Eulérien. 2 Rappels de définitions On dit qu'une chaîne est un chemin passant par toutes les arêtes du graphe. On dit qu'un.
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Voici 36 bonnes raisons de preferer la biere à une femme blonde...
Les verbes auxiliaires Avoir ou être ?? Choisissez! Cest un verbe Dr Mrs Vandertrampp? Cest un verbe réfléchi?
Exemple d’utilisation d’un album
1 SERVICE PUBLIC DE LEMPLOI REGION ILE DE France Tableau de bord Juillet- Août 2007.
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
1.2 COMPOSANTES DES VECTEURS
SUJET D’ENTRAINEMENT n°2
La voyage de Jean Pierre
1 Conduite du changement LA CONDUITE DU CHANGEMENT.
Recherche Documentaire et traitement de l’information
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
La Saint-Valentin Par Matt Maxwell.
Les écritures fractionnaires
Unit 4: Les animaux Unit 4: Les animaux.
Orléans, CFA, 20 Mars M. Bétrancourt 1 Mireille Bétrancourt TECFA, Faculté de Psychologie et éducation Université de Genève Pour un usage des technologies.
Orléans, CFA, 20 Mars M. Bétrancourt 1 Mireille Bétrancourt TECFA, Faculté de Psychologie et éducation Université de Genève Pour un usage des technologies.
La Distribution des Données
1.1 LES VECTEURS GÉOMÉTRIQUES
Notre calendrier français MARS 2014
Forum des Industries de la Langue, 17 mars 2010
(A. Meurant - UCL )1 Chapitre Quatrième Quelques définitions de base.
C'est pour bientôt.....
Veuillez trouver ci-joint
Les Nombres! de 0 à 20.
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
SUJET D’ENTRAINEMENT n°4
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
Voici 36 bonnes raisons de preferer la biere à une femme blonde...
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1 Modèle pédagogique d’un système d’apprentissage (SA)
Nom:____________ Prénom: ___________
1. La bière ne parle pas 2.La bière est toujours prête et humide.
CALENDRIER-PLAYBOY 2020.
Les Chiffres Prêts?
Médiathèque de Chauffailles du 3 au 28 mars 2009.
Transcription de la présentation:

Journées du groupe SILAT, Lyon, 26-27.03.2010:  Génération et analyse de mots arabes (GAMAR) : vers une plateforme d’enrichissement des requêtes pour la recherche d’information ou la fouille de textes Joseph Dichy Université Lumière-Lyon 2 ICAR – UMR 5191 (CNRS/Lyon 2-ENS_LSH) Journées du groupe SILAT, Lyon, 26-27.03.2010: Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais)

Mots clés recherche d'information et fouille de textes ressource lexicale (base de connaissances) théorie des spécificateurs linguistiques propriétés lexico-sémantiques ; ontologies linguistiques ; relations lexique-grammaire  Génération vs analyse lexiques générés J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Objet général Quelles ressources lexicales (conçues comme bases de connaissances) sont nécessaires/utiles pour la recherche d'information, la fouille de textes, la veille stratégique, l'indexation automatique, etc. ? J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Domaine d'illustration La recherche d'information, la fouille de textes, la veille stratégique J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Recherche d'information avec Google 1a Dans la veille stratégique, la recherche d'information ou la fouille de textes, il y a en gros deux approches: l'analyse morphologique au plein sens du terme, coûteuse en temps celle de Google (très rapide), que je vais rappeler en qq mots: Dans la 1re phase: page ranking (note de 0 à 10) - "Google dance" J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Recherche d'information avec Google 1a (rappel - suite) Cette approche exclut le recours à un analyseur morphologique associé à une base de données lexicales, en raison des ralentissements qui en résulteraient : Pour la recherche وزراء التربية wuzarâ' al-tarbiya "ministres de l'éducation" , on obtient 5 M de résultats en 0,21 sec. Avec un analyseur analysant 100.000 mots par seconde, cela prendrait 50 x plus de temps, soit 17,5 minutes! A quoi s'ajouteraient les ralentissements des phases 1 (crawling, pageranking…) et 2 (indexation…) J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Recherche d'information avec Google 2a qq résultats Pour ra'as al-mal رأس المال "capital", au 21.03.2010: 2.380.000 résultats, incluant: la forme avec l'article ra'as al-mal رأس المال la forme-"valise" (en arabe naḥt) رأسمال , variante graphique راسمال N'incluant pas les pluriels avec variation du patron morphosyllabique (≠ pluriels par suffixation): رؤوس (ال)أموال – 638.000 rés. (recherche propre) رساميل – 65.600 rés. (recherche propre) J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Recherche d'information avec Google 2b qq résultats En français, il faut faire deux requêtes, l'une pour "capital", l'autre pour "capitaux" En anglais, on rencontre un problème d'ambiguïté: capital au sens de "capitale" et capital au sens de "capitaux" Dans les trois langues, il est difficile de rechercher sélectivement l'ouvrage de Karl Marx, Le Capital. Mais ne pleurons pas! Nous sommes "contents" d'avoir ce que nous avons… Question: peut-on faire mieux sans perdre ce que nous avons? J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Recherche d'information avec Google 2c qq résultats Avec wizâra, وزارة "ministère", on a: pour (al-)wizâra (al-)xârijiyya, (الـ)وزارة (الـ)خارجية , "ministère des affaires étrangères" 2.450.000 rés. J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Recherche d'information avec Google 2c qq résultats Avec wizâra, وزارة "ministère", on a: pour (al-)wizâra (al-)xârijiyya, (الـ)وزارة (الـ)خارجية , "ministère des affaires étrangères" 2.450.000 rés. pour xârijiyya, 3.520.000 rés. J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Recherche d'information avec Google 2c qq résultats Avec wizâra, وزارة "ministère", on a: pour (al-)wizâra (al-)xârijiyya, (الـ)وزارة (الـ)خارجية , "ministère des affaires étrangères" 2.450.000 rés. pour xârijiyya, 3.520.000 rés. pour wazîr (al-)xârijiyya, وزير (الـ)خارجية "ministre des affaires étrangères", 5.840.000 résult. qui recoupent en grande partie les précédents en raison de phénomènes de cooccurrence; J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Recherche d'information avec Google 2c qq résultats Avec wizâra, وزارة "ministère", on a: pour (al-)wizâra (al-)xârijiyya, (الـ)وزارة (الـ)خارجية , "ministère des affaires étrangères" 2.450.000 rés. pour xârijiyya, 3.520.000 rés. pour wazîr (al-)xârijiyya, وزير (الـ)خارجية "ministre des affaires étrangères", 5.840.000 résult. qui recoupent en grande partie les précédents en raison de phénomènes de cooccurrence; pour wazîr (al-)tarbiya, وزير (الـ)تربية "ministre de l'éducation" 5.650.000 rés. (incluant wazîrat (al-)tarbiya, la seule ministre de l'éducation arabe, qui est palestinienne) J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Recherche d'information avec Google 2c qq résultats Avec wizâra, وزارة "ministère", on a: pour (al-)wizâra (al-)xârijiyya, (الـ)وزارة (الـ)خارجية , "ministère des affaires étrangères" 2.450.000 rés. pour xârijiyya, 3.520.000 rés. pour wazîr (al-)xârijiyya, وزير (الـ)خارجية "ministre des affaires étrangères", 5.840.000 résult. qui recoupent en grande partie les précédents en raison de phénomènes de cooccurrence; pour wazîr (al-)tarbiya, وزير (الـ)تربية "ministre de l'éducation" 5.650.000 rés. (incluant wazîrat (al-)tarbiya, la seule ministre de l'éducation arabe, qui est palestinienne) pour wuzarâ' (al-)tarbiya, وزراء (الـ)تربية "ministres de l'éducation" (au plur.), 5.000.000 de rés., ne recoupant les précédents qu'en cas de cooccurrence (elles sont fréquentes) J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Recherche d'information 2d : synthèse sur résultats avec Google Une meilleure prise en charges des mots composés qu'en mars-avril derniers Trop d'information, les requêtes n'étant que très difficilement contextualisabes (avec les "__") Pas assez d'information: les variations morphologiques ne sont pas prises en charge (en arabe comme en français) les recoupements entre formes morphologiquement apparentées (par ex., sing.-plur.) restent aléatoires …et le resteront, car les cooccurrences ne constituent pas une relation sémantique stable pour l'apprentissage automatique J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Peut-on améliorer ces résultats? Oui, dans certaines conditions. Deux cas généraux: 1- Recherche du niveau du mot 2- Recherche contextualisée Dans les deux cas: quelle base de connaissances est nécessaire? Dans cet exposé: cas 1 Dans l'exposé avec M. Anizi: cas 2 J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Au niveau du mot De quoi peut avoir besoin?  des différentes formes morphologiques d'un même mot – en l'occurrence de noms pluriel par suffixation : našâṭ نشاط, "activité", plur. suffixé: našâṭât نشاطات plur. par modification du patron (ou "pluriel brisé") :'anašṭa أنشطة  NB. Les verbes ne font en principe pas l'objet d'une recherche d'information. J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Autres ex. du niveau du mot ḥummâ حمى‎, "fièvre" : 1 240 000 résultats (0,28 secondes ) – pas de pluriel le plur. ḥummâyât حمايات : 129 000 rés.‎ (0,36 sec.) – c'est un plur. par suffixation, mais avec une transformation de ى â en ي y, ce qui supposerait soit une analyse par règles, soit la consultation d'une base de données lexicale. naḫla نخلة‎, "palmier-dattier" (mais aussi: nom de famille, par ex. du chanteur N'ûla Nakhlé) : 1 340 000 rés. (0,41 secondes)  - pas d'occurrence de naḫl نخل (collectif, dont naḫla نخلة‎ est le singulatif) naḫl نخل : 520 000 résultats J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Problèmes de polysémie 1 Des bruits peuvent résulter du fait qu'un même mot peut avoir plusieurs sens, exemple: Nom 1: câmil عامل, plur. par suffixation: câmilûn (fem. –ât) = "travailleur", "employé", "salarié" Nom 2: -- plur. "interne" (par modification du patron): cawâmil عوامل = "facteur" (de qqch) Nom 3:-- plur. "interne" (par modification du patron): cummâl عمال = "ouvrier" Adjectif: = "actif", "en fonction", "effectif" Requête عامل : 12 000 000 de résultats (0,23 secondes) : le bruit est très élevé, la requête ne pouvant porter que sur un seul sens J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Problèmes de polysémie 2 Des bruits peuvent résulter du fait qu'un même mot peut avoir plusieurs sens, exemple: Nom 1: câmil عامل, plur. par suffixation: câmilûn (fem. –ât) = "travailleur", "employé", "salarié"  74 700 pour عاملون (ss occ. du sing. ni de عاملو)  148 000 pour عاملو (ss occ. du sing)  144 000 pour عاملات (ss occ. du sing) Nom 2: -- plur. "interne" (par modification du patron): cawâmil عوامل = "facteur" (de qqch)  5 370 000 résultats (ss occurrence du sing.) Nom 3:-- plur. "interne" (par modification du patron): cummâl عمال = "ouvrier"  2 610 000 résultats (ss occurrence du sing.) Adjectif: = "actif", "en fonction", "effectif" J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Recours au générateur de DIINAR Les lexiques générés à partir de DIINAR peuvent permettre – au niveau du mot – de sélectionner une requête pertinente, en passant par le pluriel.  agent lexical morphologique J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Base de connaissances de cooccurrences au niveau des groupes de mots, des cooccurrences peuvent être repérées, ex.: عامل (الـ)بناء - (الـ)زراعة – câmil (al-)binâ' – (al-)zirâca : "ouvrier en bâtiment", "agricole" عاملات (الـ)منازل – "travailleuses ménagères"  agent lexical de cooccurrence J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Vers une interface d'interrogation 1 Saisie: câmil عامل Consultation des lexiques générés de DIINAR: L'interface morpho-lexicale demande à l'utilisateur le sens qui l'intéresse: Nom 1: câmil عامل, plur. par suffixation: câmilûn (fem. –ât) = "travailleur", "employé", "salarié" Nom 2: -- plur. "interne" (par modification du patron): cawâmil عوامل = "facteur" (de qqch) Nom 3:-- plur. "interne" (par modification du patron): cummâl عمال = "ouvrier" Adjectif: = "actif", "en fonction", "effectif" J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Vers une interface d'interrogation 2 Saisie: câmil عامل Consultation des lexiques de cooccurrence (à construire!) L'interface de cooccurrence lexicale demande à l'utilisateur le contexte qui l'intéresse: عامل (الـ)بناء câmil (al-)binâ' , "ouvrier en bâtiment"  عامل (الـ)زراعة câmil (al-)zirâca, "ouvrier agricole"  عامل عضو cudw câmil, "membre actif" (câmil = adjectif) En cas de recherche par les pluriels: collaboration des deux agents d'aide à la recherche ou à la fouille… J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Les ressources lexicales nécessaires Pour le niveau du mot: DIINAR (8 hommes/années) Pour le niveau des collocations: beaucoup de travail à faire, avec une démarche prolongeant la théorie des spécificateurs implémentée dans DIINAR + un format lexical nouveau (travaux en cours) J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Annexe : DIINAR.1 J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Abdelfattah Braham, Université de la Manouba et IRSIT DIINAR.1 (DIctionnaire INformatisé de l’ARabe – version 1) en arabe : Ma‘âlî – معالي « Mu‘jam al-‘Arabiyya l-’âlî » (معجم العربية الآلي) Joseph Dichy, Université Lumière-Lyon 2 et groupe de recherche SILAT (ICAR CNRS-Lyon 2) Abdelfattah Braham, Université de la Manouba et IRSIT Salem Ghazali, Institut Supérieur des Langues de Tunis et IRSIT Mohamed Hassoun, ENSSIB (Villeurbanne) et groupe de recherche SILAT (commun à ICAR et à ELICO ) J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

La base de connaissances DIINAR.1 comprend 129.000 entrées environ Entrées verbales : 20.000 env. Entrées déverbales : 79.000 env. Entrées nominales : 29.000 env. (+ env. 10.000 pluriels 'brisés') Noms propres : 1.000 env. Mots-outils : 200 env. + l’ensemble complet des enclitiques, proclitiques, préfixes et suffixes de l’arabe lexiques générés: formes fléchies (mots minimaux): 7,7 M formes développées (mots maximaux): 230 M J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Les spécificateurs morphosyntaxiques inclus dans DIINAR.1 A chaque unité lexicale sont associés des spécificateurs morphosyntaxiques correspon-dant aux relations grammaire-lexique opérant au niveau du mot (Hassoun, 1987, Dichy, 1990). Les spécificateurs incluent également les liens dérivationnels entre formes morphologiquement reliées, telles que: verbe  déverbal ou, pour les noms, singulier  “pluriel brisé”, etc. Les spécificateurs morphosyntaxiques appartien-nent à des inventaires finis et exhaustifs (Dichy, 1997). J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Principe de compatibilité connaissances-processus La base de données DIINAR.1 est soumise à une contrainte méthodologique fondamentale, celle de la compatibilité : (1) avec les deux processus asymétriques de la génération et de l’analyse de textes écrits (Dichy 1990 et 1993), et  (2) avec les deux réalisations en graphie vocalisée ou non de l’arabe (Hassoun 1987).  On dira que DIINAR.1 est conçu en fonction du principe de compatibilité connaissances-processus (Dichy 1997). J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Génération ET analyse traitement exhaustif des données lexiques générés J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

beaucoup de travail fait, et de travail à faire, mais en recherche d'information… Où sont les grands explorateurs à qui l'on devra l'oubli d'un continent ? Guillaume Apollinaire J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

Merci de votre attention أشكر لكم إصغاءكم J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010