L'apport des grammaires catégorielles dans l'extraction multilingues des termes complexes (*)(**) Ismaïl Biskri, (**) Jean-Guy Meunier, (*) Sylvain Joyal,

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

Les présentateurs doivent souvent transmettre des informations techniques à des auditeurs qui connaissent moins bien le sujet et le vocabulaire spécifique.
La communication de crise
Revue de presse Master 2 RET
GART - Journée Information Multimodalele 20 Mars / 9 Mobilisation des Acteurs & Approche Institutionnelle Le Cas de Toulouse Alexandre BLAQUIERE.
Les frontières ouvertes
« Extraction des connaissances
Extraction des règles dassociation à partir dun corpus spécialisé Jérôme AZÉ & Mathieu ROCHE Laboratoire de Recherche en Informatique EGC, Lyon janvier.
Fouille de textes : Extraction Itérative de la Terminologie
1 Extraction de la terminologie Mathieu Roche Cours Polytech 21 novembre 2005.
JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,
Localisation fine de QTL par déséquilibre de liaison Simon BOITARD Durée : octobre 2003-septembre 2006 Laboratoire : BIA (biométrie et intelligence artificielle)
Eureka avril MAJORCALL – « Client Relation Management for Call Centers » Eurekâ Project !2990 Corebridge- -ENST-
Construction d’ontologies à partir de textes
GIACRI-MAUBORGNE Marie-Laure CEA Saclay DSM/DANIA/SPhN
Étude thématique Protégé 2000 Mathieu Besnard Elie Huvier.
SYSTRAN Un outil du TAL Victoria AUPERT Marjorie LORSUNG.
OLST — Université de Montréal
« Modélisation de lapprentissage des mots écrits avec un réseau de type ART » Stage de fin détude de DESS de Sciences Cognitives Appliquées Effectué
- DESS IGSI – Conception objet des SI -Etude de cas – Marie-Laure POITOU.
Cryptographie basée sur les codes
Reconnaissance de la parole
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
David Rolland, formateur en mathématiques
RW Conseil Les technologies de la sécurité au service de lutilisateur 1 Introduction aux systèmes à base de cartes multiapplicatives.
Classification automatique de documents
Colloque iFRAP17 septembre La loi Dutreil : Un début de solution Pierre BERGER Avocat Associé (Cabinet FIDAL)
Rapport du projet 53 François Barre, Vincent Borrel, Guillaume Dupuy,
Colloque iFRAP17 septembre Présentation du Livre Blanc Objectif : 15 milliards deuros investis par Business Angels Didier Salavert Chef dentreprise.
Karin Lundgren-Cayrol
Direction Informatique & Système d’Information
Sherbrooke le 3 avril Aspects économiques liés à lintégration des services de maintien à lautonomie Volet Implantation et fonctionnement Danièle.
Building an Electronic Dictionary of Computer Science Terminology
Par: Catherine Anne Cormier
Chapitre 3 : Détection des contours
Société Française de Médecine Générale
Méthode de sélection pour un taureau inséminateur dans la race Holstein Le 10 Octobre 2003 Landraud B. Lavedan F. Le Tual J.
MOT Éditeur de modèles de connaissances par objets typés
Styles dinteraction dans les PocketPC: analyses et comparaisons Roberto Ortelli, Juillet 2003.
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Forum des Industries de la Langue, 17 mars 2010
L’analyse multidimensionnelle de l’information : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois.
Analyse Multidimensionnelle et Multimédia Ismaïl Biskri (. ) (
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Définition Utilisation Définition
Recherche par mots-clés vs recherche en langue naturelle.
Les techniques des moteurs de recherche
Détection de contours automatique et application aux images réelles
L’ISF : Casse-tête pour les chefs d’entreprises
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
École La Dauversière, Montréal, juin 2000
Du traitement automatique de l’information à sa manipulation Cyberlangues 2003 Thierry Soubrié Université Stendhal – Grenoble 3.
Approches Formelles en Systèmes d'information
Vers une analyse syntaxique à granularité variable Tristan Van rullen
L’observation réfléchie de la langue
Pour les nuls débutants
Combinatoire, Informatique et Physique des liens anciens et étroits Quels langages communs ? Gérard H. E. Duchamp Savantes Banlieues Octobre 2005.
Dominique LAURENT Patrick SEGUELA
TABLEAUX CROISES.
21/10/2008 SYSTEME INFORMATIQUE.
La Magie du Calcul Gérard H. E. Duchamp (Université Paris XIII) Equipe AAA le 08 juin 2006.
Reconnaissance de chiffres manuscrits
IFT 615 – Intelligence artificielle Consignes pour l’examen final
Calcul symbolique Christophe Tollu Frédéric Toumazet Gérard H. E. Duchamp … + Séminaire CIP.
Combinatoire, Informatique et Physique des liens anciens et étroits Quels langages communs ? Gérard H. E. Duchamp Séminaire du Laboratoire de Mathématiques.
TEXT MINING Fouille de textes
Le Traitement Automatique des Langues (TAL)
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
الهيئة العامة لحماية المستهلك أساليب الترويج وتأثيراتها على المستهلك خليفة التونكتي - مستشار المنافسة - 1.
Transcription de la présentation:

L'apport des grammaires catégorielles dans l'extraction multilingues des termes complexes (*)(**) Ismaïl Biskri, (**) Jean-Guy Meunier, (*) Sylvain Joyal, (**) Simon Lemieux, (*) Frédéric Gayton (*) Département de Mathématiques & Informatique Université du Québec à Trois-Rivières (**) Laboratoire dANalyse Cognitive de lInformation Université du Québec À Montréal ca

ACFAS État de lart Outils automatiques. Lexter (Bourigault, 1994), Acabit (Daille, 1994), Ana (Enguehardt, 1993), Xtract (Smadja,1993), … Approches Linguistiques : Pas de multilinguisme Approches Numériques : Bruit

ACFAS Nouvel approche Notre approche est hybride : filtres linguisiques + calcul numérique Notre approche est interactive et sous le contrôle constant de lusager. Nous voulons que lobjectif, les connaissances et la subjectivité de lusager influent sur le résultat. Il ny aura donc pas un seul résultat possible, mais plusieurs.

ACFAS Approche Hybride Texte Brut filtres linguistiques Candidat termes + probabilités Filtre numérique Base de connaissance Termes complexes définitifs apprentissage Word 1 Word 2 … Word i …Word n Word 1 Word 2 … Word j … word n Matrice de collocation

ACFAS Filtre Numérique basé sur la formule de Bayes : Prob ( W 1…n ) 1…k Prob ( W k | W k-1 ) Ce filtre élimine les candidats termes dont la probabilité dapparition dans le texte est inférieur à un certain seuil défini par lusager.

ACFAS Filtres Linguistiques Linguistic filters based on contextual exploration. Le premier filtre élimine les candidats termes qui commencent ou se terminent par un mot fonctionnel. Le second filtre élimine les candidats termes qui commencent ou se terminent par un mot choisi par lusager. Le troisième filtre élimine les candidats termes qui commencent ou se terminent par un mot dune catégorie syntaxique spécifique: verbes, adverbes, etc. Le quatrième filtre élimine les candidats termes qui ne sont pas des groupes nominaux. La grammaire utilisée ici est universelle : Grammaire Catégorielle Combinatoire Applicative

ACFAS GCCA : Quelques règles Règles Applicatives : X/Y - Y X(>) Y – X\Y X(<) Règle de changement de type : X Y/(Y\X(>T) Composition fonctionnelle :X/Y - Y/Z X/Z(>B)

ACFAS GCCA : quelques exemples (i) Nom Adjectif : données fausses ; (ii) Nom de Nom : base de données ; (iii) Nom de Nom Adjectif : base de données relationnelle ; (iv) Nom de la Nom des Nom : fondement de la théorie des nombres

ACFAS GCCA : exemple (i) Donnéesfausses NN\N < N

ACFAS GCCA : exemple (ii) Base de données N(N\N)/NN ---->T N/(N\N) >B N/N > N

ACFAS GCCA : exemple (iii) Base de donnéesrelationnelle N(N\N)/NNN\N ---->T N/(N\N) >B N/N < N > N

ACFAS GCCA : exemple (iv) Fondement de la théorie desnombres N(N\N)/NN/NN(N\N)/N N ---->T N/(N\N) >B N/N >B N/N ---->T N/(N\N) >B N/N > N > N

ACFAS Apprentissage Apprentissage avec utilisation de la base de connaissance (exemple : si acide Chlorhydrique est dans la base de connaissance alors acide sulfurique peut être considéré comme un terme complexe). N-Grams de caractères : Bigrams, tri-grams, quadri- grams, etc. Exemple : Bigrams de « Hello World » : He, el, ll, lo, o, W, Wo, or, rl, ld Trigrams de « Hello World » : Hel, ell, llo, lo, o W, Wo, Wor, orl, rld

ACFAS Apprentissage Comparaison de deux termes complexes : Bigrams ; seuil = 0,3 est ce que acide sulfurique est similaire à acide ascorbique ? Bigrams(acide sulfurique) =(ac, ci, id, de, e, s, su, ul, lf, fu, ur, ri, iq, qu, ue) Bigrams(acide ascorbique) =(ac, ci, id, de, e, a, as, sc, co, or, rb, bi, iq, qu, ue) Union = 22 bigrams Intersection = 8 bigrams communs Intersection / Union = 0.36 Décision : acide sulfurique similaire à acide ascorbique.

ACFAS User Interface

ACFAS Résultat Texte Anglais livre en ligne : Out of Control par Kevin Kelly 90 pages approximativement mots (606 mots par page) Termes complexes extraits (20 premiers termes) : hive mind, complex systems, feedback loop, swarm systems, von neumann, world war, nonzero sum, th century, gun barrel, fast cheap, artificial intelligence, zero sum, automatic control, living organisms, self control, steam engine, mark pauline, san francisco, mirrored box, stuart pimm.