La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

L'apport des grammaires catégorielles dans l'extraction multilingues des termes complexes (*)(**) Ismaïl Biskri, (**) Jean-Guy Meunier, (*) Sylvain Joyal,

Présentations similaires


Présentation au sujet: "L'apport des grammaires catégorielles dans l'extraction multilingues des termes complexes (*)(**) Ismaïl Biskri, (**) Jean-Guy Meunier, (*) Sylvain Joyal,"— Transcription de la présentation:

1 L'apport des grammaires catégorielles dans l'extraction multilingues des termes complexes (*)(**) Ismaïl Biskri, (**) Jean-Guy Meunier, (*) Sylvain Joyal, (**) Simon Lemieux, (*) Frédéric Gayton (*) Département de Mathématiques & Informatique Université du Québec à Trois-Rivières (**) Laboratoire dANalyse Cognitive de lInformation Université du Québec À Montréal biskri@uqtr. ca http://www.uqtr.ca/~biskri

2 ACFAS - 20032 État de lart Outils automatiques. Lexter (Bourigault, 1994), Acabit (Daille, 1994), Ana (Enguehardt, 1993), Xtract (Smadja,1993), … Approches Linguistiques : Pas de multilinguisme Approches Numériques : Bruit

3 ACFAS - 20033 Nouvel approche Notre approche est hybride : filtres linguisiques + calcul numérique Notre approche est interactive et sous le contrôle constant de lusager. Nous voulons que lobjectif, les connaissances et la subjectivité de lusager influent sur le résultat. Il ny aura donc pas un seul résultat possible, mais plusieurs.

4 ACFAS - 20034 Approche Hybride Texte Brut filtres linguistiques Candidat termes + probabilités Filtre numérique Base de connaissance Termes complexes définitifs apprentissage Word 1 Word 2 … Word i …Word n Word 1 Word 2 … Word j … word n Matrice de collocation

5 ACFAS - 20035 Filtre Numérique basé sur la formule de Bayes : Prob ( W 1…n ) 1…k Prob ( W k | W k-1 ) Ce filtre élimine les candidats termes dont la probabilité dapparition dans le texte est inférieur à un certain seuil défini par lusager.

6 ACFAS - 20036 Filtres Linguistiques Linguistic filters based on contextual exploration. Le premier filtre élimine les candidats termes qui commencent ou se terminent par un mot fonctionnel. Le second filtre élimine les candidats termes qui commencent ou se terminent par un mot choisi par lusager. Le troisième filtre élimine les candidats termes qui commencent ou se terminent par un mot dune catégorie syntaxique spécifique: verbes, adverbes, etc. Le quatrième filtre élimine les candidats termes qui ne sont pas des groupes nominaux. La grammaire utilisée ici est universelle : Grammaire Catégorielle Combinatoire Applicative

7 ACFAS - 20037 GCCA : Quelques règles Règles Applicatives : X/Y - Y X(>) Y – X\Y X(<) Règle de changement de type : X Y/(Y\X(>T) Composition fonctionnelle :X/Y - Y/Z X/Z(>B)

8 ACFAS - 20038 GCCA : quelques exemples (i) Nom Adjectif : données fausses ; (ii) Nom de Nom : base de données ; (iii) Nom de Nom Adjectif : base de données relationnelle ; (iv) Nom de la Nom des Nom : fondement de la théorie des nombres

9 ACFAS - 20039 GCCA : exemple (i) Donnéesfausses----------- NN\N --------------------------------< N

10 ACFAS - 200310 GCCA : exemple (ii) Base de données --------------------- N(N\N)/NN ---->T N/(N\N) ---------------------------------->B N/N -----------------------------------------------> N

11 ACFAS - 200311 GCCA : exemple (iii) Base de donnéesrelationnelle ------------------------------------- N(N\N)/NNN\N ---->T N/(N\N) ------------------>B N/N ---------------------------------< N ----------------------------------> N

12 ACFAS - 200312 GCCA : exemple (iv) Fondement de la théorie desnombres -------------- ---------------- ---------------- N(N\N)/NN/NN(N\N)/N N ---->T N/(N\N) ------------------------------------------>B N/N ----------------------------------------------------------------->B N/N ---->T N/(N\N) ------------------------>B N/N ---------------------------------------> N ----------------------------------------------------------------------------------> N

13 ACFAS - 200313 Apprentissage Apprentissage avec utilisation de la base de connaissance (exemple : si acide Chlorhydrique est dans la base de connaissance alors acide sulfurique peut être considéré comme un terme complexe). N-Grams de caractères : Bigrams, tri-grams, quadri- grams, etc. Exemple : Bigrams de « Hello World » : He, el, ll, lo, o, W, Wo, or, rl, ld Trigrams de « Hello World » : Hel, ell, llo, lo, o W, Wo, Wor, orl, rld

14 ACFAS - 200314 Apprentissage Comparaison de deux termes complexes : Bigrams ; seuil = 0,3 est ce que acide sulfurique est similaire à acide ascorbique ? Bigrams(acide sulfurique) =(ac, ci, id, de, e, s, su, ul, lf, fu, ur, ri, iq, qu, ue) Bigrams(acide ascorbique) =(ac, ci, id, de, e, a, as, sc, co, or, rb, bi, iq, qu, ue) Union = 22 bigrams Intersection = 8 bigrams communs Intersection / Union = 0.36 Décision : acide sulfurique similaire à acide ascorbique.

15 ACFAS - 200315 User Interface

16 ACFAS - 200316 Résultat Texte Anglais livre en ligne : Out of Control par Kevin Kelly http://www.well.com/user/kk/OutOfControl/index.html 90 pages approximativement 54 147 mots (606 mots par page) Termes complexes extraits (20 premiers termes) : hive mind, complex systems, feedback loop, swarm systems, von neumann, world war, nonzero sum, th century, gun barrel, fast cheap, artificial intelligence, zero sum, automatic control, living organisms, self control, steam engine, mark pauline, san francisco, mirrored box, stuart pimm.


Télécharger ppt "L'apport des grammaires catégorielles dans l'extraction multilingues des termes complexes (*)(**) Ismaïl Biskri, (**) Jean-Guy Meunier, (*) Sylvain Joyal,"

Présentations similaires


Annonces Google