La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Analyse Multidimensionnelle et Multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières Département de Mathématiques.

Présentations similaires


Présentation au sujet: "Analyse Multidimensionnelle et Multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières Département de Mathématiques."— Transcription de la présentation:

1 Analyse Multidimensionnelle et Multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières Département de Mathématiques et d Informatique ** Université du Québec À Montréal Laboratoire dAnalyse Cognitive de lInformation

2 Analyse numérique textuelle standard (introduction) 4 Premières opérations : –partition du texte en segments (domaines de linformation) ; –extraction du lexique (unités dinformation, par exemple : les mots, les n-grams) ; –représentation vectorielle (matricielle) du texte.

3 Analyse numérique textuelle standard (questions1) 4 Quelle est la définition dune unité dinformation ? 4 Quelle est la définition informatique du mot ? – lebensversicherungsgesellschaftsangestellter (employé dune compagnie dassurance vie) –kathabthouhou (je lai écrit) 4 Le n-Gram est il une solution ?

4 Analyse numérique textuelle standard (réponses1) 4 La définition dune unité dinformation dépend –de lobjectif de lecture et de compréhension; –de lusage dont sera fait le résultat ; 4 Idem pour le choix du type de segmentation;

5 NUMEXCO - GRAMEXCO – eGRAMEXCO (Trois chaînes de traitement) Texte Ascii Représentation matricielle Extraction des n-grams segmentation Réduction de la taille de la matrice Suppression des n-grams contenant des espaces Suppression des n-grams en dessous et au dessus dun certain seuil Réseau de neurones (classification) Classe 1 Classe 2 Classe n

6 GRAMEXCO (les résultats)

7 GRAMEXCO (Evaluation 1) 4 Corpus (extraits de documents web) de 50 pages. Format ASCII. 4 Paramètres : –taille du segment = 10 phrases ; –Quadri-grams ; –Lettres majuscules identiques aux lettres minuscules ; –caractères non alphabétique remplacés par des espaces ; –Suppression des n-grams contenant un ou plusieurs espaces ; –suppression des n-grams dont la fréquence est 1. 4 Résultats : 174 segments, quadri-grams, 100 classes.

8 GRAMEXCO (Evaluation 1 - suite 1) 4 classe 100 : –segments 137 et 157. –lexique interprétable : {bourse, francs, marchés, millions, mobile, pdg, prix}. –le mot francs désigne la monnaie française et non la franchise ou les fameuses tribus "les francs". –thème commun : le domaine financier. 4 classe 54 : –segments 141 et 143. –lexiques interprétable : {appel, cour, décidé, juge}. –le mot cour désigne la cour de justice et non la cour qu'on fait à une demoiselle, la cour de récréation, ou les toilettes des Belges. –thème commun : affaires judiciaires.

9 GRAMEXCO (Evaluation 1- suite 2) 4 classe 13 : –segments 32, 35, 41 et 48 ; –Lexique selon lintersection : {russe} ; –lexique selon lunion : {conservateur, socialisme, marxiste, conservateur, révolutionnaire, Dostoievski, doctrine, impérial, slavophile} ; –thème commun : les slavophiles et la culture politique russe du 19 ième siècle.

10 GRAMEXCO (Evaluation 2) 4 Corpus de deux pages extraits dun texte sur les biotechnologies (format ASCII). 4 Paramètres : –taille du segment = 1 mot ; –Quadri-grams ; –Lettres majuscules identiques aux lettres minuscules ; –caractères non alphabétique remplacés par des espaces ; –Suppression des n-grams contenant un ou plusieurs espaces ; –suppression des n-grams dont la fréquence est 1.

11 GRAMEXCO (Evaluation 2 - suite) 4 Classe 101 : {survécu, survie} 4 Classe 102 : {utilisée, outil} 4 Classe 110 : {congelé, décongelé, congelés, congélateur} 4 Classe 112 : {simple, simplifier, simplifiée} 4 Classe 48 : {optimisées, optimum} 4 Classe 60 : {cellules, cellulaire} 4 Classe 65 : {collecte, collectifs} 4 Classe 7 : {transfert, transférables, transférés, pénétrant, transferts, retransfert} 4 Classe 81 : {glycol, glycérol} 4 Classe 88 : {déshydratées, déshydratation}

12 GRAMEXCO (Evaluation 3) 4 Comparaison (découpage en mots vs quadri-grams). 4 Corpus de 50 pages. 4 Paramètres : –taille du segment = 10 phrases ; –lemmatisation des mots ; –suppression des hapax ; –suppression des n-grams dont la fréquence est 1. 4 Résultats : 174 segments, quadri-grams, 1757 mots. 4 Conclusions : l analyse en n-grams de caractères diminue la taille du lexique pour des corpus de plus de 200 pages.

13 Analyse numérique (questions2) 4 Est-il possible délargir cette méthodologie à dautres formes dencodage de linformation textuelle (html, xml, word, etc.)? 4 Que faire avec les « tags » typographiques ? 4 Pouvons nous généraliser lapproche à dautres types de données (image, son, graphe, etc.) ? 4 Quelles sont les unités dinformations ?

14 Analyse numérique (Réponses2) 4 Les unités dinformation doivent être des portions du document en input ; 4 Il doit être facile sur le plan informatique de repérer les unités dinformation ; 4 Les unités dinformation doivent être statistiquement comparables. Il doit être aisé den calculer les fréquences dapparition dans les différentes parties du document et par conséquent destimer leur distribution et la régularité à laquelle plusieurs unités cooccurrent dans les mêmes parties du document.

15 SATIM : un Système dAnalyse et de Traitement de lInformation Multidimensionnelle 4 Une plate-forme pour lanalyse de linformation multidimensionnelle –adaptable, –flexible, –modulaire –permet la création rapide d'une multitude de chaînes de traitement –peut être augmentée par de nouveaux modules

16 SATIM : un Système dAnalyse et de Traitement de lInformation Multidimensionnelle Document en input Représentation vectorielle à n dimensions Extraction des unités dinformation (plusieurs types d'unités d'information) segmentation Réduction de la taille de la matrice Réseau de neurones (classification) Classe 1 Classe 2 Classe n Projection de la représentation vectorielle par rapport à un type d'unités d'information Représentation matricielle Paramétrage de SATIM

17 SATIM : Paramétrage 4 Sélection de la base de données qui va recevoir les résultats ; 4 Sélection des interfaces ; 4 Sélection des modules de SATIM en fonction du type de linput; 4 Construction dune chaîne de traitement en fonction des objectifs

18 SATIM : état actuel du projet 4 Paramétrage de la structure de la base de données ; 4 Insertion et gestion des modules entrant dans la construction des chaînes de traitement


Télécharger ppt "Analyse Multidimensionnelle et Multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières Département de Mathématiques."

Présentations similaires


Annonces Google