La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières.

Présentations similaires


Présentation au sujet: "Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières."— Transcription de la présentation:

1 Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières Département de Mathématiques et d Informatique ** Université du Québec À Montréal Laboratoire dAnalyse Cognitive de lInformation

2 Analyse multidimensionnelle textuelle standard (introduction) 4 Premières opérations : –partition du texte en segments (domaines de linformation) ; –extraction du lexique (unités dinformation, par exemple : les mots, les n-grams) ; –représentation vectorielle (matricielle) du texte. –Classification

3 Analyse multidimensionnelle textuelle standard (questions 1) 4 Quelle est la définition dune unité dinformation ? 4 Quelle est la définition informatique du mot ? – lebensversicherungsgesellschaftsangestellter (employé dune compagnie dassurance vie) –kathabthouhou (je lai écrit) 4 Le n-Gram est il une solution ?

4 Analyse numérique textuelle standard (réponses2) 4 La définition dune unité dinformation dépend –de lobjectif de lecture et de compréhension; –de lusage dont sera fait le résultat ; 4 Idem pour le choix du type de segmentation;

5 N-GRAM (définition ) 4 Bi-grams, tri-grams, quadri-grams, … 4 « bonjour le monde » –Liste des bi-grams : bo, on, nj, jo, ou, ur, r_, _l, le, e_, _m, mo, on, nd, de. –Liste des tri-grams : bon, onj, njo, jou, our, ur_, r_l, _le, le_, e_m, _mo, mon, ond, nde. –Liste des quadri-grams : bonj, onjo, njou, jour, our_ ur_l, r_le, _le_, le_m, e_mo, _mon, mond, onde.

6 Segmentation 4 Par phrases ou paragraphes pour rechercher les similarités intra-textuelles 4 Par documents pour une classification documentaire préparatoire à une indexation.

7 GRAMEXCO – eGRAMEXCO (Deux chaînes de traitement) Texte Ascii Représentation matricielle Extraction des n-grams segmentation Réduction de la taille de la matrice Suppression des n-grams contenant des espaces Suppression des n-grams en dessous et au dessus dun certain seuil Réseau de neurones (classification) Classe 1 Classe 2 Classe n

8 GRAMEXCO (les résultats)

9 GRAMEXCO (Evaluation 1) 4 Corpus (extraits de documents web) de 50 pages. Format ASCII. 4 Paramètres : –taille du segment = 10 phrases ; –Quadri-grams ; –Lettres majuscules identiques aux lettres minuscules ; –caractères non alphabétique remplacés par des espaces ; –Suppression des n-grams contenant un ou plusieurs espaces ; –suppression des n-grams dont la fréquence est 1. 4 Résultats : 174 segments, quadri-grams, 100 classes.

10 GRAMEXCO (Evaluation 1 - suite 1) 4 classe 100 : –segments 137 et 157. –lexique interprétable : {bourse, francs, marchés, millions, mobile, pdg, prix}. –le mot francs désigne la monnaie française et non la franchise ou les fameuses tribus "les francs". –thème commun : le domaine financier. 4 classe 54 : –segments 141 et 143. –lexiques interprétable : {appel, cour, décidé, juge}. –le mot cour désigne la cour de justice et non la cour qu'on fait à une demoiselle, la cour de récréation, ou les toilettes des Belges. –thème commun : affaires judiciaires.

11 GRAMEXCO (Evaluation 1- suite 2) 4 classe 13 : –segments 32, 35, 41 et 48 ; –Lexique selon lintersection : {russe} ; –lexique selon lunion : {conservateur, socialisme, marxiste, conservateur, révolutionnaire, Dostoievski, doctrine, impérial, slavophile} ; –thème commun : les slavophiles et la culture politique russe du 19 ième siècle.

12 GRAMEXCO (Evaluation 2) 4 Corpus de deux pages extraits dun texte sur les biotechnologies (format ASCII). 4 Paramètres : –taille du segment = 1 mot ; –Quadri-grams ; –Lettres majuscules identiques aux lettres minuscules ; –caractères non alphabétique remplacés par des espaces ; –Suppression des n-grams contenant un ou plusieurs espaces ; –suppression des n-grams dont la fréquence est 1.

13 GRAMEXCO (Evaluation 2 - suite) 4 Classe 101 : {survécu, survie} 4 Classe 102 : {utilisée, outil} 4 Classe 110 : {congelé, décongelé, congelés, congélateur} 4 Classe 112 : {simple, simplifier, simplifiée} 4 Classe 48 : {optimisées, optimum} 4 Classe 60 : {cellules, cellulaire} 4 Classe 65 : {collecte, collectifs} 4 Classe 7 : {transfert, transférables, transférés, pénétrant, transferts, retransfert} 4 Classe 81 : {glycol, glycérol} 4 Classe 88 : {déshydratées, déshydratation}

14 GRAMEXCO (Evaluation 3) 4 Comparaison (découpage en mots vs quadri-grams). 4 Corpus de 50 pages. 4 Paramètres : –taille du segment = 10 phrases ; –lemmatisation des mots ; –suppression des hapax ; –suppression des n-grams dont la fréquence est 1. 4 Résultats : 174 segments, quadri-grams, 1757 mots. 4 Conclusions : l analyse en n-grams de caractères diminue la taille du lexique pour des corpus de plus de 200 pages

15 GRAMEXCO : (Evaluation 4) classe 16 : segments 33 et 34. Le lexique (intersection): {station, shuttle, space, russian, nasa, launch, dock }. space désigne l'espace dans son sens cosmique et non un intervalle. shuttle désigne une navette spatiale et non le mouvement alternatif (shuttle movement). thème commun : la conquête spatiale. classe 2 : segments 2, 4 et 5. Le lexique : {court, investigation, israeli, sharon}. Court désigne une cour de justice et non ruelle, ou le verbe courtiser.

16 GRAMEXCO (Evaluation 4) La classe 24 : segments 53, 54 et 55. Le lexique : {hospitals, patient, Hollebeek, project, computing, data, cancer, breast, built, grid}. patient désigne un malade, et n introduit pas notion de patience ou d'endurance. Le thème : un projet médical en rapport avec le cancer du sein. La classe 44 : segments 98, 99, 100, 101, 102. Le lexique : {central, carat, diamonds, model, platinum, plain, weighing, head, hoop}. Pour un américain diamonds correspondra à une pierre précieuse et non à un terrain de base-ball

17 GRAMEXCO : (Evaluation 5) 4 Classe 85 :{peace, peacekeepers, peecekeeping} 4 Classe 97 :{accused, accusations} 4 Classe 107 : {inquiries, required, inquiry} 4 Classe 130 : {minor, minorities, minority} 4 Classe 133 : {civilians, civilized} 4 Classe 110 : {allegations, alleged} 4 Classe 231 : {city, citizen} 4 Classe 52 : {Belgium, belgian, belgians} 4 Classe 14 : {thursdays, wednesday, tuesday} 4 Classe 212 : {imprisonment, prison, prisoners, prisons} Classe 60 :{prosecute, prosecuted, prosecutor, security}

18 GRAMEXCO : (Evaluation 6) 4 Corpus multilingue mixte anglais + français 4 Résultat important : séparation parfaite des segments français et des segments anglais.

19 Conclusion 4 Étant donnée que la définition des unités dinformation est indépendante de toute contrainte langagière est il possible de généraliser GRAMEXCO à dautres sources dencodage de linformation : image, son, vidéo, … ? 4 Nous pensons que oui : nos travaux futurs.


Télécharger ppt "Lanalyse multidimensionnelle de linformation : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières."

Présentations similaires


Annonces Google