L’analyse multidimensionnelle de l’information : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières Département de Mathématiques et d ’Informatique ** Université du Québec À Montréal Laboratoire d’Analyse Cognitive de l’Information Ismail_biskri@uqtr.ca Meunier.jean-guy@uqam.ca
Analyse multidimensionnelle textuelle standard (introduction) Premières opérations : partition du texte en segments (domaines de l’information) ; extraction du lexique (unités d’information, par exemple : les mots, les n-grams) ; représentation vectorielle (matricielle) du texte. Classification
Analyse multidimensionnelle textuelle standard (questions 1) Quelle est la définition d’une unité d’information ? Quelle est la définition informatique du mot ? lebensversicherungsgesellschaftsangestellter (employé d’une compagnie d’assurance vie) kathabthouhou (je l’ai écrit) Le n-Gram est il une solution ?
Analyse numérique textuelle standard (réponses2) La définition d’une unité d’information dépend de l’objectif de lecture et de compréhension; de l’usage dont sera fait le résultat ; Idem pour le choix du type de segmentation;
N-GRAM (définition ) Bi-grams, tri-grams, quadri-grams, … « bonjour le monde » Liste des bi-grams : bo, on, nj, jo, ou, ur, r_, _l, le, e_, _m, mo, on, nd, de. Liste des tri-grams : bon, onj, njo, jou, our, ur_, r_l, _le, le_, e_m, _mo, mon, ond, nde. Liste des quadri-grams : bonj, onjo, njou, jour, our_ ur_l, r_le, _le_, le_m, e_mo, _mon, mond, onde.
Segmentation Par phrases ou paragraphes pour rechercher les similarités intra-textuelles Par documents pour une classification documentaire préparatoire à une indexation.
GRAMEXCO – eGRAMEXCO (Deux chaînes de traitement) Texte Ascii Représentation matricielle Extraction des n-grams segmentation Réduction de la taille de la matrice Suppression des n-grams contenant des espaces Suppression des n-grams en dessous et au dessus d’un certain seuil Réseau de neurones (classification) Classe 1 Classe 2 Classe n
GRAMEXCO (les résultats)
GRAMEXCO (Evaluation 1) Corpus (extraits de documents web) de 50 pages. Format ASCII. Paramètres : taille du segment = 10 phrases ; Quadri-grams ; Lettres majuscules identiques aux lettres minuscules ; caractères non alphabétique remplacés par des espaces ; Suppression des n-grams contenant un ou plusieurs espaces ; suppression des n-grams dont la fréquence est 1. Résultats : 174 segments, 4 857 quadri-grams, 100 classes.
GRAMEXCO (Evaluation 1 - suite 1) classe 100 : segments 137 et 157. lexique interprétable : {bourse, francs, marchés, millions, mobile, pdg, prix}. le mot francs désigne la monnaie française et non la franchise ou les fameuses tribus "les francs". thème commun : le domaine financier. classe 54 : segments 141 et 143. lexiques interprétable : {appel, cour, décidé, juge}. le mot cour désigne la cour de justice et non la cour qu'on fait à une demoiselle, la cour de récréation, ou les toilettes des Belges. thème commun : affaires judiciaires.
GRAMEXCO (Evaluation 1- suite 2) classe 13 : segments 32, 35, 41 et 48 ; Lexique selon l’intersection : {russe} ; lexique selon l’union : {conservateur, socialisme, marxiste, conservateur, révolutionnaire, Dostoievski, doctrine, impérial, slavophile} ; thème commun : les slavophiles et la culture politique russe du 19ième siècle.
GRAMEXCO (Evaluation 2) Corpus de deux pages extraits d’un texte sur les biotechnologies (format ASCII). Paramètres : taille du segment = 1 mot ; Quadri-grams ; Lettres majuscules identiques aux lettres minuscules ; caractères non alphabétique remplacés par des espaces ; Suppression des n-grams contenant un ou plusieurs espaces ; suppression des n-grams dont la fréquence est 1.
GRAMEXCO (Evaluation 2 - suite) Classe 101 : {survécu, survie} Classe 102 : {utilisée, outil} Classe 110 : {congelé, décongelé, congelés, congélateur} Classe 112 : {simple, simplifier, simplifiée} Classe 48 : {optimisées, optimum} Classe 60 : {cellules, cellulaire} Classe 65 : {collecte, collectifs} Classe 7 : {transfert, transférables, transférés, pénétrant, transferts, retransfert} Classe 81 : {glycol, glycérol} Classe 88 : {déshydratées, déshydratation}
GRAMEXCO (Evaluation 3) Comparaison (découpage en mots vs quadri-grams). Corpus de 50 pages. Paramètres : taille du segment = 10 phrases ; lemmatisation des mots ; suppression des hapax ; suppression des n-grams dont la fréquence est 1. Résultats : 174 segments, 4 857 quadri-grams, 1757 mots. Conclusions : l ’analyse en n-grams de caractères diminue la taille du lexique pour des corpus de plus de 200 pages
GRAMEXCO : (Evaluation 4) classe 16 : segments 33 et 34. Le lexique (intersection): {station, shuttle, space, russian, nasa, launch, dock }. space désigne l'espace dans son sens cosmique et non un intervalle. shuttle désigne une navette spatiale et non le mouvement alternatif (shuttle movement). thème commun : la conquête spatiale. classe 2 : segments 2, 4 et 5. Le lexique : {court, investigation, israeli, sharon}. Court désigne une cour de justice et non ruelle, ou le verbe courtiser.
GRAMEXCO (Evaluation 4) La classe 24 : segments 53, 54 et 55. Le lexique : {hospitals, patient, Hollebeek, project, computing, data, cancer, breast, built, grid}. patient désigne un malade, et n ’introduit pas notion de patience ou d'endurance. Le thème : un projet médical en rapport avec le cancer du sein. La classe 44 : segments 98, 99, 100, 101, 102. Le lexique : {central, carat, diamonds, model, platinum, plain, weighing, head, hoop}. Pour un américain diamonds correspondra à une pierre précieuse et non à un terrain de base-ball
GRAMEXCO : (Evaluation 5) Classe 85 : {peace, peacekeepers, peecekeeping} Classe 97 : {accused, accusations} Classe 107 : {inquiries, required, inquiry} Classe 130 : {minor, minorities, minority} Classe 133 : {civilians, civilized} Classe 110 : {allegations, alleged} Classe 231 : {city, citizen} Classe 52 : {Belgium, belgian, belgians} Classe 14 : {thursdays, wednesday, tuesday} Classe 212 : {imprisonment, prison, prisoners, prisons} Classe 60 : {prosecute, prosecuted, prosecutor, security}
GRAMEXCO : (Evaluation 6) Corpus multilingue mixte anglais + français Résultat important : séparation parfaite des segments français et des segments anglais.
Conclusion Étant donnée que la définition des unités d’information est indépendante de toute contrainte langagière est il possible de généraliser GRAMEXCO à d’autres sources d’encodage de l’information : image, son, vidéo, … ? Nous pensons que oui : nos travaux futurs.