L’analyse multidimensionnelle de l’information : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois.

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
M. SAILLOUR Lycée Notre Dame du Kreisker St Pol de Léon
Licence pro MPCQ : Cours
Additions soustractions
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
ACTIVITES NUMERIQUES Ranger les nombres Trouver le nombre manquant
Quest-ce que léducation du patient ? Chap. 1 – Q1.2 – Séq. 3 : Jeu de la matrice.
Les numéros 70 –
Les identités remarquables
Vocabulaire pour la passage du modèle conceptuel des données au modèle relationnel des données. MCDMRD EntitéTable PropriétésChamps, attribut IdentifiantClé
Outil de statistique textuelle FALLET Justine CRUAUD Marion
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Estimation de la survie comparaison des courbes de survie FRT C3.
Technologies et pédagogie actives en FGA. Plan de latelier 1.Introduction 2.Les technologies en éducation 3.iPads 4.TNI 5.Ordinateurs portables 6.Téléphones.
Révision (p. 130, texte) Nombres (1-100).
Cours du 20 septembre Exceptionnellement, le cours prévu pour le mercredi 20 septembre se donnera Mardi le 19 septembre de 13h30 à 15h20 à la salle 1112.
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Le Concours de Conaissance II Francais I decembre 2012.
L'emploi du temps au service du Projet d'établissement
La mesure de tendance centrale
Le Concours de Conaissance III Francais I fevrier 2013.
CODES.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Initiation à la conception de systèmes d'information
Classification Multi Source En Intégrant La Texture
Projet Master 2 Nouvelles Technologies et Handicap
Présentation générale
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
La vie du corail et autour du corail
Excel Introduction.
Le Concours de Conaissance Francais I novembre 2012.
Evaluation de la qualité des documents anciens
Calcul mental Calcul mental Année scolaire Classe de …
Titre : Implémentation des éléments finis sous Matlab
SATIM : Système d’Analyse et de Traitement de l’Information Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec.
Les chiffres & les nombres
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
Les Monnaies et billets du FRANC Les Monnaies Euro.
La problématique de la recherche de document Journée de formation 29 février 2008.
Représentation des systèmes dynamiques dans l’espace d’état
24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex.
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
L'apport des grammaires catégorielles dans l'extraction multilingues des termes complexes (*)(**) Ismaïl Biskri, (**) Jean-Guy Meunier, (*) Sylvain Joyal,
Analyse Multidimensionnelle et Multimédia Ismaïl Biskri (. ) (
P1 La participation des étudiants : une méthode particulière Grégory Piet & David Stans (assistant-doctorant) Département de Science politique Unité dEtudes.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
un paragraphe argumenté ?
École de bibliothéconomie et des sciences de linformation 1 Gestion de linformation électronique (GIE) Maîtrise en sciences de linformation EBSI Université.

Aire d’une figure par encadrement
Le cartel de l’essence Quatre marchés locaux au Québec Québec, le 26 février 2014 Guy Pinsonnault, McMillan LLP Pierre-Yves Guay, Bureau de la concurrence.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Le classement des documents au CDI. Le classement au C.D.I. Pour classer les livres, les CDI mais aussi de nombreuses bibliothèques et médiathèques utilisent.
Estimation fonctionnelle à l’aide de S.V.M.
À la délégation générale du Québec à Paris Conférence-débat Novembre 2013.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Nom:____________ Prénom: ___________
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Les réseaux de neurones à réservoir en traitement d’images
Institut de sciences et technologies Département d’informatique
Les réseaux de neurones à réservoir en traitement d’images
Pierre Malenfant Technologie 9 École du Carrefour
Chapitre 5 La représentation des données
TECHNOLOGIE – Avril 2008 Projet de programme 4 e : Thème : Confort et domotique Equipement intérieur Equipement extérieur Electroménager Vidéo, photo Son.
Séminaire IRIT-UT1 « Les nouveaux de 2010 » Novembre 2010 Les entrepôts de données et des documents = des entrepôts de documents ? Ronan Tournier
Transcription de la présentation:

L’analyse multidimensionnelle de l’information : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières Département de Mathématiques et d ’Informatique ** Université du Québec À Montréal Laboratoire d’Analyse Cognitive de l’Information Ismail_biskri@uqtr.ca Meunier.jean-guy@uqam.ca

Analyse multidimensionnelle textuelle standard (introduction) Premières opérations : partition du texte en segments (domaines de l’information) ; extraction du lexique (unités d’information, par exemple : les mots, les n-grams) ; représentation vectorielle (matricielle) du texte. Classification

Analyse multidimensionnelle textuelle standard (questions 1) Quelle est la définition d’une unité d’information ? Quelle est la définition informatique du mot ? lebensversicherungsgesellschaftsangestellter (employé d’une compagnie d’assurance vie) kathabthouhou (je l’ai écrit) Le n-Gram est il une solution ?

Analyse numérique textuelle standard (réponses2) La définition d’une unité d’information dépend de l’objectif de lecture et de compréhension; de l’usage dont sera fait le résultat ; Idem pour le choix du type de segmentation;

N-GRAM (définition ) Bi-grams, tri-grams, quadri-grams, … « bonjour le monde » Liste des bi-grams : bo, on, nj, jo, ou, ur, r_, _l, le, e_, _m, mo, on, nd, de. Liste des tri-grams : bon, onj, njo, jou, our, ur_, r_l, _le, le_, e_m, _mo, mon, ond, nde. Liste des quadri-grams : bonj, onjo, njou, jour, our_ ur_l, r_le, _le_, le_m, e_mo, _mon, mond, onde.

Segmentation Par phrases ou paragraphes pour rechercher les similarités intra-textuelles Par documents pour une classification documentaire préparatoire à une indexation.

GRAMEXCO – eGRAMEXCO (Deux chaînes de traitement) Texte Ascii Représentation matricielle Extraction des n-grams segmentation Réduction de la taille de la matrice Suppression des n-grams contenant des espaces Suppression des n-grams en dessous et au dessus d’un certain seuil Réseau de neurones (classification) Classe 1 Classe 2 Classe n

GRAMEXCO (les résultats)

GRAMEXCO (Evaluation 1) Corpus (extraits de documents web) de 50 pages. Format ASCII. Paramètres : taille du segment = 10 phrases ; Quadri-grams ; Lettres majuscules identiques aux lettres minuscules ; caractères non alphabétique remplacés par des espaces ; Suppression des n-grams contenant un ou plusieurs espaces ; suppression des n-grams dont la fréquence est 1. Résultats : 174 segments, 4 857 quadri-grams, 100 classes.

GRAMEXCO (Evaluation 1 - suite 1) classe 100 : segments 137 et 157. lexique interprétable : {bourse, francs, marchés, millions, mobile, pdg, prix}. le mot francs désigne la monnaie française et non la franchise ou les fameuses tribus "les francs". thème commun : le domaine financier. classe 54 : segments 141 et 143. lexiques interprétable : {appel, cour, décidé, juge}. le mot cour désigne la cour de justice et non la cour qu'on fait à une demoiselle, la cour de récréation, ou les toilettes des Belges. thème commun : affaires judiciaires.

GRAMEXCO (Evaluation 1- suite 2) classe 13 : segments 32, 35, 41 et 48 ; Lexique selon l’intersection : {russe} ; lexique selon l’union : {conservateur, socialisme, marxiste, conservateur, révolutionnaire, Dostoievski, doctrine, impérial, slavophile} ; thème commun : les slavophiles et la culture politique russe du 19ième siècle.

GRAMEXCO (Evaluation 2) Corpus de deux pages extraits d’un texte sur les biotechnologies (format ASCII). Paramètres : taille du segment = 1 mot ; Quadri-grams ; Lettres majuscules identiques aux lettres minuscules ; caractères non alphabétique remplacés par des espaces ; Suppression des n-grams contenant un ou plusieurs espaces ; suppression des n-grams dont la fréquence est 1.

GRAMEXCO (Evaluation 2 - suite) Classe 101 : {survécu, survie} Classe 102 : {utilisée, outil} Classe 110 : {congelé, décongelé, congelés, congélateur} Classe 112 : {simple, simplifier, simplifiée} Classe 48 : {optimisées, optimum} Classe 60 : {cellules, cellulaire} Classe 65 : {collecte, collectifs} Classe 7 : {transfert, transférables, transférés, pénétrant, transferts, retransfert} Classe 81 : {glycol, glycérol} Classe 88 : {déshydratées, déshydratation}

GRAMEXCO (Evaluation 3) Comparaison (découpage en mots vs quadri-grams). Corpus de 50 pages. Paramètres : taille du segment = 10 phrases ; lemmatisation des mots ; suppression des hapax ; suppression des n-grams dont la fréquence est 1. Résultats : 174 segments, 4 857 quadri-grams, 1757 mots. Conclusions : l ’analyse en n-grams de caractères diminue la taille du lexique pour des corpus de plus de 200 pages

GRAMEXCO : (Evaluation 4) classe 16 : segments 33 et 34. Le lexique (intersection): {station, shuttle, space, russian, nasa, launch, dock }. space désigne l'espace dans son sens cosmique et non un intervalle. shuttle désigne une navette spatiale et non le mouvement alternatif (shuttle movement). thème commun : la conquête spatiale. classe 2 : segments 2, 4 et 5. Le lexique : {court, investigation, israeli, sharon}. Court désigne une cour de justice et non ruelle, ou le verbe courtiser.

GRAMEXCO (Evaluation 4) La classe 24 : segments 53, 54 et 55. Le lexique : {hospitals, patient, Hollebeek, project, computing, data, cancer, breast, built, grid}. patient désigne un malade, et n ’introduit pas notion de patience ou d'endurance. Le thème : un projet médical en rapport avec le cancer du sein. La classe 44 : segments 98, 99, 100, 101, 102. Le lexique : {central, carat, diamonds, model, platinum, plain, weighing, head, hoop}. Pour un américain diamonds correspondra à une pierre précieuse et non à un terrain de base-ball

GRAMEXCO : (Evaluation 5) Classe 85 : {peace, peacekeepers, peecekeeping} Classe 97 : {accused, accusations} Classe 107 : {inquiries, required, inquiry} Classe 130 : {minor, minorities, minority} Classe 133 : {civilians, civilized} Classe 110 : {allegations, alleged} Classe 231 : {city, citizen} Classe 52 : {Belgium, belgian, belgians} Classe 14 : {thursdays, wednesday, tuesday} Classe 212 : {imprisonment, prison, prisoners, prisons} Classe 60 : {prosecute, prosecuted, prosecutor, security}

GRAMEXCO : (Evaluation 6) Corpus multilingue mixte anglais + français Résultat important : séparation parfaite des segments français et des segments anglais.

Conclusion Étant donnée que la définition des unités d’information est indépendante de toute contrainte langagière est il possible de généraliser GRAMEXCO à d’autres sources d’encodage de l’information : image, son, vidéo, … ? Nous pensons que oui : nos travaux futurs.