Analyse Multidimensionnelle et Multimédia Ismaïl Biskri (. ) (

Slides:



Advertisements
Présentations similaires
Présentation Assistée par Ordinateur Visite guidée
Advertisements

CALCUL LITTERAL Bernard Izard 4° Avon LT
Niveau Intermédiaire 12/01/ Visualiser votre groupe de TD ( Visualiser mon emploi du temps) 12/01/
1 La mise en œuvre de lannexe statistique du PNAI Michèle Lelièvre (DREES) Emmanuelle Nauze-Fichet (DREES) Groupe de travail du CNLE du 20 mars 2009.
Une approche informationnelle de la restauration d’images
MAJORDOME : Assistant personnel et Messagerie unifiée G. Chollet, L
Le developpement web  Préparé par : ASSAL Lamiae JAMALI Zakarya
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Outil de statistique textuelle FALLET Justine CRUAUD Marion
METHODOLOGIE.
« Modélisation de lapprentissage des mots écrits avec un réseau de type ART » Stage de fin détude de DESS de Sciences Cognitives Appliquées Effectué
1 Nicole Tourigny - Le raisonnement à partir de cas : une aide à la formation en analyse de sécurité routière Le raisonnement à partir de cas : une aide.
CREATION DE FEUILLE DE STYLE pour structuré le document XML
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
La recherche dinformation en science politique Formation présentée par Mathieu Thomas (bibliothécaire)
Maillage et Implantations
PLAN CECIAA Origines du projet Objectifs Solutions Techniques
Archiaid scrl depuis 1989.
Une théorie générale des réseaux connexionnistes
Classification Multi Source En Intégrant La Texture
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
Web Sémantique: Le Relief Actuel
Excel Introduction.
Evaluation de la qualité des documents anciens
Modèles de Leontieff Montage préparé par : André Ross
Rappel... Solution itérative de systèmes linéaires (suite et fin).
SATIM : Système d’Analyse et de Traitement de l’Information Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec.
Analyse des besoins en informatique du SRI
SCIENCES DE L ’INGENIEUR
Règles & conseils de base en PreAO
CHAINE DE CARACTERES : Définition :
La problématique de la recherche de document Journée de formation 29 février 2008.
Représentation des systèmes dynamiques dans l’espace d’état
La conception d hypermédias Cours Ergonomie des Interaction Personne-Machine 6 Décembre 2006 Présentation réalisée par Mireille Bétrancourt (
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Universté de la Manouba
L'apport des grammaires catégorielles dans l'extraction multilingues des termes complexes (*)(**) Ismaïl Biskri, (**) Jean-Guy Meunier, (*) Sylvain Joyal,
L’analyse multidimensionnelle de l’information : du texte au multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois.
un paragraphe argumenté ?
École de bibliothéconomie et des sciences de linformation 1 Gestion de linformation électronique (GIE) Maîtrise en sciences de linformation EBSI Université.
Recherche par mots-clés vs recherche en langue naturelle.
Interprétation automatique
Soutenance de stage 16 Mai au 5 Août 2011
Soutenance de stage 16 Mai au 5 Août 2011
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
XPath XML Path UP Web Année universitaire
Université Numérique de la Nièvre
Arbres binaires et tables de hachage
Crawlers Parallèles Présentation faite par: Mélanie AMPRIMO
VOUS PENSIEZ POUVOIR PROTÉGER VOS DONNÉES AVEC LE CHIFFREMENT D’OFFICE ? CRYPTANALYSE DE MICROSOFT OFFICE 2003.
Les réseaux de neurones à réservoir en traitement d’images
Institut de sciences et technologies Département d’informatique
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Traitement de texte (Premiers pas)
Présentation RFIA janvier 2002
PLAN 1. Introduction 1.1. Sites de presse actuels 1.2. Objectif de notre site 2. Description du modèle 3. Outils utilisés 3.1. SVG 3.2. PHP et MySQL 4.
Les réseaux de neurones à réservoir en traitement d’images
Calendrier (sur MathSV)
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Module : Langage XML (21h)
* Enseignements d’exploration en seconde : SES et PFEG
L’analyse de système : le cas des hypertextes Cours Ergonomie des Interactions Personne-Machine 28 octobre 2009 Présentation réalisée par Mireille Bétrancourt.
Sabrina Tollari, Hervé Glotin, Jacques Le Maitre
Introduction à MathML Par Katia Larrivée UQO Le 18 mars 2004.
Les systèmes de gestion de contenu
L'annotation structurelle François Daoust Centre ATO,Université du Québec à Montréal Yves Marcoux EBSI, Université de Montréal Jean-Marie Viprey LASELDI,
Informatique et sciences du numérique
PROJET DE SESSION PRÉSENTÉ PAR : Rosemarie McHugh DANS LE CADRE DU COURS : SCG Réalisation d’applications en SIG 16 avril 2007.
Un espace collaboratif pour le CODEV quelles fonctionnalités?
Séminaire IRIT-UT1 « Les nouveaux de 2010 » Novembre 2010 Les entrepôts de données et des documents = des entrepôts de documents ? Ronan Tournier
Transcription de la présentation:

Analyse Multidimensionnelle et Multimédia Ismaïl Biskri (. ) ( Analyse Multidimensionnelle et Multimédia Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois Rivières Département de Mathématiques et d ’Informatique ** Université du Québec À Montréal Laboratoire d’Analyse Cognitive de l’Information Ismail_biskri@uqtr.ca Meunier.jean-guy@uqam.ca

Analyse numérique textuelle standard (introduction) Premières opérations : partition du texte en segments (domaines de l’information) ; extraction du lexique (unités d’information, par exemple : les mots, les n-grams) ; représentation vectorielle (matricielle) du texte.

Analyse numérique textuelle standard (questions1) Quelle est la définition d’une unité d’information ? Quelle est la définition informatique du mot ? lebensversicherungsgesellschaftsangestellter (employé d’une compagnie d’assurance vie) kathabthouhou (je l’ai écrit) Le n-Gram est il une solution ?

Analyse numérique textuelle standard (réponses1) La définition d’une unité d’information dépend de l’objectif de lecture et de compréhension; de l’usage dont sera fait le résultat ; Idem pour le choix du type de segmentation;

NUMEXCO - GRAMEXCO – eGRAMEXCO (Trois chaînes de traitement) Texte Ascii Représentation matricielle Extraction des n-grams segmentation Réduction de la taille de la matrice Suppression des n-grams contenant des espaces Suppression des n-grams en dessous et au dessus d’un certain seuil Réseau de neurones (classification) Classe 1 Classe 2 Classe n

GRAMEXCO (les résultats)

GRAMEXCO (Evaluation 1) Corpus (extraits de documents web) de 50 pages. Format ASCII. Paramètres : taille du segment = 10 phrases ; Quadri-grams ; Lettres majuscules identiques aux lettres minuscules ; caractères non alphabétique remplacés par des espaces ; Suppression des n-grams contenant un ou plusieurs espaces ; suppression des n-grams dont la fréquence est 1. Résultats : 174 segments, 4 857 quadri-grams, 100 classes.

GRAMEXCO (Evaluation 1 - suite 1) classe 100 : segments 137 et 157. lexique interprétable : {bourse, francs, marchés, millions, mobile, pdg, prix}. le mot francs désigne la monnaie française et non la franchise ou les fameuses tribus "les francs". thème commun : le domaine financier. classe 54 : segments 141 et 143. lexiques interprétable : {appel, cour, décidé, juge}. le mot cour désigne la cour de justice et non la cour qu'on fait à une demoiselle, la cour de récréation, ou les toilettes des Belges. thème commun : affaires judiciaires.

GRAMEXCO (Evaluation 1- suite 2) classe 13 : segments 32, 35, 41 et 48 ; Lexique selon l’intersection : {russe} ; lexique selon l’union : {conservateur, socialisme, marxiste, conservateur, révolutionnaire, Dostoievski, doctrine, impérial, slavophile} ; thème commun : les slavophiles et la culture politique russe du 19ième siècle.

GRAMEXCO (Evaluation 2) Corpus de deux pages extraits d’un texte sur les biotechnologies (format ASCII). Paramètres : taille du segment = 1 mot ; Quadri-grams ; Lettres majuscules identiques aux lettres minuscules ; caractères non alphabétique remplacés par des espaces ; Suppression des n-grams contenant un ou plusieurs espaces ; suppression des n-grams dont la fréquence est 1.

GRAMEXCO (Evaluation 2 - suite) Classe 101 : {survécu, survie} Classe 102 : {utilisée, outil} Classe 110 : {congelé, décongelé, congelés, congélateur} Classe 112 : {simple, simplifier, simplifiée} Classe 48 : {optimisées, optimum} Classe 60 : {cellules, cellulaire} Classe 65 : {collecte, collectifs} Classe 7 : {transfert, transférables, transférés, pénétrant, transferts, retransfert} Classe 81 : {glycol, glycérol} Classe 88 : {déshydratées, déshydratation}

GRAMEXCO (Evaluation 3) Comparaison (découpage en mots vs quadri-grams). Corpus de 50 pages. Paramètres : taille du segment = 10 phrases ; lemmatisation des mots ; suppression des hapax ; suppression des n-grams dont la fréquence est 1. Résultats : 174 segments, 4 857 quadri-grams, 1757 mots. Conclusions : l ’analyse en n-grams de caractères diminue la taille du lexique pour des corpus de plus de 200 pages.

Analyse numérique (questions2) Est-il possible d’élargir cette méthodologie à d’autres formes d’encodage de l’information textuelle (html, xml, word, etc.)? Que faire avec les « tags » typographiques ? Pouvons nous généraliser l’approche à d’autres types de données (image, son, graphe, etc.) ? Quelles sont les unités d’informations ?

Analyse numérique (Réponses2) Les unités d’information doivent être des portions du document en input ; Il doit être facile sur le plan informatique de repérer les unités d’information ; Les unités d’information doivent être statistiquement comparables. Il doit être aisé d’en calculer les fréquences d’apparition dans les différentes parties du document et par conséquent d’estimer leur distribution et la régularité à laquelle plusieurs unités cooccurrent dans les mêmes parties du document.

Une plate-forme pour l’analyse de l’information multidimensionnelle SATIM : un Système d’Analyse et de Traitement de l’Information Multidimensionnelle Une plate-forme pour l’analyse de l’information multidimensionnelle adaptable, flexible, modulaire permet la création rapide d'une multitude de chaînes de traitement peut être augmentée par de nouveaux modules

SATIM : un Système d’Analyse et de Traitement de l’Information Multidimensionnelle Document en input Représentation vectorielle à n dimensions Extraction des unités d’information (plusieurs types d'unités d'information) segmentation Réduction de la taille de la matrice Réseau de neurones (classification) Classe 1 Classe 2 Classe n Projection de la représentation vectorielle par rapport à un type d'unités d'information Représentation matricielle Paramétrage de SATIM

SATIM : Paramétrage Sélection de la base de données qui va recevoir les résultats ; Sélection des interfaces ; Sélection des modules de SATIM en fonction du type de l’input; Construction d’une chaîne de traitement en fonction des objectifs

SATIM : état actuel du projet Paramétrage de la structure de la base de données ; Insertion et gestion des modules entrant dans la construction des chaînes de traitement