La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les logiciels de gestion et visualisation de l'information de l'I.R.I.T. : La Plate-forme TETRALOGIE Bernard DOUSSET Institut de Recherche.

Présentations similaires


Présentation au sujet: "Les logiciels de gestion et visualisation de l'information de l'I.R.I.T. : La Plate-forme TETRALOGIE Bernard DOUSSET Institut de Recherche."— Transcription de la présentation:

1

2 Les logiciels de gestion et visualisation de l'information de l'I.R.I.T. : La Plate-forme TETRALOGIE Bernard DOUSSET Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes dInformation Généralisés (SIG) Université Paul Sabatier (Toulouse III)

3 07/11/2003TETRALOGIE2 Plan de la présentation Historique Architecture Contribution Conclusion en analyse textuelle en analyse exploratoire en visualisation bilan perspectives Interactivité Travail en équipe Principe général Définitions et buts La veille stratégique Lanalyse de données La plate-forme

4 07/11/2003TETRALOGIE3 Cycle de lintelligence économique Scénarios élaborer Stratégie choisir Cibles déterminer & hiérarchiser Sources identifier & sélectionner Informations utiles évaluer & collecter Informations élaborées analyser & interpréter Décideur synthétiser Connaissance mémoriser & organiser valider et diffuser linformation exogène Connaissance diffuser linformation endogène Connaissance diffusion restreinte Veille stratégique Secteurs dactivité HistoriqueArchitectureContributionConclusionHistorique Définitions et buts I

5 07/11/2003TETRALOGIE4 n Etudier lenvironnement et lévolution –Des marchés –Des coopérations –Des alliances –Des participations –De l'innovation –Des ruptures –Des modes –Des implantations –Des transferts de technologie –Des dépôts de brevets –Des équipes de recherche –De la terminologie –Des bases documentaires –Des publications –De la publicité –Des appels d'offres HistoriqueArchitectureContributionConclusionHistorique Définitions et buts II

6 07/11/2003TETRALOGIE5 n Le processus de veille stratégique comporte cinq phases : –la sélection des données utiles : terminologie, dates, acteurs (auteurs, organismes, pays…)terminologie, dates, acteurs (auteurs, organismes, pays…) –la préparation des données : pré-traitements : nettoyages [Zipf49], synonymies [Porter80]pré-traitements : nettoyages [Zipf49], synonymies [Porter80] transformations : modèle de représentation des données [Salton89]transformations : modèle de représentation des données [Salton89] –lanalyse des données: classifications, règles d'associations, séquences,...classifications, règles d'associations, séquences,... –linterprétation et lévaluation : basées en grande partie sur les visualisationsbasées en grande partie sur les visualisations –lexploitation et donc la prise de décision HistoriqueArchitectureContributionConclusionHistorique La veille stratégique

7 07/11/2003TETRALOGIE6 n Analyses multidimensionnelles –Fondements : Spearman & Pearson dès 1904 –Analyse canonique et ACP : [Hotteling35] –Analyse des correspondances : [Hirschfeld35] et [Guttman41] –Analyse procustéennes : [Schonemann65] –En France Analyse Factorielle des Correspondances : [Benzécri73]Analyse Factorielle des Correspondances : [Benzécri73] Analyse de deux tableaux : [Lafosse85]Analyse de deux tableaux : [Lafosse85] Compléments en analyse procustéenne : [Fichet87]Compléments en analyse procustéenne : [Fichet87] HistoriqueArchitectureContributionConclusionHistorique Lanalyse de données

8 07/11/2003TETRALOGIE7 n Classifications –Taxonomie par CAH [Sokal63] –Centres mobiles [Forgy65] –Nuées dynamiques [Diday71] –Partitionnements Itératifs : Minimisation de la coupure [KL70], [FM82]Itératifs : Minimisation de la coupure [KL70], [FM82] Spectraux : VP de la matrice de Laplace [Hall70], [Hagen91]Spectraux : VP de la matrice de Laplace [Hall70], [Hagen91] Multi-niveaux : regroupement + itératif KMETIS [Karypis98]Multi-niveaux : regroupement + itératif KMETIS [Karypis98] Stochastiques : Markov CLustering [Van Dongen00]Stochastiques : Markov CLustering [Van Dongen00] HistoriqueArchitectureContributionConclusionHistorique Lanalyse de données

9 07/11/2003TETRALOGIE8 n Espace paramétrique en 3D : T. Benjamaà (Thèse) n 1987 Trilogie 3D (ACP, AFC, CAH, CPP) n Analyse textuelle, évolution : T. Dkaki (Thèse) n ° Plate-forme Tétralogie 4D n 1998 Visualisation interactive de CAH (DEA), signaux faibles (Stage) n 1999 Conception de système dIE : M. Salle (Thèse et Medesiie) n 2002 Ingénierie du besoin en IE : T. Zid (Thèse et Medesiie) n 2003 Grands graphes, géostratégie : S. Karouach (Thèse) n 2004 Adéquation aux profile des entreprises : S. Hussein (Thèse) n 2005 Morphing de graphes évolutifs : E. Loubier (en Thèse) n 2007 Le portail Xplor (Analyses en ligne) : I. Ghalamallah (en Thèse) HistoriqueArchitectureContributionConclusionHistorique Plate-forme Tétralogie

10 07/11/2003TETRALOGIE9 Pourquoi un système interactif? n En Amont de lanalyse linteractivité sert à : –mettre au point les équations de recherche –évaluer les corpus (volume, pertinence, bruit) –choisir et valider le ou les formats de sortie –superviser la collecte du corpus –contrôler les dictionnaires (forme et volume) –choisir les filtres +, -, thématiques,... –valider les synonymies et lindexation (Multi-termes) HistoriqueEtat de lartContributionConclusionArchitecture Interactivité I

11 07/11/2003TETRALOGIE10 Pourquoi un système interactif? n Pendant lanalyse linteractivité permet de –sélectionner et contrôler les matrices de croisement –choisir des méthodes à déployer –piloter ces méthodes (localement ou à distance) –extraire les connaissances via les visualisations –choisir des vues à conserver –consulter les experts via le réseau –restituer lanalyse au décideur HistoriqueEtat de lartContributionConclusionArchitecture Interactivité II

12 07/11/2003TETRALOGIE11 BD Web CD Documentaliste Analyste Décideur Expert Serveur n Connexions entre acteurs de la veille HistoriqueEtat de lartContributionConclusionArchitecture Travail en équipe

13 07/11/2003TETRALOGIE12 X 3D3D Cooc Dico 3 Dico 1 Dico 2 Méta 2° Niv. Corpus 4 Corpus 3 Corpus 2 1' Corpus 1 BD Web CD Méta- données HistoriqueEtat de lartContributionConclusionArchitecture Principe général

14 07/11/2003TETRALOGIE13 HistoriqueArchitectureContributionConclusionContribution en analyse textuelle n Extraction des dictionnaires Courbe de chargeDictionnaire de synonymesDictionnaire + ou -

15 07/11/2003TETRALOGIE14 HistoriqueArchitectureContributionConclusionContribution en analyse textuelle n Détection des multi-termes Dictionnaire de multi-termes Dictionnaire de synonymes Dictionnaire de mots vides Seuil de détection statistiqueTraitement statistique Traitement morphologique Traitement syntaxique

16 07/11/2003TETRALOGIE15 HistoriqueArchitectureContributionConclusionContribution en analyse textuelle n Croisements 2D Matrice carréeMatrice asymétriqueFiltre positif ou négatifDictionnaire de synonymesCourbe de charge

17 07/11/2003TETRALOGIE16 HistoriqueArchitectureContributionConclusionContribution en analyse textuelle n Croisements 3D Troisième variableDictionnaire de synonymesFiltre

18 07/11/2003TETRALOGIE17 HistoriqueArchitectureContributionConclusionContribution en analyse exploratoire n Algorithmes de tris de matrices Tri par classes de connexité Tri par blocs diagonaux

19 07/11/2003TETRALOGIE18 HistoriqueArchitectureContributionConclusionContribution en analyse exploratoire Cartes des coordonnées en 4D Cercle des corrélations Synchronisation n Analyse en composantes principales (ACP) –sapplique aux données quantitative comme les tableaux individus x variables –elle utilise un espace réduit de 2 à 4 D –deux cartes en sont déduites celle des coordonnées des individuscelle des coordonnées des individus cercle de corrélation des variablescercle de corrélation des variables

20 07/11/2003TETRALOGIE19 HistoriqueArchitectureContributionConclusionContribution en analyse exploratoire n Analyse factorielle des correspondances (AFC) –sapplique aux données qualitatives comme les matrices binaires, de contingence, de cooccurrence –cest un ACP sur les profils –elle ne génère quune carte –la proximité entre modalités des deux variables a un sens –on peut manipuler séparément la carte des colonnes –et exporter son azimut sur la carte complète

21 07/11/2003TETRALOGIE20 HistoriqueArchitectureContributionConclusionContribution en analyse exploratoire n Analyse factorielle des correspondances multiple (AFCM) –nous lappliquons aux matrices de cooccurrences 3D –la 3° variable est le plus souvent le temps –L AFC peut être appliquée à un des tableaux (les autres sont projetés)à un des tableaux (les autres sont projetés) à tous les tableaux empilésà tous les tableaux empilés à la somme des tableaux ( cas statique)à la somme des tableaux ( cas statique) –Chaque ligne est représentée par une série de points –On peut tracer des trajectoires

22 07/11/2003TETRALOGIE21 HistoriqueArchitectureContributionConclusionContribution en analyse exploratoire n Analyse procustéenne (de Procuste ou Procrustes) –Celui qui allonge en tirant, devenu le symbole de l uniformité –"Dans la légende grecque, Procruste est un bandit qui hante la route près d'Eleusis. Il invite des voyageurs, quil étend sur un des deux lits qui meublent son logis, l'un très long, l'autre très court. Si l'hôte est trop grand pour le petit lit, Procuste lui ampute les jambes, s'il occupe l'autre, Procuste l'étire jusqu'à ce quil cadre avec le lit."

23 07/11/2003TETRALOGIE22 HistoriqueArchitectureContributionConclusionContribution en analyse exploratoire n Analyse procustéenne n Enlever: –la translation moyenne –la rotation moyenne –lhomothétie moyenne G1G1 G2G2 G3G3 G4G4 G1G1 G2G2 G3G3 G4G4 G4G4 Evolution non standard

24 07/11/2003TETRALOGIE23 HistoriqueArchitectureContributionConclusionContribution en analyse exploratoire Niveau de coupure à 4 classes Niveau de coupure à 8 classes n Classification ascendante hiérarchique (CAH) –méthode non supervisée –on a le choix de la distance (euclidienne, max, sigma, …) –on a le choix du mode dagrégation (centre, inf, sup, moyenne) –elle part des éléments disjoints et agrège les plus proches –elle construit des classes imbriquées –la hiérarchie peut être représentée par un dendogramme –plusieurs niveaux de coupure sont possibles –on peut exporter la classification

25 07/11/2003TETRALOGIE24 HistoriqueArchitectureContributionConclusionContribution en analyse exploratoire n Classification par partition CPP (Centres mobiles) –supervisée –k classes –1 représentant –choix en 3D –coloration –icônes –4 classes –6 classes

26 07/11/2003TETRALOGIE25 HistoriqueArchitectureContributionConclusionContribution en visualisation faibles. Distribution linéaire Choix dune échelle non linéaire Mise en évidence de signaux faibles Sélection des données Evolution de la coloration n Cartes géostratégiques

27 07/11/2003TETRALOGIE26 Carte pondérée par le PNB HistoriqueArchitectureContributionConclusionContribution en visualisation Carte en valeurs absolues Carte pondérée par la population Carte pondérée par la superficie Choix de la pondération n Pondération par des données externes

28 07/11/2003TETRALOGIE27 n Etude de lévolution par animation –en fonction du temps: matrice PA-DP –par défilement de chaque variable –par sélection de groupes de variables –en mode absolu ou relatif –en fonction du codage –en fonction du niveau de coupure (CAH) HistoriqueArchitectureContributionConclusionContribution en visualisation

29 07/11/2003TETRALOGIE28 HistoriqueArchitectureContributionConclusionContribution en visualisation. Exportation dune classification Niveau de coupure Effectifs des classes Carte en mode relatif : étude de tendances Pays non présents dans la dernière période Pays en récession Pays en forte croissance n Segmentation et importation de classes

30 07/11/2003TETRALOGIE29 Placement initial aléatoire HistoriqueArchitectureContributionConclusionContribution en visualisation. Placement circulaire en fonction dun triConvergence rapide du placement des sommets n Dessins de graphes Algorithme de [Fruchterman91] Force dattraction : Force de répulsion :

31 07/11/2003TETRALOGIE30 HistoriqueArchitectureContributionConclusionContribution en visualisation Graphe partitionné Graphe des classes n Partitionnement MCL Extraction des classes

32 07/11/2003TETRALOGIE31 HistoriqueArchitectureContributionConclusion Bilan n Philosophie de notre plate-forme Tétralogie –cest un ensemble cohérent de prototypes inter-opérants, –qui utilise un standard unique pour le format des données, –son interface graphique est homogène, –et permet le partage des ressources et des méthodes via le réseau. n Son utilisation en recherche –support dévaluation de méthodes, doutils et de produits dIE, –vaste base dexemples, à léchelle, déjà analysés. n Domaine dapplication : la veille stratégique –veille scientifique (scientométrie, indicateurs, évaluation) –veille technologique (propriété industrielle, produits, procédés) –veille économique (marchés, concurrents, substituts, …)

33 07/11/2003TETRALOGIE32 HistoriqueArchitectureContributionConclusion Perspectives n En pré-traitement –prendre en compte dautres mesures de proximités –améliorer le traitement sémantique => indexation à jour –rechercher les passages pertinents (Web, texte intégral, …) n En analyses multidimensionnelles –étendre lutilisation des analyses multiples (3D) –mieux naviguer dans le corpus depuis les cartes factorielles –mieux utiliser la visualisation des connexions locales n En classifications –implanter dautres algorithmes (fourmis, k-means, k-metis,...) –réaliser la classification conjointe des lignes et des colonnes –proposer un partitionnement adapté aux matrices 3D

34 07/11/2003TETRALOGIE33 HistoriqueArchitectureContributionConclusion Perspectives n En amont des analyses –reformulation de requêtes par les classes sémantiques (Thèse) –filtrage par analyse de la variance => éliminer le bruit –amélioration des techniques de synonymie (DEA) –analyse du besoin en intelligence économique (Thèse fin 2003) –prise en compte directe des formats html et xml n En restitution des analyses –génération automatique de rapports en hypertexte (DEA) –mise en ligne des analyses (Collaborations) –bases de données multidimensionnelles (Collaboration, Thèse?) –mise au point dindicateurs spécifiques (scientométrie,...) –produits ciblés dintelligence économique (brevets, alertes, …)


Télécharger ppt "Les logiciels de gestion et visualisation de l'information de l'I.R.I.T. : La Plate-forme TETRALOGIE Bernard DOUSSET Institut de Recherche."

Présentations similaires


Annonces Google