Panorama fonctionnel et technique des outils avancés

Slides:



Advertisements
Présentations similaires
Qu’est-ce que LingPro ? LingPro est la branche ingénierie linguistique de i-KM La collaboration i-KM / LingPro est le résultat d’un partenariat sous forme.
Advertisements

MOT Éditeur de modèles de connaissances par objets typés
Les technologies décisionnelles et le portail
Sémantique et droit de la Fonction publique une boucle verticale
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
De linformation à la gestion des connaissances Introduction J. LINK-PEZET Dess SIAD Janvier 2001.
Image et apprentissage
Journée de formation spécialité marketing
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Urbanisation de Systèmes d'Information
Urbanisation des Systèmes d'Information - Henry Boccon-Gibod 1 Urbanisation des SI Alignement Stratégique et optimisation dun Système dInformation.
CPeyronnet | | Veille et recherche sur Internet : concepts, méthodologies, outils... 1 CvTic Veille et recherche sur Internet.
UML - Présentation.
2002 Compétitif XMiner : Plate-forme de structuration texte libre multi-approches par balisage XML de Tags Actifs Lobjectif du projet est de développer.
SOMMAIRE Problématique. Décision publique et participation
METHODOLOGIE.
HORAIRES HEBDOMADAIRES PROPOSES Spécialité Gestion 3 heures en classe entière 2 heures en demi - groupe Soit 5 heures - élève Spécialité Communication.
INDICATIONS METHODOLOGIQUES Classe de Première « Information et gestion »
ETAPES DE LA RECHERCHE DOCUMENTAIRE
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
THÈSE Présentée et soutenue publiquement par Jérémie VALENTIN
Laboratoire Sciences Pour l’Environnement
Social Computing est spécialisé dans les domaines de laccès à linformation, des réseaux sociaux et de lintelligence collective
Portefeuille de Compétences
LA SEGMENTATION STRATÉGIQUE
B2i Lycée Circulaire BO n°31 du 29/08/2013.
Introduction à la conception de Bases de Données Relationnelles
Tous les mercredis du 3 octobre au 19 décembre 2012
Le Travail Collaboratif ...
SCIENCES DE L ’INGENIEUR
MOT Éditeur de modèles de connaissances par objets typés
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Réalité virtuelle et Représentation de Données Complexes
SEMINAIRE DE CONTACT novembre 2008 Outils de gestion de projet.
Solution Athena accès sémantique à linformation MATI Montréal, Avril 2012.
Sciences de l’ingénieur
UFD 62. EC2 : cours n° 3 Gestion Electronique des Documents Par : Sahbi SIDHOM MCF. Université Nancy 2 Equipe de recherche KIWI – LORIA
Hatainville Les Moitiers d’Allonne – Tel : Website : stratic.online.com La démarche projet Mars 2001.
Bureau d’études Présentation du sujet Organisation des projets Version 1 8 octobre 2004.
Human Knowledge La nouvelle génération de moteurs sémantiques.
Algorithmes et Programmation
GSD langue française - Boumerdès 19 et 30 avril 2013
Martine Toussaint Desir
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
L’étude : I) Présentation
5 domaines spécifiques au C2I Niveau 1
Initiation à la conception des systèmes d'informations
Recherche d’information
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
Un processus pour la prise de décision spatiale.
L’EPREUVE PRATIQUE L’ETUDE LE PROJET EVALUATION 45 min à l’oral
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
L ’ordinateur est un outil parmi d ’autres.
UFD 62. EC2 : cours n° 4 Gestion Electronique des Documents
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
La veille à l’Institut national du cancer Identifier des sources d’information fiables Rencontre De la veille à la gestion des connaissances, Bordeaux,
Application à la viabilité des systèmes irrigués à Podor de la modélisation à la restitution aux paysans Olivier Barreteau.
Vers une intégration plus poussée de la recherche Web avec les Systèmes d’Information Géographiques Adapté de «Toward Tighter Integration of Web Search.
Se repérer et organiser sa veille dans la recherche en éducation Module 2 « Maîtriser l’accès aux ressources scientifiques en éducation » Introduction.
Droit de la protection des données personnelles Drt 6913.
Le Traitement Automatique des Langues (TAL)
Présenté par : Benoit Frédéricque Directrice : Sylvie Daniel Co-directeur : Yvan Bédard UNIVERSITÉ LAVAL Gestion contextuelle des méthodes de saisie volumétrique.
Premiers cours : démarrer
INTRODUCTION AUX BASES DE DONNEES
Démarche d’enseignement de l’APL : analyser
TECHNOLOGIE – Avril 2008 Projet de programme 4 e : Thème : Confort et domotique Equipement intérieur Equipement extérieur Electroménager Vidéo, photo Son.
LES ATELIERS PRODUCTION. 1.Qu’est-ce qu’un atelier «PRODUCTION » 2.Réactions et questions 3.Élaboration d’une séquence atelier PRODUCTION 4.Échanges et.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Vous présente en quelques réalisations un réel savoir-faire, le fruit de longues années d’expériences, aujourd’hui à votre service. Toutes les fonctionnalités.
Transcription de la présentation:

Panorama fonctionnel et technique des outils avancés SCIP Les outils avancés de veille sur Internet Journée du 10 décembre 2002 - Sources d'Europe Panorama fonctionnel et technique des outils avancés “ Permettre à l’entreprise d’être la plus autonome et la plus efficace possible dans son processus de surveillance de l’environnement, ceci en maximisant ses capacités de collecte et de traitement d’information utile pour ses décisions relevant du court, moyen ou long terme ” Source : Norme AFNOR XP X 50-053 – Avril 1998 Etat des lieux Qualitatif / quantitatif Sylvie Dalbin ATD/DESYBEL Armelle Thomas INFORIZON

Traiter l’information = Automatiser les process POUR UNE VEILLE PLUS PERFORMANTE L’information reste un catalyseur pour l’action stratégique Les TIC restent un outil au service des processus de veille Contexte 2- Les TIC : un outil au service des processus de veille Gagner du temps > performance des processus Améliorer la qualité intrinsèque de la "production" Optimiser l'exploitation Constats : - Des résultats visuellement identiques pour des techniques différentes - Des techniques identiques mises en oeuvre dans des outils différents, - des techniques identifiques pour des activités différentes le long de la chaine de traitement Les choix, fonction de la finalité du traitement à opérer, sont parfois complexes - "toute chose égale par ailleurs" (hors aspects organisationnels ou de moyens financiers et humains) Objet de l'intervention >> faire le point sur les technologies sous-jacentes et repérer les évolutions, besoins Choix pour l'intervention : partir des grandes fonctionnalités (chaine) et des technologies mises en oeuvre, de leur articulation ; terminer par xxxxxx évolution La diversité des interventions d'aujourd'hui dans leur diversité s'insère dans ce cadre global >> Déroulement de la séance Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)

Déroulé de l'intervention Des fonctionnalités adaptées à chaque étape Des technologies complémentaires Des axes majeurs d’évolution Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)

Les fonctionnalités « recherche » à l’honneur dans les étapes 2 et 4 Étapes du processus de veille Fonctionnalités Analyser la situation et (re)définir les objectifs stratégiques Aide méthodologique Tableaux de bord Agrégation d’informations Intégration aux outils personnels  Cibler la veille et définir le plan de recherche Recherche ouverte et exploratoire Brainstorming, cartes mentales  Gestion des signets, des sources Contrôle, validation, ajustement Identifier, sélectionner et gérer les sources  Interrogation multilingues, multibases, multiserveurs Surveillance, monitoring Résumé automatique; traduction Rechercher et récupérer les informations  DETECTION, RECUEIL, TRI (1ère diff) les fonctionnalités de recherche incluant l'interrogation, la récupération et la présentation/exploitation des résultats de la recherche sont au coeur des dispositifs * Etape 3 : ++ personnalisation, - description Solution+contenu (métamoteur-Teoma) ou sans contenu Des progrès à faire : - gestion des sources, rech de nouvelles sources (enrichissement des signets), surveillance de sources ???? Partage des ressources (pas que des sources - y compris linguistiques...) >> Mapstan en ASP + rech similaires Etape 4 - + ramener le document lui-même, + tout en une seule passe (multibase,...) - interrogation multibase/unifiée Fonctions des "Agents de recherche" (automates) : recherche, veille (programmer), gestion de l'info,filtrage, analyse - Arisem, Autonomy, Netattaché, Webcompass, Webseeker - recherche multiserveur, agrégation de sources diff, gestion des doublons (en développement; URL/contenu en doublon ?), personnalisation, monitoring - des progrès encore mais de nombreuses amélioration * Etape 1 :En amont : aide à la formulation des objectifs stratégiques... RIEN Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)

Le grand développement de l'analyse automatique (Etape 6) Analyser : faire émerger du sens Fouille ; thématisation, classification, cartographie A plat, dans le temps  Produits et services : dossiers, synthèses, tableaux de bord, cartes... rapports automatisés Editer - publier  Préparer en vue d'exploiter Normaliser et nettoyer Mémoriser et organiser Résumé & traduction 1ère diffusion  Étapes du processus de veille Fonctionnalités Evaluer, Capitaliser Sécuriser, Communiquer Evolution/developpement + HUMAIN - sur l'analyse à valeur ajoutée : aide à l'interprétation. Pour cela il faut, classer, séparer, comparer - et efforts sur des produits à valeur ajoutée (digimind) Mais des travaux importants restent à faire pour le traitement de l'info collectées pour l'analyse à VA. >>> Pas encore mise en valeur par rapport à la problématique de veille >> en évolution, voir en fin d'intervention Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)

Des fonctionnalités adaptées à chaque étape Des technologies complémentaires Des axes majeurs d’évolution Combines information collection, search, concepts extraction, clustering, information mapping, statistics and results graphical representation. Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)

Technologies mises en oeuvre Analyse de données, statistiques Linguistique & sémantique Reconnaissance des formes et réseaux de neurones Classification automatique Schématisation - cartographie Modélisation des problématiques du décideur Vectorisation de la représentation des documents Analyse de données, statistique - de quoi parle les textes Linguistique & sémantique - le langage ; ce qu'ils en disent Reconnaissance des formes et réseaux neuronaux - le raisonnement Classification automatique Schématisation - cartographie Modélisation des problématiques du décideur Techniques informatiques programmes résidents, open source ou non; automatismes, tâches de fond, push... import/export: SGBD Techniques documentaires Métadonnées et normes de description,... Techniques de communication et de travail de groupe portail collaboratif Sans oublier : les Techniques informatiques, les Techniques documentaires, les Techniques de communication, travail de groupe Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)

Techniques d'analyse de données, statistiques Usages  Mettre en relief des liens entre mots, entre séquences, entre documents Détection de similitudes et pondération grâce au calcul de fréquences = occurrences et co-occurrences Indépendant de la langue Travaille au niveau des chaînes de caractères De nombreux algorithmes dédiés à des fonctions spécifiques : indexation, classification, cartographie Technologies à associer : linguistique, sémantique Exploitation des liens du web ; des documents structurés Fonctionnement Technologie : étude et science des techniques et des objets techniques Souvent : désigne une technique de pointe, moderne et complexe - les mots (ou concepts) sont exploités comme indicateurs de contenu (des documents indexés) - Mettre en relief des liens sous-jacents grâce aux fonctions de détection de similitudes : calcul de fréquences ; occurrences et co-occurrence - page pivot, liens à l'arrivée, page de référence - Amélioration de la qualité intrinsèque des résultats grâce aux techniques linguistiques et sémantiques (diminution de la dispersion des mots=bruit & silence ; dépend des langues) Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)

Techniques linguistiques & sémantiques Passer des mots aux notions > formulations différentes d'une même notion (silence) > ambiguïtés (bruit) Usages  Enrichir les représentations des textes et des requêtes Plusieurs niveaux de traitement : morphologique, morphosyntaxique, syntaxique, sémantique Résumé automatique ; traduction Met en oeuvre des analyseurs et ressources linguistiques et sémantiques Technologies à associer : statistique Evolution : prise en compte de la structure du document Fonctionnement RESSOURCES LINGUISTIQUES & SEMANTIQUES Des référentiels terminologiques des grammaires ("grammaire linguistique", structure/DTD,...) des règles (de reformulation, découpage du texte, reformulateur morphologique (racineur), actant/acté (Tropes)...) Exemples : les racineurs Divers autres outils comme les phonétiseurs,... Peu de traitement de la parole (ce qui est dit) ----------------------------- Mais nécessité - suivant les technologies - soit d'effectuer des apprentissages, soit de développer des des ressources linguistiques spécialisés (terminologies métiers) Intuition, Leximine, Spirit, Arisem, Tropes, etc. Peetim- Kaliwatch --------- Lexixales - syntaxiques - Grammaticales (mot pris isolément) - Structure des mots (unitermes, composés, ...) Syntaxique (phrase) - liste de termes associés à leur catégorie grammaticale (nom, sujet , verbe, complèment…) Sémantique - termes replacés dans leurs réseaux sémantiques, avec synonymes, définitions et/ou diverses associations entre les termes. On parle de “ base de connaissances ” Pragmatique au niveau des situations rencontrées dans « la vie » - "pragmatique" des requêtes "pauvres"- Reformulation / expansion à partir de réseaux sémantiques --------------------------- - Mots-clés : Schème simple en vue du repérage au moyen d’un vocabulaire contrôlé. - Thésaurus : Schème plus structuré qui consiste en un arrangement des descripteurs dans une structure hiérarchique à laquelle sont ajoutées les relations d’équivalence et d’association. - Taxonomie : Schème plus complexe où les nœuds placés dans une structure hiérarchique héritent des propriétés des nœuds supérieurs. - Ontologie : Schème le plus complexe où les nœuds sont définis en fonction de structures conceptuelles explicites de manière telle à permettre des inférences par des automatismes. Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)

Techniques linguistiques & sémantiques ressources terminologiques Prendre en compte des usages et des contextes Usages  Analyseurs et ressources linguistiques et sémantiques listes, thésaurus, dictionnaires ou bases de connaissance ; grammaires, règles Mais pas toujours existantes, ni complètes, ni évolutives; ni portables d'un domaine à l'autre Une nécessité : apprentissage et/ou développement de ressources spécialisées En recherche, exploitation des réseaux sémantiques Fonctionnement Nécessité de lexicaliser les termes représentant le concept, c'est-à-dire définir les différentes formes que peut prendre le mot: singulier, pluriel, ses conjugaisons s'il s'agit d'un verbe. Intuition, Leximine, Spirit, Arisem, Tropes, etc.; le choix de l'utilisation de différentes ressources appelées “ filtres ” dans Knowledgist. Usage de ressources terminologiques pour l'analyse ou la recherche (exploitation d'une classification); Tacsy de Lingway (CIB de l'Inpi) ; Topic de Verity, ... Résumé automatique : Copernic Summarizer, Pertinence,... DICTIONNAIRE - Définition "connaissances sur la langue préalablement décrites par un expert humain dans une base de données et utilisées par des automates au moment de l'interprétation du texte à traiter" (Lingway) Différents types de dictionnaires - listes de mots avec variantes graphiques (abréviations, sigles, fautes d’orthographes…), morphologiques (formes fléchies/ formes canoniques par exemple), liste de mots vides, de formes fléchies, de synonymes, d'expressions idiomatiques... - Lexiques ; thésaurus; classification - Base de connaissances - dictionnaires généraux et/ou spécialisés, par métier - Réseau sémantique, graphe de concepts (reformulation) Ontologie sous forme de graphe de relations lexicales : Worldnet, les travaux de Mémodata (Caen), Topic de Verity, .. Arisem - “ hyperonymie ” (chien a pour hyperonyme mammifère) ; -“ idées associées ” (charbon et mine) ; - “ instance de ” : associe deux mots dont un est nom propre (Renault est une instance de constructeur automobile) ; -“ est défini par ” (Cigarette est défini par Tabac) -“ contient implicitement ”  -“ a pour trait ” (Eléphant a pour trait Grand) ; -“ partie de ” -“ relation nommée ”, ce sont les relations nommées par l’utilisateur. Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)

Reconnaissance des formes et réseaux de neurones Intégrer du flou, de la tolérance et de l'auto-apprentissage dans les outils de manipulation de l'information Usages  Fonctionnement Réseaux de neurones A partir de valeurs en entrée > découvrir une valeur en sortie Réseau de noeuds (neurones) Apprentissage possible et ajustement du modèle trouvé Reconnaissance des formes Méthode d'extraction des caractéristiques d'une information Indépendant de la langue, tolérance aux fautes Miltiagents - SMA Vivisimo Excalibru / Autonomy / Vivisimo / Réseau de neurone un neurone est une cellule élémentaire -- et même simpliste -- dotée de nombreuses entrées et d'une seule sortie ; à chaque entrée est associée une valeur dite "poids synaptique" ; quand on applique à cette cellule un ensemble de valeurs d'entrée -- un "vecteur-entrée" elle produit une valeur de sortie fonction de ces entrées et des valeurs synaptiques internes, ou vecteur-poids synaptique (pour faire plus "bio", certains parlent d'"activités" plutôt que de valeurs numériques, mais le résultat est le même...). Pour améliorer l'algorithme, c'est-à-dire avoir moins de neurones à utiliser, donc à loger et à mettre à jour dans la mémoire de l'ordinateur, on peut utiliser des heuristiques, c'est-à-dire des procédures non rigoureuses (par exemple des interactions entre neurones, des "inhibitions" ou des "excitations" en termes plus biologiques) qui forceront chaque neurone à occuper un sommet différent. "centres mobiles", "représentations stables et reproductibles" Réseaux de neurones pour la recherche et la classification ; possibilité d'apprentissage et de mettre à profit son expérience pour ajuster le modèle par rapport à de nouveaux éléments Reconnaissance des formes La reconnaissance des formes, dans le cadre de l'indexation est une technique mathématique qui vise à extraire les caractéristiques d'une information par une analyse de type spectral. Cette technique permet à un moteur de recherche d'effectuer une recherche de type floue. La reconnaissance des formes ou la recherche floue sont des moyens d'indexation et de recherche de textes très tolérants. En effet, ces techniques sont indépendantes de la langue usitée et tolèrent les fautes d'orthographe, les caractères parasites, etc. Elles se révèlent pratiques quand on récupère des textes par OCR (reconnaissance optique de caractères) qui peut occasionner des erreurs de reconnaissance de caractères. L'indexation APRP(Adaptive Pattern Recognition Processing) du logiciel RetrevialWare utilise une technologie fondée sur la reconnaissance des formes par un réseau neuronal, appliquée au codage binéaire des informations. L'indexation des documents multimédias s'appuie aussi sur la technique de la reconnaissance des formes. Analyse en composantes principales pondérée localement Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)

Techniques de classification automatique Organiser des masses de documents Explorer et mettre en valeur des contenus Usages  Partition (hiérarchie de partitions) d'un ensemble d'objets 1. Répartition dans des classes pré-établies 2. Partition en classes 3. Regroupement (clusters) en fonction de ressemblances Comparaison d'arbres Difficulté : nommer les classes (labelliser) Différentes approches : statistique, réseaux neuronaux Technologies associées : linguistique, sémantique, cartographie Fonctionnement Quelle que soit les ressemblances : regrouper automatiquement des documents cités par les mêmes sites Wordmapper de Grimmersoft (ex Neurotex), Exalead, U-map, Semio-map, Neuronav, Kartoo, etc. Réseau d’association entre les termes, fondé sur leur coocurrence avec d’autres termes + représentation graphique (carte lexicométrique, cartes mentales)  USAGES profiling mise en valeur du sens par une structuration/modélisation des contenus aide à l’élimination des corrélations inintéressantes ou connues apport d'idées nouvelles par la mise en perspective de corrélations non établies par l'utilisateur Fonctionnement : clusters - les mots (ou concepts) sont exploités comme indicateurs de contenu (des documents indexés) - exploitation du calcul de leurs cooccurrences pour mettre en évidence la structure de leurs relations. Usages d'algorithmes mathématiques : méthode des k plus proches voisins = K-means axiales , nuées dynamiques, Kohonon, To steps,... Réseau de neurones, méthodes de reconnaissance bayesienne , classification hiérarchique ascendante et classification floue, incluent dans les offres Alcest, Arisem, ... Verity Introduction du flou : "car le flou permet d'introduire les nuances et l'univers du discours attachés aux mots clés, comme dans la communication naturelle" Algorithme non dirigé, semi-dirigé, dirigés phase d'apprentissage consistant à collecter pour chacune des classes un échantillon de documents Non hiérarchique : nombre de classes fixé à priori Ex : un algorithme de classification hiérarchique construit des groupes de mots proches les uns des autres (clusters) n'excédant pas une taille maximale (nombre de mots) fixée par l'utilisateur. Un cluster est donc constitué de mots associés les uns aux autres (associations internes). Les clusters peuvent avoir des relations entre eux. Ceci se produit lorsqu'il existe une association entre 2 mots-clés appartenant à 2 clusters différents (association externe) et que la taille du nouveau cluster qui aurait résulté de la réunion de ces 2 clusters dépasse la taille maximum définie par l'utilisateur. Différentes approches : statistiques (Inxight), sémantique (Arisem), linguistiques (Spirit, Lexiquest, Intuition), réseaux neuronaux 2. Regroupement de documents dynamiquement (a posteriori) - Répartition des objets dans des classes existantes (Arisem) - Constitution de clusters (thèmes) par émergence de similarité entre documents -----Classification hiérarchique -----Caractéristiques : classes disjointes (ou non), relations entre elles (ou non) internes et/ou externes Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)

Techniques de schématisation Produire une représentation visuelle, synthétique > aide à l'analyse et à la compréhension de phénomènes Usages  Projection d'objets et de leurs interrelations, dans un espace Différents sens donnés aux noeuds, aux relations entre noeuds, à la position des objets dans l'espace Cartographies statiques et dynamiques Problème : lisibilité et interprétation Différentes approches : statistique, réseaux neuronaux En développement : prise en compte de la dimension "temps" Fonctionnement Différents sens peuvent être donnés : aux noeuds : mot-clé, document, une classe aux relations entre noeuds: proximité, relations entre les objets représentés à la position des objets sur l'espace Amoweba; Coelis; Kartoo, Mapstan sur internet, lexiMine de lexiquest, text navigator d'IBM, semantic map de Datops(?), Tropes d'Acetic,...VizServer d'inxight Cartographies statiques (Hyperbolic tree de Inxight) et dynamiques (Mapstan) = représentation de la topologie des relations entre disciplines ou thèmes de recherche Distinction en fonction de la construction des cartes : s'appuie sur la structure des clusters ou leur contenu Types de représentation schématique : le schéma, le graphe, le réseau, le diagramme, la carte et la capsule schématique "... de processus intégrant plusieurs savoir-faire. La nécessité d'aménager les contenus en les libérant de leur support de papier et en organisant le lot des idées et des termes sous forme de synthèse a contribué au développement de la cartographie conceptuelle"...(information mapping) Type de méthodes : - analyse en composantes principale (ACP) - « multidimensionnal scaling » (MDS) - Catégorie des modèle neuronaux dit à apprentissage compétitif non supervisé - modèle ART de Grossberg et Carpenter, basé sur la théorie résonance adaptative - Carte (spatial) auto-organisatrice SOM (algorithme neuronal) de Kohonen : apprentissage non supervisé ; associe chez SOM classification et cartographie "permet de comprimer l’information véhiculée par les données initiales à classifier tout en réduisant significativement la perte d’information liée aux interrelations entre ces dernières."..;" mais une seule classification à la fois" Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)

Approche "modélisation" de situation Aide à la décision Usages  Fonctionnement Mise en oeuvre de modèles de situations réelles Exemples : Analyse d'un brevet suivant la forme "sujet-action-objet" ou "problème/solution" Anticiper les besoins des clients en modélisant les "clients mécontents" Anticiper des problèmes sociaux en analysant les discours de tracts Diversité de technologies à associer Autre : - travail au niveau international de la police pour trouver les filières de la prostitution, à partir de corpus de photos d'enfants dans des habitations - rapprochement par analyse de contenu d'images - Modélisation d'une réponse technologique à un problème : analyse de brevets avec Knowledgist À partir de traitement linguistique sur l'anglais Analyse sémantique utilise les éléments syntaxiques pour identifier les concepts contenus dans chaque phrase. Notamment les relations entre le sujet (S), le verbe (A) et le complément d’objet (O) ou sous la forme d’un index “ Problèmes/Solutions ”, ce qui permet de répondre à des questions de type “ How ” ou “ What  ” , correspondant particulièrement à des contextes d’utilisation tels que l’innovation, la veille technologique, la démarche de dépôt ou contournement de brevets ou la recherche de nouveaux marchés pour une application. La relation entre ces éléments est déterminée par l’application des différentes règles sémantiques contenues dans la LKB. L'affichage des résultats sous la forme de sujets (Topics), de couples Problème/Solution ( avec AO = Problème et S= Solution) ou des composants SAO de l’analyse. Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)

En conclusion Des fonctionnalités adaptées à chaque étape Des technologies complémentaires Des axes majeurs d’évolution Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)

Evolutions majeures d’un point de vue « techniciste » Classification automatique, « Clusterisation » La solution miracle ? Monitoring, « Tracking » Un marché en pleine expansion Service web ou sur poste Le choix du jour Normalisation a priori ou a posteriori Le grand challenge de la décennie XML?? Data-mining/Textmining // Structuré/Non structuré Une nécessaire réconciliation en cours Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)

Evolutions majeures d’un point de vue « usages » Du « pull » au « push » Équilibrage en vue Médiation Le devoir de « transparence » Le règne des Portails (pas généralistes !!) Vers l’intégration (données ET applicatifs utiles) Synergie Veille / KM Des conséquences certaines Des outils paramétrés pour des usages Une évolution à petits pas… Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)

Ergonomie des systèmes (saisie, accès) Des évolutions encore à venir Mais toujours… Les phases « amont » et « aval-amont » Quelles réalités ? / Quels outils ? / Quelle intégration ? Complexité croissante du marché des contenus Gestion des doublons mal résolue (sources et données) Evaluation / Description des sites web // Partage Pas (encore) de solution packagée satisfaisante Ergonomie des systèmes (saisie, accès) Des évolutions encore à venir Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)