Panorama fonctionnel et technique des outils avancés SCIP Les outils avancés de veille sur Internet Journée du 10 décembre 2002 - Sources d'Europe Panorama fonctionnel et technique des outils avancés “ Permettre à l’entreprise d’être la plus autonome et la plus efficace possible dans son processus de surveillance de l’environnement, ceci en maximisant ses capacités de collecte et de traitement d’information utile pour ses décisions relevant du court, moyen ou long terme ” Source : Norme AFNOR XP X 50-053 – Avril 1998 Etat des lieux Qualitatif / quantitatif Sylvie Dalbin ATD/DESYBEL Armelle Thomas INFORIZON
Traiter l’information = Automatiser les process POUR UNE VEILLE PLUS PERFORMANTE L’information reste un catalyseur pour l’action stratégique Les TIC restent un outil au service des processus de veille Contexte 2- Les TIC : un outil au service des processus de veille Gagner du temps > performance des processus Améliorer la qualité intrinsèque de la "production" Optimiser l'exploitation Constats : - Des résultats visuellement identiques pour des techniques différentes - Des techniques identiques mises en oeuvre dans des outils différents, - des techniques identifiques pour des activités différentes le long de la chaine de traitement Les choix, fonction de la finalité du traitement à opérer, sont parfois complexes - "toute chose égale par ailleurs" (hors aspects organisationnels ou de moyens financiers et humains) Objet de l'intervention >> faire le point sur les technologies sous-jacentes et repérer les évolutions, besoins Choix pour l'intervention : partir des grandes fonctionnalités (chaine) et des technologies mises en oeuvre, de leur articulation ; terminer par xxxxxx évolution La diversité des interventions d'aujourd'hui dans leur diversité s'insère dans ce cadre global >> Déroulement de la séance Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)
Déroulé de l'intervention Des fonctionnalités adaptées à chaque étape Des technologies complémentaires Des axes majeurs d’évolution Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)
Les fonctionnalités « recherche » à l’honneur dans les étapes 2 et 4 Étapes du processus de veille Fonctionnalités Analyser la situation et (re)définir les objectifs stratégiques Aide méthodologique Tableaux de bord Agrégation d’informations Intégration aux outils personnels Cibler la veille et définir le plan de recherche Recherche ouverte et exploratoire Brainstorming, cartes mentales Gestion des signets, des sources Contrôle, validation, ajustement Identifier, sélectionner et gérer les sources Interrogation multilingues, multibases, multiserveurs Surveillance, monitoring Résumé automatique; traduction Rechercher et récupérer les informations DETECTION, RECUEIL, TRI (1ère diff) les fonctionnalités de recherche incluant l'interrogation, la récupération et la présentation/exploitation des résultats de la recherche sont au coeur des dispositifs * Etape 3 : ++ personnalisation, - description Solution+contenu (métamoteur-Teoma) ou sans contenu Des progrès à faire : - gestion des sources, rech de nouvelles sources (enrichissement des signets), surveillance de sources ???? Partage des ressources (pas que des sources - y compris linguistiques...) >> Mapstan en ASP + rech similaires Etape 4 - + ramener le document lui-même, + tout en une seule passe (multibase,...) - interrogation multibase/unifiée Fonctions des "Agents de recherche" (automates) : recherche, veille (programmer), gestion de l'info,filtrage, analyse - Arisem, Autonomy, Netattaché, Webcompass, Webseeker - recherche multiserveur, agrégation de sources diff, gestion des doublons (en développement; URL/contenu en doublon ?), personnalisation, monitoring - des progrès encore mais de nombreuses amélioration * Etape 1 :En amont : aide à la formulation des objectifs stratégiques... RIEN Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)
Le grand développement de l'analyse automatique (Etape 6) Analyser : faire émerger du sens Fouille ; thématisation, classification, cartographie A plat, dans le temps Produits et services : dossiers, synthèses, tableaux de bord, cartes... rapports automatisés Editer - publier Préparer en vue d'exploiter Normaliser et nettoyer Mémoriser et organiser Résumé & traduction 1ère diffusion Étapes du processus de veille Fonctionnalités Evaluer, Capitaliser Sécuriser, Communiquer Evolution/developpement + HUMAIN - sur l'analyse à valeur ajoutée : aide à l'interprétation. Pour cela il faut, classer, séparer, comparer - et efforts sur des produits à valeur ajoutée (digimind) Mais des travaux importants restent à faire pour le traitement de l'info collectées pour l'analyse à VA. >>> Pas encore mise en valeur par rapport à la problématique de veille >> en évolution, voir en fin d'intervention Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)
Des fonctionnalités adaptées à chaque étape Des technologies complémentaires Des axes majeurs d’évolution Combines information collection, search, concepts extraction, clustering, information mapping, statistics and results graphical representation. Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)
Technologies mises en oeuvre Analyse de données, statistiques Linguistique & sémantique Reconnaissance des formes et réseaux de neurones Classification automatique Schématisation - cartographie Modélisation des problématiques du décideur Vectorisation de la représentation des documents Analyse de données, statistique - de quoi parle les textes Linguistique & sémantique - le langage ; ce qu'ils en disent Reconnaissance des formes et réseaux neuronaux - le raisonnement Classification automatique Schématisation - cartographie Modélisation des problématiques du décideur Techniques informatiques programmes résidents, open source ou non; automatismes, tâches de fond, push... import/export: SGBD Techniques documentaires Métadonnées et normes de description,... Techniques de communication et de travail de groupe portail collaboratif Sans oublier : les Techniques informatiques, les Techniques documentaires, les Techniques de communication, travail de groupe Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)
Techniques d'analyse de données, statistiques Usages Mettre en relief des liens entre mots, entre séquences, entre documents Détection de similitudes et pondération grâce au calcul de fréquences = occurrences et co-occurrences Indépendant de la langue Travaille au niveau des chaînes de caractères De nombreux algorithmes dédiés à des fonctions spécifiques : indexation, classification, cartographie Technologies à associer : linguistique, sémantique Exploitation des liens du web ; des documents structurés Fonctionnement Technologie : étude et science des techniques et des objets techniques Souvent : désigne une technique de pointe, moderne et complexe - les mots (ou concepts) sont exploités comme indicateurs de contenu (des documents indexés) - Mettre en relief des liens sous-jacents grâce aux fonctions de détection de similitudes : calcul de fréquences ; occurrences et co-occurrence - page pivot, liens à l'arrivée, page de référence - Amélioration de la qualité intrinsèque des résultats grâce aux techniques linguistiques et sémantiques (diminution de la dispersion des mots=bruit & silence ; dépend des langues) Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)
Techniques linguistiques & sémantiques Passer des mots aux notions > formulations différentes d'une même notion (silence) > ambiguïtés (bruit) Usages Enrichir les représentations des textes et des requêtes Plusieurs niveaux de traitement : morphologique, morphosyntaxique, syntaxique, sémantique Résumé automatique ; traduction Met en oeuvre des analyseurs et ressources linguistiques et sémantiques Technologies à associer : statistique Evolution : prise en compte de la structure du document Fonctionnement RESSOURCES LINGUISTIQUES & SEMANTIQUES Des référentiels terminologiques des grammaires ("grammaire linguistique", structure/DTD,...) des règles (de reformulation, découpage du texte, reformulateur morphologique (racineur), actant/acté (Tropes)...) Exemples : les racineurs Divers autres outils comme les phonétiseurs,... Peu de traitement de la parole (ce qui est dit) ----------------------------- Mais nécessité - suivant les technologies - soit d'effectuer des apprentissages, soit de développer des des ressources linguistiques spécialisés (terminologies métiers) Intuition, Leximine, Spirit, Arisem, Tropes, etc. Peetim- Kaliwatch --------- Lexixales - syntaxiques - Grammaticales (mot pris isolément) - Structure des mots (unitermes, composés, ...) Syntaxique (phrase) - liste de termes associés à leur catégorie grammaticale (nom, sujet , verbe, complèment…) Sémantique - termes replacés dans leurs réseaux sémantiques, avec synonymes, définitions et/ou diverses associations entre les termes. On parle de “ base de connaissances ” Pragmatique au niveau des situations rencontrées dans « la vie » - "pragmatique" des requêtes "pauvres"- Reformulation / expansion à partir de réseaux sémantiques --------------------------- - Mots-clés : Schème simple en vue du repérage au moyen d’un vocabulaire contrôlé. - Thésaurus : Schème plus structuré qui consiste en un arrangement des descripteurs dans une structure hiérarchique à laquelle sont ajoutées les relations d’équivalence et d’association. - Taxonomie : Schème plus complexe où les nœuds placés dans une structure hiérarchique héritent des propriétés des nœuds supérieurs. - Ontologie : Schème le plus complexe où les nœuds sont définis en fonction de structures conceptuelles explicites de manière telle à permettre des inférences par des automatismes. Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)
Techniques linguistiques & sémantiques ressources terminologiques Prendre en compte des usages et des contextes Usages Analyseurs et ressources linguistiques et sémantiques listes, thésaurus, dictionnaires ou bases de connaissance ; grammaires, règles Mais pas toujours existantes, ni complètes, ni évolutives; ni portables d'un domaine à l'autre Une nécessité : apprentissage et/ou développement de ressources spécialisées En recherche, exploitation des réseaux sémantiques Fonctionnement Nécessité de lexicaliser les termes représentant le concept, c'est-à-dire définir les différentes formes que peut prendre le mot: singulier, pluriel, ses conjugaisons s'il s'agit d'un verbe. Intuition, Leximine, Spirit, Arisem, Tropes, etc.; le choix de l'utilisation de différentes ressources appelées “ filtres ” dans Knowledgist. Usage de ressources terminologiques pour l'analyse ou la recherche (exploitation d'une classification); Tacsy de Lingway (CIB de l'Inpi) ; Topic de Verity, ... Résumé automatique : Copernic Summarizer, Pertinence,... DICTIONNAIRE - Définition "connaissances sur la langue préalablement décrites par un expert humain dans une base de données et utilisées par des automates au moment de l'interprétation du texte à traiter" (Lingway) Différents types de dictionnaires - listes de mots avec variantes graphiques (abréviations, sigles, fautes d’orthographes…), morphologiques (formes fléchies/ formes canoniques par exemple), liste de mots vides, de formes fléchies, de synonymes, d'expressions idiomatiques... - Lexiques ; thésaurus; classification - Base de connaissances - dictionnaires généraux et/ou spécialisés, par métier - Réseau sémantique, graphe de concepts (reformulation) Ontologie sous forme de graphe de relations lexicales : Worldnet, les travaux de Mémodata (Caen), Topic de Verity, .. Arisem - “ hyperonymie ” (chien a pour hyperonyme mammifère) ; -“ idées associées ” (charbon et mine) ; - “ instance de ” : associe deux mots dont un est nom propre (Renault est une instance de constructeur automobile) ; -“ est défini par ” (Cigarette est défini par Tabac) -“ contient implicitement ” -“ a pour trait ” (Eléphant a pour trait Grand) ; -“ partie de ” -“ relation nommée ”, ce sont les relations nommées par l’utilisateur. Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)
Reconnaissance des formes et réseaux de neurones Intégrer du flou, de la tolérance et de l'auto-apprentissage dans les outils de manipulation de l'information Usages Fonctionnement Réseaux de neurones A partir de valeurs en entrée > découvrir une valeur en sortie Réseau de noeuds (neurones) Apprentissage possible et ajustement du modèle trouvé Reconnaissance des formes Méthode d'extraction des caractéristiques d'une information Indépendant de la langue, tolérance aux fautes Miltiagents - SMA Vivisimo Excalibru / Autonomy / Vivisimo / Réseau de neurone un neurone est une cellule élémentaire -- et même simpliste -- dotée de nombreuses entrées et d'une seule sortie ; à chaque entrée est associée une valeur dite "poids synaptique" ; quand on applique à cette cellule un ensemble de valeurs d'entrée -- un "vecteur-entrée" elle produit une valeur de sortie fonction de ces entrées et des valeurs synaptiques internes, ou vecteur-poids synaptique (pour faire plus "bio", certains parlent d'"activités" plutôt que de valeurs numériques, mais le résultat est le même...). Pour améliorer l'algorithme, c'est-à-dire avoir moins de neurones à utiliser, donc à loger et à mettre à jour dans la mémoire de l'ordinateur, on peut utiliser des heuristiques, c'est-à-dire des procédures non rigoureuses (par exemple des interactions entre neurones, des "inhibitions" ou des "excitations" en termes plus biologiques) qui forceront chaque neurone à occuper un sommet différent. "centres mobiles", "représentations stables et reproductibles" Réseaux de neurones pour la recherche et la classification ; possibilité d'apprentissage et de mettre à profit son expérience pour ajuster le modèle par rapport à de nouveaux éléments Reconnaissance des formes La reconnaissance des formes, dans le cadre de l'indexation est une technique mathématique qui vise à extraire les caractéristiques d'une information par une analyse de type spectral. Cette technique permet à un moteur de recherche d'effectuer une recherche de type floue. La reconnaissance des formes ou la recherche floue sont des moyens d'indexation et de recherche de textes très tolérants. En effet, ces techniques sont indépendantes de la langue usitée et tolèrent les fautes d'orthographe, les caractères parasites, etc. Elles se révèlent pratiques quand on récupère des textes par OCR (reconnaissance optique de caractères) qui peut occasionner des erreurs de reconnaissance de caractères. L'indexation APRP(Adaptive Pattern Recognition Processing) du logiciel RetrevialWare utilise une technologie fondée sur la reconnaissance des formes par un réseau neuronal, appliquée au codage binéaire des informations. L'indexation des documents multimédias s'appuie aussi sur la technique de la reconnaissance des formes. Analyse en composantes principales pondérée localement Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)
Techniques de classification automatique Organiser des masses de documents Explorer et mettre en valeur des contenus Usages Partition (hiérarchie de partitions) d'un ensemble d'objets 1. Répartition dans des classes pré-établies 2. Partition en classes 3. Regroupement (clusters) en fonction de ressemblances Comparaison d'arbres Difficulté : nommer les classes (labelliser) Différentes approches : statistique, réseaux neuronaux Technologies associées : linguistique, sémantique, cartographie Fonctionnement Quelle que soit les ressemblances : regrouper automatiquement des documents cités par les mêmes sites Wordmapper de Grimmersoft (ex Neurotex), Exalead, U-map, Semio-map, Neuronav, Kartoo, etc. Réseau d’association entre les termes, fondé sur leur coocurrence avec d’autres termes + représentation graphique (carte lexicométrique, cartes mentales) USAGES profiling mise en valeur du sens par une structuration/modélisation des contenus aide à l’élimination des corrélations inintéressantes ou connues apport d'idées nouvelles par la mise en perspective de corrélations non établies par l'utilisateur Fonctionnement : clusters - les mots (ou concepts) sont exploités comme indicateurs de contenu (des documents indexés) - exploitation du calcul de leurs cooccurrences pour mettre en évidence la structure de leurs relations. Usages d'algorithmes mathématiques : méthode des k plus proches voisins = K-means axiales , nuées dynamiques, Kohonon, To steps,... Réseau de neurones, méthodes de reconnaissance bayesienne , classification hiérarchique ascendante et classification floue, incluent dans les offres Alcest, Arisem, ... Verity Introduction du flou : "car le flou permet d'introduire les nuances et l'univers du discours attachés aux mots clés, comme dans la communication naturelle" Algorithme non dirigé, semi-dirigé, dirigés phase d'apprentissage consistant à collecter pour chacune des classes un échantillon de documents Non hiérarchique : nombre de classes fixé à priori Ex : un algorithme de classification hiérarchique construit des groupes de mots proches les uns des autres (clusters) n'excédant pas une taille maximale (nombre de mots) fixée par l'utilisateur. Un cluster est donc constitué de mots associés les uns aux autres (associations internes). Les clusters peuvent avoir des relations entre eux. Ceci se produit lorsqu'il existe une association entre 2 mots-clés appartenant à 2 clusters différents (association externe) et que la taille du nouveau cluster qui aurait résulté de la réunion de ces 2 clusters dépasse la taille maximum définie par l'utilisateur. Différentes approches : statistiques (Inxight), sémantique (Arisem), linguistiques (Spirit, Lexiquest, Intuition), réseaux neuronaux 2. Regroupement de documents dynamiquement (a posteriori) - Répartition des objets dans des classes existantes (Arisem) - Constitution de clusters (thèmes) par émergence de similarité entre documents -----Classification hiérarchique -----Caractéristiques : classes disjointes (ou non), relations entre elles (ou non) internes et/ou externes Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)
Techniques de schématisation Produire une représentation visuelle, synthétique > aide à l'analyse et à la compréhension de phénomènes Usages Projection d'objets et de leurs interrelations, dans un espace Différents sens donnés aux noeuds, aux relations entre noeuds, à la position des objets dans l'espace Cartographies statiques et dynamiques Problème : lisibilité et interprétation Différentes approches : statistique, réseaux neuronaux En développement : prise en compte de la dimension "temps" Fonctionnement Différents sens peuvent être donnés : aux noeuds : mot-clé, document, une classe aux relations entre noeuds: proximité, relations entre les objets représentés à la position des objets sur l'espace Amoweba; Coelis; Kartoo, Mapstan sur internet, lexiMine de lexiquest, text navigator d'IBM, semantic map de Datops(?), Tropes d'Acetic,...VizServer d'inxight Cartographies statiques (Hyperbolic tree de Inxight) et dynamiques (Mapstan) = représentation de la topologie des relations entre disciplines ou thèmes de recherche Distinction en fonction de la construction des cartes : s'appuie sur la structure des clusters ou leur contenu Types de représentation schématique : le schéma, le graphe, le réseau, le diagramme, la carte et la capsule schématique "... de processus intégrant plusieurs savoir-faire. La nécessité d'aménager les contenus en les libérant de leur support de papier et en organisant le lot des idées et des termes sous forme de synthèse a contribué au développement de la cartographie conceptuelle"...(information mapping) Type de méthodes : - analyse en composantes principale (ACP) - « multidimensionnal scaling » (MDS) - Catégorie des modèle neuronaux dit à apprentissage compétitif non supervisé - modèle ART de Grossberg et Carpenter, basé sur la théorie résonance adaptative - Carte (spatial) auto-organisatrice SOM (algorithme neuronal) de Kohonen : apprentissage non supervisé ; associe chez SOM classification et cartographie "permet de comprimer l’information véhiculée par les données initiales à classifier tout en réduisant significativement la perte d’information liée aux interrelations entre ces dernières."..;" mais une seule classification à la fois" Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)
Approche "modélisation" de situation Aide à la décision Usages Fonctionnement Mise en oeuvre de modèles de situations réelles Exemples : Analyse d'un brevet suivant la forme "sujet-action-objet" ou "problème/solution" Anticiper les besoins des clients en modélisant les "clients mécontents" Anticiper des problèmes sociaux en analysant les discours de tracts Diversité de technologies à associer Autre : - travail au niveau international de la police pour trouver les filières de la prostitution, à partir de corpus de photos d'enfants dans des habitations - rapprochement par analyse de contenu d'images - Modélisation d'une réponse technologique à un problème : analyse de brevets avec Knowledgist À partir de traitement linguistique sur l'anglais Analyse sémantique utilise les éléments syntaxiques pour identifier les concepts contenus dans chaque phrase. Notamment les relations entre le sujet (S), le verbe (A) et le complément d’objet (O) ou sous la forme d’un index “ Problèmes/Solutions ”, ce qui permet de répondre à des questions de type “ How ” ou “ What ” , correspondant particulièrement à des contextes d’utilisation tels que l’innovation, la veille technologique, la démarche de dépôt ou contournement de brevets ou la recherche de nouveaux marchés pour une application. La relation entre ces éléments est déterminée par l’application des différentes règles sémantiques contenues dans la LKB. L'affichage des résultats sous la forme de sujets (Topics), de couples Problème/Solution ( avec AO = Problème et S= Solution) ou des composants SAO de l’analyse. Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)
En conclusion Des fonctionnalités adaptées à chaque étape Des technologies complémentaires Des axes majeurs d’évolution Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)
Evolutions majeures d’un point de vue « techniciste » Classification automatique, « Clusterisation » La solution miracle ? Monitoring, « Tracking » Un marché en pleine expansion Service web ou sur poste Le choix du jour Normalisation a priori ou a posteriori Le grand challenge de la décennie XML?? Data-mining/Textmining // Structuré/Non structuré Une nécessaire réconciliation en cours Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)
Evolutions majeures d’un point de vue « usages » Du « pull » au « push » Équilibrage en vue Médiation Le devoir de « transparence » Le règne des Portails (pas généralistes !!) Vers l’intégration (données ET applicatifs utiles) Synergie Veille / KM Des conséquences certaines Des outils paramétrés pour des usages Une évolution à petits pas… Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)
Ergonomie des systèmes (saisie, accès) Des évolutions encore à venir Mais toujours… Les phases « amont » et « aval-amont » Quelles réalités ? / Quels outils ? / Quelle intégration ? Complexité croissante du marché des contenus Gestion des doublons mal résolue (sources et données) Evaluation / Description des sites web // Partage Pas (encore) de solution packagée satisfaisante Ergonomie des systèmes (saisie, accès) Des évolutions encore à venir Sylvie Dalbin (ATD/DESYBEL), Armelle Thomas (INFORIZON)