La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

L’Université Arisem 1 Mise en place d’un portail de veille avec ActiveWatch Cédric Simard - février 2001 Première journée.

Présentations similaires


Présentation au sujet: "L’Université Arisem 1 Mise en place d’un portail de veille avec ActiveWatch Cédric Simard - février 2001 Première journée."— Transcription de la présentation:

1 L’Université Arisem 1 Mise en place d’un portail de veille avec ActiveWatch Cédric Simard - février 2001 Première journée

2 L’Université Arisem 2 Objectifs de la formation - Acquérir une vision globale d’ActiveWatch™ - Comprendre le rôle de chaque module dans le processus de traitement d’information - Prendre la mesure de l’analyse sémantique selon Arisem - Identifier les facteurs clés de succès pour le lancement d’un premier arbre de veille - Prendre en main ActiveWatch™

3 L’Université Arisem 3 Cycle fonctionnel Administration métier Cycle Développement Intégration Mise en place d’un portail avec ActiveWatch / DynamicKnowledge / OpenPortal4U WebEdition / Corporate Media (Durée totale 3 jours) Programmation avec OpenPortal4U Integration PlatForm Durée : 4 jours Enrichissement de la Base de Connaissances Arisem avec 2MakeSense (Durée : 1 jour) Place de cette formation parmi les autres :

4 L’Université Arisem 4 Plan de la formation 1.Présentation générale (OP4U, ActiveWatch ™, sémantique, modules) 2.La démarche de veille avec AW en 4 étapes 3.Le mécanisme d’analyse de contenu 4.Présentation des outils mis en oeuvre (fonctions, terminologie) 1.Espace personnel utilisateurs : Arbres, WebSources, Bookmark 2.Administration des Agents 3.2Crawl : gestion des WebSources 4.2Class : Arbres de classement 5.Présentation de la Base de la Connaissances, son rôle dans ActiveWatch™ 6.Gestion de sécurité : visibilité, rôles 5.Traitement d’un cas concret : le commerce électronique 6.Best practices

5 L’Université Arisem 5 Présentation générale Des informations diverses et variées dans et à l’extérieur de l’entreprise Une couverture et une granularité différentes d’une même information pour une tâche donnée Le besoin d’un référentiel commun La solution : OpenPortal4U™ Présentation générale

6 L’Université Arisem 6 OpenPortal Valoriser votre système d’information en fournissant des contextes dans lesquels l’information existante présente un sens pour l’utilisateur. Présentation générale

7 L’Université Arisem 7 e-commerce Sites Web documentaires Marketplaces e-catalogs OpenPortal4U Web Edition OpenPortal4U Enterprise Edition ActiveWatch Dynamic Knowledge CorporateMedia OpenPortal4U Verticalisations Présentation générale

8 L’Université Arisem 8 Présentation générale

9 L’Université Arisem 9 La solution ActiveWatch™ est dédiée à la veille. Elle a quatre fonctions principales : Elle est composée de 3 modules qui autorisent le paramétrage de la recherche, de l’analyse et du classement : - recherche, collecte (orientée) et surveillance de l’information sur Internet - analyse et pré-qualification de cette information - classification des documents - publication de cette information (à venir) - 2Crawl : recherche et surveillance sur Internet - 2Class : classement automatique de documents - 2MakeSense : paramétrage de l’analyse de l’information ActiveWatch Présentation générale

10 L’Université Arisem 10 Présentation générale

11 L’Université Arisem 11 Les modules fonctionnels d’AW : Rechercher Conserver les documents pertinents Assurer le suivi des documents dans le temps Idées Relations entre les idées Décomposer la thématique dans un arbre de classement Mettre à la disposition l’information structurée Classer Constituer un corpus Expliciter une thématique Définir un univers textuel Publier dans un portail 2Crawl 2MakeSense L4U 2Class Expression des idées dans le texte Présentation générale - module - fonction

12 L’Université Arisem 12 Elle permet de désambiguïser la polysémie d’une requête et/ou d’un document, en identifiant les concepts présents à l’intérieur d’un contexte. « Parmi les fruits les plus riches : avocat, banane, cassis, raisin noir… » fruit? juriste? fruit += Concept « avocat fruit » Document (extrait) : Présentation générale La sémantique selon Arisem L’ information textuelle n’est pas une suite de caractères sans signification, mais l’expression d’idées et de concepts ayant une signification propre dans un contexte donné.

13 L’Université Arisem 13 Plan de la formation 1.Présentation générale (OP4U, ActiveWatch ™, sémantique, modules) 2.La démarche de veille avec AW en 4 étapes 3.Le mécanisme d’analyse de contenu 4.Présentation des outils mis en oeuvre (fonctions, terminologie) 1.Espace personnel utilisateurs : Arbres, WebSources, Bookmark 2.Administration des Agents 3.2Crawl : gestion des WebSources 4.2Class : Arbres de classement 5.Présentation de la Base de la Connaissances, son rôle dans ActiveWatch ™ 6.Gestion de sécurité : visibilité, rôles 5.Traitement d’un cas concret : le commerce électronique 6.Best practices

14 L’Université Arisem 14 La démarche de veille avec AW en 4 étapes 1. Phase de réflexion et de formulation de la problématique Définition des objectifs et de la problématique : - quels sont les tenants et aboutissants de mon projet ? - quels sont les acteurs de ce projet ? - quel est le lexique utilisé par ces acteurs ? - quels sont les éléments de réponse que j’attends ? Préparation du travail à effectuer dans la base de connaissance : - formaliser l’expertise à travers le passage par l’écriture ; - lister le lexique professionnel relatif au projet ; - mettre en évidence les concepts justes et justes nécessaires; La démarche de veille avec AW en 4 étapes

15 L’Université Arisem 15 2. Traduire les fondamentaux dans la base de connaissance 2MakeSense Transfert de connaissances vers l’outil d’analyse : - mise en évidence du niveau de connaissance de la base ; - inscription des concepts fondamentaux pour le projet ; - définition du projet par l’attribution de relations sémantiques ; - rattachement à la « réalité » par l’établissement d’un lexique métier. Rendre l’outil expert pour effectuer l’analyse automatiquement : - capitaliser les connaissances internes ; - compléter les thèmes métiers ; - désambiguïser des termes spécialisés. La démarche de veille avec AW en 4 étapes

16 L’Université Arisem 16 3. Constitution et surveillance d’un corpus issu du Web 2Crawl L’heuristique de crawling : - recherche de documents à l’intérieur d’un tunnel sémantique - progression des agents sur l’architecture hypertexte - accès au Web non indexé - rapatriement des documents pertinents La surveillance automatique des documents découverts : - ré-accès programmé de l’ensemble du corpus - signalisation des modifications La démarche de veille avec AW en 4 étapes Surveillance classique d’URLs ou de sites entiers

17 L’Université Arisem 17 4. Élaboration d’un arbre de classement et diffusion de l’information Déterminer la vue logique, espace de représentation et d’organisation du corpus. 2Class Quelle navigation dans le corpus ? - objectif « documentaire » ou « de veille » ? - vision partagée par l’entreprise ou personnelle ? - degré de complexité du projet ? Maturité du projet : - arbre de classement évolutif ou figé ? - public utilisateur de l’arbre de classement ? La démarche de veille avec AW en 4 étapes Prise en compte du Feed-back des utilisateurs

18 L’Université Arisem 18 Une parfaite maîtrise des objectifs et une problématique clairement définie... pour une mise en œuvre technique rapidement opérationnelle et efficace - la cohérence de l’arbre de classement (2Class) - la spécialisation et actualisation du langage d’analyse (2MS) - la finesse et l’exhaustivité des WebSources (2Crawl) - pourquoi souhaitez-vous effectuer une veille sur ce thème ? - à qui sont destinées les informations de cette veille ? - quel est le thème générique sur lequel est axée votre veille ? - quels en sont les sous-domaines identifiés ? - quels sont les résultats attendus ? Méthodologie de mise en oeuvre Quelques questions incontournables : Des éléments de réponses efficaces, pour définir :

19 L’Université Arisem 19 Méthodologie de mise en oeuvre Quelques outils pour initier la démarche Progress4U, un espace d’explicitation - Un tableau d’explication et d’argumentation littéraire des principaux axes (notions, expressions) de la thématique (concepts clés et termes de la langue illustrant les divers enjeux du thème) - Une décomposition progressive de chaque idée pour extraire les concepts principaux, le vocabulaire (pour confronter ce premier capital à l’existant de la base de connaissance en vue de son enrichissement.) GoOn4U, un espace d’agencement agencer intituler des items de couleurs, représentatifs des nœuds de différents niveaux d’un arbre de classement, à agencer, par copier/coller sur un espace de travail, et à intituler aux thèmes de la problématique générale traitée par l’arbre

20 L’Université Arisem 20 Méthodologie de mise en oeuvre Mais aussi … Collecte de l’existant : - Documents illustrant la thématique - (Thesaurus) - Sources spécialisées identifiées (documents, Urls, …) Définition des rôles Experts Marketing Juridique Commercial Technologique Animateurs Administrateurs BU Délimitation des rôles Gestion et paramétrage de la solution Utilisation de la solution

21 L’Université Arisem 21 Permet de Accéder à l’information pertinente Identifier les compétences internes Rester au contact des évolutions Etre informé de façon ponctuelle Rendre compte de la diversité Enrichir la base de connaissance Mettre en oeuvre des WebSources de veille Internet Construire des arbres de classement thématiques Permet de A pour charge Mise à jour de la base de connaissance Alimentation des WebSources de veille Repérage et intégration des sources internes Mise en ligne des arbres de classement Audit et maintenance de la solution L’animateur L’administrateur ont pour charge Explication des thèmes de veille Expression des besoins en information Production d ’information interne spécialisée Surveillance qualité du fond informationnel Commentaire du fond informationnel Les experts Méthodologie de mise en oeuvre Comment sera utilisé l’outil ?

22 L’Université Arisem 22 Plan de la formation 1.Présentation générale (OP4U, ActiveWatch ™, sémantique, modules) 2.La démarche de veille avec AW en 4 étapes 3.Le mécanisme d’analyse de contenu 4.Présentation des outils mis en oeuvre (fonctions, terminologie) 1.Espace personnel utilisateurs : Arbres, WebSources, Bookmark 2.Administration des Agents 3.2Crawl : gestion des WebSources 4.2Class : Arbres de classement 5.Présentation de la Base de la Connaissances, son rôle dans ActiveWatch ™ 6.Gestion de sécurité : visibilité, rôles 5.Traitement d’un cas concret : le commerce électronique 6.Best practices

23 e-commerce Sites Web documentaires Marketplaces e-catalogs OpenPortal4U Web Édition OpenPortal4U Entreprise Edition ActiveWatch Dynamic Knowledge CorporateMedia L4UModèle Objet Composants fonctionnels

24 L’Université Arisem 24 L’utilisation de la sémantique est au cœur des produits Arisem. Introduction à l’analyse sémantique Une base de connaissance multilingue (Français, Anglais, Allemand, Espagnol) permet d’identifier le contenu d’un document Le moteur d’analyse sémantique fournit une représentation conceptuelle d’un document et le qualifie - L4U (« Language for you »), le moteur d’analyse sémantique - 2MakeSense, l’éditeur de base de connaissance Présentation générale

25 L’Université Arisem 25 TexteMétatexte Le Métatexte : Le Métatexte : une représentation désambiguïsée du contenu d’un texte [&échec*échec #échec $Echouer µNom $Problème $ChoseAbstraite $Chose &du *du µArticle &tir *tir #tir &inaugural L'échec traumatisant du vol inaugural du 4 juin 1996 ? Assimilé, digéré. Les problèmes techniques du deuxième lancement ? Réglés. Les modifications apportées au moteur Vulcain de l'étage principal cryotechnique ajoutées? Génération d’un méta-texte à partir d’un texte (document, requête)

26 L’Université Arisem 26 1- Lectures Q / D 2- Écriture métatextes 3- Comparaison Métatextes 75/10 5 Calcul de pertinence Extrait pertinent 6 Édition d’un abstract L4U 4- Évaluation recouvrement Note de pertinence L4U élabore le Métatexte du document (D) et de la question (Q) et les compare Le rôle de L4U : l’analyseur sémantique QuestionDocument

27 L’Université Arisem 27 Qualité Densité Une note en 2 indices 75/10 le degré de précision avec lequel le thème est exprimé dans le document le degré de présence du thème dans le document, par rapport à l’ensemble des autres thèmes ou sujets contenus dans le document QualitéDensité La note de pertinence Comment ? Combien ?

28 L’Université Arisem 28 Plan de la formation 1.Présentation générale (OP4U, ActiveWatch ™, sémantique, modules) 2.La démarche de veille avec AW en 4 étapes 3.Le mécanisme d’analyse de contenu 4.Présentation des outils mis en oeuvre (fonctions, terminologie) 1.Espace personnel utilisateurs : Arbres, WebSources, Bookmark 2.Administration des Agents 3.2Crawl : gestion des WebSources 4.2Class : Arbres de classement 5.Présentation de la Base de la Connaissances, son rôle dans ActiveWatch ™ 6.Gestion de sécurité : visibilité, rôles 5.Traitement d’un cas concret : le commerce électronique 6.Best practices

29 e-commerce Sites Web documentaires Marketplaces e-catalogs OpenPortal4U Web Édition OpenPortal4U Entreprise Edition ActiveWatch Dynamic Knowledge CorporateMedia Espaces personnels des Utilisateurs Sécurité Administration des agents L4UModèle Objet Composants fonctionnels

30 L’Université Arisem 30 Utilisateur et son espace personnel Tout utilisateur est représenté par un agent dans le système Chaque utilisateur a son environnement de travail Il contrôle ses propres objets de travail : Arbres de classement, Sources d’information, listes d’Urls

31 L’Université Arisem 31 Les utilisateurs du système Espace personnel de l’utilisateur Espace commun de tous les utilisateurs

32 L’Université Arisem 32 Objets des utilisateurs L’utilisateur a un espace privilégié pour déposer ses documents. Il peut en plus créer ses objets de travail à base de ces documents (recherches sur le web, arbre de classement)…

33 L’Université Arisem 33 Bookmark BookmarkList Un Bookmark

34 L’Université Arisem 34 Poubelle Une seule poubelle - 2 vues différentes : une poubelle personnelle, contenant les seuls objets que l’utilisateur connecté aura détruit ; une vue présentant la poubelle générale, contenant l’ensemble des objets détruits par tous. Un objet mis à la poubelle n’est pas détruit de manière permanente, il peut être restauré depuis la poubelle. 2 options sont proposées : le restore la destruction définitive La poubelle est un Agent en soit (on peut gérer sa puissance, la mettre en tâche de fond, l’arrêter/redémarrer ). Note : Si l’objet contenu dans la poubelle n’est pas détruit, le nouvel objet crée (au même emplacement) de même nom, s’incrémentera d’un (1), (2), (3), etc… selon le nombre d’objet existant de même nom.

35 L’Université Arisem 35 1.Présentation générale (OP4U, ActiveWatch ™, sémantique, modules) 2.La démarche de veille avec AW en 4 étapes 3.Le mécanisme d’analyse de contenu 4.Présentation des outils mis en oeuvre (fonctions, terminologie) 1.Espace personnel utilisateurs : Arbres, WebSources, Bookmark 2.Administration des Agents 3.2Crawl : gestion des WebSources 4.2Class : Arbres de classement 5.Présentation de la Base de la Connaissances, son rôle dans ActiveWatch ™ 6.Gestion de sécurité : visibilité, rôles 5.Traitement d’un cas concret : le commerce électronique 6.Best practices Plan de la formation

36 L’Université Arisem 36 Les Agents Un agent gère l’activité d’un process Un objet du système peut avoir un agent Un agent permet d’attribuer un comportement dynamique à un objet du système. Puissance répartie travail en tâche de fond Zoom sur les outils / Les agents

37 L’Université Arisem 37 2 types d’agents : Agent simple : qui travaille (col bleu). Exemple : un Feeder Agent-manager : gère l’activité des autres agents (col blanc) Exemple : l’Agent d’un User Les agents Zoom sur les outils / Les agents

38 L’Université Arisem 38 Agent ? (2) Un exemple avec les arbres de classement : Zoom sur les outils / Les agents

39 L’Université Arisem 39 Architecture des agents Le système (openportal.exe) coordonne des différents Agents. Open Portal Recyclage des documents Alimentation des sources Classement des documents Zoom sur les outils / Les agents

40 L’Université Arisem 40 Hiérarchie des Agents Les agents sont hiérarchisés Un agent –est contrôlé par un Agent père –contrôle un Agent fils Zoom sur les outils / Les agents

41 L’Université Arisem 41 Puissance des Agents Pour chaque Agent est définie une puissance (power) Cette puissance dépend de son agent père et de ses frères Zoom sur les outils / Les agents

42 L’Université Arisem 42 Calcul de la puissance Universe KMUser [100] ( 0,9%) KMCommunity [10000] (90%) UrlAccess [1000] (9%) 11100 Fred [5000] (45% de 0.9%) Cat [6000] (55% de 0.9%) Zoom sur les outils / Les agents

43 L’Université Arisem 43 En détails Zoom sur les outils / Les agents

44 L’Université Arisem 44 Interface d’administration Zoom sur les outils / Les agents

45 L’Université Arisem 45 Questions Si le fils a une puissance supérieure au père que se passe-t-il ? –Question-piège. La puissance est relative (par rapport à celle du père considérée comme 100%) Quelle est la puissance maximale possible ? –10.000 Zoom sur les outils / Les agents

46 L’Université Arisem 46 Plan de la formation 1.Présentation générale (OP4U, ActiveWatch ™, sémantique, modules) 2.La démarche de veille avec AW en 4 étapes 3.Le mécanisme d’analyse de contenu 4.Présentation des outils mis en oeuvre (fonctions, terminologie) 1.Espace personnel utilisateurs : Arbres, WebSources, Bookmark 2.Administration des Agents 3.2Crawl : gestion des WebSources 4.2Class : Arbres de classement 5.Présentation de la Base de la Connaissances, son rôle dans ActiveWatch ™ 6.Gestion de sécurité : visibilité, rôles 5.Traitement d’un cas concret : le commerce électronique 6.Best practices

47 L’Université Arisem 47 2Crawl 2Crawl est le module d’exploration du web, qui découvre et surveille les documents provenant de l’Internet. Il est piloté par l’Agent CrawlSequencer. - Un ensemble de page valides et pertinentes, stockées en local, disponibles pour être ventilées dans un arbre de classement.Résultats Principe de fonctionnement De points de départ vers des sites/moteurs : les gateways Une question sémantique (query) pour filtrer les résultats pertinents des agents d’exploration du Web (Feeders), basés sur les URL - L’utilisateur établit des profils de recherche : les WebSources - Ces WebSources sont composés : Zoom sur les outils / 2Crawl

48 L’Université Arisem 48 doc. www.int. doc.n www.int. doc.2 www.int. doc.3 www.int. doc. www.int. Simultanément N documents Le crawling est interrompu doc. non pertinent doc.4 www.int. Particularités Le crawling consiste à suivre les liens hypertextes contenus dans les pages de résultat identifiées comme pertinentes - La découverte de documents est optimisée par la capacité de crawling de l’outil Le web non indexé par les moteurs de recherche est ainsi couvert et exploré de manière efficace (exploration pilotée par la pertinence) Zoom sur les outils / 2Crawl

49 L’Université Arisem 49 Paramétrage d’une WebSource WebSourceFeeder Gateway s’appuie sur Objet personnel actif Est composé de : - query (requête) - keywords (mots-clés) - feeder Types de gateway : - ParamURL (moteur) - One URL (URL simple) - serveur de mails (à venir) - serveur de news (à venir) Objet personnel actif Est composé de : - gateway On peut suivre son activité Objet standard passif Est composé de : - URL (+ paramètres) Zoom sur les outils / 2Crawl

50 L’Université Arisem 50 Des Mots-clés pour obtenir des pages réponses Une gateway à attaquer (moteur Altavista) Les pages réponses pour la WebSource triées par pertinence La question sémantique pour filtrer les réponses renvoyées par les moteurs Zoom sur les outils / 2Crawl

51 L’Université Arisem 51 Zoom sur les outils / 2Crawl 2 questions sémantiques (query) différentes : Query du feeder Query de la WebSource pour crawler (suivre les liens) pour garder les documents La query du feeder peut être moins exigeante.

52 L’Université Arisem 52 Zoom sur les outils / 2Crawl Paramétrage d’une WebSource (2) - Si rien n’est mis au niveau du feeder : pas de keywords et pas de query de crawling :  reprise des keyword de la websource  reprise de la query de la websource avec seuils divisés par deux. - Si query au niveau du feeder mais pas de keyword :  query affectée comme keyword. Attention : les keyword définis au niveau de la Websource ne sont pas repris au niveau du feeder, c’est la query du feeder qui fait office de keyword. - Si des keywords spécifiques sont déclarés au niveau des Feeders et qu’il existe des keyword au niveau WebSource, les keywords déclarés au niveau du feeder sont bien pris en compte ( pas de cumul avec les keyword de la WebSource). Query & Keywords de la websource VS Query & Keyword des feeders :

53 L’Université Arisem 53 Administration du crawling paramétrer la WebSource allumer l’agent de la WebSource allumer l’agent du feeder allumer l’agent de votre User allumer l’agent de Crawl Sequencer vérifier qu’OP est allumé. Pour lancer le crawling : Zoom sur les outils / 2Crawl

54 L’Université Arisem 54 Administration du crawling (2) Si vous êtes seul à travailler sur le serveur : Pour accélérer le traitement des Urls déjà téléchargées (downloaded) et freiner ou arrêter le recensement de candidates en attente (waiting) il faut arrêter le Crawl Sequencer. Une fois que la pile des URL téléchargées (downloaded) aura été entièrement dépilée, il faut relancer le Sequencer pour réactiver le passage des downloading et dowloaded. Pour privilégier l’analyse à la recherche : Note : le nombre de candidats en chargement (downloading) est limité à 100. Zoom sur les outils / 2Crawl

55 L’Université Arisem 55 Administration du crawling (3) Si vous êtes plusieurs à travailler sur le même serveur : 1.Accélérer le traitement des URLs déjà téléchargées (downloaded)  augmenter la puissance de la Websource (puissance maximale d’un worker 10 000)  augmenter la puissance des Agents pères : User (ex : 5000) / KMUserFolder (ex : 10 000) (dépendances des agents : un agent père contrôle ses agents fils) 2.Ralentir l’entrée de candidats (waiting/downloading)  baisser la puissante de chaque feeder collecteur de candidats Pour privilégier l’analyse à la recherche : Zoom sur les outils / 2Crawl

56 L’Université Arisem 56 Créer sa gateway Pour créer une gateway de type ParamURL : - La créer dans sa WebSource  être positionné sur un Folder Pour créer une gateway de type OneURL : - La créer dans un bookmark (http)

57 L’Université Arisem 57 Créer sa gateway (2) Pour créer une gateway de type ParamURL : Faire plusieurs recherches sur le moteur en question Noter les URL résultantes Répérer la partie commune des URL Remplacer le mot-clé par $keyword$.

58 L’Université Arisem 58 Global URLFilter to crawl Zoom sur les outils / 2Crawl Objectif : ne pas retenir les pages des sites « polluants ».

59 L’Université Arisem 59 Global URLFilter to keep Zoom sur les outils / 2Crawl Objectif : ne pas retenir les pages de résultats des moteurs (mais les pages finales des sites dédiés à la thématique).

60 L’Université Arisem 60 URLFilter Zoom sur les outils / 2Crawl WebSource URLFilterCela s’applique t-il seulement à ma websource ? ex : voila/chaines/chat/….. Cela peut-il s’appliquer à plusieurs Websources (Global) ? ex : moteur.voila.fr/S/…. Global URLFilter Cela peut-il s’appliquer au feeder en général ? ex : voila/chaine/ Feeder URLFilter Faire le choix : 3 niveaux :

61 L’Université Arisem 61 Réaccès No 404 Zoom sur les outils / 2Crawl SITE WEB Changements sémantiques Mise à jour du miroir du WEB Ré-accès périodiqueParticularités - La fraîcheur des URLs est contrôlée périodiquement grâce au ré-accès WebSource

62 L’Université Arisem 62 Réaccès No 404 (2) L’activité de reaccess est piloté par l’Agent « No 404 » Par défaut, toutes les Websources actives voient leurs URLS soumises au reaccess, si l’agent « No404 » est démarré. Le reaccess s’applique à toutes les Websources. L’ancienne version du document dans le Mirror est écrasée par la plus récente. Le Span time (écart entre 2 reaccess sur un document = mise à jour dans X temps) est à fixer en secondes pour chaque WebSource (onglet Reaccess de la WebSource). Astuce : pour metre une WebSource en réaccès sans crawling : démarrer l’agent de la WebSource, démarrer l’agent « No404 », arrêter le feeder de la WebSource. Zoom sur les outils / 2Crawl

63 L’Université Arisem 63 Plan de la formation 1.Présentation générale (OP4U, ActiveWatch ™, sémantique, modules) 2.La démarche de veille avec AW en 4 étapes 3.Le mécanisme d’analyse de contenu 4.Présentation des outils mis en oeuvre (fonctions, terminologie) 1.Espace personnel utilisateurs : Arbres, WebSources, Bookmark 2.Administration des Agents 3.2Crawl : gestion des WebSources 4.2Class : Arbres de classement 5.Présentation de la Base de la Connaissances, son rôle dans ActiveWatch ™ 6.Gestion de sécurité : visibilité, rôles 5.Traitement d’un cas concret : le commerce électronique 6.Best practices

64 L’Université Arisem 64 2Class Représentation Arborescente : Arbre de Classement –Organisation par raffinement –Les nœuds ou catégories définissent le mode de sélection des documents Zoom sur les outils / 2Class

65 L’Université Arisem 65 Classification des documents Le processus automatique de classification (percolation) : –Placer les documents dans une ou plusieurs catégories (au besoin) –Qualifier les documents classés Zoom sur les outils / 2Class

66 L’Université Arisem 66 2Class permet de construire un espace d’information qualifié, en proposant des arborescences d’accès « à la Yahoo » sur un fond d’information. -L’utilisateur construit son arbre d’information -Des sources d’information sont « branchées » sur l’arbre et alimentent en continu l’arbre de classement - Les documents sont répartis automatiquement et de manière non exclusive dans chaque partie et sous-partie de l’arbre en fonction des contraintes d’entrées/sorties définies au niveau de chaque nœud de l’arbre. - Ce classement est fait grâce à une analyse sémantique multilingue des textes. - Les utilisateurs partagent et accèdent, depuis leur navigateur, à l’information utile sur le thème donné, selon une vision structurée Principe de fonctionnement Résultats Zoom sur les outils / 2Class

67 L’Université Arisem 67 Terminologie Nœud Fils : Nœud de niveau inférieur Nœud Père : Nœud de niveau supérieur contenant un fils Nœud Racine : Nœud d’entrée de l’arbre de classement Nœud Terminal : Nœud collecteur de document qui ne contient pas de nœud fils [Schéma] de percolation : Ensemble des contraintes posées au niveau de chacun des nœuds de l’arbre de classement qui vont déterminer le routage et le classement final des documents Zoom sur les outils / 2Class

68 L’Université Arisem 68 Un arbre de classement est une succession arborescente logique de thèmes et sous-thèmes Mammifères Chiens Chats Animaux Un thème est un nœud en soit. Un thème générique par rapport à des sous- thèmes est dit nœud père, par rapport à des nœuds fils. Ex :nœud père - Mammifère nœuds fils - Chien; Chat Cette appellation est relative : le nœud Mammifère est en même temps un nœud fils par rapport au nœud Animaux. Zoom sur les outils / 2Class

69 L’Université Arisem 69 Mammifères Chiens Chats Animaux Le classement automatique des documents se fait en fonction des contraintes posées au niveau de chaque nœud de l’arbre (configuration des nœuds) Les contraintes sont de type :  sémantique (contenu) * requête conceptuelle  « booléene » : * langue du document * date (à venir) * autres … (champs) Zoom sur les outils / 2Class

70 L’Université Arisem 70 Paramétrage de l’arbre 2 options : simple et avancée Zoom sur les outils / 2Class La description sert de mot-clé Plusieurs étapes, la question sémantique est précisée explicitement, ainsi que la stratégie de percolation. Wizard de création de nœuds Note : Il est conseillé au début de suivre le mode simple, le paramétrage pouvant être ajusté ensuite.

71 L’Université Arisem 71 L’administrateur dispose de 3 possibilités : - Essayer de passer d’abord - Essayer de garder d’abord - Essayer de passer et de garder Un nœud effectue toujours 2 traitements : Pour Garder / Pour Passer. L’un D’abord, l’autre Ensuite ! D’abord ? Ensuite … La commande Fonctionnement pilote les 2 activités d’un nœud, composée d’un - Pour Garder - Pour Passer Zoom sur les outils / 2Class

72 L’Université Arisem 72 Les documents sont soumis au nœud 1 Ces pages sont ensuite analysées et filtrées à la lumière de la question sémantique du nœud 2 1 2 3 Conservation des URL pertinentes pour le nœud 3 Zoom sur les outils / 2Class

73 L’Université Arisem 73 Pour chaque nœud de l’arbre, l’administrateur du système définit également les contraintes de circulation des documents entre les noeuds Il décide du rapport de dépendance devant exister entre les différents nœuds de l’arbre (ex : préfiltrage d’un fils par le père ; isoler les documents non classés) Dans tous les cas il organise le système de percolation de manière à retenir des documents au niveau des nœuds spécifiques (dits nœuds fils) pré-filtrer Exemple : Les nœuds de niveau Père peuvent servir à pré-filtrer les documents en fonction de leur contenu pour leurs Fils Des items identiques au sein d’un même arbre Des points de vue différents = des préfiltrages différents Zoom sur les outils / 2Class

74 L’Université Arisem 74 Essayer de garder d’abord Configuration courante d’un nœud terminal Illustration de la percolation

75 L’Université Arisem 75 Les documents qui n’ont pu être classés au niveau du fils remontent pour être soumis au père Nœud Père Nœud Fils Essayer de passer d’abord Illustration de la percolation

76 L’Université Arisem 76 Nœud Fils Nœud Père Les documents admis dans les nœuds fils sont également classés dans les nœuds pères 1 1 A B C A A Distribution du document A A Essayer de passer et de garder Illustration de la percolation

77 L’Université Arisem 77 Les documents refusés ou conservés au niveau d’un nœud sont également soumis aux autres nœuds de l’arbre… … en percolant dans l’arbre selon les critères de circulation et de filtrage définis … ce qui permet qu’un document soit classé dans plusieurs nœuds de l’arbre A A f Parcours d’un document dans l’arbre Illustration de la percolation

78 L’Université Arisem 78 Test de la question sémantique Test directement à partir de l’interface de paramétrage de noeud Note : il est conseillé de toujours tester sa question sémantique dans la base de connaissance Zoom sur les outils / 2Class

79 L’Université Arisem 79 Administration de percolation Pour lancer la percolation : paramétrer l’arbre allumer l’agent de l’arbre allumer l’agent de votre User allumer l’agent OPclass.exe vérifier qu’OP est allumé. Zoom sur les outils / 2Class

80 L’Université Arisem 80 TreeCross 2 arbres, les documents appartenant aux 2 catégories, 2 extraits pertinents, 2 notes de pertinence :

81 L’Université Arisem 81 Plan de la formation 1.Présentation générale (OP4U, ActiveWatch ™, sémantique, modules) 2.La démarche de veille avec AW en 4 étapes 3.Le mécanisme d’analyse de contenu 4.Présentation des outils mis en oeuvre (fonctions, terminologie) 1.Espace personnel utilisateurs : Arbres, WebSources, Bookmark 2.Administration des Agents 3.2Crawl : gestion des WebSources 4.2Class : Arbres de classement 5.Présentation de la Base de la Connaissances, son rôle dans ActiveWatch™ 6.Gestion de sécurité : visibilité, rôles 5.Traitement d’un cas concret : le commerce électronique 6.Best practices

82 L’Université Arisem 82 2MakeSense : l’éditeur de base de connaissance Zoom sur les outils / 2MS Une base évolutive propre à la culture de l’entreprise, ses projets, son environnements (concurrents, technologies,…) 2MakeSense permet d’éditer et d’enrichir des bases de connaissance qui permettent au système d ’appréhender le sens d’un texte base de connaissances Surcouche domaine spécifique KB [Knowledge Base] : la base de connaissance Une représentation des objets de la langue encodée sous forme de concepts et de relations de sens entre ces concepts

83 L’Université Arisem 83 Lexicalisés (les différentes formes d’expressions de l’idée dans un texte) concept : voilier lexicalisation : bateau à voile, voilier Fléchis (singulier, pluriel, masculin, féminin, conjugaisons) Hyperonymes (est une sorte de…) : un chat est une sorte d’animal Idée associée : le miaulement est une idée associée au chat 2MakeSense propose un modèle de représentation sémantique de la connaissance, autour de : Concepts Relations entre les concepts Zoom sur les outils / 2MS

84 L’Université Arisem 84 Les lexicalisations Le concept La liste des concepts Zone de test d’analyse d’un texte Relations sémantiques Zoom sur les outils / 2MS

85 L’Université Arisem 85 Place de la KB dans ActiveWatch Constituer un corpus Expliciter une thématique Définir un univers textuel Publier dans un portail 2Crawl2MakeSense L4U 2Class

86 L’Université Arisem 86 Prise en compte des mises à jour de la KB par 2Crawl Il existe actuellement 2 modes : 2Crawl fait appel à la base SQL directement (AdressType = 1) 1. exporter la base de connaissance à chaque fois qu’elle a été modifiée 2. Arrêter / redémarrer OP 2Crawl fait appel à un fichier KB.k4u (AdressType = 0) 2. Arrêter / redémarrer OP 1. Bouton Refresh KB :

87 L’Université Arisem 87 Prise en compte des mises à jour de la KB par 2Class Pour que les modifications effectuées dans la KB soient prises en compte par 2Class, il est nécessaire : d’exporter la base de connaissance à chaque fois qu’elle a été modifiée (à la fin de la journée, par exemple) arrêter / redémarrer 2Class : réinjecter les documents précédemment classés.

88 L’Université Arisem 88 Plan de la formation 1.Présentation générale (OP4U, ActiveWatch ™, sémantique, modules) 2.La démarche de veille avec AW en 4 étapes 3.Le mécanisme d’analyse de contenu 4.Présentation des outils mis en oeuvre (fonctions, terminologie) 1.Espace personnel utilisateurs : Arbres, WebSources, Bookmark 2.Administration des Agents 3.2Crawl : gestion des WebSources 4.2Class : Arbres de classement 5.Présentation de la Base de la Connaissances, son rôle dans ActiveWatch ™ 6.Gestion de sécurité : visibilité, rôles 5.Traitement d’un cas concret : le commerce électronique 6.Best practices

89 L’Université Arisem 89 Plan de la partie Identification auprès du système Sécurité –Présentation générale –La visibilité sur les objets –Les rôles Création d’utilisateurs, de groupes

90 L’Université Arisem 90 Sécurité Ne se « log » pas qui veut Droits d’accès différents en fonction des types d’utilisateurs Gestion par rôles  Si un acteur du système ne rentre pas dans un rôle précis, il ne peut effectuer certaines tâches dans OpenPortal4U™

91 L’Université Arisem 91 La sécurité Objet RôleVisibilité Utilisateur GroupesVisibilité

92 L’Université Arisem 92 La visibilité System Dev Admin EndUser Anonymous

93 L’Université Arisem 93 La visibilité (2) Visibilité de l’utilisateur Visibilité d’un objet

94 L’Université Arisem 94 Les rôles Les utilisateurs peuvent réaliser certaines actions sur les objets du système. Ces actions sont matérialisées par des rôles. Pour chaque Objet il y a 3 rôles –Viewer (consulter) –Destructor (détruire) –Editor (modifier) Un utilisateur ne pourra réaliser une action sur un objet que s’il est enregistré dans un rôle de cet objet. Exemple : pour donner droit à M.X de voir votre arbre, il faut aller sur cet arbre.

95 L’Université Arisem 95 Les rôles (2)

96 L’Université Arisem 96 Les rôles (3)

97 L’Université Arisem 97 Création d’utilisateurs Création d’un compte utilisateur

98 L’Université Arisem 98 Création d’utilisateurs (2) Paramétrage du compte utilisateur

99 L’Université Arisem 99 Les groupes Les utilisateurs appartiennent à des groupes –Des rôles particuliers sont associés à un groupe donné Les groupes sont hiérarchisés

100 L’Université Arisem 100

101 L’Université Arisem 101 Plan de la formation 1.Présentation générale (OP4U, ActiveWatch ™, sémantique, modules) 2.La démarche de veille avec AW en 4 étapes 3.Le mécanisme d’analyse de contenu 4.Présentation des outils mis en oeuvre (fonctions, terminologie) 1.Espace personnel utilisateurs : Arbres, WebSources, Bookmark 2.Administration des Agents 3.2Crawl : gestion des WebSources 4.2Class : Arbres de classement 5.Présentation de la Base de la Connaissances, son rôle dans ActiveWatch ™ 6.Gestion de sécurité : visibilité, rôles 5.Traitement d’un cas concret : le commerce électronique 6.Best practices

102 L’Université Arisem 102 Réalisation d’un portail de veille sur le Commerce Electronique Chronologie des différentes étapes de réalisation Travail préliminaire Utilisation des outils Définition du Thème (aspects à aborder, documents attendus) Définition des différents sous-thèmes (structuration et vocabulaire) Construction d’un arbre de classement à partir du travail de définition 1 2 3 Évaluation de l’existant et 1er niveau de renseignement de la base de connaissance Repérage et collecte d’information (paramétrage d’une WebSource) Paramétrage du classement automatique des documents Évaluation des résultats Affinage, optimisation 4 5 6 7 8 Traitement d’un cas concret

103 L’Université Arisem 103 Un travail de définition/délimitation du thème de recherche, de l’objectif du portail, des documents attendus Objectif de ce travail : cerner clairement la problématique, isoler les idées clés, définir des sous-thèmes 1 Définition & problématique Commerce électronique : Quels sont les secteurs du marché en ligne ? Les modalités ? Quels sont les acteurs en France et à l’étranger ? Les services annexes ? Où en est la réglementation ? Traitement d’un cas concret 1- définir la structure globale de l’arbre de classement (cohérence et adéquation aux besoins) 2- orienter les WebSources (finesse et exhaustivité : mots-clés, sources) 3- évaluer et affiner les résultats selon l’axe attendu Un travail utile POUR :

104 L’Université Arisem 104 Résultante de ce travail de définition Quatre grandes idées clés Secteurs concernés (grande consommation, finances, immobilier, services à domicile…) Modalités : Enchères en ligne / Achats groupés / payement sécurisé… Législation (confidentialité, protection du consommateur…) Acteurs (net-compagnies) Quatre grandes idées clés = Quatre grands thèmes dans l’arbre de classement 1 - Produits 2 - Modalités 3 - Réglementation 4 – Net-compagnies Traitement d’un cas concret 2

105 L’Université Arisem 105 Un travail de redéfinition de idées clés du plan (grands thèmes) Objectif de ce travail : lister le lexique professionnel relatif au projet Définition des différents sous-thèmes / Définition des différents sous-thèmes / Mots-clés retenus Secteurs / Modalités / Législation : - Grande consommation - Modalités - Réglementation - Net-compagnies Alimentation, Hi-Fi, voyages… Payement électronique, achats groupés… Ministère d’économie, CEE… net-compagnie… Traitement d’un cas concret Un travail utile POUR : - tester l’existant dans la base de connaissance et identifier les nouveaux concepts clés à introduire - définir les mots-clés pour la WebSource 2 OCE – observatoire du commerce électronique ; ATI – accord sur les technologies de l’information

106 L’Université Arisem 106 Construction d’une arborescence structurée à partir du travail de définition de la recherche (thème, sous-thèmes) Le travail de définition permet de définir l’ossature de l’arbre de classement L’important étant de valider cette structure auprès des utilisateurs finaux afin de couvrir correctement leurs besoins Définition de l’arbre puis mise en œuvre avec 2Class Traitement d’un cas concret 3 Celui-ci peut être entièrement pré-défini dans sa structure fine (ensemble des sous-thèmes précis) ET/OU déroulé en fonction du corpus

107 L’Université Arisem 107 Le thème de la recherche est-il déjà défini dans la base de connaissance ? Traitement d’un cas concret 4

108 L’Université Arisem 108 Concepts associés au Commerce électronique Traitement d’un cas concret 4

109 L’Université Arisem 109 Dans cet exemple le 1er niveau de connaissance est assuré. Il n’est pour l’instant pas nécessaire d’affiner plus avant. La base sera complétée en fonction des résultats produits par le système. Mieux vaut compléter la base de connaissance progressivement, de manière pragmatique, plutôt que de vouloir d’emblée décrire l’ensemble du domaine (du projet) Les résultats permettront de préciser de manière pragmatique sur quels points la base de connaissance nécessite d’être enrichie. Note : Si cela n’avait pas été le cas, il aurait été nécessaire d’expliciter et désambiguïser à un premier niveau la notion de commerce électronique (convoquer ou créer les idées de net-compagnie, de marketing Online, etc …) Traitement d’un cas concret 4

110 L’Université Arisem 110 1 2 3 1 Collecte dans une WebSource Analyse du document suivant les critères sémantiques 23 Conservation des URL pertinentes pour la WebSource Créer sa WebSource Traitement d’un cas concret 5

111 L’Université Arisem 111 Un travail de paramétrage de l’arbre de classement pour exploiter le corpus de documents Objectif de ce travail : obtenir une première grille de consultation des documents (documents de la WebSource ventilés dans un arbre) Configuration du fonctionnement de chaque nœud pour orienter la circulation des documents dans l’arbre - « essayer de garder d’abord » - « essayer de passer d’abord » - « essayer de passer et de garder» Traitement d’un cas concret - consulter efficacement les résultats et affiner (kb, structure de l’arbre, spécialisation des WebSources) Un travail utile POUR :6

112 L’Université Arisem 112 Organiser le système de percolation pour retenir en priorité les documents au niveau des noeuds «spécialisés », dits nœuds fils. La plupart du temps il s’agit des nœuds du fond de l’arbre de classement. Paramétrage de chaque nœud de l’arbre Traitement d’un cas concret 6

113 L’Université Arisem 113 Méthodologie de paramétrage de percolation 1.Nœud terminal (garder les documents au dernier niveau) 2.Nœud intermédiaire (donner l’accès aux documents à partir du niveau 2-3) 3.Nœud racine (temporairement, nœud-piège pour identifier de nouvelles catégories) « pour garder » « pour passer » « Tout passer » – noeud structurant, pas de filtre : Pays Europe - pas de filtre, tout passer France Allemagne… « Passer en filtrant » - affiner le tri, pré-filtrage par le nœud- père.

114 L’Université Arisem 114 L’évaluation des résultats permet : Les résultats peuvent être affinés en intervenant sur : - identifier des sources spécialisées - évaluer les besoins d’enrichissement de la base de connaissance (ajouts) - envisager des sous- thèmes intéressants à développer /affiner - réajuster les seuils & les niveaux de filtrage (pré-filtrage inutile par le père direct) - le focus de la WebSource (sources spécialisées, nouveaux mots-clés) 2Crawl 2MS 2Class - ajouts de lexicalisations, de concepts, de liens, … - ajouts de nœuds, réorganisation partielle, création de nœuds pièges « l ’affinage des réglages boucle sur les trois outils : Class4U, IM4U et MoreSense4U Analyse Collecte Classification - enrichir et ajuster la requête sémantique (OR, AND, NEAR) - rejets manuels - ajuster la requête sémantique / nettoyer manuellement Analyse - régler le volume de résultats Classification

115 L’Université Arisem 115 Peaufinage du classement Trop de documents dans un nœud : Query trop large => affiner Seuils trop bas => augmenter Définition dans la KB trop large (réseau) => corriger Pas de filtre au niveau du père => mettre un filtre

116 L’Université Arisem 116 0 ou pas assez de documents dans un nœud : vérifier que le nœud-père n’est pas paramétré en « Ne rien passer » La thématique du nœud n’est pas couverte pas les sources => créer une Source spécialisée Query trop restrictive => élargir seuils trop hauts => baisser la densité rien dans la KB ne correspond à la Query => renseigner la KB

117 L’Université Arisem 117 Plan de la formation 1.Présentation générale (OP4U, ActiveWatch ™, sémantique, modules) 2.La démarche de veille avec AW en 4 étapes 3.Le mécanisme d’analyse de contenu 4.Présentation des outils mis en oeuvre (fonctions, terminologie) 1.Espace personnel utilisateurs : Arbres, WebSources, Bookmark 2.Administration des Agents 3.2Crawl : gestion des WebSources 4.2Class : Arbres de classement 5.Présentation de la Base de la Connaissances, son rôle dans ActiveWatch ™ 6.Gestion de sécurité : visibilité, rôles 5.Traitement d’un cas concret : le commerce électronique 6.Best practices

118 L’Université Arisem 118 1- Définir clairement la problématique Définition du thème de recherche (idées clés, thèmes, sous- thème, vocabulaire) Se munir de documents types illustrant la thématique Définition, décomposition du thème (Progress4U) Rassembler les sources spécialisées déjà identifiées Best Practices

119 L’Université Arisem 119 3- Évaluation de l’existant et enrichissement Test du thème de la recherche dans 2MS + notions principales Évaluation du réseau sémantique et des lexicalisations (multilingue) Enrichissement de 1er niveau seulement (pour désambiguïsation) si nécessaire 2- Définir la structure de l’arbre de classement Préparation de l’arbre « sur écran Excel » Valider la structure de l’arbre avec les utilisateurs finaux Best Practices

120 L’Université Arisem 120 Définir une WebSource 4- Collecte de documents Les Mots-clés - concernent le thème associé - pas trop restrictifs - tester sur quelques moteurs La question sémantique (query) - générique, représentative du thème - vérifier la validité de la question dans la KB (copier/coller) Sources - Choisir des sources appropriées en rapport avec les thèmes du projet ou le type d’informations attendues (sources spécialisées, sources sur les entreprises, news éco, news techniques,…) Note : une recherche sur des moteurs généralistes peut s’avérer suffisante ou complémentaire (découverte de sources spécialisées) Best Practices

121 L’Université Arisem 121 5- Paramétrage du classement Configurer le nœud racine en Garder en Filtrant (sans requête sémantique) pour isoler tous les documents non classés Configurer les nœuds père en Essayer de Passer d’abord + Garder en Filtrant pour identifier les documents «génériques » d’un sous-thème non classés dans les Fils (plus spécialisés) Note : Ces nœuds pourront ensuite passés en Ne Rien Garder, une fois les informations nécessaires identifiées Toujours vérifier la validité de la question sémantique dans la base de connaissance Best Practices

122 L’Université Arisem 122 Fin de la partie théorique Administration d’ActiveWatch Pour les travaux pratiques : réfléchir à la thématique de votre portail ! Vous avez des questions ?


Télécharger ppt "L’Université Arisem 1 Mise en place d’un portail de veille avec ActiveWatch Cédric Simard - février 2001 Première journée."

Présentations similaires


Annonces Google