Karamatou LIADYDESS SITN Damien LAHMIDESS SITN WebFountain Mars 2005 Recherche dinformation sur le Web.

Karamatou LIADYDESS SITN klia_bj@yahoo.fr Damien LAHMIDESS SITN damienlahmi@free.fr WebFountain Mars 2005 Recherche dinformation sur le Web

Mars 2005WebFountain2 Plan Le projet WebFountain WebFountain : fonctionnement et sémantique Procédures de recherche Architecture du moteur Algorithme utilisé : HITS Les concurrents de WebFountain Les enjeux économiques du nouveau moteur Vers lInternet payant ?

Mars 2005WebFountain3 Rappel du contexte Moteurs de recherche : outils standards pour traiter la surabondance dinformation But : conduire lutilisateur vers un plus petit choix des documents qui contiennent simplement les mots recherchés Règne suprême de Google 2/3 des utilisateurs du Web utilisent Google pour trouver des informations sur les questions qu'ils se posent. La consultation des premières pages fournies en réponse par le moteur de recherche ne suffisent pas à cerner le sujet de l'interrogation. Démarche actuelle pousser l'investigation au delà des premières réponses de la première page de Google sauter de liens en liens pour obtenir une quantité et qualité d'information satisfaisante Ex : un marketer cherchant en ligne des informations des consommateurs par rapport à Pink, la chanteuse de Rock devra trier dans les pages trouvées les informations sur la personne et sur la couleur…

Mars 2005WebFountain4 Buts du projet WebFountain Il ne sagit pas de reproduire un nouveau moteur de recherche à la Google Plate-forme associant fonctions de moteur de recherche et de texte mining Mise en place dun moteur d'analyse qui peut : « renifler » ses propres indices à propos du sens global d'un document fournir de la perspicacité le sens global des résultats de la recherche Permettre une automatisation des recherches sur le Web WebFountain idée d'un Web Sémantique, reposant les technologies nouvelles dérivées de XML Défi majeur Aller delà de la difficulté d'indexer convenablement les données du Web Rendre les données du Web « signifiantes » pour un robot IBM vs Google Google : premier moteur à indexer pertinemment les pages du Web IBM avec WebFountain : premier à avoir transcodé le Web en Web Sémantique.

Mars 2005WebFountain5 Quoi et pour qui ? Objectifs à atteindre Créer un système convertit l'anarchie des données sur le Web (page Web en ligne, E-mail, chat, forums, blogs...) en un format qui peut être analysé pour identifier l'information ayant une valeur commerciale Offrir des solutions permettant aux ordinateurs des entreprises D'entrer dans le contenu des informations en ligne De restituer tous les documents susceptibles de concerner une recherche donnée : –Analystes économiques et financiers, –Observateurs politiques –Vendeurs de données –Services de renseignement et de police Service payant => réservé aux entreprises ou administartions riches Avantages Accroître les vastes réserves d'information inexploitée en ligne Facilité de prises de décisions économiques

Mars 2005WebFountain6 Moyens mis en oeuvre IBM Almaden Research Center de San Jose en Californie Moyens humains : 120 personnes (divisées en équipes) Moyens matériels : énorme complexe de processeurs, routeurs, disques et logiciels, occupant la superficie d'un demi-terrain de football Durée : 4 ans Moyens financiers : plus 100 millions de dollars en frais de développement Mise en service avec Factiva dont le métier est de vendre des informations économiques

Mars 2005WebFountain7 Premier test

Mars 2005WebFountain8 Analyse des données Majorité des documents sur le web contiennent des données non structurées Démarche WebFountain : Convertir l'information reçue en un format permettant son analyse automatique Les programmes « Crawler » ou « Spider » –Parcourent le web en 1 semaine –Archivent les pages rencontrées dans de bases de données (de 160 terabits d'espace disque) Transfert des données dans le cluster des processeurs centraux de données Analyse des données avec 40 programmes appelés « annotators » –Les annotateurs sont spécialisés par type de recherche –Chaque annotateur recherche dans le document analysé les mots ou phrases qu'il peut reconnaître, qu'il identifie en cas de succès par un tag XML Stockage des documents labellisés dans des bases de données Soumission en fonction des informations recherchées à procédures de data-mining ou procédures utilisant lintelligence artificielle

Mars 2005WebFountain9 Les annotateurs Processus dannotation => création de données structurée à analyser Deux types dannotateurs Simples : identifient les liens aux autres documents ou le language et lensemble de caractères utilisé Complexes –Infèrent le sens et la signification des documents analysés –Mettent les documents analysés dans les bases de connaissances Les bases de connaissances Mises ou non à la disposition du public ou des clients payants Ex : base de US Securities and Exchange Commission (publique) Propriété de IBM et de ses partenaires privilégiés –Description de linformation dans des domaines de connaissances particuliers –Ex : pétrochimie, industrie pharmaceutique

Mars 2005WebFountain10 La structuration des données (1) WebFountain utilise une approche plus souple de structuration de données que leur stockage dans une base de données. Utilisation de méthode d'ajout des étiquettes textes aux documents Étiquettes indiquant à un ordinateur les divers éléments du contenu en utilisant XML Ex : les numéros d'identification de produit ou les prix sont identifiés en les encadrant avec des étiquettes, comme dans Grille pain de luxe, 19.95. Avantage par rapport à l'approche de base de données : Les documents sont plus facilement partagés. Ex : Une entreprise peut mettre son catalogue XML sur son site Web, et les clients potentiels peuvent alors balayer le catalogue avec le logiciel qui compare automatiquement les prix et d'autres détails à des catalogues similaires d'autres entreprises.

Mars 2005WebFountain11 La structuration des données (2) Comment résoudre le problème des nombreuses sources d'information en ligne non adaptées au model XML ( Page Web perso, e-mails, conversations dans les chats...) ? Transformation des données non étiquetées en données XML-marquées.

Mars 2005WebFountain12 Architecture du moteur La plate-forme Infrastructure incorporant le tiers contenu et technologies des partenaires associés pour fournir les solutions clientes complètes Intègre des miners, des crawlers et les applications liées à des tâches spécifiques ou globales Adhère aux normes ouvertes et scalables Les données Stocks de plusieurs Terabytes de données non structurées et semi-structurées. Concernent des données d'Internet, des blogs, des tableaux d'affichage, des données d'entreprise, de contenu autorisé, des journaux, des magazines et des journaux commerciaux Les analyseurs de texte multi-domaines WebFountain fournit une plateforme intégrée pour des approches analytiques des textes multidisciplinaires Ceci inclut le traitement de langage naturel, les statistiques, les probabilités, l'étude de machine, l'identification de modèle et l'intelligence artificielle

Mars 2005WebFountain13 Solution commerciale Partenariat technologique de IBM avec Factiva (sur WebFountain) Greffe du Module Insight for Reputation de Factiva sur lnfrastructure WebFountain Fourniture de service par Factiva (New-York) par abonnement Coût annuel du service : entre 150 000 et 300 000 $

Mars 2005WebFountain14 WebFountain & Insight for Reputation Exemple :Un industriel dénommé Dupont fabrique une série de produits défectueux. le couple Dupont/panne apparaît dans les blogs et les groupes de discussion. les associations de consommateurs commencent, elles aussi, à y prêter attention. Alerté à ce stade, l'industriel a encore le temps d'organiser sa défense avant que la presse ne se saisisse de l'information... Au-delà de la surveillance, le logiciel peut établir également des corrélations insoupçonnées (ex : défaillance technique). Factiva lance une requête (saisie en langage naturel par l'utilisateur), récupère le flux d'IBM et présente les données dans son propre format Les outils de textmining d'IBM englobent - les sources propriétaires de Factiva - tous les contenus produits sur le web. Une fois extraites, ces différentes sources sont stockées, indexées et analysées. Les résultats sont ensuite présentés sous forme graphique.

Mars 2005WebFountain15 Algorithme utilisé : HITS (1) (Hyperlinked Induced Topic Search) Contexte historique Inventeur : Jon Kleinberg Origines de cet algorithme de classement La méthode de Pinski-Narin Les méthodes dites « bibliométriques » Les principes de lalgorithme Les sites de référence appelés « authorities » Les sites contenant des liens vers les «authorities» appelés «hubs» Lhypothèse est : «Un document qui pointe vers beaucoup de bonnes Authorities est un bon Hub, et un document pointé par beaucoup de bon Hubs est une bonne Authority» [Kleinberg99]

Mars 2005WebFountain16 Algorithme utilisé : HITS (2) (Hyperlinked Induced Topic Search) Structure des liens Un «hub» se caractérise par de nombreux liens sortants pointant vers des «authorities» Les «authorities» montrent surtout des liens entrants émanant des «hubs» Un des avantages de HITS : Existence de « communautés » (groupes de sites fortement liés entre eux) Exemple dapplication pratique : Ask Jeeves

Mars 2005WebFountain17 Les concurrents de WebFountain (1) Inktomi Search Engine Société américaine Moteur de recherche «indirect» La technologie dInktomi est considérée comme lune des plus valables Produit adopté par MSN

Mars 2005WebFountain18 Les concurrents de WebFountain (2) Google in a box Société américaine Solution de recherche Intranet Détecte de 28 langues Indexe les principaux types de fichiers rencontrés en entreprises (Office, HTML, PDF, etc.) Un «package» logiciel + 2 ans de support à partir de 32 000 US$.

Mars 2005WebFountain19 Les concurrents de WebFountain (3) Fast Search & Transfer Société norvégienne Un puissant moteur de recherche : alltheweb.com – 2,1 milliards de pages indexées (très près de Google) – Technologie du moteur caractérisée par sa rapidité de recherche – Haute qualité de navigation – Détecte 46 langues – Client le plus important de FAST : Lycos – 30 millions de requêtes en moyenne par jour

Mars 2005WebFountain20 Les concurrents de WebFountain (4) ClearForest Société Israélo-américaine Logicielle de fouille textuelle => capable de lire 250 000 pages à lheure Adapté pour analyser les données non structurées, les mails... Analyse les textes en plusieurs langues Système utilisé par des agences gouvernementales américaines, des institutions privées, des universités – Exemple : le FBI utilise cet outil pour contrecarrer des attaques terroristes

Mars 2005WebFountain21 Les enjeux économiques (1) Un investissement important dIBM Des moyens financiers et humains importants 100 millions de dollars en frais de développement Plusieurs équipes du laboratoire Almaden ont participé au projet Diminution de linfrastructure nécessaire – Un cluster de 1000 PC travaillant en parallèle pour alimenter une base dun ordre de grandeur de plusieurs petaoctets (1 petaoctets=1 000 teraoctets=100 000 gigaoctets). –A titre indicatif : Google travaille avec 15 000 PC de base.

Mars 2005WebFountain22 Les enjeux économiques (2) Les cibles touchées par WebFountain Un outil développé selon 3 directions – Un partenariat économique avec des sociétés spécialisées dans le Knowledge Management ou lintelligence économique Exemple : accord avec la société FACTIVA en septembre 2003 – Service de type «business on demand» pour des sociétés souhaitant faire des recherches ponctuelles ou régulières en utilisant les ressources dIBM – Mise en place de solutions dinfrastructure complètes au profit dentreprises désireuses de se doter de leur propre moteur de recherche Pas de concurrence à court de terme par rapport Google IBM possède les moyens technologiques de lancer à tout moment un moteur de recherche «grand public» très performant

Mars 2005WebFountain23 Les enjeux économiques (3) Fournir en temps réel lévolution de limage dune société sur le web Suivre les désirs des consommateurs à la trace à des fins économiques Première utilisation de WebFountain : surveiller la toile pour savoir à lavance quel allait être le succès dun album lancé par une grande maison de disques WebFountain pourrait devenir un outil incontournable dans le monde économique Un coût important variant entre 150 000 et 300 000 dollars par an. Avantage pour les firmes déjà riches et dominantes

Mars 2005WebFountain24 Vers linternet payant Des moteurs de recherche payants En quelques années, la plupart des moteurs de recherche sont devenus payants Après allopass, le e-commerce, la vente de news, articles, cours, voici le référencement payant – Une recherche va devenir un service payant en fonction du nombre de requêtes ou en fonction dune durée dutilisation Problème Les critères de positionnement en pages de résultats dun moteur de recherche doivent porter uniquement sur le contenu du site. Mais avec le référencement payant, nous pouvons craindre davoir des résultats faussés

Mars 2005WebFountain25 ?

Karamatou LIADYDESS SITN Damien LAHMIDESS SITN WebFountain Mars 2005 Recherche dinformation sur le Web.

Présentations similaires

Présentation au sujet: "Karamatou LIADYDESS SITN Damien LAHMIDESS SITN WebFountain Mars 2005 Recherche dinformation sur le Web."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Karamatou LIADYDESS SITN Damien LAHMIDESS SITN WebFountain Mars 2005 Recherche dinformation sur le Web.

Présentations similaires

Présentation au sujet: "Karamatou LIADYDESS SITN Damien LAHMIDESS SITN WebFountain Mars 2005 Recherche dinformation sur le Web."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back