La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan

Présentations similaires


Présentation au sujet: "Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan"— Transcription de la présentation:

1 Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan
Juin 2009

2 Organisation Le Web grand public Le Web dans l’industrie
Gestion d’information en P2P Perspective de recherche A l’INRIA Zooms sur des sujets de recherche Conclusion

3 Le Web grand public

4 Success stories sur le Web
Google: gestion des pages du Web Amazon, eBay: catalogues de vente sur le Web Facebook: informations personnelles et communautés Emule: musique en ligne Flickr: base de données de photos Myspace: pages Web YouTube: vidéos Wikipedia: dictionnaire Meetic: fiches individuelles Dailymotion: vidéos Quel est leur point commun ? Gestion d’information sur le Web

5 La gestion d’information – contexte
Un grand succès de l’informatique du 20ème siècle Le modèle relationnel Des tableaux à deux dimensions sur des serveurs centralisés

6 Ca a bougé…

7 Pour quelles sources d’information?
Base de données sur un serveur Un système de fichier Un serveur Web Un PC Un PDA Un smartphone Un senseur Un objet communicant - domotique Une voiture Une machine outil Un équipement télécom Un jouet Etc. ? N’importe quel objet ou logiciel connecté au réseau avec de l’information à partager

8 Le risque: se noyer sous un océan de données
De plus en plus facile de publier De plus en plus de données publiées De plus en plus difficile de trouver l’info De plus en plus difficile de l’avoir à temps données données temps temps

9 Ca a bougé Un grand succès de l’informatique du 20ème siècle
Le modèle relationnel Des tableaux à deux dimensions sur des serveurs centralisés Avec le Web, aujourd’hui Les données sont hétérogènes (format, structure, métadonnées, ontologies, multimédia, etc.) Les serveurs de données sont hétérogènes, distribués, autonomes, parfois mobiles (BDs, PDA, téléphones, objets communicants, senseurs…) L’information est changeante, imprécise, incohérente parfois Parfois grande échelle: Millions de serveurs, terra octets de données, milliards d’objets communicants

10 Les standards du Web L’information résidait sur des iles avec des formats, des langages de programmation, des applications, des systèmes d’exploitations différents Mais ça a changé avec les standards du Web XML : données Xquery : requêtes SOAP : calcul distribué Services Web - BPEL Owl : sémantique Accès uniforme et universel à l’information… XML Owl RDFS SOAP WSDL BPEL Xquery Xpath

11 XML et tout le spectre d’information
Minimal structure Structured Data Hierarchy Meta data Books Contracts Catalogs Bank accounts s Financial Reports Insurance Policies Economical Analysis Derivatives Inventory Political analysis Insurance Claims Financial News Sports News Resumes

12 Xquery (et Xpath) Une « logique » pour des arbres étiquetés, ordonnés, non bornés langage déclaratif Inspiré de SQL: standard pour données relationnelles Inspiré de OQL: standard pour données objet Mélange le contenu et la structure: BD et recherche d’information Documents où Twingo apparait dans le titre Langage de mise-à-jour

13 Services Web et calcul distribué
Possibilité d’activer une méthode sur un serveur Web distant (un peu Corba en moins sophistiqué) Echange d’information en XML: input/résultat en XML Infrastructure pour faire du calcul distribué partout Avec XML et les services Web, il est devenu possible D’obtenir de l’information de quasiment partout De publier de l’information de quasiment partout Une famille de standards: SOAP, WSDL, UDDI

14 Les workflows: chorégraphie de services
Wikipedia: On appelle « workflow » la modélisation et la gestion informatique de l'ensemble des tâches à accomplir et des différents acteurs impliqués dans la réalisation d'un processus métier Un workflow est un flux d'informations au sein d'une organisation Business Process Execution Language (BPEL), un standards exécutable pour spécifier des interactions avec des services Web

15 Sémantique: des standards émergeants
Je ne vais beaucoup parler de sémantique Web sémantique Domaine très actif Standards encore peu figés

16 Un accès uniforme à l’information …
Un accès uniforme à l’information … … Le rêve de la gestion de données distribuées

17 Tendances Plus de sémantique: Web sémantique Plus d’interaction
Un programme peut poser des questions précises et obtenir des réponses précises Plus d’interaction Web 2.0 & réseaux sociaux Wiki, mashups, facebook, twitter… Applications de plus en plus distribuées &pair-à-pair

18 Et l’industrie

19 Ils font comme tout le monde
Ils utilisent Google Leurs réseaux sociaux comme Linkedin Youtube et Dailymotion (pour la pub, la formation…) Twitter pour le buzz Des sites d’emploi (leur Meetic) Ils vendent/achètent sur e-bay Ils font des sites Webs

20 Ils ont leurs propres applications
Commerce: propres sites Vendre: e-business Achat: e-approvisionnement Ils utilisent le Web pour informatiser leurs processus Web service et workflows BPEL Fabrication Traçabilité Même si ça se voit moins, ils l’utilisent énormément Virage XML plus rapide que le grand public qui reste textuel Virage Web service plus rapide – car ça demande des ingénieurs

21 Ce qui leur plait Outils de gestion/partage de données distribuées
Standard d’ échanges: XML. Possibilité de déploiement très rapide Moteur de recherche Web Faire baisser les coûts de développement d’applications réparties Outils de composition et d’orchestration de services - Web services Outils de déploiement rapide d’applications réparties - Mashups

22 Ils ont des contraintes particulières
Qualité de service: performance, sécurité, disponibilité Souvent inacceptable pour eux sur le Web aujourd’hui Contrôle d’accès et confidentialité Idem Facebook comme réseau social d’entreprise – c’est pas sérieux Ils commencent à trouver que l’informatique coûte cher et aiment bien le gratuit même si Ils ne peuvent pas se permettre le piratage Ils n’hésitent pas à payer

23 Gestion d’information en pair-à-pair

24 Gestion d’information en P2P
Content Sharing Community (CSC): Un groupe d’utilisateurs qui partagent de l’information à l’intérieur d’un domaine particulier Exemples: Un groupes de sociétés, des scientifiques dans un certain domaine, une association, un groupe d’amis Problème nouveau de gestion de données Les données sont hétérogènes et dynamiques Les données sont distribuées

25 La difficulté Arriver à faire coopérer des machines autonomes
SGBD distribués Depuis longtemps un écueil de la gestion de données Lourds à mettre en place Nombre restreint de machine & Souvent systèmes homogènes Pourquoi c’est devenu faisable On va limiter nos exigences On va utiliser la puissance du parallélisme Et surtout: les nouveaux standards du Web

26 Pair-à-pair Pair-à-pair: un nombre important et changeant de systèmes coopèrent pour réaliser une tache sans aucune autorité centrale Pair-à-pair massif: musique en ligne avec des millions de pairs Pair-à-pair pas massif: gestion de données dans une entreprise avec des dizaines de pairs

27 De bonnes raisons pour une gestion P2P de données
Des raisons techniques Performance Disponibilité Des raisons socio-économiques Coût Organisation décentralisée Contrôle des données

28 Avantage technique: performances
Exemple: Dans un système centralisé, plus un document est populaire, plus ça prend du temps de l’obtenir Avec un système P2P comme BitTorrent, c’est le contraire Serveur saturé Accélération

29 Avantage technique: disponibilité
Avantages Plusieurs copies d’une même donnée, disponible même en cas de panne Système d’archivage et de sauvegarde en P2P Aussi des désavantages d’un point de vue technique Plus complexe donc risque de pannes Difficile de gérer les mises-à-jour Difficile de contrôler la qualité de service

30 Avantage économique: gestion de données à coût zéro
On utilise un système P2P gratuit On utilise des machines existantes (pc, livebox, etc.) On utilise les ingénieurs qui gèrent déjà ces systèmes et leurs applications Bien adapté au Web et sa philosophie du « tout gratuit » Moins que pour le grand public Même les entreprises s’habituent au « free »

31 Avantage économique: bien adapté aux organisations peu centralisées
Avantages du P2P Pas nécessaire de trouver un leader Pas nécessaire de décider/imposer des règles fortes Possibilité de laisser chacun indépendant et autonome Désavantages du P2P pour des organisations très centralisées Plus difficile d’imposer des règles fortes Plus difficile de garantir la cohérence des données en présence de mises-à-jour Bien adapté aux gros groupes avec des entités indépendantes – même s’ils n’en sont pas encore convaincus 

32 Mais des difficultés aussi
Complexité Cause sérieuse de pannes Difficulté de gérer les mises-à-jour Difficulté de contrôler la qualité de service Comportement asociaux Spam, spamdexing & autres Confiance

33 Ça n’arrive pas vite dans l’industrie
QoS Business model pas clair Qui paie? Pour quoi?

34 Perspective de recherche A l’INRIA Zooms sur des sujets de recherche

35 A l’INRIA De nombreuses équipes travaille autour du Web Nombreux verrous technologiques Gestion de données distribuées Gestion de connaissance Linguistique computationnelle Systèmes pair-à-pair Spécification et vérification d’applications réparties Interface humain-machine Etc.

36 3 Zooms (sûrement moins par manque de temps) Surveillance du Web
Facebook en P2P Artifacts business

37 Surveillance du Web: Fonctionnalités
Acquisition de données Crawl du Web focalisé sur un domaine Surveillance des changements: gestion de flux de données Intégration avec les données de l’entreprise: outils LTE Gestion de données Stockage, indexation, requêtes/mises-à-jour, contrôle d’accès Enrichissement Classification, annotations sémantiques Multilinguisme Gestion d’ontologies, extraction de connaissances Exploitation IHM, fouille de données

38 Surveillance du Web: Webcontent (1)
Plateforme ANR Entrepôt pour le Web sémantique INRIA, CEA, Thales, EADS, Soredab, INRA, Exalead, etc. Premières applications Veille économique en aéronautique Intelligence stratégique Risque alimentaire microbiologique et chimique Surveillance d’évènements sismique

39 Surveillance du Web: Webcontent (2)
Archi basée sur XML et les services Web Services d’acquisition, enrichissement, d’exploitation Autour d’un service de gestion de données XML 2 architectures Archi centralisée autour d’un bus logiciel Archi P2P autour d’un système de gestion de XML en P2P

40 Facebook stocke des données personnelles Plein d’autres systèmes également Difficile de contrôler ce qu’ils en font Difficile de garder mes données à jour

41 Facebook: Architecture
X Delicious Myspace X Gmail X LinkedIn Sue Bob Sue Bob Sue

42 Facebook en P2P Facebook Facebook Facebook Facebook Bob Sue Sue Sue
Directes interactions Je garde le contrôle sur mes données personnelles Toutes les applications qui me concernent partagent les mêmes données Si je change de numéro de téléphone, je n’ai pas à le changer dans 100 systèmes chez Bob Proxy Bob Proxy Sue Sue Sue Bob Sue

43 Facebook en P2P (fin) Droits d’accès en P2P – cryptographie Index en P2P (avec des données cryptées) Faire tourner chez soi des applications développées par des inconnus

44 Workflows centrés sur les données (1)
Artifact business: document qui représente une activité humaine Commande, voyage, objet à construire Évolue dans le temps suivant certaines règles Active XML Artifacts Modèle basé sur XML avec des appels de services imbriqués Documents que l’ont peut s’échanger Domaine général: workflow centré sur les données Combine les systèmes de workflow et les systèmes de gestion de données Bien adapté pour des applications distribuées Application jouet: le système de fabrication de Dell: sites commerciaux, banques, usines, entrepôts, société livraison

45 Workflows centrés sur les données (2)
Quelques sujets de recherche dans ce cadre Aide à la conception de tels systèmes Vérifier que le code est conforme aux spécifications Surveillance de tels systèmes Prévoir les ruptures de stock de pièces détachés Aider au dispatching Détecter les disfonctionnement et en trouver les causes Passage à l’échelle Contrôle accès, qualité des données et confiance

46 Conclusion

47 Conclusion Prévision sur le Web : il faut être très modeste
Ça va ralentir – on a fait le plus facile et on arrive aux sujets durs Linguistique Gestion de connaissances… Ça va continuer à bouger – créativité humaine Web sémantique : Web de connaissances plutôt que de texte Web 2.0 : un Web plus interactif, plus communautaire Web des objets Web du pair-a-pair Histoire : pour le Web, on a toujours sous-estimé la créativité humaine

48 Merci 1:15 + 15mn questions Développer
Webcontent – expliquer plateforme ANR – archi et ½ transparents pour chaque appli Gestion de requetes en P2P Business artifacts Conclusion – de maquette à proto à recherche exploratoire prévisions sur le Web: modeste Voir transparents cantine Ralentissement? Sujets durs: linguistique, gestion de connaissances


Télécharger ppt "Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan"

Présentations similaires


Annonces Google