La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

Présentations similaires


Présentation au sujet: "1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009."— Transcription de la présentation:

1 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009

2 2 S. Abiteboul – INRIA Saclay Organisation Le Web grand public Le Web dans lindustrie Gestion dinformation en P2P Perspective de recherche A lINRIA Zooms sur des sujets de recherche Conclusion

3 3 Le Web grand public

4 4 S. Abiteboul – INRIA Saclay Success stories sur le Web Google: gestion des pages du Web Amazon, eBay: catalogues de vente sur le Web Facebook: informations personnelles et communautés Emule: musique en ligne Flickr: base de données de photos Myspace: pages Web YouTube: vidéos Wikipedia: dictionnaire Meetic: fiches individuelles Dailymotion: vidéos Quel est leur point commun ? Gestion dinformation sur le Web

5 5 S. Abiteboul – INRIA Saclay La gestion dinformation – contexte Un grand succès de linformatique du 20ème siècle Le modèle relationnel Des tableaux à deux dimensions sur des serveurs centralisés

6 6 S. Abiteboul – INRIA Saclay Ca a bougé…

7 7 S. Abiteboul – INRIA Saclay Pour quelles sources dinformation? Base de données sur un serveur Un système de fichier Un serveur Web Un PC Un PDA Un smartphone Un senseur Un objet communicant - domotique Une voiture Une machine outil Un équipement télécom Un jouet Etc. ? Nimporte quel objet ou logiciel connecté au réseau avec de linformation à partager

8 8 S. Abiteboul – INRIA Saclay Le risque: se noyer sous un océan de données De plus en plus facile de publier De plus en plus de données publiées De plus en plus difficile de trouver linfo De plus en plus difficile de lavoir à temps donnéesdonnées donnéesdonnées temps

9 9 S. Abiteboul – INRIA Saclay Ca a bougé Un grand succès de linformatique du 20ème siècle Le modèle relationnel Des tableaux à deux dimensions sur des serveurs centralisés Avec le Web, aujourdhui Les données sont hétérogènes (format, structure, métadonnées, ontologies, multimédia, etc.) Les serveurs de données sont hétérogènes, distribués, autonomes, parfois mobiles (BDs, PDA, téléphones, objets communicants, senseurs…) Linformation est changeante, imprécise, incohérente parfois Parfois grande échelle: Millions de serveurs, terra octets de données, milliards dobjets communicants

10 10 S. Abiteboul – INRIA Saclay Linformation résidait sur des iles avec des formats, des langages de programmation, des applications, des systèmes dexploitations différents Mais ça a changé avec les standards du Web XML : données Xquery : requêtes SOAP : calcul distribué Services Web - BPEL Owl : sémantique Accès uniforme et universel à linformation… Les standards du Web SOAP WSDL BPEL XML Xquery Xpath Owl RDFS

11 11 S. Abiteboul – INRIA Saclay XML et tout le spectre dinformation Structured Data Minimal structure Meta dataHierarchy + BooksContractsCatalogs Bank accounts s Financial Reports Insurance Policies Economical Analysis Derivatives Inventory Political analysis Insurance Claims Financial NewsSports News Resumes

12 12 S. Abiteboul – INRIA Saclay Xquery (et Xpath) Une « logique » pour des arbres étiquetés, ordonnés, non bornés langage déclaratif Inspiré de SQL: standard pour données relationnelles Inspiré de OQL: standard pour données objet Mélange le contenu et la structure: BD et recherche dinformation Documents où Twingo apparait dans le titre Langage de mise-à-jour

13 13 S. Abiteboul – INRIA Saclay Services Web et calcul distribué Possibilité dactiver une méthode sur un serveur Web distant (un peu Corba en moins sophistiqué) Echange dinformation en XML: input/résultat en XML Infrastructure pour faire du calcul distribué partout Avec XML et les services Web, il est devenu possible Dobtenir de linformation de quasiment partout De publier de linformation de quasiment partout Une famille de standards: SOAP, WSDL, UDDI

14 14 S. Abiteboul – INRIA Saclay Les workflows: chorégraphie de services Wikipedia: On appelle « workflow » la modélisation et la gestion informatique de l'ensemble des tâches à accomplir et des différents acteurs impliqués dans la réalisation d'un processus métier Un workflow est un flux d'informations au sein d'une organisation Business Process Execution Language (BPEL), un standards exécutable pour spécifier des interactions avec des services Web

15 15 S. Abiteboul – INRIA Saclay Sémantique: des standards émergeants Web sémantique Domaine très actif Standards encore peu figés Je ne vais beaucoup parler de sémantique

16 16 Un accès uniforme à linformation … … Le rêve de la gestion de données distribuées

17 17 S. Abiteboul – INRIA Saclay Tendances Plus de sémantique: Web sémantique Un programme peut poser des questions précises et obtenir des réponses précises Plus dinteraction Web 2.0 & réseaux sociaux Wiki, mashups, facebook, twitter … Applications de plus en plus distribuées &pair-à-pair

18 18 Et lindustrie

19 19 S. Abiteboul – INRIA Saclay Ils font comme tout le monde Ils utilisent Google Leurs réseaux sociaux comme Linkedin Youtube et Dailymotion (pour la pub, la formation…) Twitter pour le buzz Des sites demploi (leur Meetic) Ils vendent/achètent sur e-bay Ils font des sites Webs

20 20 S. Abiteboul – INRIA Saclay Ils ont leurs propres applications Commerce: propres sites Vendre: e-business Achat: e-approvisionnement Ils utilisent le Web pour informatiser leurs processus Web service et workflows BPEL Fabrication Traçabilité Même si ça se voit moins, ils lutilisent énormément Virage XML plus rapide que le grand public qui reste textuel Virage Web service plus rapide – car ça demande des ingénieurs

21 21 S. Abiteboul – INRIA Saclay Ce qui leur plait Outils de gestion/partage de données distribuées Standard d échanges: XML. Possibilité de déploiement très rapide Moteur de recherche Web Faire baisser les coûts de développement dapplications réparties Outils de composition et dorchestration de services - Web services Outils de déploiement rapide dapplications réparties - Mashups

22 22 S. Abiteboul – INRIA Saclay Ils ont des contraintes particulières Qualité de service : performance, sécurité, disponibilité Souvent inacceptable pour eux sur le Web aujourdhui Contrôle daccès et confidentialité Idem Facebook comme réseau social dentreprise – cest pas sérieux Ils commencent à trouver que linformatique coûte cher et aiment bien le gratuit même si Ils ne peuvent pas se permettre le piratage Ils nhésitent pas à payer

23 23 Gestion dinformation en pair-à-pair

24 24 S. Abiteboul – INRIA Saclay Gestion dinformation en P2P Content Sharing Community (CSC): Un groupe dutilisateurs qui partagent de linformation à lintérieur dun domaine particulier Exemples: Un groupes de sociétés, des scientifiques dans un certain domaine, une association, un groupe damis Problème nouveau de gestion de données Les données sont hétérogènes et dynamiques Les données sont distribuées

25 25 S. Abiteboul – INRIA Saclay La difficulté Arriver à faire coopérer des machines autonomes SGBD distribués Depuis longtemps un écueil de la gestion de données Lourds à mettre en place Nombre restreint de machine & Souvent systèmes homogènes Pourquoi cest devenu faisable On va limiter nos exigences On va utiliser la puissance du parallélisme Et surtout: les nouveaux standards du Web

26 26 S. Abiteboul – INRIA Saclay Pair-à-pair Pair-à-pair: un nombre important et changeant de systèmes coopèrent pour réaliser une tache sans aucune autorité centrale Pair-à-pair massif: musique en ligne avec des millions de pairs Pair-à-pair pas massif: gestion de données dans une entreprise avec des dizaines de pairs

27 27 S. Abiteboul – INRIA Saclay De bonnes raisons pour une gestion P2P de données Des raisons techniques Performance Disponibilité Des raisons socio-économiques Coût Organisation décentralisée Contrôle des données

28 28 S. Abiteboul – INRIA Saclay Exemple: Dans un système centralisé, plus un document est populaire, plus ça prend du temps de lobtenir Avec un système P2P comme BitTorrent, cest le contraire Serveur saturéAccélération Avantage technique: performances

29 29 S. Abiteboul – INRIA Saclay Avantage technique: disponibilité Avantages Plusieurs copies dune même donnée, disponible même en cas de panne Système darchivage et de sauvegarde en P2P Aussi des désavantages dun point de vue technique Plus complexe donc risque de pannes Difficile de gérer les mises-à-jour Difficile de contrôler la qualité de service

30 30 S. Abiteboul – INRIA Saclay Avantage économique: gestion de données à coût zéro On utilise un système P2P gratuit On utilise des machines existantes (pc, livebox, etc.) On utilise les ingénieurs qui gèrent déjà ces systèmes et leurs applications Bien adapté au Web et sa philosophie du « tout gratuit » Moins que pour le grand public Même les entreprises shabituent au « free »

31 31 S. Abiteboul – INRIA Saclay Avantage économique: bien adapté aux organisations peu centralisées Avantages du P2P Pas nécessaire de trouver un leader Pas nécessaire de décider/imposer des règles fortes Possibilité de laisser chacun indépendant et autonome Désavantages du P2P pour des organisations très centralisées Plus difficile dimposer des règles fortes Plus difficile de garantir la cohérence des données en présence de mises-à-jour Bien adapté aux gros groupes avec des entités indépendantes – même sils nen sont pas encore convaincus

32 32 S. Abiteboul – INRIA Saclay Mais des difficultés aussi Complexité Cause sérieuse de pannes Difficulté de gérer les mises-à-jour Difficulté de contrôler la qualité de service Comportement asociaux Spam, spamdexing & autres Confiance

33 33 S. Abiteboul – INRIA Saclay Ça narrive pas vite dans lindustrie QoS Business model pas clair Qui paie? Pour quoi?

34 34 Perspective de recherche A lINRIA Zooms sur des sujets de recherche

35 35 S. Abiteboul – INRIA Saclay A lINRIA De nombreuses équipes travaille autour du Web Nombreux verrous technologiques Gestion de données distribuées Gestion de connaissance Linguistique computationnelle Systèmes pair-à-pair Spécification et vérification dapplications réparties Interface humain-machine Etc.

36 36 S. Abiteboul – INRIA Saclay 3 Zooms (sûrement moins par manque de temps) Surveillance du Web Facebook en P2P Artifacts business

37 37 S. Abiteboul – INRIA Saclay Surveillance du Web: Fonctionnalités Acquisition de données Crawl du Web focalisé sur un domaine Surveillance des changements: gestion de flux de données Intégration avec les données de lentreprise: outils LTE Gestion de données Stockage, indexation, requêtes/mises-à-jour, contrôle daccès Enrichissement Classification, annotations sémantiques Multilinguisme Gestion dontologies, extraction de connaissances Exploitation IHM, fouille de données

38 38 S. Abiteboul – INRIA Saclay Surveillance du Web: Webcontent (1) Plateforme ANR Entrepôt pour le Web sémantique INRIA, CEA, Thales, EADS, Soredab, INRA, Exalead, etc. Premières applications Veille économique en aéronautique Intelligence stratégique Risque alimentaire microbiologique et chimique Surveillance dévènements sismique

39 39 S. Abiteboul – INRIA Saclay Surveillance du Web: Webcontent (2) Archi basée sur XML et les services Web Services dacquisition, enrichissement, dexploitation Autour dun service de gestion de données XML 2 architectures Archi centralisée autour dun bus logiciel Archi P2P autour dun système de gestion de XML en P2P

40 40 S. Abiteboul – INRIA Saclay Facebook stocke des données personnelles Plein dautres systèmes également Difficile de contrôler ce quils en font Difficile de garder mes données à jour

41 41 S. Abiteboul – INRIA Saclay Facebook: Architecture Sue Bob X X X Sue Facebook Delicious Myspace Gmail LinkedIn

42 42 S. Abiteboul – INRIA Saclay Facebook Facebook en P2P Directes interactions Je garde le contrôle sur mes données personnelles Toutes les applications qui me concernent partagent les mêmes données Si je change de numéro de téléphone, je nai pas à le changer dans 100 systèmes Sue Proxy Bob Sue Proxy Sue Facebook chez Bob

43 43 S. Abiteboul – INRIA Saclay Facebook en P2P (fin) Droits daccès en P2P – cryptographie Index en P2P (avec des données cryptées) Faire tourner chez soi des applications développées par des inconnus

44 44 S. Abiteboul – INRIA Saclay Workflows centrés sur les données (1) Artifact business: document qui représente une activité humaine Commande, voyage, objet à construire Évolue dans le temps suivant certaines règles Active XML Artifacts Modèle basé sur XML avec des appels de services imbriqués Documents que lont peut séchanger Domaine général: workflow centré sur les données Combine les systèmes de workflow et les systèmes de gestion de données Bien adapté pour des applications distribuées Application jouet: le système de fabrication de Dell: sites commerciaux, banques, usines, entrepôts, société livraison

45 45 S. Abiteboul – INRIA Saclay Workflows centrés sur les données (2) Quelques sujets de recherche dans ce cadre Aide à la conception de tels systèmes Vérifier que le code est conforme aux spécifications Surveillance de tels systèmes Prévoir les ruptures de stock de pièces détachés Aider au dispatching Détecter les disfonctionnement et en trouver les causes Passage à léchelle Contrôle accès, qualité des données et confiance

46 46 Conclusion

47 47 S. Abiteboul – INRIA Saclay Conclusion Prévision sur le Web : il faut être très modeste Ça va ralentir – on a fait le plus facile et on arrive aux sujets durs Linguistique Gestion de connaissances… Ça va continuer à bouger – créativité humaine Web sémantique : Web de connaissances plutôt que de texte Web 2.0 : un Web plus interactif, plus communautaire Web des objets Web du pair-a-pair Histoire : pour le Web, on a toujours sous-estimé la créativité humaine

48 48 Merci


Télécharger ppt "1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009."

Présentations similaires


Annonces Google