La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data.

Présentations similaires


Présentation au sujet: "Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data."— Transcription de la présentation:

1 Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data et science des risques1

2 Organisation Big data en bref Big data : mythe et réalité Exemple : la santé (une vision dignorant) Big data et science des risques2

3 Big data en bref Big data et science des risques3

4 Le Big Data Le big data ou La data – Data ce nest pas pluriel ? En français : Grosses données – Moins glamour ? Big data et science des risques4

5 Crash course en Big Data La société moderne génère des volumes de données infernaux – Double tous les 18 mois Ces données ont une valeur considérable – Santé, science, environnement, sécurité, transport... Le « Big data »: croiser les données – Très structurées et propres dune entreprise/organisation – Avec la masse de données moins structurées/plus sales du Web Des données personnelles (comme des s) Des données de réseaux sociaux Et des flux de données (générées par ex. par des senseurs)… Valoriser ces données Découvrir de nouvelles connaissances Offrir de nouveaux services Big data et science des risques5

6 Crash course: tâches principales Lanalyse de données – Un vieux problème Tâches principales – Acquisition : aller chercher les données, e.g., outils ETL – Intégration : e.g., transformer dans un schéma unique, aligner les données – Nettoyage : e.g., éliminer les réplicas, résoudre les contradictions, gérer les données manquantes… – Crowd sourcing: interagir avec des humains pour obtenir des données, résoudre les contradictions… – Interrogation : requête, souscription, visualisation – Analyse statistique : frequent item set… Lanalyse de données ne répond pas à des problèmes souvent complexes – Fouille : quelles sont les questions intéressantes ? – Utilisation : comment utiliser ces données ? – Etc. Big data et science des risques6

7 Difficultés Taille des données : cest Big ! Téraoctets, plus Hétérogénéité: structures, ontologies, multilinguisme… Vélocité: importance du temps, taux de changement/d'arrivée… Espace : localisation Protection des données : données privées, réglementation… Qualité: erreurs, incomplétude, confiance, Et encore de la qualité: provenance, fraicheur... Et la complexité : un algorithme en n 3 sur un milliard denregistrements reste hors de portée même avec mille machines… Big data et science des risques7

8 Pour tuer quelques idées reçues La grande mode est au parallélisme massif style Hadoop – Super techno venue des moteurs de recherche – Ne marche que sur les problèmes très parallèles – Technologie encore assez bas niveau (ça saméliore) Évidemment, – Ça impressionne (de moins en moins) – Cest fun Mais si « votre data est Big » et si vous recherchez lefficacité, interrogez vous : – Vos données sont-elles vraiment Big ? – Ne suffirait-il pas de gonfler votre machine en RAM/en SSD ? – Peut-on réduire la dimension en échantillonnant ? Big data et science des risques8

9 Big data : mythe et réalité Big data et science des risques9

10 Big data – Le mythe On va résoudre les problèmes de lhumanité – On a plus en plus de données bientôt toutes les données – Un coup dalgo et on va résoudre le cancer, la pauvreté, etc. En analysant ces données, nous pouvons faire des prédications de plus en plus fines… mais – Cela reste des statistiques – Limites dues à la complexité en la taille des données – Et évidemment une énorme place au hasard On va sûrement résoudre des problèmes… Mais Big data et science des risques10

11 Big data – La réalité Ce quon observe surtout pour linstants 1.Les sociétés utilisent des données privées – Pour des buts commerciaux – principalement pub ciblées – Plus il y a de données, plus ils gagnent dargent 2.Les états utilisent des données privées – Pour se protéger du terrorisme – Pour surveiller leurs citoyens (surtout dans certains pays) – Plus il y a de données, plus létat est puissant Big data et science des risques11

12 Et si on utilisait cette techno pour résoudre de vrais problèmes Prévoir et mieux y répondre À des crises sanitaires À des problèmes d'environnement À des catastrophes naturelles … Aider à résoudre les problèmes de Santé, transport, pauvreté, … Organiser un suivi personnalisé Des personnes en difficultés Des personnes âgées Des élèves en difficulté … Big data et science des risques12

13 Exemple : la santé (une vision dignorant) Big data et science des risques13

14 Les soins personnalisés Toutes les données médicales de la personne – Son génome Toutes ses données sociales Soins personnalisés Mesures prédictives Les polices personnalisées Plus chères pour les personnes à risque Personnes « trop » à risque non assurées Mutualisation des risques de plus en plus limitée Cest la même science qui rend ça possible Quel monde souhaitons-nous? Big data et science des risques14 Exemple : La santé

15 Problème : les données personnelles Mes achats, ma géolocalisation, mes courriels… Mes données médicales, fiscales, assurances… Mes données dans les réseaux sociaux… – Peut-être celles de mes amis Mes données génomiques – 23andMe: pour 99$ séquencement de votre génome et publication sur le Web Et ma vie privée ? 2 exemples de problèmes récents : – Instagram et revente – Facebook et embauche Big data et science des risques15

16 Les données personnelles appartiennent à la personne Les entreprises/états nen sont que les dépositaires temporaires Les données personnelles appartiennent à la personne Les entreprises/états nen sont que les dépositaires temporaires Une religion personnelle À qui appartiennent mes données ? Big data et science des risques16

17 Comment pouvoir faire quand même des statistiques ? Lanonymisation des données – En garantissant lanonymat de chacun - compliqué – Par exemple, « differential privacy » Le propriétaire des données a le droit de choisir ce quon fait de ses données – Condition dutilisation – Durée Responsabilité légales de ceux qui détiennent ces données Big data et science des risques17

18 Big data et science des risques18


Télécharger ppt "Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data."

Présentations similaires


Annonces Google