Mégadonnées : Kit de survie Guillaume Chicoisne, IVADO
TL;DR Vous avez besoin de professionnels pour traiter les données; les professionnels ont besoin de vous pour les comprendre. Avec de grandes données viennent de grands pouvoirs, de grands problèmes et de grandes responsabilités Le monde des données n’est pas le monde réel
Exemples Big data: google translate The economist Mai 2017 - article sur l’importance des données et les positions dominantes Les projets avec mégadonnées posent les mêmes problèmes que tout projet impliquant des données… mais amplifiés, et d’autres plus spécifiques.
Le monde des données n’est pas le monde réel. Les données sont une façon de numériser le monde. Ce qui nous intéresse n’est pas forcément mesurable. Ce qui est facilement mesurable n’est pas forcément ce qui nous intéresse. Les mesures indirectes doivent générer d’autant plus de méfiance. Le monde des données n’est pas le monde réel. Les modèles voient le monde à travers des données. Quelle est la qualité d’un professeur? Le code postal est il utile pour autoriser un prêt?
Visualisation Structure classique Traitement Interprétation Décision Exploration Compréhension Prédiction Description Mesure Valorisation Utilisation ... Analyse Intégration Fusion Généralisation Exploration Modélisation ... Création Annotation Nettoyage Collecte Traduction Validation ... LE monde des données n’est pas le monde réel. Ce qui ne se mesure pas existe quand même. Attention aux proxies et à ce qui se mesure trop bien/facilement Traitement Visualisation Interprétation Acquisition Monde des données Monde réel
Créer, acquérir, accéder (le 80 % laborieux) (un banquier et son client) - C'est quoi l'problème ? Mes dollars m'appartiennent; j'suis supposé pouvoir les retirer facilement ?! - Non! - Quoi ? - Vos fémurs aussi vous appartiennent, pis vous ne pouvez pas les retirer facilement! (François Pérusse, philosophe québécois)
Traitement Grand choix de méthodes, depuis les modèles statistiques simples, jusqu’à l’apprentissage profond. Toujours commencer par les méthodes les plus simples. https://ivado.ca/wp-content/uploads/2017/08/2017-08-23-2-export-NordellMarkovits_ReseauxConv2.pdf et https://adeshpande3.github.io/adeshpande3.github.io/The-9-Deep-Learning-Papers-You-Need-To-Know-About.html ResNet (Microsoft): “Trained on an 8 GPU machine for two to three weeks.” http://imagenet.stanford.edu/synset?wnid=n07693725
Interprétation Confronter les analyses au monde réel : Prendre ou appuyer une décision, mesurer une progression, explorer… Valider les résultats! Stats sur les oreilles et l’orthographe
Visualisation https://www.autodeskresearch.com/publications/samestats http://www.tylervigen.com/spurious-correlations
Big data — Une définition parmi d’autres Volume: La perfection est inatteignable. Un test médical valide à 99,9% appliqué la population du Canada (35 millions) va se tromper pour 35,000 personnes Vitesse: Génération de données (LHC), traitement (flash trading, conduite autonome) Variété: Voiture autonome Véracité: PArler des biais. Restau mexicain. https://blog.conceptnet.io/2017/04/24/conceptnet-numberbatch-17-04-better-less-stereotyped-word-vectors/
Approches basées sur les données Attention aux modèles récents (p. ex. : l’apprentissage profond) Nécessite des experts rares Complexité pour justifier les résultats Approche parfois disproportionnée pour le problème Sensibilité aux données non pertinentes Prolongation de l’historique, risque de limiter l’innovation Mais : exploration de solutions “non humaines”
Accès aux données : pas seulement des défis techniques Aspects techniques : volume de données, réseau rapide, accès aux sources, distribution des données et du calcul, etc. Aspects non techniques : vie privée, droits d’utilisation, conformité, confidentialité, sécurité… Responsabilité. Trois notions parmi d’autres : Quasi-identificateurs Mi data es su data... Sécurité : attaques, défaillances, accidents, bévues… Trop pour un seul: https://www.forbes.com/sites/oliverwyman/2017/07/20/airbus-gets-aviation-industry-a-step-closer-to-the-holy-grail-of-big-data-and-plane-connectivity/
TL;DR Vous avez besoin de professionnels pour traiter les données; les professionnels ont besoin de vous pour les comprendre. Avec de grandes données viennent de grands pouvoirs, de grands problèmes et de grandes responsabilités Le monde des données n’est pas le monde réel
Merci! Besoin de détails ? guillaume.chicoisne@ivado.ca ivado.ca