Mégadonnées : Kit de survie Guillaume Chicoisne, IVADO.

Slides:



Advertisements
Présentations similaires
La base de données de jurisprudence francophone.  Juricaf est composé de deux parties : - Le menu de gauche avec les différentes fonctions - La partie.
Advertisements

1 TER 2012 Engilberge, Lludice, M'rah Flex Web Roster /32.
1 Créer un extension OpenOffice.org avec Eclipse Créer une extension OpenOffice.org avec Eclipse.
Cycle élémentaire Année scolaire Classe de 6 e Discipline : Français Professeur : Andressa Bitar.
Progression2 Organisation et gestion de données CM Séquences Socle commun Compétences du palier 2 ProgrammesObjectifs d’apprentissage OG1.
Réalisé par : Fairouz ichou Imane Errajil.  Introduction  L’ISO en quelque mots  Définition de l’ISO 9001V2000  L’évolution de l’ISO 9001  Principes.
Cycle élémentaire Année scolaire
Acquisition Rapide Multivoies
Calcul et interprétation de taux de variation
Intégration des psychologues aux GMF
Sylvain Hamel - Analyste
Atelier chaîne de valeur
ELABORER UN CAHIER DES CHARGES Formuler une préconisation
Centre Universitaire des Ressources Informatiques CURI-UH2MC
Droit Social Comparé Définitions et présupposés méthodoliques
Comprendre Meyasu en trois minutes
L’essentiel à retenir BUDI - Vision partenaires
Présentation générale de la réforme
Activités algorithmiques
Réalisé par : BENSOUDA Brahim BENMOUSSA Omar
poser des questions n’a jamais été aussi facile…
STRATÉGIES ET INSTRUMENTS D´ÉVALUATION
Technologies de l’intelligence d’affaires Séance 14
Dossier d’inscription Nom de l’équipe
Qu’est-ce que le C2i2e ?.
GENEVA SHOW CASE 28/04/15.
Études post-bac et mathématiques
Démarche de conception. Démarche didactique.
Démarche d'investigation
Notion De Gestion De Bases De Données
Colloque Médecine Personnalisée et Cancérologie ARS Ile-de France 1er décembre 2014 La médecine personnalisée et l’explosion des technologies, les.
Module M3202 Démarche d’amélioration
3- Nouvelles pages d’accueil
Guide Utilisateur. Guide Utilisateur.
Evaluation par Acquis d’apprentissage
Réseaux de neurones appliqués à la reconnaissance de caractères
Un avenir pour les métiers de la carrosserie?
Integrated Business intelligence
Atelier sous régional sur l'intégration des données administratives, des données de masse et des informations géospatiales pour la compilation des indicateurs.
Mesures Physiques et Informatique
La mission SUIVI DE GESTION
Mardi 3 juillet L'intelligence artificielle au service de l'audit et l'analyse des contrats Sandrine Morard, fondatrice de SoftLaw.
Réseau des Observatoires Locaux de la Ville de Charleroi
Le développement durable dans la Loi minière au Brésil: les aspects environnementaux actuels, le nouveau cadre réglementaire et les défis pour la croissance.
Le logiciel de calcul de Reynaers
Présentation des nouveaux programmes de Technologie Mai 2008
Modélisation objet avec UML
Evolutions et tendances
Épreuve écrite E4.1 BTS CG Session /02/2017.
Doc.Eurostat/C1/DWP/Oct00/VIII/point3-FR
Programme financé par l’Union européenne
Professeur LISA Galina PhD. en Economie
Veille informationnelle Principe, enjeux, stratégie et outils
Le projet comme support d’apprentissage
Intelligence artificielle: un défi pour l’Afrique aussi 28 novembre 2018 M Ahmed khaouja Directeur PTT Maroc
CHOIX DE COURS ÉLISE LALIBERTÉ, CONSEILLÈRE D’ORIENTATION
Sommaire : Les capteurs de force. Les capteurs à jauges de contraintes
Points de vue et sémantiques ad hoc
Panorama of Recommender Systems to Support Learning
Design, innovation et créativité
Exploitation de vos données
Présentation de l’épreuve E3 : Economie, Droit et Management
Extrait – La rénovation du baccalauréat STMG 2021
Conférence Témoignage-Métiers
Services pour le XXIe siècle
Préparer la rentrée avec STSweb & Siècles Nomenclatures
Nom élève 1 - Nom élève 2 - Nom élève 3 - Nom élève 4
Les données structurées et leur traitement
Convention 20 septembre 2019.
Souhaitez-vous faire une Différence?
Transcription de la présentation:

Mégadonnées : Kit de survie Guillaume Chicoisne, IVADO

TL;DR Vous avez besoin de professionnels pour traiter les données; les professionnels ont besoin de vous pour les comprendre. Avec de grandes données viennent de grands pouvoirs, de grands problèmes et de grandes responsabilités Le monde des données n’est pas le monde réel

Exemples Big data: google translate The economist Mai 2017 - article sur l’importance des données et les positions dominantes Les projets avec mégadonnées posent les mêmes problèmes que tout projet impliquant des données… mais amplifiés, et d’autres plus spécifiques.

Le monde des données n’est pas le monde réel. Les données sont une façon de numériser le monde. Ce qui nous intéresse n’est pas forcément mesurable. Ce qui est facilement mesurable n’est pas forcément ce qui nous intéresse. Les mesures indirectes doivent générer d’autant plus de méfiance. Le monde des données n’est pas le monde réel. Les modèles voient le monde à travers des données. Quelle est la qualité d’un professeur? Le code postal est il utile pour autoriser un prêt?

Visualisation Structure classique Traitement Interprétation Décision Exploration Compréhension Prédiction Description Mesure Valorisation Utilisation ... Analyse Intégration Fusion Généralisation Exploration Modélisation ... Création Annotation Nettoyage Collecte Traduction Validation ... LE monde des données n’est pas le monde réel. Ce qui ne se mesure pas existe quand même. Attention aux proxies et à ce qui se mesure trop bien/facilement Traitement Visualisation Interprétation Acquisition Monde des données Monde réel

Créer, acquérir, accéder (le 80 % laborieux) (un banquier et son client) - C'est quoi l'problème ? Mes dollars m'appartiennent; j'suis supposé pouvoir les retirer facilement ?! - Non! - Quoi ? - Vos fémurs aussi vous appartiennent, pis vous ne pouvez pas les retirer facilement! (François Pérusse, philosophe québécois)

Traitement Grand choix de méthodes, depuis les modèles statistiques simples, jusqu’à l’apprentissage profond. Toujours commencer par les méthodes les plus simples. https://ivado.ca/wp-content/uploads/2017/08/2017-08-23-2-export-NordellMarkovits_ReseauxConv2.pdf et https://adeshpande3.github.io/adeshpande3.github.io/The-9-Deep-Learning-Papers-You-Need-To-Know-About.html ResNet (Microsoft): “Trained on an 8 GPU machine for two to three weeks.” http://imagenet.stanford.edu/synset?wnid=n07693725

Interprétation Confronter les analyses au monde réel : Prendre ou appuyer une décision, mesurer une progression, explorer… Valider les résultats! Stats sur les oreilles et l’orthographe

Visualisation https://www.autodeskresearch.com/publications/samestats http://www.tylervigen.com/spurious-correlations

Big data — Une définition parmi d’autres Volume: La perfection est inatteignable. Un test médical valide à 99,9% appliqué la population du Canada (35 millions) va se tromper pour 35,000 personnes Vitesse: Génération de données (LHC), traitement (flash trading, conduite autonome) Variété: Voiture autonome Véracité: PArler des biais. Restau mexicain. https://blog.conceptnet.io/2017/04/24/conceptnet-numberbatch-17-04-better-less-stereotyped-word-vectors/

Approches basées sur les données Attention aux modèles récents (p. ex. : l’apprentissage profond) Nécessite des experts rares Complexité pour justifier les résultats Approche parfois disproportionnée pour le problème Sensibilité aux données non pertinentes Prolongation de l’historique, risque de limiter l’innovation Mais : exploration de solutions “non humaines”

Accès aux données : pas seulement des défis techniques Aspects techniques : volume de données, réseau rapide, accès aux sources, distribution des données et du calcul, etc. Aspects non techniques : vie privée, droits d’utilisation, conformité, confidentialité, sécurité… Responsabilité. Trois notions parmi d’autres : Quasi-identificateurs Mi data es su data... Sécurité : attaques, défaillances, accidents, bévues… Trop pour un seul: https://www.forbes.com/sites/oliverwyman/2017/07/20/airbus-gets-aviation-industry-a-step-closer-to-the-holy-grail-of-big-data-and-plane-connectivity/

TL;DR Vous avez besoin de professionnels pour traiter les données; les professionnels ont besoin de vous pour les comprendre. Avec de grandes données viennent de grands pouvoirs, de grands problèmes et de grandes responsabilités Le monde des données n’est pas le monde réel

Merci! Besoin de détails ? guillaume.chicoisne@ivado.ca ivado.ca