Pas de temps à perdre ! Téléchargez le fichier csv bit.ly/ogpcimade2.

Slides:



Advertisements
Présentations similaires
Participation aux Webinars – Quelques consignes à suivre!
Advertisements

Choisir la source de données WinBooks * à partir de laquelle vous souhaitez travailler. Pour mémoire, Winbooks (tant AC que LO) est l’environnement naturel.
Créat. : 23/09/2016 Modif. : 23/09/2016 Bogdan Stefanescu > Connectivité CPS et Eclipse Solutions Linux 2006.
Initiation à QuickPlace, janvier Initiation à QuickPlace n Nature de l'outil n Fonctions de base (lecture, création) n Fonctions de gestionnaire.
Comment faciliter la ré-utilisation des données du Système d’information sur l’Eau Laurent Coudercy, Onema Pierre Lagarde, BRGM 24 juin 2016.
INSPIRE KEN workshop « schema transformation » Retours du séminaire 9-10 octobre Jean-Loup DELAVEAU CERTU Secrétariat COVADIS Ministry of Ecology, Sustainable.
Date : 9/27/2016 Title : Introducing The Fedora Project and Live CDs_ by Chitlesh GOORAH
GOOGLE MAPS ANDROID API V2. INTRODUCTION TO THE GOOGLE MAPS ANDROID API V2.
Données ouvertes et Web de données : enjeux et perspectives pour BAnQ Jean-François Gauvin Marielle St-Germain Direction de l’architecture et de la conception.
Etat de l’art et recherche bibliographique L3EEA 3ème année – 2016.
Progression2 Organisation et gestion de données CM Séquences Socle commun Compétences du palier 2 ProgrammesObjectifs d’apprentissage OG1.
Cahier des charges.
Place de la Communication
Expérience de l’Université de Boumerdes
TotEM Nouvelle version 2016.
A JavaScript library for building user interfaces
Présentation de l'association CENABUMIX
Utiliser la vidéoprojection en SES
Outils informatiques au service de la direction
Comment accroître le nombre de contributions externes ?
L’essentiel à retenir BUDI - Vision partenaires
Caractéristiques des projets d’ingénierie
FENIX Aperçu GLOBALE DU Système
Veille technologique Nassima Mahcer 17 MAI 2017.
Intégration des bases affiliés
Nom de(s) enseignant(s)
Nom de l’interne GEPRI n°_ Groupe _ Nom de(s) enseignant(s) Date
D'où vient tout ce Français ?
Le cloud… Pourquoi, comment et budget
Statistiques Sociales LC1
La recherche documentaire
Warm-Up: In your notebook, please write the date, the following question (the part in bold), and your answer. Once you know someone, what’s something you.
Statistiques Sociales LC2
Mise en place d’une stratégie de groupe
3 MOIS DE FORMATION 1 MOIS DE STAGE EN ENTREPRISE prÉsentation …
Quoi de neuf dans la communauté HPSS
Présentation du SINP DGALN/DEB/PEM4 - Juin 2013.
ARPAGON.
IDENTIFIER LES INFORMATIONS DISPONIBLES
PROGRAMMATION INFORMATIQUE D’INGÉNIERIE II
Introduction à l'évaluation d'accessibilité des sites Web
Processus « Contrôler les subventions réglementaires» Harmonisation et simplification administrative – 11 mai CSS.
Comment faire une recherche info-documentaire ?
DATA WEARHOUSE 1ère année LA: Technologies systèmes d’information
Integrated Business intelligence
Atelier sous régional sur l'intégration des données administratives, des données de masse et des informations géospatiales pour la compilation des indicateurs.
ODP Application de gestion des événements Occupant le Domaine Public
Enregistrement des informations
SALLE DES MARCHES PUBLICS EN LIGNE
UNASA La Rochelle - 15 novembre 2006
Le logiciel de calcul de Reynaers
CountrySTAT / FENIX Aperçu globale des Objectifs de formation
Les Concentrés de Complexe de Prothrombine (CCP) Vs le Plasma Frais Congelé (PFC) EFFET SUR LA MORTALITÉ Hi my name is charles Plourde and I’am the head.
Communication Assistant V2.0
Négociations d’affaires
ADP 101 Grace Van Fleet Directrice Adjointe, p.i.
Mon Espace Chloé Ducoeur 3 octobre 2018.
Le nouveau système en ligne pour Appels à propositions
Dématérialisation des aides & mesdemarches. iledefrance
12 Safe Maintenance Rules
Support de lecture active
Tableaux croisés dynamiques sous Excel et Tableau Software :
Les 6 aspects de la pensée historique
Support de formation Administrateur Entretiens
Journalisme.
Conférence Témoignage-Métiers
REFORME DU LYCEE Sciences Physiques et 27 MARS 2019 LE TAILLAN-MEDOC
moabi.xyz moabi.xyz Comment ça été? Applicable dès lundi?
Accès et utilisation des ressources e-Bug
Captation et codage des données; résultats du secteur audiovisuel
Transcription de la présentation:

Pas de temps à perdre ! Téléchargez le fichier csv bit.ly/ogpcimade2

NETTOYAGE et ANALYSE de DONNÉES Une introduction Est-ce que tout le monde est francophone ? PAR CEDRIC LOMBION School of Data / Ecole des données cedric.lombion@okfn.org

Objectifs de l’atelier Vous n’allez rien apprendre (sur les outils) Méthodologie, process, que des trucs excitants Inspirer à collaborer avec des associations

Contexte de l’atelier Crise de l’accueil des étrangers en France Associations sur le front La Cimade : A guichets fermés Qui connaît le travail de la CIMADE ?

Comment on va travailler Data Pipeline Demo en live

Qu’est-ce que Open Refine? Un outil pour nettoyer et préparer les données pour analyse Fonctionne localement, mais utilise le navigateur web Anciennement un produit de Google, mais désormais Open Source Disponible en ligne via IBM Datasicence Workbench Qui connaît ?

Microsoft Excel Open Refine Trier X Enlever les espaces en trop Scindre les colonnes Conversion en JSON Facts Requetes HTTP Geocodage API de réconciliation Support Regex Historique

Qu’est-ce que Jupyter notebook? environnement de travail pour les scientifiques et les data wranglers fonctionne avec des dizaines de langages, mais le support officiel est pour Python Parfait pour documenter et partager ses analyses Qui connaît ?

Qu’est-ce que Pandas? Librairie Python pour l’analyse de données Petite soeur de R, mais avec les avantages de Python Facile d’accès pour débuter dans l’analyse de gros jeux de données Disponible en ligne en combinaison avec Jupyter notebooks Qui connaît ?

Les données Préfectures de la petite couronne parisienne 80 000 lignes vs 580 000 Données complètes téléchargeables sur le site de A guichets fermés

I. Environnement de travail Est-ce que tout le monde est francophone ?

Définir, Chercher, Récupérer Que cherche-t-on à faire ? Associations + open data + journalists = <3 Gérer ses données comme un pro 0_original 1_openrefine 2_pandas

II. OpenRefine Est-ce que tout le monde est francophone ?

Log in! https://datascientistworkbench.com/

Nettoyer, Vérifier Ici il faut nettoyer avant de vérifier C’est quoi vérifier ? pertinence du fichier intégrité des données Comment on vérifie ? statistiques intuition/expérience

III. Jupyter notebook & Pandas Est-ce que tout le monde est francophone ?

Log in! https://dominodatalab.com/

Étapes Domino DataLab Sign in to the free trial Create a project Give your project a name and validate Upload your data Open → ipython notebook New→ python2

Vérifier, Analyser, Présenter Avant l’analyse, être certain d’avoir les bonnes données, au bon format Partir sur des questions précises, explorer sans perdre de vue les questions La visualisation fait partie de l’analyse

Les questions Pour la Cimade Pourquoi procédures en ligne concernent-elles majoritairement les usagers étrangers ? Pourquoi le scrapper de la CIMADE a des variations d'activité ? Pourquoi le fichier s'arrête-t-il en mai 2016 ?

Les questions Pour les préfectures Nogent-sur-Marne pourquoi des pics à plus de 3 mois ? Antony : pourquoi il est impossible de prendre rendez-vous ? Toutes : pourquoi prioriser les démarches pour les étrangers ?

Conclusion Les données sont une source comme une autre : être méfiants et croiser ces sources Le travail avec les données n’est qu’un bout du processus Par delà Excel : les outils plus complexes ne sont pas si difficiles que ça Soyez rigoureux, et préservez-vous du mal(heur)

Merci