Projet Consultant ORANGE Maxime FABRE / Jean-Baptiste FRAGNIER / Florian LEPOT / Adrien RAMOS / Alexandre SOLA / Mihai VASILE
SOMMAIRE Synthèse de direction Liste des technologies et choix La collecte de données Le traitement des données récupérées Notre solution, explication et principe Voici le sommaire : - - - tout d’abord on va parler de … ..
Synthèse de direction Aujourd’hui il existe une multitude d’outils permettant la collection des données.
Synthèse de direction Aujourd’hui en entreprise la plupart des dispositifs connectés sont les terminaux mobiles. D’après les études, voici un aperçu des pourcentages d’utilisations des services pour les mobiles. On peut voir ici , que le service le plus utilisé est l’appel téléphonique
Les évolutions au sein de l’entreprise Le BYOD (Bring Your Own Device) 54% Améliorer la productivité 61% Travailler n'import où, n'importe quand Aujourd’hui les entreprises intègrent de plus en plus des politiques BYOD dans leur parc informatique. Comme la plupart des personnes préfèrent ne pas changer de poste de travail, le BYOD leur permet de travailler sur leur propre environnement ou ils sont plus à l’aise et plus productif. Pour les entreprises, c’est notamment un avantage, car cela peut réduire les coûts en termes d’achat de postes de travail, car les employés travaillent en ‘’open space’’. Cependant, même si le phénomène BYOD apporte son lot d’avantages, il n’en reste pas moins une faille de sécurité permanente ! C’est pour cela que les entreprises utilisant le BYOD doivent appliquer des politiques de sécurité très strictes sur les postes qui viennent et sortent de l’entreprise, car ils peuvent contenir des données sensibles. Flexibilité Productivité Compromis salariés/entreprise Sécurité
Liste des technologies Aujourd’hui il existe une multitude d’outils permettant la collection des données.
La collecte de données Le packet sniffing Un sniffer Capture des différentes communications Analyse de l’entête IP des paquets Extraction d’informations, stockage et analyse Un sniffer Dématérialisés / Matérialisés A la base, l’usage de tels programmes permet de tester et d’optimiser un réseau entre un appareil et un serveur, autant d’un point de vue matériel que d’un point de vu sécuritaire. De façon générale, toutes les personnes ayant un intérêt dans l’observation des couches les plus basses du trafic de données sur le web entre smartphones et serveurs utilisent ces outils. Le packet sniffing est donc le fait d’intercepter et d’analyser les paquets IP sur le réseau internet à l’aide de moyens matérialisés ou dématérialisés. Voici les différents types de module d’extraction d’informations afin que celles pouvant être extraites et ainsi analysées et stockées par un parti tiers: Dans les moyens dématérialisés, il existe un nombre toujours plus grand de programmes qui se chargeront d’analyser et de centraliser toutes les données qui transitent entre votre ordinateur, et notamment sur les protocoles HTTP/HTTPS et les serveurs internet. Dans les moyens matériels qui sont globalement plus coûteux, il faut installer entre le réseau sans fil et le réseau filaire, un appareil permettant de faire les relevés souhaités sur l’intégralité des paquets qui circulent sur le réseau. Pour capturer des paquets contenant des données pouvant être utiliser dans la création des bases de données et faire de l’analyse avec on peut utiliser Wireshark un outils open source d’analyse de paquets sur un réseau. Ces résultats d’analyse pourront constituer des informations concernant les transitions entre le dispositif et le réseau.
La collecte de données Le tracking d’obtenir des informations sur les visiteurs d’un site internet poursuivre les internautes et noter leurs moindres faits et gestes D’où viennent les visiteurs ? Quel est leur activité sur le site ? Comment amener des visiteurs sur le site ? Le tracking est l’ensemble des opérations permettant d’obtenir des informations sur les visiteurs d’un site internet sous couvert de mettre au point des statistiques pour connaître la fréquentation du site en question. Le tracking est aujourd’hui utilisé presque partout, ça permet obtention des information en temps réel sur les utilisateurs. Dés l'accès à un lien ou la navigation du site il est possible grâce au tracking de renvoyer ces données pour créer des statistiques dans le but de savoir comment l’utilisateur interagis avec le site pour l’améliorer ou pour mieux guider les visiteurs.
Les types d’informations récoltables Contacts-Fetcher Call-Logger SMS collector Location Tracker Facebook Miner Noms des contacts Appelant Expéditeur Date Profil Numéros des contacts Appelé Destinataire Latitude Amis Adresses mail Longitude Messages Adresses postales Durée Longueur du SMS Force du réseau Hobbies Location Likes Groupes Evènements Voici le type des informations qu’on peut récupérer à travers du tracking de cookies En effet il est difficile de collecter ces informations quand les utilisateurs utilisent des outils anti-tracking
Le traitement des données Choisir les bons objectifs Avoir les bonnes données Les transformer en information Utiliser les bons graphiques Optimiser le rapport Le feed-back Le reporting, outils de Business Intelligence La collecte de donnée est cruciale mais, sans traitement appliqué sur les données récoltées, aucune information ne peut en être retirée. Donc pour exploiter au maximum ces informations il faut un traitement rigoureux pour extraire les bonnes données, cohérentes et valides, afin de créer des rapports exploitables.
Les logiciels traitant les données Microsoft Buisness Intelligence Qlik View Sybase Spotfire Microsoft Business Intelligence: MBI est une suite d’application serveur, clientes et développeur intégrée à Microsoft Office System 2007 et conçue pour procurer les bonnes informations au bon moment et selon le format voulu. MBI peut fournir directement des informations facile à utiliser aux utilisateurs. QlikView: QlikView développé par QlikTech fonctionne comme le cerveau humain et en établissant des associations en connectant les données. Cela conduit à des résultats très rapides et permet d’optimiser la prise de décision. L’outils est de plus intuitif et peut se déployer rapidement. Sybase: Sybase et ses solutions logicielles de Business Intelligence permettent d’extraire des données à partir de sources multiples en temps réel, de convertir des données traditionnelles en données Business Intelligence, de rendre les informations générées accessibles et d’enfin traiter de larges volumes de données sollicités par les utilisateurs. Spotfire: Tibco Spotfire dispose d’un moteur in-memory puissant, permet la visualisation des données, possède un centre de contrôle et des applications analytiques. Il est aussi capable de faire des analyses prédictives et il dispose d’outils de collaboration avancés.
Sélection du logiciel Critères Qlik View Microsoft Spotfire Sybase Popularité 5 1 2 Visualisation des données 3 Tableau de bord Facilité d’installation 4 Vitesse d’implémentation Viabilité Analyse et modélisation Prix +++ ++ +
Sélection du logiciel Notre choix:
Pourquoi QlikView ? Son optimisation de la mémoire Ses temps de chargement La productivité de ses développeur vis à vis de leur produit Business Discovery De nombreux avantages Nous avons choisi QlikView du fait de son optimisation de la mémoire, du fait qu’il est adapté à des entreprises de très grande taille et son temps de chargement relativement faible. Qlikview dispose aussi d’un large panel de fonctionnalités. Il permet de bénéficier de tableaux de bord pertinents, de segmenter et d’analyser les données, de modéliser des scénarios d’évolution. Qlikview n’est pas seulement un logiciel de Business Intelligence, mais aussi un logiciel de Business Discovery, une nouvelle approche qui confère au métier un contrôle total, et donc permettre à tous les utilisateurs de participer. Chaque utilisateur est donc capable de modéliser ses propres perspectives selon leurs propres besoins. Cela ouvre un aspect social qui conduira à une augmentation de la productivité : la plateforme s’intègre aux réseaux sociaux (par exemple réseaux sociaux d’entreprises) ce qui accroit la facilité d’échange d’information. Les utilisateurs peuvent donc à tout moment réassembler les données selon leur besoin sans avoir besoin de la masse de connaissances technique préalablement nécessaire à l’utilisation des solutions BI. De plus QlikView est disponible sur support mobile, ce qui permet à l’utilisateur d’avoir ses analyses et ses données prêt à être consultés n’importe quand et n’importe où. QlikView devrait permettre à l’entreprise d’avoir une vision globale de sa clientèle et de son comportement vis-à-vis de l’usage des services. Cette vision devrait permettre à l’entreprise d’améliorer ses tarifications et son marketting en fonction des besoins des clients, voir de créer de nouvelles offres pour certains client ayant une utilisation de services de niche. Ceci dans le but d’augmenter la satisfaction clientèle et donc leur fidélité.
Un framework de base de données Prendre en charge les données non structurées Utilisé par Twitter, LinkedIn, Facebook, ebay… Le projet open source Apache Hadoop est une framework permettant de distribuer le traitement de grandes quantités de données sur un cluster de machine. Le framework gère donc aussi bien une seule machine qu’un millier. C’est exactement la solution qu’il nous faut, car nous aurons à traiter plusieurs peta-octet de donnée. Hadoop est notamment utilisé dans le domaine de l’analyse de journaux et de trafic. Hadoop est plébiscité par les plus grand : Twitter, LinkedIn ou Facebook utilisent actuellement hadoop afin de traiter le large montant de données qui transitent sur leur site. De même, ebay qui doit traiter beaucoup de données utilise hadoop. On peut ajouter que hadoop est intégré par de nombreux fournisseur de service Cloud. On peut souligner qu’hadoop est sous licence open source et peut donc être modifié pour pallier aux besoins précis des utilisateurs.
Hadoop + QlikView, le combo gagnant ? Hadoop, spécialisé dans le stockage optimisé des Big Data Qlikview, qui transforme les données en informations pertinentes Tous les outils de captures vont générer un très gros volume de donnée, qu’il va falloir stocker dans des bases de données. Hadoop sera parfait pour stocker ces données dans des bases car il implémente toutes les fonctionnalités nécessaire pour stocker des données et les lires avec de bonnes performances. QlikView aura ensuite le rôle d’utiliser ces données pour les présenter de manière pertinentes, de créer de l’information utile à partir de données à première vue inexploitable dans l’état.
Notre Solution
Principe de votre solution et nouveau processus de relevé Détailler les besoins des différents métiers du marketing Formuler des indicateurs intéressants Indicateurs: données issues de la Data Warehouse Data Warehouse: alimentés par des capteurs placés sur le réseau EXTRACT TRANSFORM LOAD Les indicateurs sont des données travaillées issues du contenu de l’entrepôt de données. L’entrepôt de données ou Data Warehouse est une base de données alimentée par des capteurs placés sur le réseau. Cette étape de récupération des données brutes est appelée Extract, elle est suivie par l’étape Transform qui récupère les données brut et les transforme en données utilisables. La dernière étape Load permet faire apparaître les indicateurs. Ces trois étapes sont ce qu’on appelle les ETL et permettent de mettre en place la base de données et d’obtenir des indicateurs utilisables. Grace à toutes les données récupérées, nous allons pouvoir mettre ne évidence des indicateurs pertinents.
Extract Transform Load EXTRACT TRANSFORM LOAD Permettre de mettre en place la base de données et d’obtenir des indicateurs utilisable Récupérer les données Transformer en données utilisables Faire apparaitre les indicateurs
En résumé Données Reporting Ciblage des indicateurs Données bruts Suite à cela, il faudra présenter les résultats sous une forme bien plus propre et schématique. En effet, des indicateurs complexes ne sont pas forcément les bienvenus ! Les graphiques de tous types sont donc attendus ! Car cela donnera une meilleur visualisation. Reporting Ciblage des indicateurs Données bruts Indicateurs
Où se concentrer ? Webs et médias sociaux Deux solutions: Système de veille ciblé Dashboard dédié au monitoring des réseaux sociaux De nos jours, Internet et les réseaux sociaux sont incontournables, tant dans leur usage personnel (profil facebook)que dans leur usage professionnel (comptes officiels, page communautaire). Le groupe Orange a démontré cet intérêt ces dernières années avec les participations dans les sociétés Deezer et Dailymotion. Dans notre étude relative au traitement de données B2B, et à l’anticipation de tendances du marché, deux fonctionnalités complémentaires relatives à ce domaine intègrent notre solution. Nous proposons ainsi un système de veille ciblé et un dashboard dédié au monitoring général des réseaux sociaux.
Système de veille ciblé Relatifs aux flux RSS Mots clés surveillés stockés dans une base statistique Évaluer l’impact Alerte dès que le buzz autour d’un mot-clé franchirait une taille prédéfinie Permettant : La veille concurrentielle l’analyse des tendances et de produits en vogue La première fonctionnalité est très simple ; basée sur les outils de veille relatifs aux flux RSS (tel Google Alert, Alerti, Topsy, …), elle permettrait d’entretenir une base de données de mots-clés spécialement choisis afin de relever chacune de leurs apparitions. Ainsi, toutes ces apparitions des différents mots-clés sur les réseaux et médias sociaux surveillés constitueraient une base statistique permettant d’évaluer leur impact, et d’alerter les opérateurs de la solution dès que le buzz autour d’un mot-clé franchirait une taille prédéfinie. De nombreuses applications peuvent être faites à partir de cette fonctionnalité, telle la veille concurrentielle ( portée des mots-clés associés aux sociétés concurrentes), l’analyse des tendances et de produits en vogue (analyse au jour le jour du buzz autour d’un téléphone mobile vendu exclusivement par le groupe: en prenant en compte le nombre de posts sur les médias sociaux réalisés avec ce téléphone, etc. ).
Tableau de bord Basé sur les outils des médias sociaux Anticipation des tendances, analyser de l’impact marketing Moteur de recherche temps réel analysant pour un mot clé: Géolocaliser les zones d’impact, sa vitesse de contagion, son type de public les médias sociaux utilisés dans sa propagation, Permettre à Orange d’avoir en permanence une longueur d’avance. Le deuxième outil, beaucoup plus complexe, est pensé tel un tableau de bord permettant de surfer dans les données générées par les réseaux sociaux. Fournit d’une interface utilisateur basée sur les outils des médias sociaux dédiés tels que Facebook Insight, Twitter Counter, Social Bakers voire Google Analytics. Plus généraliste que la première fonctionnalité, celle-ci permettrait de suivre en temps réel l’ensemble des données et de permettre une analyse des tendances globales (mots-clés ainsi qu’une importante contribution à la récolte de données statistiques des clients (goûts, voyages, etc …). - On y trouvera des catégories (domaines, géolocalisation, type de public, type de média social) avec possibilité de croiser les données, ainsi qu’un moteur de recherche par mots-clés / catégorie. Les résultats seront visibles pour un instant t, ou pour leur évolution sur un intervalle de temps choisi. La page de résultat, dynamique, permettra de modifier les différents critères en quelques clics utilisateur. Une carte permettra également de visualiser la zone d’application des critères. Ainsi, l’étude et l’anticipation des tendances par Orange se trouvera facilitée, et permettra une efficacité maximale. Un dernier moteur automatique permettra, en un clic sur un mot-clé, de cibler son épicentre géographique, sa vitesse de contagion, son type de public et les médias sociaux utilisés dans sa propagation, tout cela en temps réel afin de permettre aux opérateurs d’avoir en permanence une longueur d’avance.
Un outil de Business Intelligence Utilisation des données : Examiner les tendances de vente et de marché Planifier les campagnes marketing Assurer la viabilité des produits dans le marché Planifier l’expansion de l’entreprise Automatisation des processus : Extraction de données Production de rapports C’est un fait, les entreprises ont besoin de traduire des données en informations dans le but de réaliser des décisions stratégiques pour leur business. Ces données sont extrêmement précieuses pour l’entreprise. Utilisées pour plusieurs choses et surtout analyser le comportement des clients pour maximiser les revenus et augmenter les profits. Les solutions de Business Intelligence automatisent le processus d’extraction de données et de production de rapports, ce qui élimine tout le travail manuel sur les technologies de l’information et les employés qui créent des rapports à partir de données brutes Certaines décisions sont erronées à cause d’erreurs de tableurs et des rapports inexacts (Résultats catastrophiques pour l’entreprise), on essaie d’éviter les erreurs humaines
Sécurité de la solution Profite des infrastructures de l’entreprise Accès aux données différent selon le rôle de l’employé Solution en temps réel Données des rapports aussi récentes que données des sources Prises de décisions plus aisées Les données sont généralement importantes et doivent être sécurisées. Les données contenues dans les rapports sont généralement présentées aux employées via l’intranet de l’entreprise et les employés ont accès aux seules données dont ils ont besoin pour mener à bien leurs tâches spécifiques. Les données doivent être analysées en temps réel afin d’éviter les erreurs de prévision. Les données de ces rapports sont en général aussi récentes que les données de la source de données dont elles sont extraites, ce qui permet au gestionnaire de surveiller l’activité en temps réel. La quantité de données stockées par les entreprises croît de façon exponentielle et elle doit être gérée, distribuée de manière efficace pour permettre de meilleurs prises de décisions.
Déploiement de la solution Déploiement par sous-traitance (Big Data) Etapes de déploiement : Mise en place des solutions de capture de données Mise en place d’une data warehouse Données prêtes à être utilisées Déploiement nécessite des moyens humains et techniques importants, mais possibilité de sous-traitance avec solution de type Big Data. Phase d’analyse du marché et des différents outils pour effectuer un appel d’offre, ou développement en interne avec possibilité de vente à l’extérieur. Etablissement du cahier des charges à une SSII pour un développement efficace. Phase de beta test afin de trouver les bugs et les résoudre. Déploiement final et formation pour les utilisateurs. Déploiement : Première étape : mettre en place sur les réseaux physiques à des points importants des processus d’acheminement de données, des capteurs pour obtenir les données brutes. Deuxième étape : Il faudra ici essayer de faire appel à une expertise poussée pour essayer de sauvegarder au plus possible les ressources matériels disponibles afin de limiter les coûts de mise en place. Pour finir, les données sont prêtes à être utilisées, on peut donc trouver les liens qui existent entre les différentes données traitées bien souvent invisibles à petite échelle entre des données étudiées à grande échelle. Un travail approfondi pourrait permettre de faire ressortir des corrélations jusqu’alors insoupçonnées ce qui serait un avantage indéniable. Trouver les indicateurs les plus significatifs en fonction des types de métiers du marketing afin de garantir des résultats optimaux. Dans ce cadre, arriver à trouver des visualisations simples et ergonomiques de ces indicateurs est un point important.
Des questions ?