Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parCaïn Martinez Modifié depuis plus de 10 années
1
Réutilisation de corpus et capitalisation danalyses Helka Folch*, Benoit Habert*, David Leray*, Sylvaine Nugier**, Yasmina Quatrain**, Nirina Rabiaza* (*) LIMSI-CNRS (**) SOAD-R&D-EDF SA
2
1. Problématique de la Fouille de Données Complexes à EDF Données multi-sources et multi-relationnelles Début de solution : lanalyse secondaire Périmètre de nos travaux 2. Architecture globale 3. Réutilisation de corpus et capitalisation danalyses Structuration Une journée dans la vie dune étude… 4. Conclusion et perspectives (le passage à léchelle) Plan
3
1. Problématique de la Fouille de Données Complexes à EDF multi- sources multi-relationnelles
4
Daprès le SBF, un des syndicats de la boulangerie, M. X, boulanger du quartier Q achète son four à lentreprise Bidule et sa farine à la minoterie Maichin ; par lenquête « comment être boulanger au 21 ième siècle et rester séduisant », on sait quil est abonné à « Boulangerie Magazine » dans lequel on trouve souvent la publicité pour Bidule ; sur son site Web, M. X nous apprend quil fabrique un pain bio et quil référence la minoterie Meichin et M. Y qui comme lui produit un pain bio ; à EDF, on sait quil a un profil de consommation P et a déménagé lan dernier. Comment tirer le meilleur parti de toutes ces informations comment stocker comment analyser comment faire partager par « lenquête com achète du quartier Q M. Y. syndicats abonné référence profil de consommation P e Maichin ? M. X. Meichin 1. Problématique de la Fouille de Données Complexes à EDF
5
Lanalyse secondaire comme définie et pratiquée à EDF « réutiliser des données déjà capitalisées avec des objectifs danalyse qui ne sont pas ceux pour lesquels elles étaient initialement collectées » Le recours à lanalyse secondaire est motivé par : les coûts les gains méthodologiques apportés Des précautions méthodologiques… la mise à disposition des traces du contexte de lanalyse initiale, des stratégies, des hypothèses danalyse en plus des données brutes. 1. Problématique – Début de solution : lanalyse secondaire
6
Lancement dune analyse secondaire sur la problématique « déterminer les motivations, événements déclenchants de la rénovation » Étude réalisée à partir de 9 analyses primaires dont : Lappréciation de trois systèmes domotiques Le retour dexpérience de la rénovation de logements sociaux La climatisation fixe réversible dans une optique de mesure de la satisfaction Zoom sur lanalyse primaire « la climatisation fixe réversible » Segment de marché : les particuliers Méta-données descriptives : sexe, âge, profession, type de logement Méta-données issues de lanalyse : remarques du sociologue sur les réticences, les motifs dinvestissement dans ce type dappareil, la gestion de la nouvelle installation. 1. Problématique – lanalyse secondaire, un exemple concret
7
1. Problématique - Contexte
8
Les travaux décrits aujourdhui portent uniquement sur la réutilisation de données contenant du texte Approche multi-métier : sociologues, « data-miners » et chargés détude marketing Sources de données traitées : Bases de capitalisation dentretiens Forums de discussion Enquêtes de satisfaction Absence dhypothèse de départ… Absence dontologie 1. Problématique – Périmètre de nos travaux
9
Etude souhaitée : « potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA » Deux analyses primaires Ecrivains dont Arthur Rimbaud et Charles Baudelaire Dixit, base de capitalisation dentretiens construite par le Département détudes de la Branche Commerce Signalétiques associées : date de naissance, type décrits, segment de marché, tarification... Stratégies et contextes danalyse primaire : méthode de constitution des corpus, objectifs des analyses, commanditaires, dates… Ecrivains : méthode Benoît Habert, ATALA, Benoît Habert, février 2005 Dixit : capitalisation denquêtes menées à la Branche Commerce, Jean Vidal, 2000 - 2004 1. Problématique – Lexemple de lATALA
10
Transformer RDF Dixit Écrivains … Recherche FiltrageExportation Importation Et Annotation Alceste et Temis Structuration de données Analyse et fouille de données complexes TROIE ACHILLES Données Brutes Données Structurées 2. Architecture globale
11
E : Vous choisiriez le gaz ? P : Oui, je pense. Si je devais faire une installation dans ma propre maison ce serait plutôt vers le gaz que je me dirigerais. E : A cause du coût ? P : Oui voilà.. A cause du coût et de la chaleur. La chaleur nest pas la même. Peut-être que maintenant les installations sont plus performantes mais.. E : En tout cas vous leur demanderiez : sil ny a pas une autre chaleur électrique ? P : Oui, jessaierais de voir sil ny a pas une autre solution. Je vois quà la maison, en plein hiver les chauffages sont pratiquement mis à fond et on na pas limpression davoir chaud. La maison est très bien isolée, ce nest pas ça.. En plus on a une dalle chauffante, au rez-de-chaussée, qui est allumée en permanence et par rapport à ça, on arrive sans allumer les convecteurs à une température constante de 19°. Ce qui est bien. Dans la journée on éteint les convecteurs puisquil ny a personne et la température de la dalle maintien un minimum de chaleur. Cest surtout sur ce point là que jinsisterais. E : Donc, si nouveau fournisseur, vous lui poseriez quoi, comme question ? P : Je leur demanderais de prouver, par A plus B, que la chaleur électrique est aussi performante que celle au gaz, au niveau confort. $FILE: Intitule: Structure de l'offre destinée aux clients résidentiels f_DateFinEtude: 07/10/2001 ReferenceMKM: STUDEO 13109 valmeth: 1 Entretien individuel,2 Table ronde - Entretiens de groupe valmetbis: 1 Entretien individuel intext: Externe demographie: Particuliers MarcheAff: Particuliers Marcheseg: Particuliers sexe1: femme sexbis: age1: 53 agbis: csp: secrétaire de direction cspbis: nombre1: effectif1: stat: propiétaire maison: maison chiffre_1: principale chauffage: gaz energie1: électricité,gaz tarif1: base codepostal1: 35740 Doc_Type: Fiche signalétique d'entretien ValeurMethod: Entretien individuel logtab: 1 yn: Externe segment: Particuliers export 3. Structuration : TROIE
13
Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. Export vers des logiciels danalyse, import des résultats et des interprétations 3. Une journée dans la vie dune étude… : ACHILLES
14
« chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage
15
« chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage
16
« chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage
18
« chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage
19
« chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage
20
« chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage.
21
« chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. 3. Requêtage et filtrage
22
« chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage
23
« chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage
24
« chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage
25
« chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage
26
Analyste TEMIS ALCESTE Structuration Analyse_1.rdf Je suis un analyste moderne et jutilise des logiciels dADT et je lis FT Production des résultats Export vers des logiciels danalyse, import des résultats et des interprétations 3. export/import
27
Analyste TEMIS ALCESTE Structuration Analyse_1.rdf Je suis un analyste moderne et jutilise des logiciels dADT et je lis FT Production des résultats Export vers des logiciels danalyse, import des résultats et des interprétations 3. export/import
28
Analyste TEMIS ALCESTE Structuration Analyse_1.rdf Je suis un analyste moderne et jutilise des logiciels dADT et je lis FT Production des résultats Export vers des logiciels danalyse, import des résultats et des interprétations 3. export/import
29
Analyste TEMIS ALCESTE Structuration Analyse_1.rdf Je suis un analyste moderne et jutilise des logiciels dADT et je lis FT Production des résultats Export vers des logiciels danalyse, import des résultats et des interprétations 3. export/import
30
Analyste TEMIS ALCESTE Structuration Analyse_1.rdf Je suis un analyste moderne et jutilise des logiciels dADT et je lis FT Production des résultats Export vers des logiciels danalyse, import des résultats et des interprétations 3. export/import
31
Analyste TEMIS ALCESTE Structuration Analyse_1.rdf Je suis un analyste moderne et jutilise des logiciels dADT et je lis FT Production des résultats Export vers des logiciels danalyse, import des résultats et des interprétations 3. export/import
32
Construction de deux prototypes sappuyant sur XML/RDF Un modèle conceptuel générique sous forme de triplets Un langage logique facilitant le requêtage Des exports plus aisés Il reste quand même des améliorations à apporter !!!! Interfaçage avec des bases de données afin de réduire les temps de chargement et de traitement Passage à léchelle réaliste Amélioration de lergonomie des deux logiciels de manière à rendre lutilisation dXML transparente pour lutilisateur final Rendre larchitecture plus adaptée au travail collaboratif (partage des études, accès aux annotations de chacun, possibilité denrichir les interprétations) Réflexion sur la normalisation sémantique des méta-données limitée actuellement à la syntaxe 4. Conclusion et perspectives
33
Construction de deux prototypes sappuyant sur XML/RDF Un modèle conceptuel générique sous forme de triplets Un langage logique facilitant le requêtage Des exports plus aisés Il reste quand même des améliorations à apporter !!!! Interfaçage avec des bases de données afin de réduire les temps de chargement et de traitement Passage à léchelle réaliste Amélioration de lergonomie des deux logiciels de manière à rendre lutilisation dXML transparente pour lutilisateur final Rendre larchitecture plus adaptée au travail collaboratif (partage des études, accès aux annotations de chacun, possibilité denrichir les interprétations) Réflexion sur la normalisation sémantique des méta-données limitée actuellement à la syntaxe 4. Conclusion et perspectives
34
Vous pouvez reprendre une activité normale... Et maintenant... Remerciements chaleureux à Brad Pitt pour son inspiration de tous les instants !
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.