La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Réutilisation de corpus et capitalisation danalyses Helka Folch*, Benoit Habert*, David Leray*, Sylvaine Nugier**, Yasmina Quatrain**, Nirina Rabiaza*

Présentations similaires


Présentation au sujet: "Réutilisation de corpus et capitalisation danalyses Helka Folch*, Benoit Habert*, David Leray*, Sylvaine Nugier**, Yasmina Quatrain**, Nirina Rabiaza*"— Transcription de la présentation:

1 Réutilisation de corpus et capitalisation danalyses Helka Folch*, Benoit Habert*, David Leray*, Sylvaine Nugier**, Yasmina Quatrain**, Nirina Rabiaza* (*) LIMSI-CNRS (**) SOAD-R&D-EDF SA

2 1. Problématique de la Fouille de Données Complexes à EDF Données multi-sources et multi-relationnelles Début de solution : lanalyse secondaire Périmètre de nos travaux 2. Architecture globale 3. Réutilisation de corpus et capitalisation danalyses Structuration Une journée dans la vie dune étude… 4. Conclusion et perspectives (le passage à léchelle) Plan

3 1. Problématique de la Fouille de Données Complexes à EDF multi- sources multi-relationnelles

4 Daprès le SBF, un des syndicats de la boulangerie, M. X, boulanger du quartier Q achète son four à lentreprise Bidule et sa farine à la minoterie Maichin ; par lenquête « comment être boulanger au 21 ième siècle et rester séduisant », on sait quil est abonné à « Boulangerie Magazine » dans lequel on trouve souvent la publicité pour Bidule ; sur son site Web, M. X nous apprend quil fabrique un pain bio et quil référence la minoterie Meichin et M. Y qui comme lui produit un pain bio ; à EDF, on sait quil a un profil de consommation P et a déménagé lan dernier. Comment tirer le meilleur parti de toutes ces informations comment stocker comment analyser comment faire partager par « lenquête com achète du quartier Q M. Y. syndicats abonné référence profil de consommation P e Maichin ? M. X. Meichin 1. Problématique de la Fouille de Données Complexes à EDF

5 Lanalyse secondaire comme définie et pratiquée à EDF « réutiliser des données déjà capitalisées avec des objectifs danalyse qui ne sont pas ceux pour lesquels elles étaient initialement collectées » Le recours à lanalyse secondaire est motivé par : les coûts les gains méthodologiques apportés Des précautions méthodologiques… la mise à disposition des traces du contexte de lanalyse initiale, des stratégies, des hypothèses danalyse en plus des données brutes. 1. Problématique – Début de solution : lanalyse secondaire

6 Lancement dune analyse secondaire sur la problématique « déterminer les motivations, événements déclenchants de la rénovation » Étude réalisée à partir de 9 analyses primaires dont : Lappréciation de trois systèmes domotiques Le retour dexpérience de la rénovation de logements sociaux La climatisation fixe réversible dans une optique de mesure de la satisfaction Zoom sur lanalyse primaire « la climatisation fixe réversible » Segment de marché : les particuliers Méta-données descriptives : sexe, âge, profession, type de logement Méta-données issues de lanalyse : remarques du sociologue sur les réticences, les motifs dinvestissement dans ce type dappareil, la gestion de la nouvelle installation. 1. Problématique – lanalyse secondaire, un exemple concret

7 1. Problématique - Contexte

8 Les travaux décrits aujourdhui portent uniquement sur la réutilisation de données contenant du texte Approche multi-métier : sociologues, « data-miners » et chargés détude marketing Sources de données traitées : Bases de capitalisation dentretiens Forums de discussion Enquêtes de satisfaction Absence dhypothèse de départ… Absence dontologie 1. Problématique – Périmètre de nos travaux

9 Etude souhaitée : « potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA » Deux analyses primaires Ecrivains dont Arthur Rimbaud et Charles Baudelaire Dixit, base de capitalisation dentretiens construite par le Département détudes de la Branche Commerce Signalétiques associées : date de naissance, type décrits, segment de marché, tarification... Stratégies et contextes danalyse primaire : méthode de constitution des corpus, objectifs des analyses, commanditaires, dates… Ecrivains : méthode Benoît Habert, ATALA, Benoît Habert, février 2005 Dixit : capitalisation denquêtes menées à la Branche Commerce, Jean Vidal, Problématique – Lexemple de lATALA

10 Transformer RDF Dixit Écrivains … Recherche FiltrageExportation Importation Et Annotation Alceste et Temis Structuration de données Analyse et fouille de données complexes TROIE ACHILLES Données Brutes Données Structurées 2. Architecture globale

11 E : Vous choisiriez le gaz ? P : Oui, je pense. Si je devais faire une installation dans ma propre maison ce serait plutôt vers le gaz que je me dirigerais. E : A cause du coût ? P : Oui voilà.. A cause du coût et de la chaleur. La chaleur nest pas la même. Peut-être que maintenant les installations sont plus performantes mais.. E : En tout cas vous leur demanderiez : sil ny a pas une autre chaleur électrique ? P : Oui, jessaierais de voir sil ny a pas une autre solution. Je vois quà la maison, en plein hiver les chauffages sont pratiquement mis à fond et on na pas limpression davoir chaud. La maison est très bien isolée, ce nest pas ça.. En plus on a une dalle chauffante, au rez-de-chaussée, qui est allumée en permanence et par rapport à ça, on arrive sans allumer les convecteurs à une température constante de 19°. Ce qui est bien. Dans la journée on éteint les convecteurs puisquil ny a personne et la température de la dalle maintien un minimum de chaleur. Cest surtout sur ce point là que jinsisterais. E : Donc, si nouveau fournisseur, vous lui poseriez quoi, comme question ? P : Je leur demanderais de prouver, par A plus B, que la chaleur électrique est aussi performante que celle au gaz, au niveau confort. $FILE: Intitule: Structure de l'offre destinée aux clients résidentiels f_DateFinEtude: 07/10/2001 ReferenceMKM: STUDEO valmeth: 1 Entretien individuel,2 Table ronde - Entretiens de groupe valmetbis: 1 Entretien individuel intext: Externe demographie: Particuliers MarcheAff: Particuliers Marcheseg: Particuliers sexe1: femme sexbis: age1: 53 agbis: csp: secrétaire de direction cspbis: nombre1: effectif1: stat: propiétaire maison: maison chiffre_1: principale chauffage: gaz energie1: électricité,gaz tarif1: base codepostal1: Doc_Type: Fiche signalétique d'entretien ValeurMethod: Entretien individuel logtab: 1 yn: Externe segment: Particuliers export 3. Structuration : TROIE

12

13 Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. Export vers des logiciels danalyse, import des résultats et des interprétations 3. Une journée dans la vie dune étude… : ACHILLES

14 « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage

15 « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage

16 « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage

17

18 « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage

19 « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage

20 « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage.

21 « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. 3. Requêtage et filtrage

22 « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage

23 « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage

24 « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage

25 « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Benoit veut connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage

26 Analyste TEMIS ALCESTE Structuration Analyse_1.rdf Je suis un analyste moderne et jutilise des logiciels dADT et je lis FT Production des résultats Export vers des logiciels danalyse, import des résultats et des interprétations 3. export/import

27 Analyste TEMIS ALCESTE Structuration Analyse_1.rdf Je suis un analyste moderne et jutilise des logiciels dADT et je lis FT Production des résultats Export vers des logiciels danalyse, import des résultats et des interprétations 3. export/import

28 Analyste TEMIS ALCESTE Structuration Analyse_1.rdf Je suis un analyste moderne et jutilise des logiciels dADT et je lis FT Production des résultats Export vers des logiciels danalyse, import des résultats et des interprétations 3. export/import

29 Analyste TEMIS ALCESTE Structuration Analyse_1.rdf Je suis un analyste moderne et jutilise des logiciels dADT et je lis FT Production des résultats Export vers des logiciels danalyse, import des résultats et des interprétations 3. export/import

30 Analyste TEMIS ALCESTE Structuration Analyse_1.rdf Je suis un analyste moderne et jutilise des logiciels dADT et je lis FT Production des résultats Export vers des logiciels danalyse, import des résultats et des interprétations 3. export/import

31 Analyste TEMIS ALCESTE Structuration Analyse_1.rdf Je suis un analyste moderne et jutilise des logiciels dADT et je lis FT Production des résultats Export vers des logiciels danalyse, import des résultats et des interprétations 3. export/import

32 Construction de deux prototypes sappuyant sur XML/RDF Un modèle conceptuel générique sous forme de triplets Un langage logique facilitant le requêtage Des exports plus aisés Il reste quand même des améliorations à apporter !!!! Interfaçage avec des bases de données afin de réduire les temps de chargement et de traitement Passage à léchelle réaliste Amélioration de lergonomie des deux logiciels de manière à rendre lutilisation dXML transparente pour lutilisateur final Rendre larchitecture plus adaptée au travail collaboratif (partage des études, accès aux annotations de chacun, possibilité denrichir les interprétations) Réflexion sur la normalisation sémantique des méta-données limitée actuellement à la syntaxe 4. Conclusion et perspectives

33 Construction de deux prototypes sappuyant sur XML/RDF Un modèle conceptuel générique sous forme de triplets Un langage logique facilitant le requêtage Des exports plus aisés Il reste quand même des améliorations à apporter !!!! Interfaçage avec des bases de données afin de réduire les temps de chargement et de traitement Passage à léchelle réaliste Amélioration de lergonomie des deux logiciels de manière à rendre lutilisation dXML transparente pour lutilisateur final Rendre larchitecture plus adaptée au travail collaboratif (partage des études, accès aux annotations de chacun, possibilité denrichir les interprétations) Réflexion sur la normalisation sémantique des méta-données limitée actuellement à la syntaxe 4. Conclusion et perspectives

34 Vous pouvez reprendre une activité normale... Et maintenant... Remerciements chaleureux à Brad Pitt pour son inspiration de tous les instants !


Télécharger ppt "Réutilisation de corpus et capitalisation danalyses Helka Folch*, Benoit Habert*, David Leray*, Sylvaine Nugier**, Yasmina Quatrain**, Nirina Rabiaza*"

Présentations similaires


Annonces Google