La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Structuration XML pour le text mining de données hétérogènes Helka Folch Groupe LIR (Langues, Information, Représentations) Département Communication Homme-Machine.

Présentations similaires


Présentation au sujet: "Structuration XML pour le text mining de données hétérogènes Helka Folch Groupe LIR (Langues, Information, Représentations) Département Communication Homme-Machine."— Transcription de la présentation:

1 Structuration XML pour le text mining de données hétérogènes Helka Folch Groupe LIR (Langues, Information, Représentations) Département Communication Homme-Machine LIMSI-CNRS - Orsay

2 2 Plan Text mining de corpus hétérogènes Accès sémantique aux documents hétérogènes : le sens varie Architecture de corpus pour le text mining Externaliser les annotations Mémoriser les traitements Topic Maps : Articuler des points de vues multiples sur un corpus Projet Alliances : repérage de points de vues dans des forum électroniques RDF : Mise à plat et articulation des assertions Projet P000f (EDF) : ré-utilisation de données pour lanalyse secondaire Conclusion

3 3 Besoin : accès sémantique aux documents Goldfarb ("Monsieur SGML") : Topic Maps are the GPS of the information universe (Extreme Markup Languages Conference, 98) Internet : adressage univoque de ressources au moyen d'URLs Web sémantique : langage univoque pour décrire les événements de la Toile Web sémantique (W3C) : utopie d'une inter-langue parfaite ? ? Topic Maps (ISO13250): Modèle d'annotation pour des cartes sémantiques navigables du Web

4 4 De l'univoque au mouvant Travail de OASIS et de W3C (consortiums pour la définition des standards du Web) : définition de nomenclatures univoques pour référencer des régions (ISO ), des langues (ISO 639), des aéroports (UN/LOCODE), etc. ? ISO ISO 639 Langages médicaux (Mesh, UMLS,...) ? Langage de l'économie, de la sociologie, etc.

5 5 Variation du sens 1/4 Les entités changent de sens selon le réseau où elles figurent Sugar : Intersection de sens dans deux réseaux mais divergences Goût Fonctionnel (pour le corps) Edulcorant Composante organique Agent carbohydrate Réseau sémantique lexical généraliste (WordNet) Ontologie médicale (Mesh)

6 6 sweetinng sweetener organic compound sugar refined sugar lump sugar sugarloaf loaf sugar carbohydrate saccharide sugar cane sugar polysaccharide polyose wood sugar xylose Synset Hyponymie Synonymie WordNet Mesh Variation du sens 2/4

7 7 Chemicals and Drugs AnatomyOrganisms Analytical, Diagnostic and Therapeutic Techniques and Equipment Psychiatry and Psychology Organic Chemicals Enzymes, Coenzymes, and Enzyme Inhibitors Alcohols Carbohydrates and Hypoglycemic Agents Enzymes Carbohydrates Sugar Alcohols Acids, Acyclic Carboxylic Acids Sugar Acids Oxidoreductases Alcohol Oxidoreductases Carbohydrate Dehydrogenases Sugar Alcohol Dehydrogenases Amino SugarsGlycosides Nucleotides Nucleoside Diphosphate Sugars Adenosine Diphosphate Sugars MeSH 1 WordNet Variation du sens 3/4

8 8 Variation du sens dans les forums planétaires (Projet Alliances) - Associations (via Zellig) des synonymes de `monnaie alternative' : "troc" et "monnaie sociale", selon l'origine des intervenants Vision sociale Vision économique Argentine Europe pratique impôt flux fortune résistance gestion aide économie_solidaire socioéconomie_solidaire monnaie sociale impôt compte instrument système échange compte imaginaire hyperinflation monnaie sociale paiement Zellig (Habert, 98) : logiciel qui vise à dégager les classes sémantiques d'un corpus sur la base des dépendances syntaxiques partagées entre les mots. Variation du sens 4/4

9 9 Text mining de corpus hétérogènes : une approche inductive Corpus hétérogènes et évolutifs Plusieurs points de vues sont représentés (pas forcément de convergence sur le sens des mots) Les points de vues peuvent évoluer (corpus de veille) Annotation Acquisition sémantique Corpus Approche inductive Absence dontologies pré- existantes applicables

10 10 Plan Text mining de corpus hétérogènes Accès sémantique aux documents hétérogènes : le sens varie Architecture de corpus pour le text mining Externaliser les annotations Mémoriser les traitements Topic Maps : Articuler des points de vues multiples sur un corpus Projet Alliances RDF : Mise à plat et articulation des assertions Projet P000f (EDF) : ré-utilisation de données pour lanalyse secondaire Conclusion

11 11 Architecture de corpus pour le text mining de données hétérogènes Constituer des corpus selon un point de vue donné à partir dobjets textuels de granularité variable; Garder la trace des critères de constitution d'un corpus; Garder la trace des traitements sur un corpus et leurs liens aux documents de départ; Articuler sur la collection documentaire les résultats pas forcément convergents obtenus avec des traitements variés sur des corpus distincts provenant de cette même collection.

12 12 Plan Text mining de corpus hétérogènes Accès sémantique aux documents hétérogènes : le sens varie Architecture de corpus pour le text mining Externaliser les annotations Mémoriser les traitements Topic Maps : Articuler des points de vues multiples sur un corpus Projet Alliances RDF : Mise à plat et articulation des assertions Projet P000f (EDF) : ré-utilisation de données pour lanalyse secondaire Conclusion

13 13 Topic Maps : Articuler des points de vues multiples sur un corpus Projet Alliances ( ) (Claude Henry, Dépt. CHM, LIMSI): projet RNRT (LIMSI, LIP6, XEROX, FPH) Objectif : étude des convergences et divergences de points de vues dans des réseaux associatifs distribués.

14 14 Besoin d'un format d'annotation "externalisant" 1/5 HyTime (ISO/IEC 10744:1997) : format de documents structurés multimédia Origines : - langage SGML de description musicale - description d'un opéra Objectif : - synchroniser des objets sur des flux spatiaux et temporels multiples (Paroles, etc.) Topic Maps (ISO 13250) : Modèle d'annotation pour définir des cartes sémantiques navigables XTM (ISO 13250:2000) : portage de Topic Maps en XML (Indications scéniques, etc.) Da Capo

15 15 Besoin d'un format d'annotation "externalisant" 2/5 Synchroniser plusieurs flux d'annotation éventuellement divergents Messages Participants Participant 1 Pays d'origine Participant 3 Pays d'origine 4 jour 1 Jour 2 Jour 3 Jour 4 Jours Forum du projet Alliances

16 16 Besoin d'un format d'annotation "externalisant" 3/5 Notion de lien indépendant (HyTime) : stocké séparément des ressources qu'il relie Notion de topic (Topic Maps) : lien indépendant qui regroupe des localisations du corpus autour d'un même sujet Participant 1 Définition des liens séparée des ressources reliées : permet de modifier les liens sans modifier les documents eux-mêmes TEI HTML "farcir" externaliser XLink XCES

17 17 Besoin d'un format d'annotation "externalisant" 4/5 Permet de faire coexister des annotations concurrentes sur les mêmes données Je ne m ' étais pas occupée SEGMENTATION 1 Segment 1 Segment 2 Segment 3 SEGMENTATION 2 Segment 1 Segment 2 Segment 3 Segment 4 Segment 5 Segment 6 Segment 7

18 18 Besoin d'un format d'annotation "externalisant" 5/5 Les annotations concurrentes peuvent former des hiérarchies enchevêtrées. Si elles ne sont pas externalisées, la structure d'arborescence stricte d'un document XML l'interdit SEGMENTATION 1 Segment 1 Segment 2 SEGMENTATION 2 Segment 1 Segment 2 Flux de données Les liens indépendants dans les annotations externes peuvent être à destination multiple (versus liens point à point dans HTML) permet l'adressage d'objets discontinus je ne m'étais pas occupée Segment 1 Segment 2

19 19 Recursivité de lannotation Le résultat d'un traitement peut lui-même être annoté par un autre traitement Fiches Participant 1 Participant 3 Participant 4 Participant 5 Cluster 1 Cluster 2 Spécificités 1 Création d'un corpus partitionné (par participant) à partir de la signalétique 2 Clustering (CHA) des parties (les participants) en R 3 Mise en évidence des sur et sous emplois relatifs des classes des clusterings (Lexico)

20 20 Mémoriser les traitements Fiches Participant 1 Participant 3 Participant 4 Participant 5 Cluster 1 Cluster 2 Spécificités Notion de scope dans Topic Maps : permet de définir le contexte des propriétés d'un topic scope Garder la trace des critères de constitution d'un corpus et des traitements réalisés (paramètres) Clustering R paramètres... Analyse LEXICO paramètres

21 21 scope EXTRACTION - Paramètres d'extraction (Pays dorigine 2 + 4) - Hypothèses de constitution du corpus Contextes élémentaires Paramétrage Zellig Paramétrage segmentation scope jour 1 jour 3 jour 7 jour 15 Corpus Messages Participants Pays d'origine Jours Revenir des traitements et des résultats aux corpus d'origine

22 22 Navigation mot -> contexte élémentaire -> co-texte Type du topic Nom du topic Propriété du topic: le contexte élémentaire Référence dans le corpus Scope ou contexte visualiseur de Topic Maps Omnigator (http://www.ontopia.net)

23 23 Plan Text mining de corpus hétérogènes Accès sémantique aux documents hétérogènes : le sens varie Architecture de corpus pour le text mining Externaliser les annotations Mémoriser les traitements Topic Maps : Articuler des points de vues multiples sur un corpus Projet Alliances RDF : Mise à plat et articulation des assertions Projet P000f (EDF) : ré-utilisation de données pour lanalyse secondaire Conclusion

24 24 Structuration RDF pour lanalyse secondaire Projet de collaboration EDF R&D-LIMSI CNRS Fouille de données complexes et visualisation dinformation (Projet P000f) Equipes SOAD (Statistiques Optimisation et Aide à la Décision) EDF R&D Sylvaine Nugier, Marie-Luce Picard, Yasmina Quatrain CHM (Communication homme-machine) LIMSI – CNRS Helka Folch, Benoît Habert, Christian Jacquemin, Frédéric Vernier

25 25 Problématique de la fouille de données complexes à EDF multi- sources multi-relationnelles

26 26 Problématique – Début de solution : lanalyse secondaire Lanalyse secondaire comme définie et pratiquée à EDF « réutiliser des données déjà capitalisées avec des objectifs danalyse qui ne sont pas ceux pour lesquels elles étaient initialement collectées » Le recours à lanalyse secondaire est motivé par : les coûts les gains méthodologiques apportés Des précautions méthodologiques… la mise à disposition des traces du contexte de lanalyse initiale, des stratégies, des hypothèses danalyse en plus des données brutes.

27 27 Problématique – Périmètre des travaux Les travaux décrits aujourdhui portent uniquement sur la réutilisation de données contenant du texte Approche multi-métier : sociologues, « data-miners » et chargés détude marketing Sources de données traitées : Bases de capitalisation dentretiens Forums de discussion Enquêtes de satisfaction Absence dhypothèse de départ… Absence dontologie

28 28 Architecture globale Transformer RDF Dixit Forum DD … Recherche FiltrageExportation Importation Et Annotation Alceste et Temis Structuration de données Analyse et fouille de données complexes TROIE ACHILLES Données Brutes Données Structurées

29 29 Choix technique : RDF Articuler des assertions sur les métadonnées Brique de base : le triplet. lénergie éolien 12/4/99 titre date message_père Valeur littérale Ressource Langage défini par le consortium W3C (www.w3.org)

30 30 Du graphe RDF à la syntaxe XML lénergie éolien 12/4/99 titre date message_père Valeur littérale Ressource

31 31 E : Vous choisiriez le gaz ? P : Oui, je pense. Si je devais faire une installation dans ma propre maison ce serait plutôt vers le gaz que je me dirigerais. E : A cause du coût ? P : Oui voilà.. A cause du coût et de la chaleur. La chaleur nest pas la même. Peut-être que maintenant les installations sont plus performantes mais.. E : En tout cas vous leur demanderiez : sil ny a pas une autre chaleur électrique ? P : Oui, jessaierais de voir sil ny a pas une autre solution. Je vois quà la maison, en plein hiver les chauffages sont pratiquement mis à fond et on na pas limpression davoir chaud. La maison est très bien isolée, ce nest pas ça.. En plus on a une dalle chauffante, au rez-de-chaussée, qui est allumée en permanence et par rapport à ça, on arrive sans allumer les convecteurs à une température constante de 19°. Ce qui est bien. Dans la journée on éteint les convecteurs puisquil ny a personne et la température de la dalle maintien un minimum de chaleur. Cest surtout sur ce point là que jinsisterais. E : Donc, si nouveau fournisseur, vous lui poseriez quoi, comme question ? P : Je leur demanderais de prouver, par A plus B, que la chaleur électrique est aussi performante que celle au gaz, au niveau confort. $FILE: Intitule: Structure de l'offre destinée aux clients résidentiels f_DateFinEtude: 07/10/2001 ReferenceMKM: STUDEO valmeth: 1 Entretien individuel,2 Table ronde - Entretiens de groupe valmetbis: 1 Entretien individuel intext: Externe demographie: Particuliers MarcheAff: Particuliers Marcheseg: Particuliers sexe1: femme sexbis: age1: 53 agbis: csp: secrétaire de direction cspbis: nombre1: effectif1: stat: propiétaire maison: maison chiffre_1: principale chauffage: gaz energie1: électricité,gaz tarif1: base codepostal1: Doc_Type: Fiche signalétique d'entretien ValeurMethod: Entretien individuel logtab: 1 yn: Externe segment: Particuliers export Structuration : TROIE 1/4

32 32 RDF : Séparation des données et des métadonnées Structuration : TROIE 2/4

33 33 ex_dixit/data/entretien_12_12.xml PME-PMI false true RDF : Validation par rapport à un schéma ou vocabulaire Instance Schema Nom du schéma Contrainte sur le type de données Espace de nom TROIE 3/4

34 34 Structuration : TROIE 4/4

35 35 « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Je veux connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 1. Requêtage et filtrage Une journée dans la vie dune étude… : ACHILLES

36 36 « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Je veux connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage

37 37 « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Je veux connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage

38 38 3. Requêtage et filtrage

39 39 « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Je veux connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage

40 40 « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Je veux connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage

41 41 3. Requêtage et filtrage « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Je veux connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage.

42 42 Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Je veux connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. 3. Requêtage et filtrage

43 43 « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Je veux connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage

44 44 « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Je veux connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage

45 45 « chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant lavis de particuliers (2) (1) (2) Validation Analyse_1.rdf Je veux connaître le potentiel dutilisation de la climatisation réversible auprès des clients dEDF SA…. Construction dun corpus à partir de plusieurs sources par requêtage et filtrage. 3. Requêtage et filtrage

46 46 Analyste TEMIS ALCESTE Structuration Analyse_1.rdf Production des résultats Export vers des logiciels danalyse, import des résultats et des interprétations 3. export/import

47 47 Analyste TEMIS ALCESTE Structuration Analyse_1.rdf Production des résultats Export vers des logiciels danalyse, import des résultats et des interprétations 3. export/import Espaces de noms RDF

48 48 Analyste TEMIS ALCESTE Structuration Analyse_1.rdf Production des résultats Export vers des logiciels danalyse, import des résultats et des interprétations 3. export/import

49 49 Analyse_1.rdf Analyste TEMIS ALCESTE Structuration Analyse_1.rdf Production des résultats Export vers des logiciels danalyse, import des résultats et des interprétations 3. export/import Assertion 1 Assertion 2 Assertion sur Assertion

50 50 Topic Maps et RDF permettent : Gérer séparément données et méta-données Annoter des données de granularité variable Réifier les annotations Définir des schémas ou vocabulaires spécifiques validables Topic Maps est plus adapté à la navigation RDF est plus adapté au requêtage Plus de maturité des logiciels disponibles pour RDF Jena Java RDF API IsaViz (pour visualiser et éditer les graphes RDF) RDFDB (BD qui supporte RDF et le langage de requêtes RDFQL) Ni Topic Maps ni RDF résolvent le problème de la normalisation sémantique des méta-données, seulement la normalisation syntaxique Conclusion Topic Maps vs RDF pour le text mining Mais !!


Télécharger ppt "Structuration XML pour le text mining de données hétérogènes Helka Folch Groupe LIR (Langues, Information, Représentations) Département Communication Homme-Machine."

Présentations similaires


Annonces Google