Structuration XML pour le text mining de données hétérogènes

Structuration XML pour le text mining de données hétérogènes
Helka Folch Groupe LIR (Langues, Information, Représentations) Département Communication Homme-Machine LIMSI-CNRS - Orsay

Plan Text mining de corpus hétérogènes
Accès sémantique aux documents hétérogènes : le sens varie Architecture de corpus pour le text mining Externaliser les annotations Mémoriser les traitements Topic Maps : Articuler des points de vues multiples sur un corpus Projet Alliances : repérage de points de vues dans des forum électroniques RDF : Mise à plat et articulation des assertions Projet P000f (EDF) : ré-utilisation de données pour l’analyse secondaire Conclusion

Besoin : accès sémantique aux documents
Web sémantique (W3C) : utopie d'une inter-langue parfaite ? Goldfarb ("Monsieur SGML") : Topic Maps are the GPS of the information universe (Extreme Markup Languages Conference, 98) Internet : adressage univoque de ressources au moyen d'URLs Web sémantique :  langage univoque pour décrire les événements de la Toile Topic Maps (ISO13250): Modèle d'annotation pour des cartes sémantiques navigables du Web ?

De l'univoque au mouvant
Travail de OASIS et de W3C (consortiums pour la définition des standards du Web) : définition de nomenclatures univoques pour référencer des régions (ISO ), des langues (ISO 639), des aéroports (UN/LOCODE), etc. ? ISO ISO 639 Langages médicaux (Mesh, UMLS,...) Langage de l'économie, de la sociologie, etc.

Variation du sens 1/4 Les entités changent de sens selon le réseau où elles figurent Sugar : Intersection de sens dans deux réseaux mais divergences Goût Fonctionnel (pour le corps) Edulcorant Composante organique Agent carbohydrate Réseau sémantique lexical généraliste (WordNet) Ontologie médicale (Mesh)

Variation du sens 2/4 Mesh WordNet sweetinng sweetener
organic compound WordNet carbohydrate saccharide sugar sugar refined sugar Synset Hyponymie Synonymie sugarloaf sugar loaf loaf sugar wood sugar xylose polysaccharide polyose lump sugar cane sugar

Variation du sens 3/4 MeSH
Analytical, Diagnostic and Therapeutic Techniques and Equipment Chemicals and Drugs Psychiatry and Psychology Anatomy Organisms WordNet Enzymes, Coenzymes, and Enzyme Inhibitors Carbohydrates and Hypoglycemic Agents Organic Chemicals Carbohydrates Carboxylic Acids Enzymes Alcohols Amino Sugars Glycosides Oxidoreductases Nucleotides Sugar Alcohols Alcohol Oxidoreductases Acids, Acyclic Nucleoside Diphosphate Sugars Carbohydrate Dehydrogenases Sugar Acids Adenosine Diphosphate Sugars Sugar Alcohol Dehydrogenases 1

Variation du sens 4/4 Variation du sens dans les forums planétaires (Projet Alliances) - Associations (via Zellig) des synonymes de `monnaie alternative' : "troc" et "monnaie sociale", selon l'origine des intervenants impôt compte impôt flux hyperinflation socioéconomie_solidaire imaginaire économie_solidaire instrument fortune monnaie sociale monnaie sociale paiement pratique système résistance compte aide échange gestion Argentine Vision sociale Europe Vision économique Zellig (Habert, 98) : logiciel qui vise à dégager les classes sémantiques d'un corpus sur la base des dépendances syntaxiques partagées entre les mots.

Text mining de corpus hétérogènes : une approche inductive
Corpus hétérogènes et évolutifs Plusieurs points de vues sont représentés (pas forcément de convergence sur le sens des mots) Les points de vues peuvent évoluer (corpus de veille) Annotation Acquisition sémantique Corpus  Absence d’ontologies pré-existantes applicables Approche inductive

Accès sémantique aux documents hétérogènes : le sens varie Architecture de corpus pour le text mining Externaliser les annotations Mémoriser les traitements Topic Maps : Articuler des points de vues multiples sur un corpus Projet Alliances RDF : Mise à plat et articulation des assertions Projet P000f (EDF) : ré-utilisation de données pour l’analyse secondaire Conclusion

Architecture de corpus pour le text mining de données hétérogènes
Constituer des corpus selon un point de vue donné à partir d’objets textuels de granularité variable; Garder la trace des critères de constitution d'un corpus; Garder la trace des traitements sur un corpus et leurs liens aux documents de départ; Articuler sur la collection documentaire les résultats pas forcément convergents obtenus avec des traitements variés sur des corpus distincts provenant de cette même collection.

Topic Maps : Articuler des points de vues multiples sur un corpus
Projet Alliances ( ) (Claude Henry, Dépt. CHM, LIMSI): projet RNRT (LIMSI, LIP6, XEROX, FPH) Objectif : étude des convergences et divergences de points de vues dans des réseaux associatifs distribués.

Besoin d'un format d'annotation "externalisant" 1/5
HyTime (ISO/IEC 10744:1997) : format de documents structurés multimédia (Indications scéniques, etc.) Da Capo Origines : - langage SGML de description musicale - description d'un opéra Objectif : - synchroniser des objets sur des flux spatiaux et temporels multiples Topic Maps (ISO 13250) : Modèle d'annotation pour définir des cartes sémantiques navigables XTM (ISO 13250:2000) : portage de Topic Maps en XML (Paroles, etc.)

Synchroniser plusieurs flux d'annotation éventuellement divergents Participant1 Forum du projet Alliances Pays d'origine4 Participant3 Pays d'origine Participants Messages Jours jour1 Jour2 Jour3 Jour4

Notion de lien indépendant (HyTime) : stocké séparément des ressources qu'il relie Notion de topic (Topic Maps) : lien indépendant qui regroupe des localisations du corpus autour d'un même sujet Définition des liens séparée des ressources reliées : permet de modifier les liens sans modifier les documents eux-mêmes Participant1 TEI HTML "farcir" externaliser XLink XCES

Permet de faire coexister des annotations concurrentes sur les mêmes données SEGMENTATION1 SEGMENTATION2 Segment1 Segment1 Segment2 Segment2 Segment3 Segment3 Segment3 Segment4 Segment5 Segment6 Segment7 Je ne m ' étais pas occupée

Les annotations concurrentes peuvent former des hiérarchies enchevêtrées. Si elles ne sont pas externalisées, la structure d'arborescence stricte d'un document XML l'interdit SEGMENTATION1 SEGMENTATION2 Segment1 Segment1 Segment2 Segment2 Flux de données Les liens indépendants dans les annotations externes peuvent être à destination multiple (versus liens point à point dans HTML) permet l'adressage d'objets discontinus Segment1 Segment2 je ne m'étais pas occupée

Recursivité de l’annotation
Le résultat d'un traitement peut lui-même être annoté par un autre traitement 3 Mise en évidence des sur et sous emplois relatifs des classes des clusterings (Lexico) Spécificités Cluster1 Spécificités Cluster2 2 Clustering (CHA) des parties (les participants) en R Participant1 Participant4 Participant5 1 Création d'un corpus partitionné (par participant) à partir de la signalétique Participant3 Fiches

Mémoriser les traitements
Garder la trace des critères de constitution d'un corpus et des traitements réalisés (paramètres) Analyse LEXICO paramètres scope Spécificités Cluster1 Spécificités Cluster2 scope Clustering R paramètres ... Participant1 Participant4 Participant5 Notion de scope dans Topic Maps : permet de définir le contexte des propriétés d'un topic Participant3 Fiches

Revenir des traitements et des résultats aux corpus d'origine
Paramétrage Zellig Contextes élémentaires scope Paramétrage segmentation EXTRACTION scope Corpus - Paramètres d'extraction (Pays d’origine 2 + 4) - Hypothèses de constitution du corpus Pays d'origine Participants Messages Jours jour1 jour3 jour7 jour15

Navigation mot -> contexte élémentaire -> co-texte
visualiseur de Topic Maps Omnigator ( Type du topic Nom du topic Scope ou contexte Référence dans le corpus Propriété du topic: le contexte élémentaire

Structuration RDF pour l’analyse secondaire
Projet de collaboration EDF R&D-LIMSI CNRS Fouille de données complexes et visualisation d’information (Projet P000f) Equipes SOAD (Statistiques Optimisation et Aide à la Décision) EDF R&D Sylvaine Nugier, Marie-Luce Picard, Yasmina Quatrain CHM (Communication homme-machine) LIMSI – CNRS Helka Folch, Benoît Habert, Christian Jacquemin, Frédéric Vernier

Problématique de la fouille de données complexes à EDF
multi-relationnelles multi-sources

Problématique – Début de solution : l’analyse secondaire
L’analyse secondaire comme définie et pratiquée à EDF « réutiliser des données déjà capitalisées avec des objectifs d’analyse qui ne sont pas ceux pour lesquels elles étaient initialement collectées » Le recours à l’analyse secondaire est motivé par : les coûts les gains méthodologiques apportés Des précautions méthodologiques… la mise à disposition des traces du contexte de l’analyse initiale, des stratégies, des hypothèses d’analyse en plus des données brutes.

Problématique – Périmètre des travaux
Les travaux décrits aujourd’hui portent uniquement sur la réutilisation de données contenant du texte Approche multi-métier : sociologues, « data-miners » et chargés d’étude marketing Sources de données traitées : Bases de capitalisation d’entretiens Forums de discussion Enquêtes de satisfaction Absence d’hypothèse de départ… Absence d’ontologie

Structuration de données Analyse et fouille de données complexes
TROIE Dixit Architecture globale Transformer RDF Forum DD … Structuration de données Données Brutes Données Structurées Analyse et fouille de données complexes Alceste et Temis Importation Et Annotation Recherche Filtrage Exportation ACHILLES

Choix technique : RDF Articuler des assertions sur les métadonnées
Langage défini par le consortium W3C ( Brique de base : le triplet <ressource><propriété><valeur>. < titre, "l’énergie éolien"> < date, "12/4/99" > < message_père, > l’énergie éolien 12/4/99 titre date message_père Valeur littérale Ressource

Du graphe RDF à la syntaxe XML
message_père titre l’énergie éolien date 12/4/99 Valeur littérale Ressource <?xml version="1.0"?> <rdf:RDF xmlns:rdf=" <rdf:Description rdf:about=" <titre> l’energie éolien </titre> <date>12/4/1999</date> <message_père> </message_père> </rdf:Description> </rdf:RDF>

Structuration : TROIE 1/4
export $FILE: Intitule: Structure de l'offre destinée aux clients résidentiels f_DateFinEtude: 07/10/2001 ReferenceMKM: STUDEO 13109 valmeth: 1 Entretien individuel,2 Table ronde - Entretiens de groupe valmetbis: 1 Entretien individuel intext: Externe demographie: Particuliers MarcheAff: Particuliers Marcheseg: Particuliers sexe1: femme sexbis: age1: 53 agbis: csp: secrétaire de direction cspbis: nombre1: effectif1: stat: propiétaire maison: maison chiffre_1: principale chauffage: gaz energie1: électricité,gaz tarif1: base codepostal1: Doc_Type: Fiche signalétique d'entretien ValeurMethod: Entretien individuel logtab: 1 yn: Externe segment: Particuliers E : Vous choisiriez le gaz ? P : Oui, je pense. Si je devais faire une installation dans ma propre maison ce serait plutôt vers le gaz que je me dirigerais. E : A cause du coût ? P : Oui voilà.. A cause du coût et de la chaleur. La chaleur n’est pas la même. Peut-être que maintenant les installations sont plus performantes mais.. E : En tout cas vous leur demanderiez : s’il n’y a pas une autre chaleur électrique ? P : Oui, j’essaierais de voir s’il n’y a pas une autre solution. Je vois qu’à la maison, en plein hiver les chauffages sont pratiquement mis à fond et on n’a pas l’impression d’avoir chaud. La maison est très bien isolée, ce n’est pas ça.. En plus on a une dalle chauffante, au rez-de-chaussée, qui est allumée en permanence et par rapport à ça, on arrive sans allumer les convecteurs à une température constante de 19°. Ce qui est bien. Dans la journée on éteint les convecteurs puisqu’il n’y a personne et la température de la dalle maintien un minimum de chaleur. C’est surtout sur ce point là que j’insisterais. E : Donc, si nouveau fournisseur, vous lui poseriez quoi, comme question ? P : Je leur demanderais de prouver, par A plus B, que la chaleur électrique est aussi performante que celle au gaz, au niveau confort.

RDF : Séparation des données et des métadonnées
Structuration : TROIE 2/4

RDF : Validation par rapport à un schéma ou vocabulaire
TROIE 3/4 RDF : Validation par rapport à un schéma ou vocabulaire <rdf:Description rdf:about="file:///ex_dixit/entretien_12_12"> <rdf:type rdf:resource="file:///schema_p00f/dixit.rdf#entretien"/> <dixit:entretien_brut>ex_dixit/data/entretien_12_12.xml</dixit:entretien_brut> <dixit:segment_de_marche>PME-PMI</dixit:segment_de_marche> <dixit:donneesLogement> <dixit:maison>false</dixit:maison> <dixit:proprietaire>false</dixit:proprietaire> <dixit:principale>true</dixit:principale> <rdf:type rdf:resource="file:///schema_p00f/dixit.rdf#donneesLogement"/> </rdf:Description> Instance Espace de nom <rdf:RDF xmlns:rdf =" xmlns:rdfs=" xml:base ="file:///schema_p00f/dixit.rdf#"> <rdfs:Class rdf:ID="donneesLogement"/> <rdf:Property rdf:ID="proprietaire"> <rdfs:domain rdf:resource="#donneesLogement"/> <rdfs:range rdf:resource="&xsd;boolean"/> </rdf:Property> <rdf:Property rdf:ID="maison"> <rdf:Property rdf:ID="principale"> Schema Nom du schéma Contrainte sur le type de données

Structuration : TROIE 4/4

Une journée dans la vie d’une étude… : ACHILLES
« chaleur » « froid » (1) Eventuellement, retour en arrière Segment de marché = particuliers Analyste Je veux les documents ayant trait à la chaleur et au froid Je veux uniquement les documents reprenant l’avis de particuliers (2) Validation Analyse_1.rdf Je veux connaître le potentiel d’utilisation de la climatisation réversible auprès des clients d’EDF SA…. 1. Requêtage et filtrage Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

3. Requêtage et filtrage

3. export/import Analyste Analyse_1.rdf Analyse_1.rdf Export vers des logiciels d’analyse, import des résultats et des interprétations TEMIS ALCESTE Production des résultats Structuration Analyse_1.rdf

3. export/import Analyste Analyse_1.rdf Analyse_1.rdf Export vers des logiciels d’analyse, import des résultats et des interprétations TEMIS ALCESTE Espaces de noms RDF Production des résultats Structuration Analyse_1.rdf

3. export/import Analyste Analyse_1.rdf Analyse_1.rdf Export vers des logiciels d’analyse, import des résultats et des interprétations TEMIS ALCESTE Production des résultats Structuration Analyse_1.rdf

3. export/import Assertion sur Assertion Assertion 1
Analyste Analyse_1.rdf Analyse_1.rdf Export vers des logiciels d’analyse, import des résultats et des interprétations TEMIS ALCESTE Production des résultats Structuration <classe1, nom, ‘factures'> Assertion 1 Assertion 2 < Assertion1 , auteur, ‘helka'> Assertion sur Assertion Analyse_1.rdf

Topic Maps vs RDF pour le text mining
Conclusion Topic Maps vs RDF pour le text mining Topic Maps et RDF permettent : Gérer séparément données et méta-données Annoter des données de granularité variable Réifier les annotations Définir des schémas ou vocabulaires spécifiques validables Topic Maps est plus adapté à la navigation RDF est plus adapté au requêtage Plus de maturité des logiciels disponibles pour RDF Jena Java RDF API IsaViz (pour visualiser et éditer les graphes RDF) RDFDB (BD qui supporte RDF et le langage de requêtes RDFQL) Ni Topic Maps ni RDF résolvent le problème de la normalisation sémantique des méta-données, seulement la normalisation syntaxique Mais !!

Structuration XML pour le text mining de données hétérogènes

Présentations similaires

Présentation au sujet: "Structuration XML pour le text mining de données hétérogènes"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Structuration XML pour le text mining de données hétérogènes

Présentations similaires

Présentation au sujet: "Structuration XML pour le text mining de données hétérogènes"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back