Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parHadrienne Doucet Modifié depuis plus de 9 années
1
Approche Big Data et Web Sémantique pour la fouille et la classification automatique de données Web
Ces travaux sont effectués dans le cadre d’un partenariat avec l’entreprise First-ECO, spécialiste de le recommandation de nouvelles économiques. Thomas Hassan Rafael Peixoto, Christophe Cruz, Aurelie Bertaux, Nuno Silva Laboratoire LE2I – UMR CNRS 6306 – Université de Bourgogne
2
Contexte, Problématique Processus Modèle prédictif Limites
Plan Contexte, Problématique Processus Modèle prédictif Limites Nouveau Processus Conclusion Travaux futurs 1er processus qui a été mis en place, notamment le modèle prédictif et ses limites. Je conclurais sur les contributions avant de présenter les travaux futurs.
3
Contexte L’entreprise first eco effectue une veille documentaire quotidienne afin de trouver des informations pertinentes. Les différentes sources sont analysées et classées manuellement avant d’être proposées aux utilisateurs selon leur profil. La pertinence des informations est définie selon différents critères, qui représentent la connaissance métier de l’entreprise.
4
Contexte Verrou scientifique :
Processus d’analyse de données adapté aux grands volumes de données et à des connaissances métier. Passage à l’échelle Hétérogénéité des données De plus en plus de ressources web sont utilisées et il est impossible pour l’entreprise d’analyser l’intégralité des sources. le projet s’inscrit dans un cadre Bid Data afin de gérer tous types de volumes et de formats de données.
5
Problématique Littérature :
Manque d’analyse de données proche des connaissances métier à l’échelle de web Verrou scientifique : Processus d’analyse de données adapté aux grands volumes de données et à des connaissances métier. Refs à ajouter
6
Modèle prédictif La Classification Multi-Label Hiérarchique (HMC) est la combinaison de la Classification Multi-Label et de la Classification Hiérarchique Mise en place d’un processus d’analyse de données basé sur un modèle prédictif : la HMC Hierarchical Multi-Label (HMC) Classification is the combination of Multi-Label classification and Hierarchical classification . Définir Item
7
with Standard DL Reasonners
Modèle prédictif Classification WORKS with Standard DL Reasonners DOESN’T WORK Tax Tax1 Tax 10 Tax12 Tax11 Tax2=Tax3 Tax4 Tax5 Tax… On utilise ce modèle prédictif afin de générer une ontologie. Générer le modèle à partir des données. Moteur d’inférence basé sur la logique de description aifn de classer les items. Le processus ne supporte pas la montée en charge : il n’est pas possible de classer les items avec un jeu de données trop grand.
8
Limites Résultats : Delicious Dataset
En effet avec différents raisonneurs basés sur la logique de description, le processus n’est pas capable de classer les items.
9
Nouvelle architecture BigData
Architecture : processus à 5 phases distinctes Index L’architecture suivante a été mise en place. Le processus comporte 5 phases : L’indexation qui a pour but de réduire la dimension des données en effectuant l’extraction de caractéristiques (feature extraction). La vectorisation utilise l’index généré afin de déterminer des concepts pertinents dans l’index. La hiérarchisation qui permet de représenter sous forme hiérarchique les liaisons entre les concepts envoyée vers l’ontologie. La résolution crée les règles qui permettront d’effectuer la classification des items en fonction de la hiérarchie. La réalisation classe les items dans l’ontologie génrée précédemment. Reférences travaux précédents à ajouter ?
10
Nouvelle architecture BigData
Montée en charge Utilisation du framework Hadoop et du modèle MapReduce Avantages de hadoop: fault tolerence, réplication Importance de la séparation des phases : modularité (changement des algorithmes, frameworks, triplestore, index…). Identification des goulots d’étranglement. Benchmarking. Comment distribuer chacune des phases du processus ? Dean, J., & Ghemawat, S. (2008). MapReduce: simplified data processing on large clusters. Communications of the ACM, 51(1),
11
Parsing, Traitement du Langage Naturel*
1. Indexation Génération d’un index des termes Parsing, Traitement du Langage Naturel* Index Feature extraction (extraction caractéristiques ou indices). Parsing dépend des données : multiples parsers pour multiples types de données * Tokenisation, Lemmatisation, Suppression des mots vides
12
1. Indexation Distribution de l’index Index
Feature extraction (extraction caractéristiques ou indices). Parsing dépend des données : multiples parsers pour multiples types de données * Tokenisation, Lemmatisation, Suppression des mots vides
13
2. Vectorisation Détection des termes pertinents basée sur l’index
Génère la liste des termes et des n-grams. Recherche de concepts basée sur les données (TF-IDF et n-grams). N-grams potenciellement plus pertinents. Uni-grams (termes) N-grams (collocations) - Amélioration
14
2. Vectorisation - Collocation
Génération de la liste des termes et des n-grams Algorithme de collocations (MapReduce) La liaison entre Mahout et Solr se fait via le moteur Lucene. Liste de collocation { uni-grams + n-grams } Sequence Files
15
2. Vectorisation - Vecteurs
Génération des vecteurs de fréquences Liste de collocation { uni-grams + n-grams } Liste des fréquences Seuil de pertinence Génération des n-grams est une opération de comptage. Génération des vecteurs de fréquence est également une opération de comptage. Les termes dont la fréquence est inférieure à un certain seuil sont rejetés Résultat : matrice de fréquence , pour chaque concept, fréquence d’apparition des sous concepts (co-occurent)
16
3. Hiérarchisation Génération de la hiérarchie de concepts
17
3. Hiérarchisation Algorithme de subsomption P X
Matrice de co-occurrence des concepts. Pour chque couple de concepts co-occurents, vérifier la fréquence d’apparition respective. Fréquences comparées à un seuil. Score du meilleur parent déterminé par les deux fréquences. De Knijff, Jeroen and Frasincar, Flavius and Hogenboom, Frederik, Domain taxonomy learning from text: The subsumption method versus hierarchical clustering, Data & Knowledge Engineering, pp.54-69
18
3. Hiérarchisation Algorithme de subsomption MapReduce
Seuil de pertinence Intérêt de la matrice de fréquence pour adapter l’algorithme avec MapReduce De Knijff, Jeroen and Frasincar, Flavius and Hogenboom, Frederik, Domain taxonomy learning from text: The subsumption method versus hierarchical clustering, Data & Knowledge Engineering, pp.54-69
19
3. Hiérarchisation Hiérarchie chargée dans un triple store Thésaurus
Intérêt de la matrice de fréquence pour adapter l’algorithme avec MapReduce Thésaurus Triple Store
20
4. Résolution Génération de règles de classification Seuils 𝜶 et 𝜷
Clauses de Horn (SWRL) % W1 W2 W3 W4 W5 W6 W7 Tax1 5 25 Tax2 75 Tax3 Tax4 93 Tax5 95 60 Tax6 90 Tax7 98 79 Clauses Horn != logique du 1er ordre. +sieurs règles par classe Alpha très pertinent suffisant pour déterminer l’appartenance à une classe Beta potenciellement pertinents pas suffisants pour définer l’appartenance Seuils 𝜶 et 𝜷 Item(?i1)∧Word(?w1)∧hasWord(?i1,?w1) → Tax(?i1) Item: nouveau document
21
4. Résolution Génération de règles de classification Seuils 𝜶 et 𝜷
Approche « diviser pour régner » Clauses de Horn (SWRL) % W1 W2 W3 W4 W5 W6 W7 Tax1 5 25 Tax2 75 Tax3 Tax4 93 Tax5 95 60 Tax6 90 Tax7 98 79 Seuils 𝜶 et 𝜷 Item(?i1)∧Word(?w1)∧hasWord(?i1,?w1) → Tax(?i1) Item: nouveau document
22
4. Résolution Génération de règles de classification
Item(?i1)∧Word(?w1)∧hasWord(?i1,?w1) → Tax(?i1) Pas encore implémentée Règles Triple Store
23
5. Réalisation Utilisation des règles SWRL pour classer
Item(?i1)∧Word(?w1)∧hasWord(?i1,?w1) → Tax(?i1) Triple Store L1 L2 L3 L4 L5 Doc1 x - Doc2 Doc3 Doc4 Doc5 Doc6 Doc7 On utilise les règles SWRL pour classer les items avec les concepts correspondants. Vecteurs « item »
24
Conclusion Prototype fonctionnel d’analyse des données
Application au français important Bases de connaissances générales peuvent être des données du linked data (DBPedia ….) Algorithmes MapReduce N-grams Raisonneur basé sur les règles
25
Travail futur Evaluation de la performance du processus :
26
Hiérarchie de référence
Travail futur Evaluation de la qualité de la hiérarchie : Utilisation de jeux de données standards (exemple Repub). Comparaison entre la hiérarchie générée et la hiérarchie de référence (étalon) Hiérarchie de référence Données de test HMC Sémantique
27
Travail futur Amélioration de la définition des concepts :
Lien avec des bases de connaissance lexicales (type Wordnet) Lien avec des bases de connaissances générales Lien avec la taxonomie d’entreprise. Extraction d’événements complexes basés sur les bases de connaissances. Application au français important Bases de connaissances générales peuvent être des données du linked data (DBPedia ….)
28
Travail futur Rapprochement avec la connaissance métier :
HMC Sémantique Quand les experts recommandent du contenu aux utilisateurs, ils se basent sur la taxonomie. Trouver des concepts ou groupes de concepts similaires et les attribuer à des items peut être une information de valeur. Validation des concepts
29
RESEARCH & BUSINESS APPROACH
Laboratoire LE2I – UMR CNRS 6306 – Université de Bourgogne
Présentations similaires
© 2025 SlidePlayer.fr Inc.
All rights reserved.