Approche Big Data et Web Sémantique pour la fouille et la classification automatique de données Web Ces travaux sont effectués dans le cadre d’un partenariat.

Slides:



Advertisements
Présentations similaires
Le moteur
Advertisements

1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Fabrice Lauri, François Charpillet, Daniel Szer
Distance inter-locuteur
Mon carnet De comportement
Koha - Greenstone Symposium Koha Miramas 28 mai 2010
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Corese Moteur de recherche sémantique pour RDF
Classe : …………… Nom : …………………………………… Date : ………………..
Reconnaissance de la parole
Les numéros
Est Ouest Sud 11 1 Nord 1 Individuel 20 joueurs 15 rondes - 30 étuis (arc-en-ciel) Laval Du Breuil Adstock, Québec I-20-15ACBLScore S0515 RondeNE
Est Ouest Sud 11 1 Nord 1 Laval Du Breuil, Adstock, Québec I-17-17ACBLScore S0417 Allez à 1 Est Allez à 4 Sud Allez à 3 Est Allez à 2 Ouest RndNE
Est Ouest Sud 11 1 Nord 1 Individuel 15 ou 16 joueurs 15 rondes - 30 étuis Laval Du Breuil Adstock, Québec I-16-15ACBLScore S0415 RndNE
Les Prepositions.
Les 3 dimensio ns de la morale et de léthique (activité)
T ravail E tude R echerche COUREUX Éric DUCK Christian ZENGERLÉ Olivier COUREUX Éric DUCK Christian ZENGERLÉ Olivier EncadrantsEncadrants M. Crescenzo.
Validation de la marée dans le modèle HYCOM du Golfe Normand-BretonLPG – 30/11/ Validation de la marée dans le modèle HYCOM du Golfe Normand-Breton.
Master Génie Biologique et Informatique, première année
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
A Pyramid Approach to Subpixel Registration Based on Intensity
Identification des personnes par l’iris
1 Théorie des Graphes Cycle Eulérien. 2 Rappels de définitions On dit qu'une chaîne est un chemin passant par toutes les arêtes du graphe. On dit qu'un.
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
Modèle d’interaction pour les systèmes mixtes
Romain Picot-Clémente – - Equipe de projet Checksem – Laboratoire Electronique Informatique et
Projet .NET : Projet GEn A4RIL
Classification Multi Source En Intégrant La Texture
Représentation du Thésaurus MeSH et de la Terminologie CISMeF en OWL
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
SCIENCES DE L ’INGENIEUR
Développement d’application web
La Saint-Valentin Par Matt Maxwell.
PLD GHome H4214 Piccolo Thomas Gu Lei Deville Romain Huang Yachen
Mémoires associatives
Gilbert TOUT NEST QUE CALCUL Vous vous êtes certainement déjà demandé ce que voulait dire « se donner à 100% » ?
Notre calendrier français MARS 2014
1 Ressources Bibliographiques Outils Internet pour la Bibliographie 3 Octobre 2008 Contact :
C'est pour bientôt.....
Les nombres.
Veuillez trouver ci-joint
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
SUJET D’ENTRAINEMENT n°4
2 Industrialisation des développements sur SQL Server avec Visual Studio 2010 Mardi 8 Février – 17h30 Karim Zegour – Winwise Michel Perfetti – MVP VS.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
Stage 2A CS80 pour Origin 1/28. 1) Presentation of the internship 2) The Multi-Oscillator 3) Connection-GUI’s API Conclusion Stage 2A CS80 pour Origin.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
SUJET D’ENTRAINEMENT n°1
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1 Modèle pédagogique d’un système d’apprentissage (SA)
10 paires -. 9 séries de 3 étuis ( n° 1 à 27 ) 9 positions à jouer 5 tables Réalisé par M..Chardon.
CALENDRIER-PLAYBOY 2020.
Application de gestion de candidatures
1. Présentation générale du système
9 paires séries de 3 étuis ( n° 1 à 27 )
Projet de stage d’année IIR4 sous le thème:
27 Janvier 2015 Représentation d’évènements et peuplement d’ontologie appliqués au domaine de la criminalistique informatique Yoan Chabota,b, Aurélie Bertauxa,
Quel est l’intérêt d’utiliser le diagramme de Gantt dans la démarche de projet A partir d’un exemple concret, nous allons pouvoir exploiter plusieurs parties.
Dr. KHERRI Abdenacer 2014/ ECOLE DES HAUTES ETUDES COMMERCIALES.
1 © A system of activity is a structure that links a subject [Individual Student, Group of Students, Tutors] and a set of instruments [Tools, Platforms,
Les Chiffres Prêts?
Relevez le numéro de votre logo préféré et adressez-le à : En cas d’hésitation, vous pouvez choisir jusqu’à 3 logos. Seront pris.
Etude des performances cinématiques de la plateforme 6 axes
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Transcription de la présentation:

Approche Big Data et Web Sémantique pour la fouille et la classification automatique de données Web Ces travaux sont effectués dans le cadre d’un partenariat avec l’entreprise First-ECO, spécialiste de le recommandation de nouvelles économiques. Thomas Hassan Rafael Peixoto, Christophe Cruz, Aurelie Bertaux, Nuno Silva thomas.hassan@u-bourgogne.fr Laboratoire LE2I – UMR CNRS 6306 – Université de Bourgogne

Contexte, Problématique Processus Modèle prédictif Limites Plan Contexte, Problématique Processus Modèle prédictif Limites Nouveau Processus Conclusion Travaux futurs 1er processus qui a été mis en place, notamment le modèle prédictif et ses limites. Je conclurais sur les contributions avant de présenter les travaux futurs.

Contexte L’entreprise first eco effectue une veille documentaire quotidienne afin de trouver des informations pertinentes. Les différentes sources sont analysées et classées manuellement avant d’être proposées aux utilisateurs selon leur profil. La pertinence des informations est définie selon différents critères, qui représentent la connaissance métier de l’entreprise.

Contexte Verrou scientifique : Processus d’analyse de données adapté aux grands volumes de données et à des connaissances métier. Passage à l’échelle Hétérogénéité des données De plus en plus de ressources web sont utilisées et il est impossible pour l’entreprise d’analyser l’intégralité des sources. le projet s’inscrit dans un cadre Bid Data afin de gérer tous types de volumes et de formats de données.

Problématique Littérature : Manque d’analyse de données proche des connaissances métier à l’échelle de web Verrou scientifique : Processus d’analyse de données adapté aux grands volumes de données et à des connaissances métier. Refs à ajouter

Modèle prédictif La Classification Multi-Label Hiérarchique (HMC) est la combinaison de la Classification Multi-Label et de la Classification Hiérarchique Mise en place d’un processus d’analyse de données basé sur un modèle prédictif : la HMC Hierarchical Multi-Label (HMC) Classification is the combination of Multi-Label classification and Hierarchical classification . Définir Item

with Standard DL Reasonners Modèle prédictif Classification WORKS with Standard DL Reasonners DOESN’T WORK Tax Tax1 Tax 10 Tax12 Tax11 Tax2=Tax3 Tax4 Tax5 Tax… On utilise ce modèle prédictif afin de générer une ontologie. Générer le modèle à partir des données. Moteur d’inférence basé sur la logique de description aifn de classer les items. Le processus ne supporte pas la montée en charge : il n’est pas possible de classer les items avec un jeu de données trop grand.

Limites Résultats : Delicious Dataset En effet avec différents raisonneurs basés sur la logique de description, le processus n’est pas capable de classer les items.

Nouvelle architecture BigData Architecture : processus à 5 phases distinctes Index L’architecture suivante a été mise en place. Le processus comporte 5 phases : L’indexation qui a pour but de réduire la dimension des données en effectuant l’extraction de caractéristiques (feature extraction). La vectorisation utilise l’index généré afin de déterminer des concepts pertinents dans l’index. La hiérarchisation qui permet de représenter sous forme hiérarchique les liaisons entre les concepts  envoyée vers l’ontologie. La résolution crée les règles qui permettront d’effectuer la classification des items en fonction de la hiérarchie. La réalisation classe les items dans l’ontologie génrée précédemment. Reférences travaux précédents à ajouter ?

Nouvelle architecture BigData Montée en charge Utilisation du framework Hadoop et du modèle MapReduce Avantages de hadoop: fault tolerence, réplication Importance de la séparation des phases : modularité (changement des algorithmes, frameworks, triplestore, index…). Identification des goulots d’étranglement. Benchmarking. Comment distribuer chacune des phases du processus ? Dean, J., & Ghemawat, S. (2008). MapReduce: simplified data processing on large clusters. Communications of the ACM, 51(1), 107-113.

Parsing, Traitement du Langage Naturel* 1. Indexation Génération d’un index des termes Parsing, Traitement du Langage Naturel* Index Feature extraction (extraction caractéristiques ou indices). Parsing dépend des données : multiples parsers pour multiples types de données * Tokenisation, Lemmatisation, Suppression des mots vides

1. Indexation Distribution de l’index Index Feature extraction (extraction caractéristiques ou indices). Parsing dépend des données : multiples parsers pour multiples types de données * Tokenisation, Lemmatisation, Suppression des mots vides

2. Vectorisation Détection des termes pertinents basée sur l’index Génère la liste des termes et des n-grams. Recherche de concepts basée sur les données (TF-IDF et n-grams). N-grams potenciellement plus pertinents. Uni-grams (termes) N-grams (collocations) - Amélioration

2. Vectorisation - Collocation Génération de la liste des termes et des n-grams Algorithme de collocations (MapReduce) La liaison entre Mahout et Solr se fait via le moteur Lucene. Liste de collocation { uni-grams + n-grams } Sequence Files

2. Vectorisation - Vecteurs Génération des vecteurs de fréquences Liste de collocation { uni-grams + n-grams } Liste des fréquences Seuil de pertinence Génération des n-grams est une opération de comptage. Génération des vecteurs de fréquence est également une opération de comptage. https://mahout.apache.org/users/basics/collocations.html Les termes dont la fréquence est inférieure à un certain seuil sont rejetés Résultat : matrice de fréquence , pour chaque concept, fréquence d’apparition des sous concepts (co-occurent)

3. Hiérarchisation Génération de la hiérarchie de concepts

3. Hiérarchisation Algorithme de subsomption P X Matrice de co-occurrence des concepts. Pour chque couple de concepts co-occurents, vérifier la fréquence d’apparition respective. Fréquences comparées à un seuil. Score du meilleur parent déterminé par les deux fréquences. De Knijff, Jeroen and Frasincar, Flavius and Hogenboom, Frederik, 2013. Domain taxonomy learning from text: The subsumption method versus hierarchical clustering, Data & Knowledge Engineering, pp.54-69

3. Hiérarchisation Algorithme de subsomption MapReduce Seuil de pertinence Intérêt de la matrice de fréquence pour adapter l’algorithme avec MapReduce De Knijff, Jeroen and Frasincar, Flavius and Hogenboom, Frederik, 2013. Domain taxonomy learning from text: The subsumption method versus hierarchical clustering, Data & Knowledge Engineering, pp.54-69

3. Hiérarchisation Hiérarchie chargée dans un triple store Thésaurus Intérêt de la matrice de fréquence pour adapter l’algorithme avec MapReduce Thésaurus Triple Store

4. Résolution Génération de règles de classification Seuils 𝜶 et 𝜷 Clauses de Horn (SWRL) % W1 W2 W3 W4 W5 W6 W7 Tax1 5 25 Tax2 75 Tax3 Tax4 93 Tax5 95 60 Tax6 90 Tax7 98 79 Clauses Horn != logique du 1er ordre. +sieurs règles par classe Alpha très pertinent suffisant pour déterminer l’appartenance à une classe Beta potenciellement pertinents pas suffisants pour définer l’appartenance Seuils 𝜶 et 𝜷 Item(?i1)∧Word(?w1)∧hasWord(?i1,?w1) → Tax(?i1) Item: nouveau document

4. Résolution Génération de règles de classification Seuils 𝜶 et 𝜷 Approche « diviser pour régner » Clauses de Horn (SWRL) % W1 W2 W3 W4 W5 W6 W7 Tax1 5 25 Tax2 75 Tax3 Tax4 93 Tax5 95 60 Tax6 90 Tax7 98 79 Seuils 𝜶 et 𝜷 Item(?i1)∧Word(?w1)∧hasWord(?i1,?w1) → Tax(?i1) Item: nouveau document

4. Résolution Génération de règles de classification Item(?i1)∧Word(?w1)∧hasWord(?i1,?w1) → Tax(?i1) Pas encore implémentée Règles Triple Store

5. Réalisation Utilisation des règles SWRL pour classer Item(?i1)∧Word(?w1)∧hasWord(?i1,?w1) → Tax(?i1) Triple Store L1 L2 L3 L4 L5 Doc1 x - Doc2 Doc3 Doc4 Doc5 Doc6 Doc7 On utilise les règles SWRL pour classer les items avec les concepts correspondants. Vecteurs « item »

Conclusion Prototype fonctionnel d’analyse des données Application au français important Bases de connaissances générales peuvent être des données du linked data (DBPedia ….) Algorithmes MapReduce N-grams Raisonneur basé sur les règles

Travail futur Evaluation de la performance du processus :

Hiérarchie de référence Travail futur Evaluation de la qualité de la hiérarchie : Utilisation de jeux de données standards (exemple Repub). Comparaison entre la hiérarchie générée et la hiérarchie de référence (étalon) Hiérarchie de référence Données de test HMC Sémantique

Travail futur Amélioration de la définition des concepts : Lien avec des bases de connaissance lexicales (type Wordnet) Lien avec des bases de connaissances générales Lien avec la taxonomie d’entreprise. Extraction d’événements complexes basés sur les bases de connaissances. Application au français important Bases de connaissances générales peuvent être des données du linked data (DBPedia ….)

Travail futur Rapprochement avec la connaissance métier : HMC Sémantique Quand les experts recommandent du contenu aux utilisateurs, ils se basent sur la taxonomie. Trouver des concepts ou groupes de concepts similaires et les attribuer à des items peut être une information de valeur. Validation des concepts

RESEARCH & BUSINESS APPROACH Laboratoire LE2I – UMR CNRS 6306 – Université de Bourgogne