Sujet de Thèse "Gestion des méta données dans une architecture de médiation à large échelle" Federico DEL RAZO
Ingénierie des Données et des Connaissances (IDC) Département Informatique LIRMM Federico DEL RAZO John TRANIER Simon JAILLET Zohra BELLAHSENE Maguelonne TEISSEIRE Anne LAURENT DoctorantsPermanents
Concevoir et modéliser des systèmes distribués à large échelle. Ingénierie des Données et des Connaissances (IDC) Etudier les principaux mécanismes et modèles permettant de concevoir et mettre en œuvre lintégration de données et de connaissances dans les grands systèmes distribués. Projet Objectif
Médiation de données dans les systèmes à large échelle Fusion de schémas Traitement des requêtes dans les systèmes P2P Fouille de données Perspectives dans lIDC
Fouille de données Les règles dassociation (R.Agrawal) Les motifs séquentiels Les dépendances fonctionnelles La classification La segmentation Les séries chronologiques IDC
Les motifs séquentiels IDC FouilledeDonnes Motifs séquentiels généralisés Extraction incrémentale de Motifs séquentiels Web usage mining Web mining Schema mining
IDC FouilledeDonnes MotifsSéquentiels Recherche dune structure commune à un ensemble de documents (XML). nom professionadresse prof. telrue numéro nom professionadresse paysrue nationalité nom professionadresse rue
Schema mining IDC FouilledeDonnes MotifsSéquentiels Tree mining: A BC D A CE BA BC D B ABC BD T1 T2T3 Arbre fréquent A BC Minimum support 60 %
Tree mining IDC FouilledeDonnes MotifsSéquentiels SchemaMining Inclusion identique: R est un sous arbre de T1. A B F ECEDC T1 B H I DEC T2 G C D E T3 B B EDC R
Tree mining IDC FouilledeDonnes MotifsSéquentiels SchemaMining Inclusion: R est un sous arbre de T1,T2. A B F ECEDC T1 B H I DEC T2 G C D E T3 B B EDC R
Tree mining IDC FouilledeDonnes MotifsSéquentiels SchemaMining Inclusion: R est un sous arbre de T1. A B F ECEDC T1 B H I DEC T2 G C D E T3 B B EDC R
Tree mining / IDC FouilledeDonnes MotifsSéquentiels SchemaMining A B F ECEDC T1 B H I DEC T2 G C D E T3 B E D C Alexandre Termier T1={A*B,A*F,B*C,B*D,B*E,F*C,F*E,A*C,A*D,A*E} T2={G*B,B*H,B*I,H*C,I*E,I*D,B*C,B*E,B*D,…} T3={B*C,C*D,C*E, B*D,B*E} Algorithme: Eléments fréquents B B B
Tree mining / IDC FouilledeDonnes MotifsSéquentiels SchemaMining Alexandre Termier Least General Generalization E D CB B B Arbres fréquents Méthode incomplète A B C E A A F A A A G C B C B C B B A C A A B C Minimum support 50 %
Tree mining / B1 BA12 BB13 BC14 AB25 AD26 A1 AB12 AC13 CD34 IDC FouilledeDonnes MotifsSéquentiels SchemaMining IDC A BC D A CE BA BC D B ABC BD T1 T2T3 A1 AC12 AE13 CB24 EA35 AB56 AC57 CD
Tree mining / ABCDE IDC FouilledeDonnes MotifsSéquentiels SchemaMining IDC Candidats de taille 1 Candidats de taille 2 ABCD A0321 B1110 C0102 D0000 B1 BA12 BB13 BC14 AB25 AD26 A1 AB12 AC13 CD34 A1 AC12 AE13 CB24 EA35 AB56 AC57 CD78 T1 T2 T3
IDC FouilledeDonnes MotifsSéquentiels SchemaMining Candidats de taille 3 B1 BA12 BB13 BC14 AB25 AD26 A1 AB12 AC13 CD34 A1 AC12 AE13 CB24 EA35 AB56 AC57 CD78 T1 T2 T3 Tree mining / IDC AB AC CD A B B A C C C D D A A BC C D
Tree mining / IDC FouilledeDonnes MotifsSéquentiels SchemaMining IDC Candidats de taille 4 A BC A C D A B C D
Tree mining / IDC FouilledeDonnes MotifsSéquentiels SchemaMining IDC Candidats de taille 5 A B C D …
Tree mining / IDC FouilledeDonnes MotifsSéquentiels SchemaMining IDC Candidats de taille 5 A B C D …
Problematique IDC FouilledeDonnes MotifsSéquentiels SchemaMining TreeMining Développer un Algorithme pour générer- élaguer les candidats Inclure les relations ancêtres – descendants Considérer la polysémie et la synonymie. Nouveau algorithme « Schéma mining »