Université Sidi Mohamed Ben Abdellah

Slides:



Advertisements
Présentations similaires
Structures de données avancées : MLH (Multidimensional linear hashing)
Advertisements

Structures de données avancées : MTH ( Multidimensional trie hashing )
3. Variantes de l’algorithme
Présentation des programmes de terminale STG Juin 2006.
Problème de 8 dames: Sachant que dans un jeu des échecs, une dame peut pendre toute pièce se trouvant sur la colonne ou sur la ligne ou sur les diagonales.
Mesure de la performance de la visite médicale : propositions de KPI
Collecte de données F. Kohler.
Inférence statistique
Application de réseaux bayésiens à la détection de fumées polluantes
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
A.Faÿ 1 Recherche opérationnelle Résumé de cours.
Introduction à la programmation (420-PK2-SL) cours 15 Gestion des applications Technologie de linformation (LEA.BW)
                                        République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique.
Prévisions des ventes :
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Initiation à la conception des systèmes d'informations
Septième étape : travailler avec des graphes probabilistes
Plus courts chemins On présente dans ce chapitre un problème typique de cheminement dans les graphes : la recherche d'un plus court chemin entre deux sommets.
Algorithmes Branch & Bound
Algorithme d’addition #1
Co-animation : mathématiques et biotechnologies en STL
FICHE METHODOLOGIQUE DE LA DISSERTATION
LES TRAVAUX PERSONNELS ENCADRÉS
SQL Partie 3 : (LID : Langage d'interrogation de données)
Espaces vectoriels Montage préparé par : S André Ross
Courbes de Bézier.
Universté de la Manouba
Riadh Ben Messaoud Kamel Aouiche Cécile Favre
Algorithmes d ’approximation
Recherche Opérationnelle
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Les interrogations formatives Une nécessité. Public concerné Première baccalauréat en médecine et dentisterie Premier baccalauréat en kinésithérapie et.
Interprétation automatique
Technique de points de contrôle: Formes de Bézier
Pour le chemin le plus court pour tous les couples
La décomposition en valeurs singulières: un outil fort utile
LES NOUVELLES ÉPREUVES DE SCIENCES ÉCONOMIQUES ET SOCIALES.
REGLAGE ECONOMIQUE DES PRODUCTIONS Le réglage tertiaire.
Optimisation de requêtes
Tables et Procédures de décompression
Programmation linéaire en nombres entiers
Algorithmes Branch & Bound
Foued Mnasri Weal Rekik
TD4 : « Lois usuelles de statistiques »
Analyse spectrale Raphaël ARROUAS Etienne OUSS
Structures de données avancées : Concepts du Multidimensionnel D. E ZEGOUR Institut National d ’Informatique.
Structures de données avancées : Fichiers multidimensionnels Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI) zegour.esi.dz
1 Mini projet sur les entrepôts de données. 2 Un DW dans les télécoms Sujets – suivi du marché: lignes installées/ désinstallées, services et options.
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Statistiques Cours de seconde.
- 5 - Optimisation linéaire et non-linéaire
Intégration des Tableaux Multidimensionnels en Pig pour
Echantillonnage optimisé de données temporelles distribuées pour l’alimentation des entrepôts de données Présenté par : - EL ISSAOUI Naoufal - ED-DAHMOUNI.
Structures de données avancées : Arbres B+ avec expansion partielle D. E ZEGOUR Institut National d ’Informatique.
Structures de données avancées : MLH (Multidimensional linear hashing) D. E ZEGOUR Institut National d ’Informatique.
OPTIMISATION DES PERFORMANCES DES ENTREPÔTS DE DONNÉES VIA LES INDEX
Introduction à la programmation (420-PK2-SL) cours 18 Gestion des applications Technologie de l’information (LEA.BW)
Structures de données avancées : MTH ( Multidimensional trie hashing ) D. E ZEGOUR Institut National d ’Informatique.
La pile de crêpes.
Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.
Kawthar Karkouda, Nouria Harbi, Jérôme Darmont, Gérald Gavin,
Régression linéaire (STT-2400)
Licence 3 – Introduction au droit comparé – Professeur Sophie Robin-Olivier 2014 La proposition de règlement de la Commission européenne sur un droit commun.
Algorithmique Boucles et Itérations
Opération et systèmes de décision Faculté des Sciences de l ’administration MQT Probabilités et statistique Les statistiques descriptives.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
1 Tableur Excel. 2 Introduction Un tableur est un logiciel permettant de manipuler des données numériques et d'effectuer automatiquement des calculs sur.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
La qualité dans les offices de tourisme Exemple de l’office de tourisme de Toulouse.
Transcription de la présentation:

Université Sidi Mohamed Ben Abdellah Faculté des Sciences et Techniques Fès Sécurisation des entrepôts de données contre les inférences précises et partielles Réalisé par: Hafidhou Ibrahim Ahmed Said Azdad Nabila Encadré par: L. Lamrini

Réalisateurs: Salah TRIKI  Hanene BEN- ABDALLAH Jamel FEKI En Tunisie Nouria HARBI En France

Plan Problématique Objectif Travaux existants en sécurisation de l’exploitation des ED Proposition d'une approche de sécurisation contre les inférences Exemple de prédiction Conclusion

Problématique: Comment sécuriser les entrepôts de données contre les accès par inférence ?

Objectif de l’article Proposer une approche contre les inférences partielles et précises.

Travaux existants en sécurisation de l’exploitation des ED Plusieurs approches ont été proposés pour sécuriser les entrepôts de données contre les deux types d’inférence Deux types : Approches basés sur l’historique des requêtes Approches basés sur les perturbations des données

Les inconvénients d’utilisation des perturbations: La complexité temporelle engendrée par les traitements de perturbation sont indispensables après chaque alimentation de l’ED La perte des données originales, due aux perturbations appliqués. L’approche choisie dans cet article est basée sur l’historique des requêtes

Exemples des approches de sécurisation des ED basées sur l’historique des requêtes L’approche proposée par Lingyu et al : Elle est fondée sur l’Algèbre linéaire et les matrices d’incidences Les lignes représentent toutes les requêtes qui peuvent être utilisées par les utilisateurs Les colonnes représentent les tuples de cube de données  Pour un ensemble S de requêtes portant sur un même cube, la matrice d’incidence M est définie comme suit: M(S)[i,j]=1 si la requête i utilise le tuple j, Si une requête dérive des requêtes précédentes de l’utilisateur donc elle est interdite Limite: Cette approche permet seulement la prévention des inférences partielles basées sur la fonction d’agrégation Sum

L’approche proposée par Carlos et al : Utilise le diagramme états-transitions d’UML les états : les données à afficher  les transitions: les requêtes multidimensionnelles limite: Elle ne traite pas le cas d’inférence à partir des données accessibles. Remarque: Au niveau exploitation, chacune des approches existantes se limite à contrôler un seul type d’inférence. C’est pour cela les réalisateurs de cet article ont proposé une nouvelle approche.

Proposition d'une approche de sécurisation contre les inférences L’approche proposée repose sur une technique de prévention des inférences et une technique de prédiction de requêtes potentielles à interdire. la technique de prévention traite les deux types d’inférence : Les inférences partielles en examinant la distribution des données Les inférences précises à travers les réseaux bayésiens.

Prévention des inférences partielles : Algorithme de prévention:

Prévention des inférences précises : Algorithmes de prévention: L’union des RB correspondants aux anciennes requêtes autorisés

Prédiction des requêtes : Module qui permet d’améliorer la réactivité du système en pronostiquant (donnant des pronostiques : évaluations) les requêtes susceptibles d’être posées par l’utilisateur.

Comment ? Le module suit deux étapes : 1 - Une requête R1 exécutée et contenant une fonction d’agrégation, il consulte le journal (Historique) des requêtes et y cherche la requête R2 la plus fréquemment posée après R1. 2 - Il soumet R2 au module de prévention des inférences afin que celui-ci construise le réseau Bayésien (inférence précise) nécessaire dans le cas d’une requête Max ou Min, ou bien il calcule l’écart moyen (méthode statistique : inférence partielle) dans le cas d’une requête Sum.

Fonctionnement : Si R1 est demandée pour la première fois, le sous module de prédiction cherche la requête R’1 la plus proche de R1 en calculant la distance d entre deux requêtes R1 et R2 puis, en affectant des poids aux dimensions et aux faits des deux requêtes.  L’affectation des poids aux dimensions est faite selon le barème suivant : - Si la dimension (client, produit, …) est commune aux deux requêtes (R1 et R2) alors le poids de cette dimension est 0, sinon le poids égal à 1.  L’affectation des poids aux faits est réalisée comme suit : - Si le fait (vente, …) est commun aux deux requêtes alors le poids du fait est 0, -Sinon le poids de chacun est 2.

Distance ? La distance d(R1, R2) est égale à la somme des poids de leurs (R1 et R2) dimensions et faits. Plus la valeur d est faible plus les requêtes se ressemblent et inversement.

Exemple de prédiction Il illustre le problème d’inférence Il sera utilisé pour montrer la prévention contre ces inférences (le cas des requêtes utilisant la fonction Max). La société possède deux départements Finance et Marketing ; Les employés en Marketing sont quatre dont Alice et Bob assurent les transactions internationales ; et que Alice n’a pas travaillé en décembre 2009 parce qu’elle a eu un congé de maladie. Serait-il possible de connaître l’employé ayant la commission maximale ?

Un utilisateur peut alors tenter sa chance en posant une série de requêtes. Il commence par : Requête 1: Maximum des commissions par nombre d’employés et par département. (cf. Tableau 3). Requête 2: Maximum des commissions par année et par mois (cf.Tableau 4). A partir des résultats de ces deux requêtes, il est possible d’inférer que la commission maximale du département Marketing a été obtenue au mois de décembre. Pour cerner plus la réponse, le même utilisateur exécute la troisième requête suivante : Requête 3: Maximum des commissions par année et par type de commission (cf.Tableau 5). A partir du résultat de cette requête : il est possible d’inférer (déduire) que l’employé ayant eu la commission maximale est celui qui a travaillé pendant le mois de décembre (Bob).

Tableau 3. Résultat de la requête 1 Année Mois Max (commission) NB_EMP DEP_ID Max (commission)   4 Marketing 900 Finance 950 Tableau 3. Résultat de la requête 1 Année Mois Max (commission) 2009   Octobre 850 Novembre 720 Décembre 900 Tableau 4. Résultat de la requête 2

Tableau 5. Résultat de la requête 3 Année TYPE_COM Max (commission) 2009 Nationale 840 Internationale 900 Tableau 5. Résultat de la requête 3

Prévention contre le cas d’inférence On peut empêcher l’utilisateur de déduire l’information obtenue à la suite de l’exécution des trois requêtes de l’exemple précédent en utilisant l’approche de prévention des inférences. Comment ? On fixe la valeur du seuil à 1/2 puis on calcule le réseau Bayésien de la première requête. Les nœuds sont les dix valeurs différentes des commissions. La probabilité d’inférer la commission de Bob est alors 1/10 puisque le nombre des mesures est 10.

Figure 1. Réseau Bayésien correspondant à la première requête

De même nous construisons le réseau Bayésien de la deuxième requête (cf. Figure 2). Figure 2. Les réseaux Bayésiens correspondant à la deuxième requête

L’union de ces deux réseaux Bayésiens produit le réseau de la figure 3. Figure 3. Le résultat de l’union des réseaux Bayésiens de la première et la deuxième requête

Cette union fait croître la probabilité d’inférer la commission de Bob à 1/4 puisque le nombre des mesures ayant une valeur maximale égale à 900 est 4. La figure 4 montre le réseau Bayésien de la troisième requête. Figure 4. Le réseau Bayésien correspondant à la troisième requête

L’union de ce dernier réseau (cf. Figure 5 L’union de ce dernier réseau (cf. Figure 5.) avec les réseaux des deux premières requêtes fait croître la probabilité d’inférer la commission de Bob à 1/2. Puisque celle-ci devient égale au seuil, le résultat de la troisième requête ne sera pas délivré à l’utilisateur. Figure 5. Le résultat de l’union des réseaux Bayésiens correspondant aux trois requêtes

Conclusion

Merci Pour Votre Attention