Moteurs de recherches Data mining Nizar Jegham.

Slides:



Advertisements
Présentations similaires
Visualisation dynamique d'arbres hiérarchiques de très grande taille Par Rémi Fusade TER encadré par Thomas Hurtut et Thierry Stein.
Advertisements

Les systèmes d'information 1- Une pratique quotidienne 2- Les données 3- Approche conceptuelle 4- Notion de serveur 5- Conception d'un système d'information.
Atelier 1 Le problème du surpoids sur géogébra. Etude de la prévalence du surpoids: (document Ressources pour la classe de terminale) Situation: On souhaite.
Comparing color edge detection and segmentation methods Projet TIM.
Adopter le KM mix pour obtenir ou renforcer le leadership Préparé par: Ilham ELKORCHI Meriem NASIRI Mohammed BENMRAH Encadré par: Ouidad AMRANI.
Séquence 1 : Problème posé : A quoi sert une éolienne et de quels éléments est elle constituée ? énergie renouvelable classe de 4° Analyse de l'OT.
Systématique phylogénétique Bruno Righetti, 2015.
Développement d’une méthodologie pour évaluer les pressions agricoles en matière de polluants dans les conditions spécifiques des DOM.
Un système autonomique basé sur des bases de connaissances pour améliorer les performances d’un entrepôt de données Réalisé par : OUSSAFI MOHAMMED HOURRI.
Les rprésentation des signaux dans le cadre décisionnel de Bayes Jorge F. Silva Shrikanth S. Narayanan.
Utilisation des Gammes Standard / CUCN JF CALLIZO - S.BIASIO La chaîne numérique en Productique.
CARTER POUR SEPARATEUR ET DESHUILEUR
Module de gestion des tournées de livraison
Analyse, Classification,Indexation des Données ACID
GENETIQUE ET EVOLUTION
Construire des requêtes
La Gestion du Temps.
Etude de l’influence des palmiers sur la régénération de la forêt
4°) Intervalle de fluctuation :
Chantier industriel Encaisseuse semi-automatique de chez CERMEX
ENREGISTREMENT DE L’INFORMATION.
Simulation des nanostructures à base de nanorubans de graphène
Technologies de l’intelligence d’affaires Séance 10
POL1803: Analyse des techniques quantitatives
Introduction Bases de données Accès Internet (Web)
Plans d’expériences: Plans de mélanges
Vers une adaptation des apprentissages générique et multi-aspects
Plans d’experiences : plans de melanges
Engie - Direct COFELYdirect powered by PLANON: Your One Stop FM Solution Overview Q
Technologies de l’intelligence d’affaires Séance 11
CARTER POUR SEPARATEUR ET DESHUILEUR
Objectifs du chapitre 5: Plans corrélationnels
Technologies de l’intelligence d’affaires Séance 12
République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad.
Concepts avancés en mathématiques et informatique appliquées
Planification de la production
REVUE DE LITTERATURE. Introduction Première partie majeure dans la rédaction du mémoire, la réalisation d’une revue de littérature consiste à effectuer.
Techniques du Data Mining
Les applications de groupware
La stratégie pédagogique en
Vuibert Systèmes d’information et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
ACP Analyse en Composantes Principales
Planifier une séquence d'apprentissage
I Copyright © 2004, Oracle. Tous droits réservés. Introduction.
Royaume de Maroc Université Hassan Premier Settat Faculté des Sciences et Techniques de Settat LA CLASSIFICATION K-MEANS SOUS R /MATLAB Master :Automatique.
Présentation de la base Frantext
Arbres de décision.
La recherche au service du communicateur: Cours 4 Automne 2006
Présentation 8 : Redressement des estimateurs
Centre d’études et de recherches sur les qualifications
Data Mining Fait par : Belhaj Nadia Derouich Maryem.
SUJET : E C L A T UNIVERSITE GASTON BERGER DE SAINT LOUIS UFR DES SCIENCES APPLIQUEES ET DE TECHNOLOGIE MASTER PROFESSIONNEL EN DÉVELOPPEMENT DE SYSTÈMES.
Position, dispersion, forme
Réalisé par: Benjeddou Nasser Module: Modélisation des SI.
Contribution du LHyGeS
Programme d’appui à la gestion publique et aux statistiques
Utiliser le modèle log-linéaire pour mettre au jour la structure du lien entre les deux variables d’un tableau de contingence : un exemple d’application.
Réalisé par: SAMMARI RIM SOUID AHLEM AMROUCH HAFEDH
Conception de sites web marchands: TD 2
Test de performances. Test de performances:  Un test de performance est un test dont l'objectif est de déterminer la performance d'un système informatique.
Concepts et étapes Ateliers de formation à la mise en œuvre
Encadrée par: - Mr. Abdallah ALAOUI AMINI Réalisée par : -ERAOUI Oumaima -DEKKAR Amal - ES-SAHLY Samira -Houari Mohammed PROGRAMMATION MULTIOBJECTIFS.
INTELLIGENCE ARTIFICIELLE
Impact Evaluation 4 Peace March 2014, Lisbon, Portugal 1 Echantillonage pour une Evaluation d’Impact Latin America and the Caribbean’s Citizen Security.
Projet CRImage UNIVERSITE STENDHAL GRENOBLE
ScienceDirect Guide d’utilisation de la base de données : ScienceDirect Pr R. EL OUAHBI.
DONNÉE DE BASE QM Manuel de formation. Agenda 2  Introduction  Objectif de la formation  Données de base QM: Caractéristique de contrôle Catalogue.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
Cube OLAP.
Transcription de la présentation:

Moteurs de recherches Data mining Nizar Jegham

Sommaire Définition Différentes étapes Méthodes descriptives Méthodes prédictives Web Mining

Définition   -> le data mining est l'art d'extraire des données utiles et même des connaissances à partir des bases de données. ->C’est un ensemble de méthodes et de techniques d'analyse de données et d'extraction d'information structurée en vue d'aider à la prise de décision.

Différentes étapes Détermination des objectifs et inventaire des données. Réduction du nombre de dimensions du problème. Préparation des données (quantitatives, catégoriques ou textuelles) Constitution de la base d’analyse (data warehouse) L'échantillonnage (simple, systématique ou stratifié) Exploration des données

Deux approches différentes Des méthodes descriptives, met en évidence des informations présentes. Des méthodes prédictives, extrapoler de nouvelles informations à partir de celles déjà existantes. Elaboration d’un modèle

La segmentation répartir les données en un nombre limité de groupes ou de segments (ou clusters). Utilisée pour sa capacité à traiter les données sans en privilégier aucune. Traiter de grandes quantités de données hétérogènes La définition des segments n’est pas évidente dépend de l‘algorithme. Le nombre réel de segments est empirique.

La segmentation relationnelle - iRj si i et j sont dans le même segment. - Une matrice nxn définie par mij = 1 si iRj et mij = 0 sinon. Soit p variables catégoriques, On cherche une matrice M' = (m'ij) où m'ij = 2 mij - p Si m'ij > 0 si i et j sont dans le même segment m'ij < 0 si i et j sont dans des segments différents. m'ij = 0 (paradoxe de Concordet) majorité pour i et j, j et k, mais pas pour i et k, il faudra ajouter des contraintes.

Avantages et inconvénients Nombre de segments déterminés automatiquement Temps d’exécution linéairement croissant en fonction de la quantité des données. Segmentation globale Redondance des variables déterminante dans l’orientation des résultats

La recherche d’associations C’est une règle du type «Si pour un individu, la variable A = xa, la variable B = xb, etc, alors dans 80% des cas la variable Z = xz, cette configuration se rencontrant pour 20% des individus » De la forme SI condition alors Résultat - Grand nombre d’association inintéressantes

Recherche d’associations     T26 A B C D E T163 F   T1728 T2718 T3141 L'indice de confiance de l'association C -> B est 2/3 et son indice de support est de 2/5. La probabilité d'avoir B est de 0.8 > 2/3 ce qui implique que utiliser la règle C -> B pour prédire B ne sert à rien. lift(règle) = Indice_confiance (règ)/proba(rés) = proba(cdt et rés)/(proba(cdt)*proba(rés)

Méthodes prédictives 1- Une étape d'apprentissage   2- Une étape de test (Sélection du meilleur modèle) 3-   Une étape de validation 4- Une étape d'application

La classification par arbre de décision Répartir les individus d'une population en n classes. Choix de la variable cible Noeuds contenant chacune le plus possible d'individus d'une même classe. Réitère l’opération sur chaque nœud. Feuilles constituées d'individus d'une même classe.

La classification par arbre de décision Critère de séparation  (C1) fi, les fréquences des n classes dans le noeud considérées.  Mesure la probabilité que deux individus choisi aléatoirement dans un noeud appartiennent à 2 classes différentes. Séparation entre nœuds = augmentation de la pureté = diminution du critère de Gini. IG(avant séparation) - [ IG(fils gauche) + IG(fils droit)]

Avantages et inconvénients Insensibilité du modèle aux fluctuations aléatoires et aux modalités manquantes. Concision et précision l’arbre détecte les minima locaux et non globaux Le choix d'une division pour un noeud n’est pas remis en cause.

Web mining Application du data mining aux données issues des serveurs Internet. temps perdu dans la recherche d'information trafic  énorme  sur la toile. Optimiser la navigation Rendre les sites Web plus adaptatifs Personnalisation des profils

Web mining Définition des critères de similarités entre profils Identifier des structures  dans un ensemble de données non réparties dans des catégories modélisation d'un grand nombre de données avec la présence d'une grande quantité de bruit. Manque de données pour une personnalisation efficace. Les objets du Web (URL, pages....) ne sont pas numériques ni quantifiables. Application d’une segmentation relationnelle.

Merci pour votre attention