La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Moteurs de recherches Data mining Nizar Jegham.

Présentations similaires


Présentation au sujet: "Moteurs de recherches Data mining Nizar Jegham."— Transcription de la présentation:

1 Moteurs de recherches Data mining Nizar Jegham

2 Sommaire Définition Différentes étapes Méthodes descriptives
Méthodes prédictives Web Mining

3 Définition -> le data mining est l'art d'extraire des données utiles et même des connaissances à partir des bases de données. ->C’est un ensemble de méthodes et de techniques d'analyse de données et d'extraction d'information structurée en vue d'aider à la prise de décision.

4 Différentes étapes Détermination des objectifs et inventaire des données. Réduction du nombre de dimensions du problème. Préparation des données (quantitatives, catégoriques ou textuelles) Constitution de la base d’analyse (data warehouse) L'échantillonnage (simple, systématique ou stratifié) Exploration des données

5 Deux approches différentes
Des méthodes descriptives, met en évidence des informations présentes. Des méthodes prédictives, extrapoler de nouvelles informations à partir de celles déjà existantes. Elaboration d’un modèle

6 La segmentation répartir les données en un nombre limité de groupes ou de segments (ou clusters). Utilisée pour sa capacité à traiter les données sans en privilégier aucune. Traiter de grandes quantités de données hétérogènes La définition des segments n’est pas évidente dépend de l‘algorithme. Le nombre réel de segments est empirique.

7 La segmentation relationnelle
- iRj si i et j sont dans le même segment. - Une matrice nxn définie par mij = 1 si iRj et mij = 0 sinon. Soit p variables catégoriques, On cherche une matrice M' = (m'ij) où m'ij = 2 mij - p Si m'ij > 0 si i et j sont dans le même segment m'ij < 0 si i et j sont dans des segments différents. m'ij = 0 (paradoxe de Concordet) majorité pour i et j, j et k, mais pas pour i et k, il faudra ajouter des contraintes.

8 Avantages et inconvénients
Nombre de segments déterminés automatiquement Temps d’exécution linéairement croissant en fonction de la quantité des données. Segmentation globale Redondance des variables déterminante dans l’orientation des résultats

9 La recherche d’associations
C’est une règle du type «Si pour un individu, la variable A = xa, la variable B = xb, etc, alors dans 80% des cas la variable Z = xz, cette configuration se rencontrant pour 20% des individus » De la forme SI condition alors Résultat - Grand nombre d’association inintéressantes

10 Recherche d’associations
    T26 A B C D E T163 F T1728 T2718 T3141 L'indice de confiance de l'association C -> B est 2/3 et son indice de support est de 2/5. La probabilité d'avoir B est de 0.8 > 2/3 ce qui implique que utiliser la règle C -> B pour prédire B ne sert à rien. lift(règle) = Indice_confiance (règ)/proba(rés) = proba(cdt et rés)/(proba(cdt)*proba(rés)

11 Méthodes prédictives 1- Une étape d'apprentissage
2- Une étape de test (Sélection du meilleur modèle) 3-   Une étape de validation 4- Une étape d'application

12 La classification par arbre de décision
Répartir les individus d'une population en n classes. Choix de la variable cible Noeuds contenant chacune le plus possible d'individus d'une même classe. Réitère l’opération sur chaque nœud. Feuilles constituées d'individus d'une même classe.

13 La classification par arbre de décision
Critère de séparation  (C1) fi, les fréquences des n classes dans le noeud considérées.  Mesure la probabilité que deux individus choisi aléatoirement dans un noeud appartiennent à 2 classes différentes. Séparation entre nœuds = augmentation de la pureté = diminution du critère de Gini. IG(avant séparation) - [ IG(fils gauche) + IG(fils droit)]

14 Avantages et inconvénients
Insensibilité du modèle aux fluctuations aléatoires et aux modalités manquantes. Concision et précision l’arbre détecte les minima locaux et non globaux Le choix d'une division pour un noeud n’est pas remis en cause.

15 Web mining Application du data mining aux données issues des serveurs Internet. temps perdu dans la recherche d'information trafic  énorme  sur la toile. Optimiser la navigation Rendre les sites Web plus adaptatifs Personnalisation des profils

16 Web mining Définition des critères de similarités entre profils
Identifier des structures  dans un ensemble de données non réparties dans des catégories modélisation d'un grand nombre de données avec la présence d'une grande quantité de bruit. Manque de données pour une personnalisation efficace. Les objets du Web (URL, pages....) ne sont pas numériques ni quantifiables. Application d’une segmentation relationnelle.

17 Merci pour votre attention


Télécharger ppt "Moteurs de recherches Data mining Nizar Jegham."

Présentations similaires


Annonces Google