Moteurs de recherches Data mining Nizar Jegham
Sommaire Définition Différentes étapes Méthodes descriptives Méthodes prédictives Web Mining
Définition -> le data mining est l'art d'extraire des données utiles et même des connaissances à partir des bases de données. ->C’est un ensemble de méthodes et de techniques d'analyse de données et d'extraction d'information structurée en vue d'aider à la prise de décision.
Différentes étapes Détermination des objectifs et inventaire des données. Réduction du nombre de dimensions du problème. Préparation des données (quantitatives, catégoriques ou textuelles) Constitution de la base d’analyse (data warehouse) L'échantillonnage (simple, systématique ou stratifié) Exploration des données
Deux approches différentes Des méthodes descriptives, met en évidence des informations présentes. Des méthodes prédictives, extrapoler de nouvelles informations à partir de celles déjà existantes. Elaboration d’un modèle
La segmentation répartir les données en un nombre limité de groupes ou de segments (ou clusters). Utilisée pour sa capacité à traiter les données sans en privilégier aucune. Traiter de grandes quantités de données hétérogènes La définition des segments n’est pas évidente dépend de l‘algorithme. Le nombre réel de segments est empirique.
La segmentation relationnelle - iRj si i et j sont dans le même segment. - Une matrice nxn définie par mij = 1 si iRj et mij = 0 sinon. Soit p variables catégoriques, On cherche une matrice M' = (m'ij) où m'ij = 2 mij - p Si m'ij > 0 si i et j sont dans le même segment m'ij < 0 si i et j sont dans des segments différents. m'ij = 0 (paradoxe de Concordet) majorité pour i et j, j et k, mais pas pour i et k, il faudra ajouter des contraintes.
Avantages et inconvénients Nombre de segments déterminés automatiquement Temps d’exécution linéairement croissant en fonction de la quantité des données. Segmentation globale Redondance des variables déterminante dans l’orientation des résultats
La recherche d’associations C’est une règle du type «Si pour un individu, la variable A = xa, la variable B = xb, etc, alors dans 80% des cas la variable Z = xz, cette configuration se rencontrant pour 20% des individus » De la forme SI condition alors Résultat - Grand nombre d’association inintéressantes
Recherche d’associations T26 A B C D E T163 F T1728 T2718 T3141 L'indice de confiance de l'association C -> B est 2/3 et son indice de support est de 2/5. La probabilité d'avoir B est de 0.8 > 2/3 ce qui implique que utiliser la règle C -> B pour prédire B ne sert à rien. lift(règle) = Indice_confiance (règ)/proba(rés) = proba(cdt et rés)/(proba(cdt)*proba(rés)
Méthodes prédictives 1- Une étape d'apprentissage 2- Une étape de test (Sélection du meilleur modèle) 3- Une étape de validation 4- Une étape d'application
La classification par arbre de décision Répartir les individus d'une population en n classes. Choix de la variable cible Noeuds contenant chacune le plus possible d'individus d'une même classe. Réitère l’opération sur chaque nœud. Feuilles constituées d'individus d'une même classe.
La classification par arbre de décision Critère de séparation (C1) fi, les fréquences des n classes dans le noeud considérées. Mesure la probabilité que deux individus choisi aléatoirement dans un noeud appartiennent à 2 classes différentes. Séparation entre nœuds = augmentation de la pureté = diminution du critère de Gini. IG(avant séparation) - [ IG(fils gauche) + IG(fils droit)]
Avantages et inconvénients Insensibilité du modèle aux fluctuations aléatoires et aux modalités manquantes. Concision et précision l’arbre détecte les minima locaux et non globaux Le choix d'une division pour un noeud n’est pas remis en cause.
Web mining Application du data mining aux données issues des serveurs Internet. temps perdu dans la recherche d'information trafic énorme sur la toile. Optimiser la navigation Rendre les sites Web plus adaptatifs Personnalisation des profils
Web mining Définition des critères de similarités entre profils Identifier des structures dans un ensemble de données non réparties dans des catégories modélisation d'un grand nombre de données avec la présence d'une grande quantité de bruit. Manque de données pour une personnalisation efficace. Les objets du Web (URL, pages....) ne sont pas numériques ni quantifiables. Application d’une segmentation relationnelle.
Merci pour votre attention