Apprentissage et Fouille de Données Kernels on Structured Objects Through Nested Histograms Marco Cuturi, Kenji Fukumizu Apprentissage et Fouille de Données Proposé par : Michèle Sebag Présenté par : Ounas ASFARI
Plan - Définition - objectif - noyaux définis par des partitions - Factorisation de noyau - conclusion
Définition : Un noyau est une mesure de similarité définie entre deux objets d’un même ensemble. Soit, une fonction à valeurs réelles de deux variables prises sur un ensemble X. X peut-être un espace vectoriel ou non (chaînes, arbres, graphes). La "qualité" de cette mesure de similarité est un enjeu majeur pour s’assurer des bonnes performances des méthodes à noyaux.
Définition : - P.d. sont les fonctions qui peuvent comparer les objets s, t par leur somme s + t.
objectif on propose une famille des noyaux pour les objets structurés qui est basée sur le paradigme ensembles des components.(décomposer chaque objet complexe en histogramme simple de ses composants). On utilise pour chaque objet une famille des histogrammes nichés, où chaque histogramme dans cette hiérarchie décrit l'objet vu d'une perspective granulaire . Nous employons cette hiérarchie des histogrammes pour définir les noyaux élémentaires qui peuvent détecter des similitudes brutes et fines entre les objets.
objectif - on calcule un mélange de tels noyaux spécifiques, pour proposer une valeur finale de noyau qui a efficacement les matchs locaux et globaux. - on propose les résultats expérimentaux sur une expérience de récupération d'image qui prouvent que notre approche est efficace et peut être vue comme procédé de calibre à utiliser avec des noyaux sur des histogrammes.
Représentation de mesure des objets complexes objets complexes peuvent souvent être décomposés en composants dans un ensemble X. Un long séquence dans n-grammes : AABHLKFHGH... · · ·HAABGJY HLKA.. → {(AAB, 2), (HLK, 2), (FHG, 1) · · · } Un texte comme ensemble des mots : the cat eats the mouse → {(the, 2), (cat, 1), · · · } Une image comme histogramme de couleurs,
Measure representations Une image comme ensemble des Pixel : → Phonologie :le phonème est une représentation mentale fondamentale d'une unité phonologique dans une langue morphologie :racines de mot Prosodie : caractéristique de durée, compteurs de lancement et modèles d'effort Syntaxe : les modèles de phrase
Limitations d'une représentation simple de mesure - L'ensemble niché de représentation de composants peut améliorer la représentation avec des résolutions plus fines.
Quelques représentations de multirésolution: Images, avec les histogrammes nichés de couleurs:
séquence des lettres{A,B,C}, avec un suffixe-arbre : chaque paramètre µs = [as, bs, cs] compte la fréquence de lettres après le contexte S.
noyaux définis par des partitions Créer les noyaux élémentaires des similitudes locales: Supposer que L est un ensemble d'index, et considérer les familles μ = {μt}t∈L lié de mesures μt de Mb+(X) classé sur L Donné un noyau arbitraire k sur Mb+(X) et un t ∈ L de l'étiquette mesure la similitude du μ et μ ′ de vus par l'étiquette T. prolongation à un ensemble T ⊂ L des étiquettes groupées:
Spécifique noyaux Partition Laisser P être une partition de L, celui est une famille finie P = (T1,…, Tn) des ensembles de L, Considérer maintenant le noyau défini par une partition P : des partitions avec un granularité croissant peuvent être obtenues par une structure hiérarchique sur le L. Une hiérarchie est une famille des partition, telles que chaque sous-ensemble T en Pd, est divisé dans Pd+1.
la moyenne des noyaux spécifique partition: п est une mesure antérieure sur l'ensemble correspondant de partitions pd et k est un noyau sur le Mb +(X) × Mb +(X)
Factorisation de noyau Proposer pour les deux éléments, μ , μ ′ de ML(X), définir pour T enjambant périodiquement de plus fin à plus brut tous les ensembles contenus en Pd, PD−1,…, P0, la quantité KT ci-dessous ; Donc, k п (μ, μ′) est recherché par le kL (la valeur au noeud de racine)
Conclusion L'algorithme peut être prolongé aux noyaux pour les vecteurs pour lesquels nous pouvons assumer une connaissance hiérarchique entre les coordonnées . Ce cadre est lié au noyau multiple apprenant, mais ici nous employons les combinaisons algébriques plutôt que l'additif , et employons un antérieur sans l'évaluation des poids. Setting the hyper-parameters is a crucial problem (tuned through CV at the moment). Optimizing them (with respect to SVM cost functions for instance as in MKL) should be hard, but simpler criterions might be considered
Merci Questions ?