Phénomènes de Complexité et Concentration en Classification

Slides:

Advertisements

Présentations similaires

Candidature à une allocation de recherche en informatique

Advertisements

Théorie des graphes.

Soutenance du stage de DEA.

Relational Learning as a Search in a Critical Region Lou Fedon 9 Mars 2006.

Algorithmes et structures de données avancés

Classification et prédiction

Apprentissage supervisé à partir de séquences

Champs de Markov en Vision par Ordinateur

Apprentissage relationnel Apprentissage Data Mining ILP.

RECONNAISSANCE DE FORMES

et les multipartis complets

Cours d'algorithmique 11 / Intranet 1 9 janvier 2006 Cours dAlgorithmique N P - complétude.

Les TESTS STATISTIQUES

Yann Chevaleyre et Jean-Daniel Zucker

Séminaire Biblio LISC - 3/04/02 Complexité, information Daprès JP Delahaye (1999)

Complexité et Classification

1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.

Séminaire Florin Périer Alain Gély LIMOS

Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble

Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble

Apprendre à partir des observations

Graphes Conceptuels J.F. Baget Inria.

Programmation logique Logique des prédicats du premier ordre

GPA750 – Ordonnancement des systèmes de production aéronautique

Ordonnancement avec exclusion mutuelle par un graphe d’intervalles ou d’une classe apparentée : complexité et algorithmes ~ Frédéric Gardi - 14 Juin.

Chapitre 2 Réductions: exemples et méthodes

Luce Brotcorne Maître de Conférences LAMIH/ROI

Rappels de logique des prédicats du 1er ordre

CSI 4506: Introduction à l’intelligence artificielle

CSI 4506: Introduction à l’intelligence artificielle

Algorithmes d ’approximation

© Petko ValtchevUniversité de Montréal Janvier IFT 2251 Génie Logiciel Notions de Base Hiver 2002 Petko Valtchev.

Les prévisions et la gestion de la demande

Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,

Extraction Automatique de formes complexes : Application à la création de modèle anatomique de la tête J. Piovano, T. Papadopoulo Séminaire Odyssee 9,

Programmation non procédurale Le projet ECOLE 2000

ASI 3 Méthodes numériques pour l’ingénieur

8INF8061 Conception et analyse des algorithmes Comment comparer deux problèmes?

Conception et analyse des algorithmes

I MAGIS est un projet commun CNRS - INPG - INRIA - UJF iMAGIS-GRAVIR / IMAG Optimisation à base de flot de graphe pour l'acquisition d'informations 3D.

Introduction Objet de la programmation mathématique, construction d'un modèle mathématique, problème général de programmation mathématique et classification,

IFT Complexité et NP-complétude

Soutenance de stage 16 Mai au 5 Août 2011

Les logiques de descriptions

Programmation dynamique

D.E ZEGOUR Ecole Supérieure d’Informatique

Specifications de Systemes Logiciels المواصفات الشكلية Software Specifications Chapitre 7.

Calcul parallèle => partitionner les données en sous-groupes associés aux processeurs. P0 P2 P1.

1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.

Complexité des Problèmes Combinatoires Module IAD/RP/RO/Complexité Philippe Chrétienne.

Probabilités et Statistiques

D.E ZEGOUR Ecole Supérieure d’Informatique. Problèmes de décision Concepts de base Expressions régulières Notation particulière pour exprimer certaines.

Université Pierre et Marie Curie Laboratoire d’Informatique de Paris VI Département ASIM Analyse et résultats sur le dimensionnement des mémoires pour.

Probabilités et Statistiques Année 2010/2011

2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.

Problème de double digestion

CSI 4506: Introduction à l’Intelligence Artificielle

Du discours aux modèles… Une tentative d’articulation

SVM machine à vecteurs de support ou séparateur à vaste marge

Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.

Knowledge discovery in Databases (KDD)

Méthode des moindres carrés (1)

Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.

Traitements d'images et Vision par ordinateur

Chap. 3 Récursion et induction. Les définitions par récurrence consistent à construire des objets finis, à partir d'autres, selon certaines règles. Les.

ECHANTILLONAGE ET ESTIMATION

GdR MoMaS Novembre 2003 Conditions d’interface optimales algébriques pour la vibro-élasticité. François-Xavier Roux (ONERA) Laurent Sériès (ONERA) Yacine.

Compilation & Apprentissage dans les Réseaux de Contraintes Hervé Cros Directeurs :Frédéric Koriche Joël Quinqueton.

Transcription de la présentation:

Phénomènes de Complexité et Concentration en Classification Application à l’Apprentissage Automatique, au Data Mining et à l’Analyse d’Images Richard Nock rnock@martinique.univ-ag.fr http://www.martinique.univ-ag.fr/~rnock Département Scientifique Interfacultaire Groupe de Recherche en Informatique et Mathématiques Appliquées des Antilles-Guyane

Background Ingénieur Agronome (1993) DEA Informatique (1993) Doctorat Informatique (1998) directeur: O. Gascuel Mcf UAG Guadeloupe (1998-2000) Mcf UAG Martinique (2000-)

Plan Production scientifique Deux résultats... Un résultat négatif (apprentissage/complexité) Un résultat positif (analyse d’images) Encadrements et collaborations Encadrement de thèse Collaborations scientifiques Collaborations industries & collectivités Production scientifique Présentation de l’équipe

Production scientifique Algorithmes d’apprentissage/classification Théorie (Complexité, stats/probas) Analyse d’images comment clusteriser plus finement ?

Production scientifique Données images images Méthode ICASSP ’02 ICIP ’02 CVPR ’01 ICIP ’00 BMVC ’00 ICTAI ’98 Autre Réd. données Induction EWCBR ’00 PRL(01) Théorie Théorie non oui non oui ICML ’01 FLAIRS ’01 ICML ’00 UAI ’00 PKDD ’00 CAIC ’00 FLAIRS ’00 PKDD ’99 JMLR(02) PR(02) IJ-AIT(00) Book(00) IJ-CSS(00) ALT ’00 PKDD ’99 ISIDA ’99 CAIC ’98 ICML ’98 IC2IN ’97 ICML ’95 IJ-IDA(99) IJ-PRAI(98) TCS(02) JAIR(02) PRL(01) ECML ’02 ALT ’99 ISAAC ’98 ILP ’98 ICCS ’98 ICML ’96

Un résultat (très) Négatif Deux résultats… Un résultat (très) Négatif « Generalized Colorability and the Compressibility of Boolean Formulae » R. Nock, P. Jappy, J. Sallantin Int. Symposium on Algorithms And Computation 1998 Un résultat Positif « Fast and Reliable Region Merging inspired by Decision-Tree Pruning » R. Nock, IEEE Int. Conf. on Computer Vision and Pattern Recognition 2001

Un résultat (très) Négatif

Un résultat Négatif Apprendre =capacité pour une entité d’améliorer ses capacités de manière automatique, par l’expérience. Valiant (1984) = 2 contraintes: algorithmique: apprendre  rapide statistique: apprendre  fiable Modèle PAC: Probablement Approximativement Correct

Ces systèmes de règles sont-ils PAC apprenables? Un résultat Négatif Valiant (C. ACM 1984, IJCAI 1985): les humains semblent être enclins à utiliser des systèmes de règles pour représenter leur connaissance. Ces systèmes de règles sont-ils PAC apprenables? Formes Normales Disjonctives (DNF)

Plan général (résultat Négatif) -Observations, Exemples, Concepts -Le modèle PAC de Valiant -Optimisation & approximation -Preuves traditionnelles -Notre solution: réductions « self-improving » -Parallèle « intéressant » -Conclusion & extensions

-Observations et Exemples On dispose de n variables Booléennes d ’observation: Chacune génère 2 littéraux Correspond au test Par ex.:

-Observations et Exemples On veut prédire l ’appartenance à une classe, comme fonction de ces variables d ’observation: Par exemple: « bon payeur » « mauvais payeur » versus Classe « positive »  Classe « négative » Classe 1 Classe 0 Un élément est appelé une observation Un élément est appelé un exemple

-Exemples et Concepts L ’ensemble des exemples observables = domaine Par exemple: clients potentiels d ’un assureur Le sous-ensemble du domaine constitué des exemples positifs=concept cible (à apprendre) Par exemple: bons payeurs pour un assureur domaine Concept cible Représentations extensionnelles de concepts Pour apprendre, représentation intensionnelle d’un concept

-Exemples et Concepts Représentation intensionnelle d’un concept= succincte elle est élément d’une classe de représentation de concepts Par exemple: la classe des monômes Booléens Un monôme Booléen=conjonction de littéraux Par exemple: Une observation qui satisfait un monôme est classée positive par ce monôme (sinon, classée négative) 1 Par exemple: 0101101100 1111111001 Concept cible et concept hypothèse (qu’on construit) sont éléments de classes de représentations de concepts

-Le modèle PAC Apprendre C au sens de PAC, c’est, étant donné cC, induire à partir d’(un aperçu de) sa représentation extensionnelle, une formule hC: dont la représentation extensionnelle soit une bonne approximation de celle de c (whp), en temps polynomial en divers paramètres

-Le modèle PAC Pour prouver que C n ’est pas PAC: Trop d’exemples nécessaires pour satisfaire à la condition statistique Temps de calcul rédhibitoire pour satisfaire à la condition algorithmique

-Le modèle PAC Pour prouver que C n ’est pas PAC: Temps de calcul rédhibitoire pour satisfaire à la condition algorithmique On utilise la difficulté d’approximation d’un problème de minimisation (C gde)

-Optimisation & approximation …nous étudions un pb d’optimisation Définition (pour une classe de rep. de concepts C): Instance Ensemble d’exemples LS Solutions faisables Formules de C consistantes avec LS Fonction de coût Taille de la formule Objectif Trouver une solution faisable minimisant la fonction de coût

-Optimisation & approximation …retour sur les pbs d’optimisation Le coût d’une instance est le coût optimal d’une solution pour cette instance …définition de l’approximabilité: Un problème de minimisation est approximable à moins de ssi il existe un algorithme poly permettant, pour une instance de coût de trouver une solution de coût au plus Comment démontrer un ratio d’inapproximabilité ? preuves traditionnelles en apprentissage: transfert de ratio d’inapprox. d’un pb de min. vers un autre

-Optimisation & approximation …retour sur les pbs de décision NP Classe des problèmes de décision admettant un algorithme non déterministe de résolution de temps polynomial en la taille de l’instance Problèmes « difficiles » NP NP-Complet

-Optimisation & approximation …retour sur les pbs de décision Sous certaines hypothèses ces pbs difficiles n’admettent pas d’algo. déterministe polynomial déterministe quasi-polynomial déterministe sous-exponentiel randomisé polynomial

-Optimisation & approximation …des pbs de décision difficiles aux ratios d’inapproximabilité Coût des instances Pb. de décision difficile Pb. de minimisation Non « gap » Oui Réduction

-Preuves traditionnelles …pour DNF Un monôme (Booléen): conjonction de littéraux: Une DNF: disjonction de monômes: Une k-term-DNF: disjonction d ’au plus k monômes

-Preuves traditionnelles …la réduction de Kearns, Li, Pitt, Valiant, STOC’87 Graphe k colorable k-term-DNF consistante  k=3 « Oui » « Oui »

-Preuves traditionnelles …la réduction de Kearns & al Propriété: Le nombre minimal de couleurs = taille minimale de la DNF consistante conservation du ratio d’inapproximabilité

-Preuves traditionnelles …le théorème de départ Théorème de Feige & Kilian ’96: La colorabilité de graphe pas approximable à moins de Renvoie Oui, Non, ? (Pr(?)=cst<1)

-Preuves traditionnelles En utilisant Kearns & al. ’87 + Feige & Kilian ’96, on obtient: Théorème: La DNF minimale consistante pas approximable à moins de Problème ?

-Preuves traditionnelles Sachant que la colorabilité est (trivialement) approximable à moins d’un ratio on ne peut donc pas obtenir de ratio d’inapproximabilité pour la DNF consistante minimale De plus, on n’obtient rien d’intéressant en replaçant l’hypothèse de complexité par une hypothèse plus forte On est très loin de démontrer la non apprenabilité de DNF on a tout juste la non-apprenabilité de minuscules sous-classes et après ?

-Notre solution: réductions « self-improving » A) Faire des réductions directement « à l’intérieur » du problème d’apprentissage. d fois Réduction ordinaire Pbs A B B B B LS1 LS2 LS3

-Notre solution B) S’arranger pour que le ratio d’inapproximabilité augmente « brutalement » avec les réductions d fois Réduction ordinaire ratio conservation Pb A B B B B

-Notre solution C) S’arranger pour que le ratio d’inapproximabilité « explose » en remplaçant l’hypothèse de complexité Réduction ordinaire ratio conservation Pb A B

-Notre solution D) Résultat principal: le ratio « devient » …mais la complexité augmente aussi:

-Notre solution + réduction de Kearns & al. On combine les observations classes par et-logique + LS2 LS1 Colorabilité

-Notre solution On ajoute quelques astuces supplémentaires: On a besoin de graphes très particuliers On combine en réalité 4 réductions

-Notre solution …conséquences I Si d est constant: la réduction est encore polynomiale, mais le ratio « explose »

-Notre solution Si d devient polylog …conséquences II Si d devient polylog La réduction est quasi-polynomiale, Mais le ratio est « boosté » d’avantage Résultat « extrème » (d encore + gd):

-Notre solution Le résultat de complexité permet …conséquences III Le résultat de complexité permet de donner des bornes inférieures sur la complexité de tout algorithme PAC pour DNF de montrer la non-apprenabilité de larges sous-classes de DNF On est pas loin de démontrer la non apprenabilité de DNF …mais on ne la démontre pas encore 

-Parallèle « intéressant » Une technique de classification récente extrèmement puissante (Breiman’96) combine les solutions d’algorithmes d’apprentissage modérément fiables, et retourne une nouvelle solution beaucoup plus fiable (Boosting).

-Parallèle « intéressant » Notre technique combine les instances de problèmes d’optimisation en apprentissage/classification modérément difficiles, et retourne une nouvelle instance beaucoup plus difficile.

-Conclusion & extensions Apprenabilité et approximabilité de DNF=un des problèmes fondamentaux de la théorie de Valiant, conjecturé négatif par Valiant en 1985. En 1998, nous avions le ratio d’inapproximabilité le plus important pour DNF (mais pas encore « maximal » !). Apparemment toujours le + important (Hellerstein ’01)

-Conclusion & extensions J’ai utilisé cette technique « self-improving » dans quelques autres cas: (In)approximabilité de l’erreur sur de grands ensembles de Clauses de Horn Difficulté des problèmes de réduction de données (variables/exemples) Et d’autres (en soumission)

Un résultat Positif

Un résultat Positif Segmentation d’images = Pixels Arrangement de régions = + +...

Un résultat Positif Notre objectif = Segmentation par fusion de régions 16 pixels= 16 régions 15 régions 14 régions 2 régions & compromis Complexité algorithmique vs qualité statistique

Plan général (résultat Positif) +Segmentation d’images & élagage +Un modèle de génération d’image +Théorème (utile) +L’algorithme + analyse de complexité +Expérimentations +Conclusion partielle extensions actuelles

+Segmentation & élagage Fusion de régions similaire à l’élagage de DT Segmentation d’image = (très) larges domaines Kearns & Mansour ICML ’97, ’98 statistiquement algorithmiquement redoutable & Théoriquement Mais, en pratique petits domaines=pb

+Modèle : génération d’image On crée un modèle supposant que l’image observée est obtenue à partir d’une image « théorique » Dans cette image théorique, on peut « observer » la partition idéale en régions (celle qu’on cherche à reconstruire sur la base de l’image observée seulement) Modèle donne une mesure objective de la qualité de segm.

+Modèle (2) Pixel théorique Pixel observé Q g v.a. Indép./canal, + sommes born.  1 pixel=3 ens. (RGB) de Q v.a. ind., SANS plus d’hypothèse sur les v.a.

+Modèle (3) Image théorique Image observée objectif

+Modèle (4) Dans l’image théorique, Peut-on reconnaître les vraies régions sur la seule base de l’image observée ?  R vraie région de I*,  a {R,G,B}, L’espérance mathématique de a est la même sur R  RR’ vraies régions de I* L’espérance mathématique diffère pour R,G, ou B

+Théorème Concentration des valeurs observées: Utilisation pour un algorithme ?

+L’algorithme (1) Composants suffisants pour un algorithme de fusion de régions: Comment concevoir un algorithme fonctionnant sur notre modèle ? (I) Prédicat de fusion (II) Un ordre pour tester les fusions

+L’algorithme (2): prédicat Le prédicat de fusion= renvoie « Oui » ssi les valeurs observées ne sont pas trop éloignées  RGB, à l’aide du théo.:

+L’algorithme (3): ordre Supposons qu’on fasse les tests t.q. chaque test dans une vraie rég. soit fait avant tout test entre un de ses pixels et une région adj. Alors, à l’aide du théorème 2 et le prédicat, w.h.p. notre segmentation est une sous-segmentation (toute vraie rég. est inclue dans 1 région segmentée). Notre solution: on ordonnance les tests en ordre croissant de la plus grande différence parmi (R, G, B), avant les tests de fusion.

+L’algorithme (4): synthèse 1er 2nd 4me

+L’algorithme (5): complexité Complexité en espace : presque O(|I|) Complexité en temps : (presque) optimal Notre implémentation : O(|I|log|I|) (en moyenne…) Possible sans effort : O(|I|loglog|I|) Avec un peu de réflexion : O(|I|) optimal

+Expérimentations (1) Setup: pour tous les tests (pas de tuning en fonction des images), Les images sont segmentées sans aucun prétraitement (débruitage, filtrage, etc.)

+Expérimentations (2) Plus grandes régions Image Originale Segmentation Plus grandes régions

+Expérimentations (3) Snowy road Hand

+Expérimentations (4) Vessel Rock in sea

+Expérimentations (5) Street Formula 1

+Expérimentations (6) Lighthouse Castle

+Conclusion partielle a) Complexité en espace quasiment optimale b) Complexité en temps optimale c) Prédicat utilise des propriétés de concentration de v.a. d) Algo approxime une sorte d ’algorithme de « maximum de vraisemblance » e) Erreur (sous-segmentation limitée ?) Résultats en soumission (+F. Nielsen): OUI (w.h.p.) f) Comportement robuste/occlusions ? Algorithme robuste ?

+Extensions actuelles (+bruit transmission: 5%) Felzenszwalb & Huttenlocher, CVPR ’97 Nock, CVPR ’01

+Extensions actuelles (+bruit transmission: 15%)

+Extensions actuelles (+bruit transmission: 30%)

+Extensions actuelles (+bruit poivre et sel: 60%)

+Extensions actuelles (+bruit transmission: 70%)

+Extensions actuelles Contrat avec Sony CS Labs Tokyo (invité: Février/Mars 2003) Objectif: poursuite algorithmique / statistique autour de l’idée (vidéo, images sans bords, …)

Encadrement & collaborations

Encadrement Thèses (100%): (09/01): P. Lefaucheur- Boosting robuste (09/02): J.-C. Atine- Segmentation et suivi Conseils: 2 thèses en Géographie 2 mémoires d’Ingénieur Agronome 1 mémoire MST

Collaborations scientifiques Données Christophe FIORIO (LIRMM) Frank NIELSEN (Sony CSL Tokyo) images images Méthode Autre Réd. données Induction Marc SEBBAN (U. St-Etienne) Didier BERNARD (UAG-LPAT) Théorie non oui Tapio ELOMAA (Helsinki U.) Matti KÄÄRIÄINEN (Helsinki U.) Patrice LEFAUCHEUR (Thésard UAG) Babak ESFANDIARI (Carleton U.) Olivier GASCUEL (LIRMM) Pascal JAPPY (Hummingbird) Joël QUINQUETON (LIRMM) Jean SALLANTIN (LIRMM) Théorie non oui Stéphane LALLICH (U. Lyon 2) Marc SEBBAN (U. St-Etienne)

Autres collaborations Industrielles SACDROP Antilles – Data Mining Crédit Moderne Antilles – Data Mining Recherche (contrats/financements) SONY CS Labs Tokyo – Algo/Imagerie NOKIA (Fondation) – Data Mining Collectivités DDAF Martinique – Analyse de données CIRAD Martinique – Data Mining

Présentation de l’équipe

Présentation de l’équipe Très très succincte  Le mot-clef à retenir: turn-over ! Première équipe :  E.C.: 5  Th.: 0  Deuxième équipe : TRIVIA E.C.: 7 Th.: 0  Troisième équipe : GRIMAAG E.C.: 19 ! Th.: 6 10/98 01/99 06/02

Merci pour votre attention !