La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Complexité et Classification Quelques aspects algorithmiques de problèmes de classification Richard Nock DSI-GRIMAAG Université Antilles-Guyane, Campus.

Présentations similaires


Présentation au sujet: "Complexité et Classification Quelques aspects algorithmiques de problèmes de classification Richard Nock DSI-GRIMAAG Université Antilles-Guyane, Campus."— Transcription de la présentation:

1 Complexité et Classification Quelques aspects algorithmiques de problèmes de classification Richard Nock DSI-GRIMAAG Université Antilles-Guyane, Campus de Schoelcher, Schoelcher, Martinique, France Groupe de Recherche en Informatique et Mathématiques Appliquées des Antilles-Guyane Département Scientifique Interfacultaire

2 Background Ingénieur Agronome (1993) DEA Informatique (1993) Doctorat Informatique (1998) directeur: O. Gascuel Mcf UAG Guadeloupe ( ) Mcf UAG Martinique (2000-)

3 Thèmes de recherche actuels Algorithmes dapprentissage/classification Théorie (Complexité, stats/probas) Analyse dimages

4 Thèmes de recherche actuels NP-Complétude Résultats dinapproximabilité « appliqués » en ML/C Concentration de v.a. Bornes derreur sur algorithmes dapprentissage + -

5 Résumé Apprentissage et classification Complexité algorithmique Application à lapprentissage Conclusion

6 Apprentissage et classification Introduction

7 Apprendre ? Apprendre = capacité pour une entité daméliorer ses capacités de manière automatique, par lexpérience. Valiant (1984): 2 contraintes: Algorithmique: apprendre rapide Statistique: apprendre fiable

8 Apprendre ?? Quapprends-ton dun point de vue informatique ? Détail des contraintes du modèle de Valiant ?

9 Apprentissage et classification Le modèle PAC de L. Valiant

10 Observations et Exemples Domaine Concept Exemples y x Un exemple « cible » tirés selon D 2 classes

11 Grandes étapes y x 1- Collecte des exemples 2- Construction dune hypothèse 3- Qualité de lhypothèse ?

12 Evaluation y x A B C Prob. Err.= Problème ? ?

13 Evaluation y x 1- Pas daccès à Prob. Err. ! 2- Uniquement Freq. Err. 3- Comment « assurer » qualité ? Problème ! Freq. Err. =0 4- Et si distrib. quelconque ?? 5- Et si distrib. inconnue ???

14 Solution: modèle PAC I y x 1- Requérir Prob. Err. limitée avec une forte probabilité 2- Sachant la distribution … mais fixe quelconque inconnue 3- Tirer suffisamment dexemples

15 Modèle PAC II 1- A partir de là, comment trouver la meilleure formule ? Indép. du nb dexemples 2- Il suffirait de disposer dun algorithme énumérant toutes les formules possibles Problème ? 3- Enumération souvent exponentielle donc inutilisable Problème !

16 Solution 1- Exiger que lalgorithme fonctionne rapidement 2- Exiger un algorithme polynomial Rectangles en 2D: facile

17 Modèle de Valiant (1984) Une classe de représentation de concepts C est apprenable au sens du modèle PAC ssi il existe un algorithme A vérifiant les deux conditions suivantes:

18 Modèle de Valiant c C, A a accès à un Oracle rétribuant des exemples selon c et une distribution D inconnue, quelconque, mais fixée, et, étant donnés deux paramètres 0<, <1, renvoie une hypothèse h de C telle que

19 Modèle de Valiant A fonctionne en temps polynomial Taille du concept cible # Variables de description Confiance Fiabilité

20 Prouver que C nest pas PAC Trop dexemples nécessaires pour satisfaire à la première condition Temps de calcul rhédibitoire pour satisfaire à la deuxième condition

21 Complexité algorithmique Introduction

22 Les problèmes de décision Problème de décision: Instance Question Ensemble dexemples Formule de C consistante ? ?Oui

23 Les problèmes de décision Problème de décision: Instance Question Ensemble dexemples Formule de C consistante ? ?Non

24 Classes de complexité ? Classe des problèmes de décision admettant un algorithme de résolution de temps polynomial en la taille de linstance NP Classe des problèmes de décision admettant un algorithme non déterministe de résolution de temps polynomial en la taille de linstance P

25 Hypothèse(s) fondamentale(s) NP P P =P +temps P=

26 Hypothèse(s) fondamentale(s) NP P QP QP= QP …et bien sur

27 Hypothèse(s) fondamentale(s) NP P QP …et bien sur …pour un

28 Hypothèse(s) fondamentale(s) NP P QP …et bien sur ??? …Quy a-til ici ?

29 Problèmes « difficiles » instances AB solutions Oui poly Un est PolyTous sont Poly NP-Complets Hyp. de comp.Tous difficiles !

30 Complexité algorithmique Décision et optimisation

31 Problème d optimisation Définition: Instance Ens. Solutions Ensemble dexemples LS Formules de C consistantes avec LS Fonction de CoûtTaille de la formule ObjectifTrouver une sol. min. (max.) la fonct. de coût Décision vs Optimisation: La plupart des problèmes de décision admettent (au moins) une version d optimisation « naturelle »

32 Problème d optimisation Problèmes d optimisation difficiles Existence ? Procédure ? Le coût d une instance est le coût optimal d une solution pour cette instance Un problème de minimisation est approximable à moins de ssi il existe un algorithme poly permettant, pour une instance de coûtde trouver une solution de coût au plus

33 Difficulté d approximation I Prob. déc. NP-Complet Oui Non Prob. Minimisation Coût des instances Réduction « gap »

34 Difficulté d approximation II Hypothèse: le problème de minimisation dapproximation de ratio admet un algorithme Comment arriver à une contradiction ?

35 Difficulté d approximation II Oui Non Algorithme hypothétique d approximation InstancesSolutions EtapesABC Oui Non On résoud le problème NP-Complet !!

36 Difficulté d approximation III Si il existe une réduction de temps polynomial depuis un prob. NP-Complet vers un problème de minimisation, t.q. Les instances « Oui » sont transformées en inst. de coût Les instances « Non » sont transformées en inst. de coût Alors, sous l hypothèsele prob. de minimisation n est pas approximable à moins de

37 Remplacement de P par QP Si on remplace l exigence polynomiale par une exigence Quasi-Polynomiale Temps de la réduction Temps de l algorithme d approximation hypothétique Alors, sous l hypothèsele prob. de minimisation n est pas approximable à moins de Définition de l approximabilité

38 Pourquoi remplacer P par QP ? Avantage direct: Les ratios d inapproximabilité peuvent être bcp + grands Hypothèse bcp plus forte, et donc « moins » réaliste Inconvénient: devient Avantage indirect: On peut aussi remplacerpar …et (espérer) des ratios encore + grands !

39 Application à l apprentissage Réductions « traditionnelles »

40 Preuves directes On part dun problème difficile (NP- Complet) traditionnel On construit une instance difficile d un problème de classification, formulé comme un problème de décision, ou d optimisation

41 Exemple Kearns, Li, Pitt, Valiant (STOC 87++) Problèmes: Consistance (DNF): Instance Question Ensemble dexemples, entier k>0 k-term-DNF consistante ? Optimisation (DNF): Instance Ens. Solutions Ensemble dexemples DNF consistantes Fonction de CoûtNb de monomes de la DNF

42 (k-term-)DNF Un monome (Booléen): conjonction de littéraux: Une DNF: disjonction de monomes: Une k-term-DNF: disjonction d au plus k monomes 2 classes: exemples positifs et négatifs ( ,1)( ,0)

43 Représentation du problème LS 2-term-DNF cons. ?? « OUI »

44 La réduction Instance Question G=(X,E), entier k>0 k-coloration de G ? k=3 « Oui » Instance Question Ech. dex., k>0 k-term-DNF ? « Oui »

45 La réduction Propriété: Le nombre minimal de couleurs taille minimale de la DNF consistante =

46 Résultat dinapproximabilité Oui Non Colorabilité minimale Nombre de couleurs Réduction « gap » SAT Feige, Kilian 96

47 Théorème En utilisant Kearns & al Feige & Kilian 96, on obtient: Théorème: La DNF minimale consistante pas approximable à moins de Problème ? Renvoie Oui, Non, ? (Pr(?)=cst<1)

48 Commentaires Sachant que la colorabilité est (trivialement) approximable à un ratio On ne peut donc pas obtenir de ratio d inapproximabilité De plus, on n obtient rien d intéressant en replaçant pour la DNF consistante minimale l hypothèse de complexité par une hypothèse plus forte

49 Application à l apprentissage Réductions « self-improving »

50 Notre Solution A) Faire des réductions directement « à lintérieur » du problème dapprentissage. Réduction ordinaire AB Problèmes BBB d fois

51 Notre Solution B)S arranger pour que le ratio d inapproximabilité augmente « brutalement » avec les réductions Réduction ordinaire Pb A ratio BBBB d fois conservation

52 Notre Solution C)S arranger pour que le ratio d inapproximabilité « explose » en remplaçant l hypothèse de complexité Réduction ordinaire Pb A ratio B conservation

53 Propriété La complexité de la réduction est Le ratio dinapproximabilité est en

54 Application à l apprentissage Synthèse Pour DNF

55 La réduction II On combine les observations On combine les classes par et-logique +

56 La réduction II On ajoute quelques astuces supplémentaires: On a besoin de graphes très particuliers On combine en réalité 4 réductions

57 Conséquence I Si d est constant: La réduction est toujours polynomiale, Le ratio « explose »

58 Conséquence II Si d devient polylog La réduction est quasi-polynomiale, Mais le ratio est « boosté » davantage Résultat « extrème » (d encore + gd):

59 Conséquence III Le résultat de complexité permet de donner des bornes inférieures sur le complexité de tout algorithme PAC pour DNF de montrer la non-apprenabilité de larges sous-classes de DNF

60 Application à l apprentissage Programmation Logique Inductive

61 Application II: ILP ILP= Programmation Logique Inductive Formalisme puissant de représentation de connaissance Utilisation de Clauses de Horn plus ou moins contraintes, en présence de Background Knowledge

62 Application II: ILP Objectif: …et réaliser le moins derreurs ! En utilisant: Couvrir le plus dexemples positifs, Couvrir le moins dexemples négatifs…

63 Application II: ILP Problème: Instance Ens. Solutions Fonction de Coût Ens. dex. LS, poids w/chaque exemple NomWapprox(g(.)-function-free-Horn-Clauses) g(.)-function-free-Horn-Clauses (erreur de h sur LS)

64 Application II: ILP Théorème(s): constante Valeur de g(.)Ratio dinapprox.hypothèse polylog Sans utiliser les réductions « self-improving » En utilisant les réductions « self-improving »

65 Application à l apprentissage Sélection de Variables/Prototypes

66 Application III: Sélection de variables/prototypes Blum94: « nearly all results in machine learning deal with problems of separating relevant from irrelevant information in some way » Question: difficulté algorithmique de la tâche?

67 Application III: Sélection de variables/prototypes variables exemples 1) enlève une variable 2) enlève un exemple classe

68 Application III: Sélection de variables/prototypes #Variables #Exemples Mesure dinformation Approximation dun concept Contrainte Fct. de coût Réductions « self-improving »

69 Application III: Sélection de variables/prototypes Exemples/Mesure dinformation: Fonction f permissible: f: [0,1] [0,1] f symmétrique / x=1/2 f(1/2)=1, f(0)=f(1)=0 f concave Entropie bin. Critère de Gini Critère de Boosting

70 Application III: Sélection de variables/prototypes Exemples/Mesure dinformation: Quantité « dinformation » dune variable Objectif (informel): Réduire le nombre dexemples en assurant que les variables informatives le restent

71 Application III: Sélection de variables/prototypes Théorème(s): Ratio dinapprox. hypothèse Sans utiliser les réductions « self-improving » En utilisant les réductions « self-improving »

72 Application III: Sélection de variables/prototypes #Variables #Exemples Mesure dinformation Approximation dun concept Contrainte Fct. de coût

73 Parallèle « Intéressant » Une technique de classification récente extrèmement puissante (Breiman96) combine les solutions dalgorithmes dapprentissage modérément fiables, et retourne une nouvelle solution beaucoup plus fiable (Boosting).

74 Parallèle « Intéressant » Notre technique combine les instances de problèmes doptimisation en apprentissage/classification modérément difficiles, et retourne une nouvelle instance beaucoup plus difficile.

75 Application à l apprentissage Autres résultats

76 Autres résultats de complexité Kohavi et al.98: lerreur nest pas le meilleur critère à optimiser pour le Data Mining. Utilisation de nouveaux critères (courbes ROC, contraintes, etc.). Quelle est la difficulté algorithmique de ces nouveaux critères ?

77 Autres résultats de complexité En utilisant un sous-ensemble des clauses de Horn, on a montré que ces critères entrainent une difficulté algorithmique considérable (même si on autorise la multiplication arbitraire des clauses de Horn). que loptimisation de lerreur seule est « facile » en comparaison.

78 Publications directement concernées International Conference on Inductive Logic Programming (ILP98, ed. Springer Verlag) International Symposium on Algorithms and Computation (ISAAC98, ed. Springer Verlag) International Conference on Algorithmic Learning Theory (ALT99, ALT00, ed. Springer Verlag) …et dautres indirectement concernées.

79 Conclusion Apprenabilité et approximabilité de DNF=un des problèmes fondamentaux de la théorie de Valiant, conjecturé négatif par Valiant en En 1998, nous avions le ratio dinapproximabilité le plus important pour DNF (mais encore très loin de l « optimum » !).

80 Conclusion Les problèmes dapprentissage semblent être de bons candidats aux réductions self-improving. …mais lintérêt des résultats négatifs reste limité en apprentissage. …heureusement, je développe aussi des résultats positifs sur quelques problématiques de classification (voir diapositive suivante)

81 Merci pour votre attention ! dans R.Nock, « Fast and Reliable Region Merging inspired by Decision-Tree Pruning » IEEE Int. Conf. on Computer Vision and Pattern Recognition (Décembre 2001)


Télécharger ppt "Complexité et Classification Quelques aspects algorithmiques de problèmes de classification Richard Nock DSI-GRIMAAG Université Antilles-Guyane, Campus."

Présentations similaires


Annonces Google