La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Complexité et Classification

Présentations similaires


Présentation au sujet: "Complexité et Classification"— Transcription de la présentation:

1 Complexité et Classification
Quelques aspects algorithmiques de problèmes de classification Richard Nock DSI-GRIMAAG Université Antilles-Guyane, Campus de Schoelcher, Schoelcher, Martinique, France Département Scientifique Interfacultaire Groupe de Recherche en Informatique et Mathématiques Appliquées des Antilles-Guyane

2 Background Ingénieur Agronome (1993) DEA Informatique (1993)
Doctorat Informatique (1998) directeur: O. Gascuel Mcf UAG Guadeloupe ( ) Mcf UAG Martinique (2000-)

3 Thèmes de recherche actuels
Algorithmes d’apprentissage/classification Théorie (Complexité, stats/probas) Analyse d’images

4 Thèmes de recherche actuels
- Résultats d’inapproximabilité « appliqués » en ML/C NP-Complétude Concentration de v.a. + Bornes d’erreur sur algorithmes d’apprentissage

5 Apprentissage et classification
Résumé Apprentissage et classification Complexité algorithmique Application à l’apprentissage Conclusion

6 Apprentissage et classification
Introduction

7 Apprendre ? Apprendre = capacité pour une entité d’améliorer ses capacités de manière automatique, par l’expérience. Valiant (1984): 2 contraintes: Algorithmique: apprendre  rapide Statistique: apprendre  fiable

8 Apprendre ?? Qu’apprends-t’on d’un point de vue informatique ?
Détail des contraintes du modèle de Valiant ?

9 Apprentissage et classification
Le modèle PAC de L. Valiant

10 Observations et Exemples
y x Concept « cible » Domaine Un exemple <(x,y), > Exemples tirés selon D 2 classes

11 Grandes étapes y 1- Collecte des exemples
2- Construction d’une hypothèse 3- Qualité de l’hypothèse ? x

12 Evaluation y B Prob. Err.= ? A Problème ? C x

13 Evaluation y 1- Pas d’accès à Prob. Err. ! 2- Uniquement Freq. Err.
3- Comment « assurer » qualité ? 4- Et si distrib. quelconque ?? Freq. Err. =0 5- Et si distrib. inconnue ??? Problème ! x

14 Solution: modèle PAC I y 1- Requérir Prob. Err. limitée
avec une forte probabilité 2- Sachant la distribution quelconque inconnue … mais fixe 3- Tirer suffisamment d’exemples x

15 Modèle PAC II 1- A partir de là, comment trouver la meilleure formule ? Indép. du nb d’exemples 2- Il suffirait de disposer d’un algorithme énumérant toutes les formules possibles Problème ? 3- Enumération souvent exponentielle donc inutilisable Problème !

16 Solution 1- Exiger que l’algorithme fonctionne rapidement
2- Exiger un algorithme polynomial Rectangles en 2D: facile

17 Modèle de Valiant (1984) Une classe de représentation de concepts C est apprenable au sens du modèle PAC ssi il existe un algorithme A vérifiant les deux conditions suivantes:

18 Modèle de Valiant cC, A a accès à un Oracle rétribuant des exemples selon c et une distribution D inconnue, quelconque, mais fixée, et, étant donnés deux paramètres 0<e,d<1, renvoie une hypothèse h de C telle que

19 Modèle de Valiant A fonctionne en temps polynomial Taille du concept
cible # Variables de description Confiance Fiabilité

20 Prouver que C n’est pas PAC
Trop d’exemples nécessaires pour satisfaire à la première condition Temps de calcul rhédibitoire pour satisfaire à la deuxième condition

21 Complexité algorithmique
Introduction

22 Les problèmes de décision
Problème de décision: Instance Ensemble d’exemples Question Formule de C consistante ? ? Oui

23 Les problèmes de décision
Problème de décision: Instance Ensemble d’exemples Question Formule de C consistante ? ? Non

24 P NP ? Classes de complexité Classe des problèmes de décision
admettant un algorithme de résolution de temps polynomial en la taille de l’instance NP Classe des problèmes de décision admettant un algorithme non déterministe de résolution de temps polynomial en la taille de l’instance ?

25 Hypothèse(s) fondamentale(s)
NP P =P +temps P=

26 Hypothèse(s) fondamentale(s)
QP NP QP= P QP QP …et bien sur

27 Hypothèse(s) fondamentale(s)
NP …pour un P QP …et bien sur

28 Hypothèse(s) fondamentale(s)
NP ??? …Qu’y a-t’il ici ? P QP …et bien sur

29 Problèmes « difficiles »
A B poly instances NP-Complets Oui Oui Hyp. de comp. Tous difficiles ! solutions Un est Poly Tous sont Poly

30 Complexité algorithmique
Décision et optimisation

31 Problème d ’optimisation
Définition: Instance Ensemble d’exemples LS Ens. Solutions Formules de C consistantes avec LS Fonction de Coût Taille de la formule Objectif Trouver une sol. min. (max.) la fonct. de coût Décision vs Optimisation: La plupart des problèmes de décision admettent (au moins) une version d ’optimisation « naturelle »

32 Problème d ’optimisation
Le coût d ’une instance est le coût optimal d ’une solution pour cette instance Un problème de minimisation est approximable à moins de ssi il existe un algorithme poly permettant, pour une instance de coût de trouver une solution de coût au plus Problèmes d ’optimisation difficiles Existence ? Procédure ?

33 Difficulté d ’approximation I
Coût des instances Prob. déc. NP-Complet Prob. Minimisation Non « gap » Oui Réduction

34 Difficulté d ’approximation II
Hypothèse: le problème de minimisation admet un algorithme d’approximation de ratio Comment arriver à une contradiction ?

35 Difficulté d ’approximation II
Etapes A B C Non Non Algorithme hypothétique On résoud le problème NP-Complet !! Oui d ’approximation Oui Instances Solutions

36 Difficulté d ’approximation III
Si il existe une réduction de temps polynomial depuis un prob. NP-Complet vers un problème de minimisation, t.q. Les instances « Oui » sont transformées en inst. de coût Les instances « Non » sont transformées en inst. de coût Alors, sous l ’hypothèse le prob. de minimisation n ’est pas approximable à moins de

37 Remplacement de P par QP
Si on remplace l ’exigence polynomiale par une exigence Quasi-Polynomiale Définition de l ’approximabilité Temps de la réduction Temps de l ’algorithme d ’approximation hypothétique Alors, sous l ’hypothèse le prob. de minimisation n ’est pas approximable à moins de

38 Pourquoi remplacer P par QP ?
Avantage direct: Les ratios d ’inapproximabilité peuvent être bcp + grands Inconvénient: Hypothèse bcp plus forte, et donc « moins » réaliste devient Avantage indirect: On peut aussi remplacer par …et (espérer) des ratios encore + grands !

39 Application à l ’apprentissage
Réductions « traditionnelles »

40 Preuves directes On part d’un problème difficile (NP-Complet) traditionnel On construit une instance difficile d ’un problème de classification, formulé comme un problème de décision, ou d ’optimisation

41 Exemple Kearns, Li, Pitt, Valiant (STOC ’87++) Problèmes:
Consistance (DNF): Instance Ensemble d’exemples, entier k>0 Question k-term-DNF consistante ? Optimisation (DNF): Instance Ensemble d’exemples Ens. Solutions DNF consistantes Fonction de Coût Nb de monomes de la DNF

42 (k-term-)DNF Un monome (Booléen): conjonction de littéraux:
Une DNF: disjonction de monomes: Une k-term-DNF: disjonction d ’au plus k monomes 2 classes: exemples positifs et négatifs ( ,1) ( ,0)

43 Représentation du problème
LS 2-term-DNF cons. ?? « OUI »

44 La réduction Instance G=(X,E), entier k>0 Instance
Ech. d’ex., k>0 Question k-coloration de G ? Question k-term-DNF ? k=3 « Oui » « Oui »

45 La réduction Propriété: Le nombre minimal de couleurs =
taille minimale de la DNF consistante

46 Résultat d’inapproximabilité
Colorabilité minimale SAT Feige, Kilian ’96 Non « gap » Oui Réduction Nombre de couleurs

47 Théorème En utilisant Kearns & al. ’87 + Feige & Kilian ’96, on obtient: Théorème: La DNF minimale consistante pas approximable à moins de Renvoie Oui, Non, ? (Pr(?)=cst<1) Problème ?

48 Commentaires Sachant que la colorabilité est (trivialement) approximable à un ratio On ne peut donc pas obtenir de ratio d ’inapproximabilité pour la DNF consistante minimale De plus, on n ’obtient rien d ’intéressant en replaçant l ’hypothèse de complexité par une hypothèse plus forte

49 Application à l ’apprentissage
Réductions « self-improving »

50 Notre Solution A) Faire des réductions directement « à l’intérieur » du problème d’apprentissage. d fois Réduction ordinaire A B B B B Problèmes

51 Notre Solution B)S ’arranger pour que le ratio d ’inapproximabilité augmente « brutalement » avec les réductions d fois Réduction ordinaire ratio conservation Pb A B B B B

52 Notre Solution C)S ’arranger pour que le ratio d ’inapproximabilité « explose » en remplaçant l ’hypothèse de complexité Réduction ordinaire ratio conservation Pb A B

53 Propriété La complexité de la réduction est
Le ratio d’inapproximabilité est en

54 Application à l ’apprentissage
Synthèse Pour DNF

55 La réduction II + On combine les observations On combine les
classes par et-logique +

56 La réduction II On ajoute quelques astuces supplémentaires:
On a besoin de graphes très particuliers On combine en réalité 4 réductions

57 Conséquence I Si d est constant: La réduction est toujours polynomiale, Le ratio « explose »

58 Conséquence II Si d devient polylog
La réduction est quasi-polynomiale, Mais le ratio est « boosté » d’avantage Résultat « extrème » (d encore + gd):

59 Conséquence III Le résultat de complexité permet
de donner des bornes inférieures sur le complexité de tout algorithme PAC pour DNF de montrer la non-apprenabilité de larges sous-classes de DNF

60 Application à l ’apprentissage
Programmation Logique Inductive

61 Application II: ILP ILP= Programmation Logique Inductive
Formalisme puissant de représentation de connaissance Utilisation de Clauses de Horn plus ou moins contraintes, en présence de Background Knowledge

62 Application II: ILP Objectif: En utilisant:
…et réaliser le moins d’erreurs ! Couvrir le plus d’exemples positifs, Couvrir le moins d’exemples négatifs…

63 Application II: ILP Problème: Nom
Wapprox(g(.)-function-free-Horn-Clauses) Instance Ens. d’ex. LS, poids w/chaque exemple Ens. Solutions g(.)-function-free-Horn-Clauses Fonction de Coût (erreur de h sur LS)

64 Application II: ILP Théorème(s): Valeur de g(.) Ratio d’inapprox.
hypothèse constante polylog En utilisant les réductions « self-improving » Sans utiliser les réductions « self-improving »

65 Variables/Prototypes
Application à l ’apprentissage Sélection de Variables/Prototypes

66 Application III: Sélection de variables/prototypes
Blum’94: « nearly all results in machine learning deal with problems of separating relevant from irrelevant information in some way » Question: difficulté algorithmique de la tâche?

67 Application III: Sélection de variables/prototypes
classe 1) enlève une variable 2) enlève un exemple exemples

68 Application III: Sélection de variables/prototypes
Contrainte Mesure d’information Approximation d’un concept Fct. de coût #Exemples Réductions « self-improving » #Variables

69 Application III: Sélection de variables/prototypes
Exemples/Mesure d’information: Fonction f permissible: f: [0,1][0,1] f symmétrique / x=1/2 f(1/2)=1, f(0)=f(1)=0 f concave Entropie bin. Critère de Gini Critère de Boosting

70 Application III: Sélection de variables/prototypes
Exemples/Mesure d’information: Quantité « d’information » d’une variable Objectif (informel): Réduire le nombre d’exemples en assurant que les variables informatives le restent

71 Application III: Sélection de variables/prototypes
Théorème(s): hypothèse Ratio d’inapprox. En utilisant les réductions « self-improving » Sans utiliser les réductions « self-improving »

72 Application III: Sélection de variables/prototypes
Contrainte Mesure d’information Approximation d’un concept Fct. de coût #Exemples #Variables

73 Parallèle « Intéressant »
Une technique de classification récente extrèmement puissante (Breiman’96) combine les solutions d’algorithmes d’apprentissage modérément fiables, et retourne une nouvelle solution beaucoup plus fiable (Boosting).

74 Parallèle « Intéressant »
Notre technique combine les instances de problèmes d’optimisation en apprentissage/classification modérément difficiles, et retourne une nouvelle instance beaucoup plus difficile.

75 Application à l ’apprentissage
Autres résultats

76 Autres résultats de complexité
Kohavi et al.’98: l’erreur n’est pas le meilleur critère à optimiser pour le Data Mining. Utilisation de nouveaux critères (courbes ROC, contraintes, etc.). Quelle est la difficulté algorithmique de ces nouveaux critères ?

77 Autres résultats de complexité
En utilisant un sous-ensemble des clauses de Horn, on a montré que ces critères entrainent une difficulté algorithmique considérable (même si on autorise la multiplication arbitraire des clauses de Horn). que l’optimisation de l’erreur seule est « facile » en comparaison.

78 Publications directement concernées
International Conference on Inductive Logic Programming (ILP’98, ed. Springer Verlag) International Symposium on Algorithms and Computation (ISAAC’98, ed. Springer Verlag) International Conference on Algorithmic Learning Theory (ALT’99, ALT’00, ed. Springer Verlag) …et d’autres indirectement concernées.

79 Conclusion Apprenabilité et approximabilité de DNF=un des problèmes fondamentaux de la théorie de Valiant, conjecturé négatif par Valiant en 1985. En 1998, nous avions le ratio d’inapproximabilité le plus important pour DNF (mais encore très loin de l’ « optimum » !).

80 Conclusion Les problèmes d’apprentissage
semblent être de bons candidats aux réductions self-improving. …mais l’intérêt des résultats négatifs reste limité en apprentissage. …heureusement, je développe aussi des résultats positifs sur quelques problématiques de classification  (voir diapositive suivante)

81 Merci pour votre attention !
dans R.Nock, « Fast and Reliable Region Merging inspired by Decision-Tree Pruning » IEEE Int. Conf. on Computer Vision and Pattern Recognition (Décembre 2001)


Télécharger ppt "Complexité et Classification"

Présentations similaires


Annonces Google