La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

IFT 615 – Intelligence artificielle Apprentissage supervisé Froduald Kabanza Département dinformatique Université de Sherbrooke planiart.usherbrooke.ca/kabanza/cours/ift615.

Présentations similaires


Présentation au sujet: "IFT 615 – Intelligence artificielle Apprentissage supervisé Froduald Kabanza Département dinformatique Université de Sherbrooke planiart.usherbrooke.ca/kabanza/cours/ift615."— Transcription de la présentation:

1 IFT 615 – Intelligence artificielle Apprentissage supervisé Froduald Kabanza Département dinformatique Université de Sherbrooke planiart.usherbrooke.ca/kabanza/cours/ift615

2 Sujets couverts Introduction Classification linéaire avec le Perceptron et la régression logistique Réseau de neurones artificiel IFT615Froduald Kabanza2

3 INTRODUCTION IFT615Froduald Kabanza3

4 Un problème dapprentissage supervisé est formulé comme suit: « Étant donné un ensemble dentraînement de N exemples: où chaque a été généré par une fonction inconnue, découvrir une nouvelle fonction (modèle ou hypothèse) qui sera une bonne approximation de (cest à dire ) » Apprentissage supervisé IFT615Froduald Kabanza4 Espace dhypothèse f(x) h opt (x) H Error

5 Données : ensemble dentraînement de N exemples: Problème : trouver h(x) tel que Un algorithme dapprentissage peut donc être vu comme étant une fonction à laquelle on donne un ensemble dentraînement et qui donne en retour la fonction h Apprentissage supervisé IFT615Froduald Kabanza5 avec

6 Données : ensemble dentraînement de N exemples: Problème : trouver h(x) tel que Lapprentissage est un problème de recherche de lhypothèse h dans un espace dhypothèses H, tel que h minimise la distancée espérée à f(x) Le problème dapprentissage est réalisable si f(x) H Apprentissage supervisé IFT615Froduald Kabanza6 avec Espace dhypothèse f(x) h opt (x) H Error

7 Étant donné un ensemble de données dentrainement, lapprentissage est un problème de recherche de lhypothèse h dans un espace dhypothèses H, tel que h minimise la distancée espérée à f(x) Les données sont souvent bruités et disponibles en quantité limitée. Il y a donc une variation dans les données et dans les modèles (représentations). Lerreur dépend de la qualité des données dentrainements et de la méthode utilisée pour sélectionner/chercher la bonne hypothèse Apprentissage supervisé IFT615Froduald Kabanza7 Espace dhypothèse f(x) h opt (x) H Error

8 Dépendamment des approches dapprentissage, la fonction h peut être représenté de différente manière: Règle de production (if-then) avec la logique du premier ordre Arbre de décision Fonction linéaires, polynomiales Réseau de neurones artificiel Programmes Java Etc. Dans cette leçon, nous voyons la régression linéaire et le réseau de neurones artificiel Le livre couvre différentes autres approches Modèles et approche pour chercher la fonction h IFT615Froduald Kabanza8

9 Comment évaluer le succès dun algorithme dapprentissage? on pourrait regarder lerreur moyenne commise sur les exemples dentraînement, mais cette erreur sera nécessairement optimiste » a déjà vu la bonne réponse pour ces exemples! »on mesurerait donc seulement la capacité de lalgorithme à mémoriser Ce qui nous intéresse vraiment, cest la capacité de lalgorithme à généraliser sur de nouveaux exemples ça reflète mieux le contexte dans lequel on va utiliser h Pour mesurer la généralisation, on met de côté des exemples étiquetés, qui seront utilisés seulement à la toute fin, pour calculer lerreur on lappel lensemble de test Mesure de la performance dun algorithme dapprentissage IFT615Froduald Kabanza9

10 Étant donnés un ensemble de points dans R 2, approcher cet ensemble par une fonction f dune seule variable. Données dentraînement : paires (x, f(x)) Hypothèse: équation dune fonction h(x) qui approxime f(x) Espace dhypothèses : ensemble de polynômes de degrés k. Exemple familier IFT615Froduald Kabanza10

11 Exemples despaces dhypothèses IFT615Froduald Kabanza11 f(x) = x + x 2 + 6x ={a+bx}; 2 ={a+bx+cx 2 }; 3 ={a+bx+cx 2 +dx 3 }; Linéaire; Quadratique; Cubique; 1 2 3

12 Comment choisir parmi plusieurs hypothèses consistants? Hypothèse : fonction linéaire Hypothèse : Polynôme de degré 7 Données : polynôme degré 6 Hypothèse : fonction linéaire Hypothèse: fonction sinusoïdale Utiliser le principe du rasoir dOckham: maximiser une combinaison/compromis entre consistence et simplicité IFT615Froduald Kabanza12

13 Compromis entre expressivité et complexité Nous avons vu quun problème dapprentissage est réalisable si lespace dhypothèses correspondant contient la vraie fonction. Dans ce cas, pourquoi ne pas choisir simplement lespace dhypothèse le plus large possible (exemple: programmes Java ou machine de Turing)? Parce quil existe en général un compromis entre lexpressivité de lespace dhypothèse la complexité de la recherche dune bonne hypothèse dans cet espace On a en plus un compromis entre lexpressivité de lespace dhypothèse lefficacité en temps de calcul de h(x) et sa simplicité de représentation IFT615Froduald Kabanza13

14 REGRESSION LINÉAIRE IFT615Froduald Kabanza14

15 Régression linéaire à une variable 15IFT615Froduald Kabanza

16 Exemple de régression linéaire 16IFT615Froduald Kabanza

17 Régression linéaire à une variable 17IFT615Froduald Kabanza

18 Régression par la descente du gradient Pour les modèles non linéaires, les équations définissant la perte minimale non souvent pas de formule fermée. On utilise la descente du gradient 18 w = any point loop until convergence do: for each w i in w do: w i = w i – α Loss(w) w i α : pas dapprentissage IFT615Froduald Kabanza

19 Régression par la descente du gradient Pour simplifier, supposons que lon a un seul exemple dapprentissage (x,y). La la règle de mise à jour donne 19 w 0 w 0 + α(y-h w (x)) w 1 w 1 + α(y-h w (x))*x w i = w i – α Loss(w) w i IFT615Froduald Kabanza

20 Régression par la descente du gradient 20IFT615Froduald Kabanza

21 RÉGRESSION LINÉAIRE À SEUIL DURE Classifieurs linéaires IFT615Froduald Kabanza21

22 Classificateur linéaire à seuil dur Outre la régression, les fonctions linéaires peuvent être utilisées pour la classification Étant donné un ensemble dentraînement (x 1, y 1 ), …, (x n, y N ) apprendre à séparer les données en deux classes. 22 h w (x) retourne 0 ou 1 w 0 + w 1 x 1 w 2 x 2 peut se réécrire w 0 x 0 + w 1 x 1 w 2 x 2, avec x 0 =1, c.a.d. w.x On a donc h w (x)= 1 si w.x 0 et 0 sinon C.à.d., h w (x)=Threshold(w.x) Règle dapprentissage w i w i + α(y-h w (x))*x i Cest la règle dapprentissage du perceptron à seuil dur. (x 1,x 2 ) 0 ou 1 Équation de la ligne X2 = -w0/w2 – (w1/w2)x1 IFT615Froduald Kabanza

23 Perceptron (Rosenblatt, 1957) IFT615Froduald Kabanza23 Un des plus vieux algorithmes de classification Idée: modéliser la décision à laide dune fonction linéaire, suivi dun seuil: où si, sinon Le vecteur de poids correspond aux paramètres du modèle On ajoute également un biais w 0, qui équivaut à ajouter une entrée fictive x 0 Threshold 1 w0w0

24 Perceptron (Rosenblatt, 1957) IFT615Froduald Kabanza24 Lalgorithme dapprentissage doit adapter la valeur des paramètres (cest- à-dire les poids et le biais) de façon à ce que soit la bonne réponse sur les données dentraînement Algorithme du Perceptron: 1. pour chaque paire a.calculer b.si (mise à jour des poids et biais) 2. retourner à 1 jusquà latteinte dun critère darrêt (nb. maximal ditérations atteint ou nb. derreurs est 0) La mise à jour des poids est appelée la règle dapprentissage du Perceptron. La multiplicateur est appelé le taux dapprentissage

25 Perceptron (Rosenblatt, 1957) IFT615Froduald Kabanza25 Lalgorithme dapprentissage doit adapter la valeur des paramètres (cest- à-dire les poids et le biais) de façon à ce que soit la bonne réponse sur les données dentraînement Algorithme du Perceptron: 1. pour chaque paire a.calculer b.si (mise à jour des poids et biais) 2. retourner à 1 jusquà latteinte dun critère darrêt (nb. maximal ditérations atteint ou nb. derreurs est 0) La mise à jour des poids est appelée la règle dapprentissage du Perceptron. La multiplicateur est appelé le taux dapprentissage forme vectorielle

26 Exemple 1 IFT615Froduald Kabanza26 Simulation avec biais, α = 0.1 Initialisation : w [0.5, 0, 0] Paire (x 1,y 1 ) : h(x 1 ) = Threshold( w. x 1 ) = Threshold(0.5) = 1 puisque h(x 1 ) = y 1, on ne fait pas de mise à jour de w D ensemble entraînement xtxt ytyt [1,2,0]1 [1,0,3]0 [1,3,0]0 [1,1,1]1

27 Exemple 1 IFT615Froduald Kabanza27 Simulation avec biais, α = 0.1 Valeur courante : w [0.5, 0, 0] Paire (x 2,y 2 ) : h(x 2 ) = Threshold( w. x 2 ) = Threshold(0.5) = 1 puisque h(x 2 ) y 2, on met à jour w »w w + α ( y 2 - h(x 2 ) ) x 2 = [0.5,0, 0] * (0 – 1) [1, 0, 3] = [0.4, 0, -0.3] D ensemble entraînement xtxt ytyt [1,2,0]1 [1,0,3]0 [1,3,0]0 [1,1,1]1

28 Exemple 1 IFT615Froduald Kabanza28 Simulation avec biais, α = 0.1 Valeur courante : w [0.4, 0, -0.3] Paire (x 3,y 3 ) : h(x 3 ) = Threshold( w. x 3 + b) = Threshold(0.4) = 1 puisque h(x 3 ) y 3, on met à jour w et b »w w + α ( y 3 - h(x 3 ) ) x 3 = [0.4, 0, -0.3] * (0 – 1) [1, 3, 0] = [0.3, -0.3, -0.3] D ensemble entraînement xtxt ytyt [1,2,0]1 [1,0,3]0 [1,3,0]0 [1,1,1]1

29 Exemple 1 IFT615Froduald Kabanza29 Simulation avec biais, α = 0.1 Valeur courante : w [0.3, -0.3, -0.3] Paire (x 4,y 4 ) : h(x 4 ) = Threshold( w. x 4 + b) = Threshold(-0.3) = 0 puisque h(x 4 ) y 4, on met à jour w et b »w w + α ( y 4 - h(x 4 ) ) x 4 = [0.3, -0.3, -0.3] * (1 – 0) [1, 1, 1] = [0.4, -0.2, -0.2] Et ainsi de suite, jusquà latteinte dun critère darrêt... D ensemble entraînement xtxt ytyt [1,2,0]1 [1,0,3]0 [1,3,0]0 [1,1,1]1

30 IFT615Froduald Kabanza30 Exemple 2 c = 0.2 wi = α (d-h(x i ))x i xtxt ytyt Initialisation : w = [w 0, w 1, w 2 ] = [-.6,.75,.5] 2. y= Threshold(-.6×1+.75×1+.5×1)=Threshold(.65)=1; w = 0.2(1-1)X= 0; donc w est inchangé. 3. y= Threshold(-.6×1+.75×9.4+.5×6.4)=Threshold(9.65)=1; w = -.4X; donc w = -.4 *[1,9.4, 6.4] = [-3.01, -2.06, -1] … 500. w = [ , -1.1]. Équation de la ligne séparant les données : -1.3x x = 0. [Luger, 2005] Artificial Intelligence 1 i=1 n w.x = Σ w i x i w0w0

31 IFT615Froduald Kabanza31 Exemple 2 x1x1 x2x2 d Après dix itérations

32 Surface de séparation IFT615Froduald Kabanza32 Le Perceptron cherche donc un séparateur linéaire entre les deux classes La surface de décision dun classifieur est la surface (dans le cas du perceptron en 2D, une droite) qui sépare les deux régions classifiées dans les deux classes différentes surface de décision

33 Convergence et séparabilité IFT615Froduald Kabanza33 Si les exemples dentraînement sont linéairement séparables (gauche), lalgorithme est garanti de converger à une solution avec une erreur nulle sur lensemble dentraînement, quel que soit le choix de Si non-séparable linéairement (droite), pour garantir la convergence à une solution avec la plus petite erreur possible en entraînement, on doit décroître le taux dapprentissage, par ex. selon

34 Courbe dapprentissage IFT615Froduald Kabanza34 Pour visualiser la progression de lapprentissage, on peut regarder la courbe dapprentissage, cest-à-dire la courbe du taux derreur (ou de succès) en fonction du nombre de mises à jour des paramètres linéairement séparable pas linéairement séparable pas linéairement séparable, avec taux dapp. décroissant

35 RÉGRESSION LOGISTIQUE Classifieurs linéaires IFT615Froduald Kabanza35

36 Régression logistique IFT615Froduald Kabanza36 Idée: plutôt que de prédire une classe, prédire une probabilité dappartenir à la classe 1 (ou la classe 0, ça marche aussi) Pour choisir une classe, prendre la plus probable selon le modèle si choisir la classe 1 sinon, choisir la classe 0 Logistic

37 Dérivation de la règle dapprentissage IFT615Froduald Kabanza37 Pour obtenir une règle dapprentissage, on définit dabord une perte si, on souhaite maximiser la probabilité On dérive la règle dapprentissage comme une descente de gradient ce qui donne La règle est donc la même que pour le Perceptron, mais la définition de est différente

38 LIMITATIONS DES CLASSIFIEURS LINÉAIRES Classifieurs linéaires IFT615Froduald Kabanza38

39 Limitation des classifieurs linéaires IFT615Froduald Kabanza39 Cependant, la majorité des problèmes de classification ne sont pas linéaires En fait, un classifieur linéaire ne peut même pas apprendre XOR! ? AND OR XOR

40 IFT615Froduald Kabanza40 x i w i xyx+y-2 x+y Exemples de neurones

41 Limitation des classifieurs linéaires IFT615Froduald Kabanza41 Par contre, on pourrait transformer lentrée de façon à rendre le problème linéairement séparable sous cette nouvelle représentation Dans le cas de XOR, on pourrait remplacer par AND(, ) et par OR(, ) ? XOR AND(, ) OR(, )

42 RÉSEAU DE NEURONES ARTIFICIELS IFT615Froduald Kabanza42

43 IFT615Froduald Kabanza43 Neurone Biologique Neurone artificiel (Perceptron) cellule (soma) neurone dendrites entrées synapses poids axon sortie Neurone artificiel a j =g(in j )=Threshold(w.x) Logistic x1x1 xnxn x0x0 w1w1 wnwn w0w0 ajaj

44 IFT615Froduald Kabanza44 Un modèle de calcul inspiré du cerveau humain. Cerveau humain : –10 milliards de neurones –60 milliards de connexions (synapses) RNA : –Un nombre fini de neurones en couches successives. –Réseau feedfoward : pas de boucles. –Réseau récurrents: les sorties peuvent être connectées aux entrées. Peut mémoriser. Réseau de neurones

45 Dérivation de la règle dapprentissage La dérivation de la règle dapprentissage se fait encore avec les gradients Par lapplication de la dérivée en chaîne, on peut décomposer cette règle dapprentissage comme suit: Donc la règle de mise à jour peut être écrite comme suite: IFT615Froduald Kabanza45 gradient du coût p/r au neurone gradient du neurone p/r à la somme des entrées gradient de la somme p/r au poids x0x0 Logistic w0w0

46 Dérivation de la règle dapprentissage Par contre, un calcul naïf de tous ces gradients serait très inefficace Pour un calcul efficace, on utilise la procédure de rétropropagation des gradients (ou erreurs) IFT615Froduald Kabanza46 gradient du coût p/r au neurone gradient du neurone p/r à la somme des entrées gradient de la somme p/r au poids x0x0 Logistic w0w0

47 Rétropropagation des gradients IFT615Froduald Kabanza47 Utiliser le fait que la dérivée pour un neurone à la couche l peut être calculée à partir de la dérivée des neurones connectés à la couche l+1 où et itère sur les neurones cachés de la couche l+1 (pour simplifier notation)

48 Visualisation de la rétropropagation IFT615Froduald Kabanza48 Lalgorithme dapprentissage commence par une propagation avant w 5,7 w 6, w 3,5 w 3,6 w 4,5 w 4,6 w 1,3 w 1,4 w 2,3 w 2,4 x1 =x1 = x1 =x1 = x2 =x2 = x2 =x2 =

49 Visualisation de la rétropropagation IFT615Froduald Kabanza49 Ensuite, le gradient sur la sortie est calculé, et le gradient rétropropagé w 5,7 w 6, w 3,5 w 3,6 w 4,5 w 4,6 w 1,3 w 1,4 w 2,3 w 2,4 x1 =x1 = x1 =x1 = x2 =x2 = x2 =x2 =

50 Visualisation de la rétropropagation IFT615Froduald Kabanza50 Peut propager aussi (décomposition équivalente du livre) w 5,7 w 6, w 3,5 w 3,6 w 4,5 w 4,6 w 1,3 w 1,4 w 2,3 w 2,4 x1 =x1 = x1 =x1 = x2 =x2 = x2 =x2 =

51 IFT615Froduald Kabanza51 (pour simplifier notation)

52 Exemple IFT615Froduald Kabanza52 Exemple:, propagation avant

53 Exemple IFT615Froduald Kabanza53 Exemple:, Logistic(0.5 * * -1) = Logistic(-0.5) = propagation avant

54 Exemple IFT615Froduald Kabanza54 Exemple:, Logistic(-1 * * -1) = Logistic(0) = propagation avant

55 Exemple IFT615Froduald Kabanza55 Exemple:, Logistic(1 * * 0.5) = Logistic(1.878) = propagation avant

56 Exemple IFT615Froduald Kabanza56 Exemple:, Logistic(-1 * * 0.5) = Logistic(-2.378) = propagation avant

57 Exemple IFT615Froduald Kabanza57 Exemple:, Logistic(1 * * 0.085) = Logistic(0.612) = propagation avant

58 Exemple IFT615Froduald Kabanza58 Exemple:, Δ = y - a rétropropagation

59 Exemple IFT615Froduald Kabanza59 Exemple:, Δ = rétropropagation

60 Exemple IFT615Froduald Kabanza60 Exemple:, Δ = rétropropagation

61 Exemple IFT615Froduald Kabanza61 Exemple:, Δ = * ( ) * 1 * = Δ = Δ = rétropropagation

62 Exemple IFT615Froduald Kabanza62 Exemple:, Δ = * ( ) * -3 * = Δ = Δ = Δ = rétropropagation

63 Exemple IFT615Froduald Kabanza63 Exemple:, Δ = * ( ) * (1 * * ) = Δ = Δ = Δ = Δ = rétropropagation

64 Exemple IFT615Froduald Kabanza64 Exemple:, Δ = 0.5 * (1-0.5) * (3 * * ) = Δ = Δ = Δ = Δ = Δ = rétropropagation

65 Exemple IFT615Froduald Kabanza65 Exemple:, Δ = Δ = Δ = Δ = Δ = mise à jour (α=0.1) w 1, * 2 * = w 1, * 2 * = w 2, * -1 * = w 2, * -1 * = w 3, * * = w 3, * * = w 4, * 0.5 * = w 4, * 0.5 * = w 5, * * = w 6, * * =

66 Retour sur la notion de généralisation Comment choisir le nombre de neurones cachés? IFT615Froduald Kabanza66 Erreur Nb. de neurones cachés

67 Retour sur la notion de généralisation Comment choisir le nombre de neurones cachés? IFT615Froduald Kabanza67 Erreur Nb. ditérations

68 Retour sur la notion de généralisation Comment choisir le nombre de neurones cachés? IFT615Froduald Kabanza68 Erreur Capacité de mémoriser lensemble dentraînement On veut trouver ce point, sans sous-apprentissage ni surapprentissage

69 Hyper-paramètres IFT615Froduald Kabanza69 Dans tous les algorithmes dapprentissage quon a vu jusquà maintenant, il y avait des « options » à déterminer Perceptron et régression logistique: le taux dapprentissage, nb. itérations N réseau de neurones: taux dapprentissage, nb. ditérations, nombre de neurones cachés, fonction dactivation g(.) On appelle ces « options » des hyper-paramètres choisir la valeur qui marche le mieux sur lensemble dentraînement est en général une mauvaise idée (mène à du surapprentissage) on ne peut pas utiliser lensemble de test non plus, ça serait tricher! en pratique, on garde un autre ensemble de côté, lensemble de validation, pour choisir la valeur de ce paramètre Sélectionner les valeurs dhyper-paramètres est une forme dapprentissage

70 Autres définitions IFT615Froduald Kabanza70 Capacité dun modèle : habilité dun modèle à réduire son erreur dentraînement, à mémoriser ces données Modèle paramétrique: modèle dont la capacité naugmente pas avec le nombre de données (Perceptron, régression logistique, réseau de neurones avec un nombre de neurones fixe) Modèle non-paramétrique: linverse de paramétrique, la capacité augmente avec la taille de lensemble dentraînement (réseau de neurones avec un nombre de neurones adapté aux données dentraînement) Époque: une itération complète sur tous les exemples dentraînement Fonction dactivation: fonction non-linéaire g(.) des neurones cachés

71 Applications IFT615Froduald Kabanza71 Problèmes de classification (visages, textes, sons, …) Jeux Contrôle - Par exemple, contrôler une voiture de course, un avion Évaluation de la menace – Entrée: configuration du jeu. Sortie: niveau de menace, unités menacés. Cadre bien avec le concept de « influence map » meDev.html meDev.html Bien dautres … Il existe plusieurs packages implémentant les algorithmes dapprentissage sur Internet

72 IFT615Froduald Kabanza72 Exemple 2 NEAT Coevolution Robots

73 Objectifs du cours IFT615Froduald Kabanza73 agents intelligents agents intelligents recherche heuristique recherche heuristique recherche locale recherche à deux adversaires recherche à deux adversaires satisfaction de contraintes satisfaction de contraintes Algorithmes et concepts raisonnement probabiliste raisonnement probabiliste processus de décision markovien processus de décision markovien apprentissage automatique apprentissage automatique

74 Apprentissage automatique : pour quel type dagent? IFT615Froduald Kabanza74 Simple reflex Model-based reflex Goal-based Utiliy-based

75 Vous devriez être capable de... Simuler les algorithmes vus Perceptron régression logistique réseau de neurones Comprendre les notions de sous-apprentissage et surapprentissage Savoir ce quest un hyper-paramètre IFT615Froduald Kabanza75

76 EXTRA Dérivées partielles, descente du gradient IFT615Froduald Kabanza76

77 Recherche locale pour la minimisation dune perte IFT615Froduald Kabanza77 ? ?

78 Dérivées On peut obtenir la direction de descente via la dérivée Le signe de la dérivée est la direction daugmentation de signe positif indique que augmente lorsque augmente signe négatif indique que diminue lorsque augmente La valeur absolue de la dérivée est le taux daugmentation de Plutôt que, je vais utiliser le symbole IFT615Froduald Kabanza78

79 Dérivées Les dérivées usuelles les plus importantes sont les suivantes: IFT615Froduald Kabanza79 et sont des constantes

80 Dérivées On peut obtenir des dérivées de composition de fonctions IFT615Froduald Kabanza80 et sont des constantes

81 Dérivées Exemple 1: IFT615Froduald Kabanza81

82 Dérivées Exemple 2: IFT615Froduald Kabanza82

83 Dérivées Pour des combinaisons plus complexes: IFT615Froduald Kabanza83

84 Dérivées Exemple 3: IFT615Froduald Kabanza84

85 Dérivées Exemple 4: IFT615Froduald Kabanza85

86 Dérivées Exemple 4: IFT615Froduald Kabanza86 dérivation alternative!

87 IFT615Froduald Kabanza87 Algorithme de descente de gradient

88 Dérivée partielle et gradient Dans notre cas, la fonction à optimiser dépend de plus dune variable elle dépend de tout le vecteur Dans ce cas, on va considérer les dérivées partielles, c.-à-d. la dérivée par rapport à chacune des variables en supposant que les autres sont constantes: IFT615Froduald Kabanza88

89 Dérivée partielle et gradient Exemple de fonction à deux variables: Dérivées partielles: IFT615Froduald Kabanza89 traite comme une constante traite comme une constante

90 Dérivée partielle et gradient Un deuxième exemple: Dérivée partielle : équivaut à faire la dérivée de où et on a des constantes et IFT615Froduald Kabanza90

91 Dérivée partielle et gradient Un deuxième exemple: IFT615Froduald Kabanza91

92 Dérivée partielle et gradient Un deuxième exemple: où,, On remplace: IFT615Froduald Kabanza92

93 Dérivée partielle et gradient Un troisième exemple: Dérivée partielle : équivaut à faire la dérivée de où et on a une constante IFT615Froduald Kabanza93

94 Dérivée partielle et gradient Un troisième exemple: IFT615Froduald Kabanza94

95 Dérivée partielle et gradient Un troisième exemple: où, On remplace: IFT615Froduald Kabanza95

96 Dérivée partielle et gradient On va appeler gradient dune fonction le vecteur contenant les dérivées partielles de par rapport à toutes les variables Dans lexemple avec la fonction : IFT615Froduald Kabanza96

97 Descente de gradient Le gradient donne la direction (vecteur) ayant le taux daccroissement de la fonction le plus élevé IFT615Froduald Kabanza97

98 Descente de gradient La direction opposée au gradient nous donne la direction à suivre IFT615Froduald Kabanza98

99 Descente de gradient La direction opposée au gradient nous donne la direction à suivre IFT615Froduald Kabanza99

100 Apprentissage vue comme la minimisation dune perte IFT615Froduald Kabanza100 En apprentissage automatique, on souhaite optimiser: Le gradient par rapport à la perte moyenne contient les dérivées partielles: Devrait calculer la moyenne des dérivées sur tous les exemples dentraînement avant de faire une mise à jour des paramètres!

101 Descente de gradient stochastique IFT615Froduald Kabanza101 Descente de gradient stochastique: mettre à jour les paramètres à partir du (c.-à-d. des dérivées partielles) dun seul exemple, choisi aléatoirement: Cette procédure est beaucoup plus efficace lorsque lensemble dentraînement est grand on fait mises à jour des paramètres après chaque parcours de lensemble dentraînement, plutôt quune seule mise à jour avec la descente de gradient normale - Initialiser aléatoirement - Pour T itérations - Pour chaque exemple dentraînement -


Télécharger ppt "IFT 615 – Intelligence artificielle Apprentissage supervisé Froduald Kabanza Département dinformatique Université de Sherbrooke planiart.usherbrooke.ca/kabanza/cours/ift615."

Présentations similaires


Annonces Google