Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur
Le maximum de vraisemblance La notion de dérivée Loptimisation La recherche des racines dune fonction et la méthode de Newton- Raphson La fonction de vraisemblance La maximisation de la fonction de vraisemblance
La notion de dérivée La dérivée dune fonction La dérivée est la pente de la droite tangente à une courbe en un point. Dans la mesure où la courbe est justement une courbe, sa tangente change dun point à lautre, et la pente de cette tangente change également dun point à lautre. Comme le point géométrique est infinitésimal, il y a un nombre infini de tangentes pour chaque courbe et donc un nombre infini de valeurs différentes pour la pente de la courbe. Si la courbe représente une fonction continue, la suite des valeurs de la pente de la tangente de chacun des points de la courbe est elle-même une fonction. La pente de la tangente à un point de la courbe qui correspond à une fonction est la dérivée de cette fonction à ce point, et la fonction qui relie toutes les valeurs des pentes des tangentes de la courbe qui correspond à cette fonction est la dérivée de cette fonction.
La notion de dérivée Soit ƒ(x) une fonction quelconque de x. La dérivée de ƒ(x), notée ƒ΄(x), est la valeur de la pente de la courbe qui décrit la relation entre ƒ(x) et x pour un changement infinitésimal de x. Si on se rappelle que la pente dune droite est le rapport des différences entre les valeurs des ordonnées et des abscisses de deux points de cette droite, la pente dune tangente quelconque dune courbe sera
La notion de dérivée La dérivée de ƒ(x) sera la fonction des valeurs des pentes de la suite de tangentes que lon obtient en considérant toutes les paires de points de la courbe séparés par une distance infinitésimale. La dérivée dune fonction est donc la limite de la pente de cette fonction lors que la distance entre deux points tend vers zéro.
La notion de dérivée On note la dérivée de différentes manières. En particulier, si y est une fonction de x, on note la dérivée de y par rapport à x
La notion de dérivée Si y est une fonction de plusieurs variables dont x, on note la dérivée partielle de y par rapport à x Comme la dérivée dune fonction continue est elle-même une fonction continue, elle a elle-même une dérivée. On peut donc parler de la deuxième dérivée (ou dérivée seconde) dune fonction, que lon note,
Loptimisation Loptimisation est la recherche du minimum ou du maximum dune fonction. Imaginons une fonction de x qui croît lorsque x augmente jusquà une certaine valeur de x et qui ensuite décroît. Cette fonction a un maximum quelle atteint lorsquelle atteint cette valeur de x.
Loptimisation Nous avons défini la dérivée dune fonction comme la suite des valeurs de la pente de la courbe décrite par cette fonction. Puisque cette fonction croît tant que x est inférieur à une certaine valeur, on sait que la dérivée de cette fonction sera supérieure à zéro pour toutes les valeurs de x inférieures à celle où la fonction atteint son maximum. Pour la même raison, on sait que la dérivée de cette fonction sera négative pour toutes les valeurs de x supérieures à celle où la fonction atteint son maximum. On en déduit que le point où une fonction atteint son maximum est également le point où sa dérivée première vaut zéro. Le même raisonnement vaut pour une fonction qui décroît jusquà une certaine valeur de x et qui croît par la suite.
Loptimisation En conséquence, si lon connaît une fonction, il suffit de trouver le point où sa dérivée première vaut zéro pour trouver son maximum ou son minimum.
Loptimisation On peut pousser ce raisonnement plus loin. Imaginons que lon ait une fonction dont on connaît lexpression mathématique, mais dont on ne sait pas si elle croît pour ensuite décroître ou bien si elle décroît pour ensuite croître. On pourra trouver la valeur de x où la dérivée première vaut zéro, mais on ne saura pas si ce point correspond au maximum ou au minimum de la fonction. La dérivée première étant elle-même une fonction, on peut en prendre la dérivée – qui sera la dérivée seconde de la fonction dorigine – et cette dérivée nous donnera la pente de la courbe associée à la dérivée première. Si la dérivée seconde est positive, la pente de la courbe de la fonction dorigine croît, ce qui signifie que cette fonction passe dune suite de valeurs négatives à une suite de valeurs positives et donc que la valeur de x pour laquelle la dérivée première est nulle est un minimum. Si, au contraire, la dérivée seconde est négative, la pente de la courbe de la fonction dorigine décroît, ce qui signifie que cette fonction passe dune suite de valeurs positives à une suite de valeurs négatives et donc que la valeur de x pour laquelle la dérivée première est nulle est un maximum.
La recherche des racines dune fonction et la méthode de Newton-Raphson Trouver le maximum dune fonction est donc laffaire dune petite série dopérations. Il faut tout dabord définir la fonction, en prendre la dérivée première et la dérivée seconde – pour sassurer, le cas échéant, que lon travaille bien à chercher un maximum et non pas un minimum – et finalement, trouver la valeur de x pour laquelle la dérivée première vaut zéro. La logique de ces opérations est simple, mais leur réalisation est parfois compliquée. La principale difficulté est quil nexiste pas de solution algébrique générale au problème des racines dune équation. Autrement dit, il nexiste pas de formule passe-partout – et dans la plupart des cas, pas de formule du tout – pour trouver les valeurs de x pour lesquelles une fonction de x vaut zéro.
La recherche des racines dune fonction et la méthode de Newton-Raphson La recherche des racines des équations na pas de solution analytique générale, mais elle a une solution algorithmique découverte indépendamment par deux mathématiciens britanniques du XVII e siècle, Isaac Newton et Joseph Raphson. Cette solution est généralement connue comme la méthode de Newton-Raphson.
La recherche des racines dune fonction et la méthode de Newton-Raphson Son principe est très simple. Supposons que lon cherche le minimum dune fonction dont on connaît la dérivée première et dont on peut donc calculer la valeur de la fonction et celle de sa dérivée première pour toute valeur de x. Choisir une valeur quelconque de x, que nous nommerons x 0, ne garantit évidemment en rien quelle sera la valeur pour laquelle la fonction atteint son minimum. Cependant, on peut calculer la dérivée première de la fonction pour cette valeur de x. Le résultat de ce calcul donne la pente de la courbe dont on cherche le maximum – ou le minimum – au point de cette courbe qui correspond à cette valeur quelconque de x.
La recherche des racines dune fonction et la méthode de Newton-Raphson Connaître la pente de la courbe à ce point nous permet de construire un triangle rectangle formé 1°par le segment perpendiculaire à laxe des abscisses qui va du point x 0 au point de la courbe qui lui correspond, 2°par le segment qui va de ce point à laxe des abscisses en formant un angle dont la tangente – au sens de la fonction trigonométrique, cest à dire le quotient f(Δx)/Δx – est la pente de la tangente à ce point et 3°le segment qui relie le point x 0 au point x 1 où le second segment rejoint laxe des abscisses.
La recherche des racines dune fonction et la méthode de Newton-Raphson
Le triangle ainsi construit permet de représenter géométriquement la logique de lalgorithme de Newton-Raphson, mais pour comprendre lorigine mathématique de lalgorithme, il est nécessaire de regarder comment se résout le problème de la limite dune fonction lorsque Δx tend vers zéro qui est à la source de la notion de dérivée.
La recherche des racines dune fonction et la méthode de Newton-Raphson Il se trouve que lon peut représenter ce quil advient dune fonction lorsque la valeur de Δx tend vers zéro par une série de Taylor de la forme : Il se trouve également que lorsque lon sapproche du point où la fonction vaut zéro, cest-à-dire lorsque Δx est vraiment petit, seuls les termes linéaires de la formule sont importants. On a donc alors
La recherche des racines dune fonction et la méthode de Newton-Raphson Puisque lon approche du point où la fonction vaut zéro, on peut écrire que f(x+Δx) = 0, ce qui implique que et que En remplaçant Δx par ce quil représente, cest-à-dire la différence entre deux valeurs de x, on obtient puis
La recherche des racines dune fonction et la méthode de Newton-Raphson Ce petit jeu permet, à partir de nimporte quelle valeur de x, de trouver une nouvelle valeur de x qui est plus proche de la valeur où la fonction prend la valeur de zéro que ne lest la première valeur choisie au hasard. Une fois cette valeur trouvée, on estime la valeur de la fonction pour cette valeur de x. Si la fonction vaut zéro ou prend une valeur que lon juge suffisamment proche de zéro, on a trouvé la valeur de x pour laquelle cette fonction vaut zéro. Si la fonction ne vaut pas zéro, il suffit de refaire le calcul à partir de x 1 plutôt que de x 0, et de recommencer jusquà ce que lon juge lévaluation de la fonction suffisamment proche de zéro. La valeur de x qui aura conduit à cette évaluation sera la solution algorithmique au problème de la fonction dont on ne peut pas trouver la racine par une solution algébrique.
La recherche des racines dune fonction et la méthode de Newton-Raphson Règle générale, on arrive à une solution satisfaisante après quelques essais. On nomme chaque essai une « itération », parce que compléter chaque essai implique que lon répète une série complète dopérations : déterminer la valeur de x 0 pour cet essai, calculer la valeur de la dérivée première pour cette valeur de x, calculer la valeur de x 1, calculer la valeur de la fonction pour cette valeur de x 1, calculer la différence entre cette valeur et la valeur obtenue à litération précédente pour sassurer que lon na pas dépassé la valeur cible. La formule de lalgorithme proprement dit se présente tout simplement comme suit :
Le maximum de vraisemblance Larticle fondateur de R. A. Fisher
Le maximum de vraisemblance La définition de la vraisemblance de R. A. Fisher Likelihood.- The likelihood that any parameter (or set of parameters) should have assigned value (or set of values) is proportional to the probability that if this were so, the totality of observations should be that observed.
La fonction de vraisemblance La méthode du maximum de vraisemblance permet, en principe, de trouver les valeurs des paramètres dune équation qui, en présumant que la structure du modèle est vraie et que les données proviennent dun échantillon probabiliste, sont les plus vraisemblables. Le membre de gauche de la fonction de vraisemblance est la vraisemblance elle-même Son membre de droite est construit à partir de lexpression algébrique de la composante aléatoire du modèle (généralement sa fonction de densité) et de la fonction de liaison. La fonction de vraisemblance relie donc la vraisemblance aux paramètres de léquation quon utilise. On présume que léchantillon est probabiliste et donc que les unités statistiques ont été échantillonnées indépendamment les unes des autres. La fonction de vraisemblance de léchantillon est donc le produit de léquation de vraisemblance de chacune des unités qui le composent.
La fonction de vraisemblance de la régression logistique La régression logistique est un modèle linéaire qui permet de relier la probabilité de réalisation dune variable dichotomique à un ensemble de variables indépendantes. On représente généralement par π i la probabilité que la variable dépendante dichotomique ne prenne pas la valeur nulle pour un cas donné. La partie déterministe du modèle relie le quotient de cette probabilité et de son complément à lexponentielle du produit matriciel des variables indépendantes et de leurs coefficients. Quelques manipulations permettent dexprimer π i en fonction des variables indépendantes et des paramètres du modèle. La composante aléatoire du modèle suit une loi binomiale. Ceci entraîne que la fonction de vraisemblance de la régression logistique est de la forme
La fonction de vraisemblance de la régression logistique On fait le grand saut en remplaçant π i par son expression en fonction des variables indépendantes et des paramètres. Le logarithme de la fonction de vraisemblance de la régression logistique sera donc
La maximisation de la fonction de vraisemblance Notre but est de trouver le maximum dune fonction. On cherchera donc la valeur de β où la dérivée première de cette fonction vaudra zéro. Pour y parvenir, il nous faudra utiliser la dérivée de cette dérivée, cest-à-dire la dérivée seconde de la fonction de vraisemblance. On se trouve donc dans un cas de la forme
La maximisation de la fonction de vraisemblance Il est rare que lon estime une équation qui ne contient quune seule variable indépendante. Dans la plupart des cas, au contraire, léquaiton contient plusieurs variables indépendantes et il y a donc plusieurs paramètres à estimer. Les programmes de maximisation ne sont donc pas écrits pour estimer un seul paramètre à la fois, mais plutôt pour en estimer plusieurs. Autrement dit, un programme de maximisation nest pas lopérationnalisation de léquation mais plutôt lopérationnalisation de son équivalent matriciel
La maximisation de la fonction de vraisemblance Dans cette équation, β désigne le vecteur des estimés des paramètres, g est le vecteur des dérivées partielles premières du logarithme de la fonction de vraisemblance par rapport à β et H est la matrice des dérivées partielles secondes du logarithme de la fonction de vraisemblance par rapport à β.
En calcul différentiel, le vecteur ayant pour composantes les dérivées premières partielles dune fonction par rapport à chacune de ses variables se nomme le gradient, doù lusage de la lettre « g » pour le désigner. La matrice par laquelle le gradient est divisé est la matrice Hessienne, doù lusage de la lettre « H » pour la désigner. Elle est le résultat de lopération matricielle qui correspond à prendre la dérivée seconde du logarithme de la fonction de vraisemblance par rapport aux paramètres.
a/(1-a)=b a=b/(1+b)