Des mathématiques derrière l’intelligence artificielle

Slides:

Advertisements

Présentations similaires

Activité 1 OBJECTIF : Réalisation de tâches dites complexes pour identifier différentes dimensions qui permettent de rendre compte de la complexité de.

Advertisements

Introduction à la notion de fonction 1. Organisation et gestion de données, fonctions 1.1. Notion de fonction ● Déterminer l'image d'un nombre par une.

Animation pédagogique résolution de problèmes au cycle 3.

Nouveau programme de 3ème Probabilités Document de travail – Académie de Rouen

Réalisation collective Réalisation individuelle Fournisseur : Jeulin Coût total par élève de la réalisation: 4,91€ HT ( calcul basé sur effectif de.

Déchets zéro? Si! Interprétation finale des questionnaires.

LES PRATIQUES D’EVALUATION EN SVT DEFINITIONS OBJECTIFS MODALITES

Exploitation de mesures scientifiques.

De la fonction à la dérivée : la covariation à la rescousse!

Calcul et interprétation de taux de variation

Application des lois de probabilité -Variable aléatoire discrète-

Outils de Recherche Opérationnelle en Génie MTH 8414

épreuve E6 questionnement possible

Étude de la fonction f(x) = x² avec Cabri Géomètre II Plus

Corrélation et causalité

Information, Calcul, Communication

Entraînement et évaluation d’une méthode de régression

Chapitre 4: Variation dans le temps

Les graphiques en sciences physiques

Analyse temporelle des systèmes asservis

2°9 lycée Beauregard à Montbrison

Plans d’expériences: Plans factoriels

Chapitre 7: L’algèbre des vecteurs

Les Plans d’expériences: Plans Factoriels

Plans d’expériences: Plans factoriels.

STRATÉGIES ET INSTRUMENTS D´ÉVALUATION

Technologies de l’intelligence d’affaires Séance 14

Mouvement harmonique simple

Déchets zéro? Si! Interprétation finale des questionnaires

Le choix optimal.

Canaux choisis :

Stabilité des porteurs horizontaux (Poutres)

Journée « portes ouvertes »

Réseaux de neurones appliqués à la reconnaissance de caractères

Détecteurs et descripteurs

POL1803: Analyse des techniques quantitatives

Évaluations par compétences

La mission SUIVI DE GESTION

SDRP & MA Problème du rendez vous : un algorithme probabiliste et une analyse probabiliste 09/11/2018.

CHAPTER 2: Apprentissage supervisé

LES ÎLOTS BONIFIES.

A l’aide du triangle pédagogique de Jean Houssaye

Cours du Professeur TANGOUR

Les Sciences Physiques

Lois de Probabilité Discrètes

Question flash TSTI2D.

Épreuve écrite E4.1 BTS CG Session /02/2017.

LE processus d’enquête

Élections locales probabilistes

Université de la méditerranée

Langages de programmation TP11

Réalisé Par : Ahmed Ben Dahmen Slimen Ouni Chahed Ben Slama

Présentation 4 : Sondage stratifié

Présentation 9 : Calcul de précision des estimateurs complexes

MATHÉMATIQUES FINANCIÈRES I

Reconnaissance de formes: lettres/chiffres

Présentation 6 : Sondage à plusieurs degrés

Analyse des données et complémentarité des sources

GYMNASTIQUE ARTISTIQUE FEMININE Programme Fédéral A

Tableaux croisés dynamiques sous Excel: des outils simples pour une analyse rapide de jeux de données en cytométrie Camille SANTA MARIA Ingénieur d’étude.

Chapitre 12 : Notion de fonction

Métacognition : le savoir sur son propre savoir

Sigle optionnel en français FBD

Reconnaître les multiples de 20, de 25

La loi des signes.

Un autre phénomène absolument extraordinaire.

spécialité mathématiques Première

Cartographie Numérique

Dérivation – Fonctions cosinus et sinus

Transcription de la présentation:

Des mathématiques derrière l’intelligence artificielle Adrien Deliège adrien.deliege@uliege.be Université de Liège 16 mars 2018

Apprendre à l’ordinateur à reconnaître les images 1. Les données 60.000 images de chiffres, 28 x 28 pixels/image, 10 chiffres différents M n K Objectif Apprendre à l’ordinateur à reconnaître les images

Apprendre à l’ordinateur à reconnaître les images 1. Les données 60.000 images de chiffres, 28 x 28 pixels/image, 10 chiffres différents 𝒅 𝟏,𝟏 𝒅 𝟏,𝟐 … 𝒅 𝟏,𝟐𝟖 𝒅 𝟐,𝟏 𝒅 𝟐𝟖,𝟐𝟕 𝒅 𝟐𝟖,𝟐𝟖 𝒅 𝟏 𝒅 𝟐 … 𝒅 𝟐𝟖 𝒅 𝟐𝟗 𝒅 𝒏−𝟏 𝒅 𝒏 M n K Objectif : Apprendre à l’ordinateur à reconnaître les images 𝒅 𝟏,𝟏 𝒅 𝟏,𝟐 … 𝒅 𝟏,𝟐𝟕 𝒅 𝟏,𝟐𝟖 𝒅 𝟐,𝟏 𝒅 𝟐𝟕,𝟏 𝒅 𝟐𝟖,𝟏 𝒅 𝟐𝟖,𝟐𝟕 𝒅 𝟐𝟖,𝟐𝟖 = Image

1. Les données 𝒅 𝟏,𝟏 𝒅 𝟏,𝟐 … 𝒅 𝟏,𝟐𝟖 𝒅 𝟐,𝟏 𝒅 𝟐𝟖,𝟐𝟕 𝒅 𝟐𝟖,𝟐𝟖 𝒅 𝟏 𝒅 𝟐 … 𝒅 𝟐𝟗 𝒅 𝒏−𝟏 𝒅 𝒏 𝒅 𝟏,𝟏 𝒅 𝟏,𝟐 … 𝒅 𝟏,𝟐𝟕 𝒅 𝟏,𝟐𝟖 𝒅 𝟐,𝟏 𝒅 𝟐𝟕,𝟏 𝒅 𝟐𝟖,𝟏 𝒅 𝟐𝟖,𝟐𝟕 𝒅 𝟐𝟖,𝟐𝟖 = Image

2. Scores et probabilités 1. Les données 2. Scores et probabilités Score de la classe ‘1’ Par exemple : 𝑠 1 =3 𝑑 1 −5 𝑑 2 +…+2 𝑑 𝑛−1 − 𝑑 𝑛 𝒅 𝟏,𝟏 𝒅 𝟏,𝟐 … 𝒅 𝟏,𝟐𝟖 𝒅 𝟐,𝟏 𝒅 𝟐𝟖,𝟐𝟕 𝒅 𝟐𝟖,𝟐𝟖 𝒅 𝟏 𝒅 𝟐 … 𝒅 𝟐𝟖 𝒅 𝟐𝟗 𝒅 𝒏−𝟏 𝒅 𝒏 3 -5 𝒔 𝟏 𝒔 𝟐 𝒔 𝟑 𝒔 𝟒 𝒔 𝟓 𝒔 𝟔 𝒔 𝟕 𝒔 𝟖 𝒔 𝟗 𝒔 𝟎 𝒅 𝟏,𝟏 𝒅 𝟏,𝟐 … 𝒅 𝟏,𝟐𝟕 𝒅 𝟏,𝟐𝟖 𝒅 𝟐,𝟏 𝒅 𝟐𝟕,𝟏 𝒅 𝟐𝟖,𝟏 𝒅 𝟐𝟖,𝟐𝟕 𝒅 𝟐𝟖,𝟐𝟖 = 2 -1 Image

2. Scores et probabilités Score de la classe ‘1’ Par exemple : 𝑠 1 =3 𝑑 1 −5 𝑑 2 +…+2 𝑑 𝑛−1 − 𝑑 𝑛 𝒅 𝟏 𝒅 𝟐 … 𝒅 𝟐𝟖 𝒅 𝟐𝟗 𝒅 𝒏−𝟏 𝒅 𝒏 𝑥 1,1 3 -5 𝑥 2,1 𝒔 𝟏 𝒔 𝟐 𝒔 𝟑 𝒔 𝟒 𝒔 𝟓 𝒔 𝟔 𝒔 𝟕 𝒔 𝟖 𝒔 𝟗 𝒔 𝟎 De manière générale : 𝑠 1 = 𝑑 1 𝑥 1,1 + 𝑑 2 𝑥 2,1 +…+ 𝑑 𝑛−1 𝑥 𝑛−1,1 + 𝑑 𝑛 𝑥 𝑛,1 𝑠 1 = 𝑖=1 𝑛 𝑑 𝑖 𝑥 𝑖,1 Note : 𝑠 1 est calculé avec les mêmes poids 𝑥 𝑖,1 pour toutes les images. 𝑥 𝑛−1,1 2 -1 𝑥 𝑛,1

2. Scores et probabilités Score de la classe ‘2’ Par exemple : 𝑠 2 =4 𝑑 1 +2 𝑑 2 +…+4 𝑑 𝑛−1 − 3𝑑 𝑛 𝒅 𝟏 𝒅 𝟐 … 𝒅 𝟐𝟖 𝒅 𝟐𝟗 𝒅 𝒏−𝟏 𝒅 𝒏 𝑥 1,2 𝑥 2,2 𝒔 𝟏 𝒔 𝟐 𝒔 𝟑 𝒔 𝟒 𝒔 𝟓 𝒔 𝟔 𝒔 𝟕 𝒔 𝟖 𝒔 𝟗 𝒔 𝟎 De manière générale : 𝑠 1 = 𝑑 1 𝑥 1,2 + 𝑑 2 𝑥 2,2 +…+ 𝑑 𝑛−1 𝑥 𝑛−1,2 + 𝑑 𝑛 𝑥 𝑛,2 𝑠 2 = 𝑖=1 𝑛 𝑑 𝑖 𝑥 𝑖,2 Note : 𝑠 2 est calculé avec les mêmes poids 𝑥 𝑖,2 pour toutes les images. 𝑥 𝑛−1,2 𝑥 𝑛,2

2. Scores et probabilités Score de la classe ‘2’ Par exemple : 𝑠 2 =4 𝑑 1 +2 𝑑 2 +…+4 𝑑 𝑛−1 − 3𝑑 𝑛 𝒅 𝟏 𝒅 𝟐 … 𝒅 𝟐𝟖 𝒅 𝟐𝟗 𝒅 𝒏−𝟏 𝒅 𝒏 𝑥 1,2 𝑥 2,2 𝒔 𝟏 𝒔 𝟐 𝒔 𝟑 𝒔 𝟒 𝒔 𝟓 𝒔 𝟔 𝒔 𝟕 𝒔 𝟖 𝒔 𝟗 𝒔 𝟎 De manière générale : 𝑠 1 = 𝑑 1 𝑥 1,2 + 𝑑 2 𝑥 2,2 +…+ 𝑑 𝑛−1 𝑥 𝑛−1,2 + 𝑑 𝑛 𝑥 𝑛,2 𝑠 2 = 𝑖=1 𝑛 𝑑 𝑖 𝑥 𝑖,2 Note : 𝑠 2 est calculé avec les mêmes poids 𝑥 𝑖,2 pour toutes les images. 𝑥 𝑛−1,2 𝑥 𝑛,2

2. Scores et probabilités 0,3 5,4 2,1 -3,6 -0,2 1,1 0,6 -0,1 1,4 0,7 6,2 5,4 7,4 -2,1 -3 7,1 2,3 1,5 6,4 3,2 Quand est-ce qu’un score est grand ? Cela dépend des autres scores ! A-t-on vraiment envie de traiter des scores négatifs ?

2. Scores et probabilités QUESTION 0,3 5,4 2,1 -3,6 -0,2 1,1 0,6 -0,1 1,4 0,7 Quand est-ce qu’un score est grand ? Cela dépend des autres scores ! A-t-on vraiment envie de traiter des scores négatifs ? Pouvez-vous donner une fonction 𝑓 qui permet de transformer n’importe quel réel en un réel positif, et de sorte que si 𝑎<𝑏 alors 𝑓 𝑎 <𝑓(𝑏) ?

2. Scores et probabilités QUESTION 0,3 5,4 2,1 -3,6 -0,2 1,1 0,6 -0,1 1,4 0,7 1,35 221,41 8,17 0,03 0,82 3,01 1,82 0,90 4,06 2,01 Comment relativiser ces nombres les uns par rapport aux autres ? Pouvez-vous donner une fonction 𝑓 qui permet de transformer n’importe quel réel en un réel positif, et de sorte que si 𝑎<𝑏 alors 𝑓 𝑎 <𝑓(𝑏) ? 𝒆 𝒙 L’exponentielle

2. Scores et probabilités QUESTION 0,3 5,4 2,1 -3,6 -0,2 1,1 0,6 -0,1 1,4 0,7 1,35 221,41 8,17 0,03 0,82 3,01 1,82 0,90 4,06 2,01 0,005 0,910 0,034 0,000 0,003 0,012 0,007 0,004 0,017 0,008 Comment relativiser ces nombres les uns par rapport aux autres ? 𝒆 𝒙 ÷ 243,58 En calculant quel pourcentage du total représente chaque nombre. On obtient alors un vecteur de probabilités. Total : 243,58 Total : 1

2. Scores et probabilités QUESTION 0,3 5,4 2,1 -3,6 -0,2 1,1 0,6 -0,1 1,4 0,7 1,35 221,41 8,17 0,03 0,82 3,01 1,82 0,90 4,06 2,01 0,005 0,910 0,034 0,000 0,003 0,012 0,007 0,004 0,017 0,008 Comment relativiser ces nombres les uns par rapport aux autres ? 𝒆 𝒙 ÷ 243,58 En calculant quel pourcentage du total représente chaque nombre. On obtient alors un vecteur de probabilités. Total : 243,58 Total : 1

2. Scores et probabilités 𝒅 𝟏 𝒅 𝟐 … 𝒅 𝒏−𝟏 𝒅 𝒏 𝑥 𝑖,𝑗 𝑠 𝑗 = 𝑖=1 𝑛 𝑑 𝑖 𝑥 𝑖,𝑗 𝑝 𝑗 = 𝑒 𝑠 𝑗 𝑗=1 10 𝑒 𝑠 𝑗 𝒔 𝟏 𝒔 𝟐 𝒔 𝟑 𝒔 𝟒 𝒔 𝟓 𝒔 𝟔 𝒔 𝟕 𝒔 𝟖 𝒔 𝟗 𝒔 𝟎 𝒑 𝟏 𝒑 𝟐 𝒑 𝟑 𝒑 𝟒 𝒑 𝟓 𝒑 𝟔 𝒑 𝟕 𝒑 𝟖 𝒑 𝟗 𝒑 𝟎

2. Scores et probabilités 𝒅 𝟏 𝒅 𝟐 … 𝒅 𝒏−𝟏 𝒅 𝒏 𝑥 𝑖,𝑗 𝑠 𝑗 = 𝑖=1 𝑛 𝑑 𝑖 𝑥 𝑖,𝑗 𝑝 𝑗 = 𝑒 𝑠 𝑗 𝑗=1 10 𝑒 𝑠 𝑗 𝒔 𝟏 𝒔 𝟐 𝒔 𝟑 𝒔 𝟒 𝒔 𝟓 𝒔 𝟔 𝒔 𝟕 𝒔 𝟖 𝒔 𝟗 𝒔 𝟎 𝒑 𝟏 𝒑 𝟐 𝒑 𝟑 𝒑 𝟒 𝒑 𝟓 𝒑 𝟔 𝒑 𝟕 𝒑 𝟖 𝒑 𝟗 𝒑 𝟎

2. Scores et probabilités 𝒅 𝟏 𝒅 𝟐 … 𝒅 𝒏−𝟏 𝒅 𝒏 𝑥 𝑖,𝑗 𝑠 𝑗 = 𝑖=1 𝑛 𝑑 𝑖 𝑥 𝑖,𝑗 𝑝 𝑗 = 𝑒 𝑠 𝑗 𝑗=1 10 𝑒 𝑠 𝑗 𝒔 𝟏 𝒔 𝟐 𝒔 𝟑 𝒔 𝟒 𝒔 𝟓 𝒔 𝟔 𝒔 𝟕 𝒔 𝟖 𝒔 𝟗 𝒔 𝟎 𝒑 𝟏 𝒑 𝟐 𝒑 𝟑 𝒑 𝟒 𝒑 𝟓 𝒑 𝟔 𝒑 𝟕 𝒑 𝟖 𝒑 𝟗 𝒑 𝟎

2. Scores et probabilités 𝑠 𝑗 = 𝑖=1 𝑛 𝑑 𝑖 𝑥 𝑖,𝑗 𝑝 𝑗 = 𝑒 𝑠 𝑗 𝑗=1 10 𝑒 𝑠 𝑗 Notre but est de trouver les meilleurs 𝑥 𝑖,𝑗 possibles de sorte que - les images des ‘1’ aient toutes une grande valeur de 𝑝 1 (et donc des petites valeurs pour les autres 𝑝 𝑗 ), - les images des ‘2’ aient toutes une grande valeur de 𝑝 2 (et donc des petites valeurs pour les autres 𝑝 𝑗 ), - etc. 𝒑 𝟏 𝒑 𝟐 𝒑 𝟑 𝒑 𝟒 𝒑 𝟓 𝒑 𝟔 𝒑 𝟕 𝒑 𝟖 𝒑 𝟗 𝒑 𝟎 Mesurons les performances de l’algorithme pour lui donner un feedback

3. Fonction de coût Prédiction Solution Erreur mineure Coût faible 0,02 0,87 0,01 0,03 1 Si 𝑝 2 →1, il faudrait 𝑐𝑜û𝑡 →0

3. Fonction de coût Prédiction Solution Erreur très grave Coût très élevé 0,23 0,03 0,17 0,08 0,02 0,16 0,14 0,11 0,04 1 Si 𝑝 2 →0, il faudrait 𝑐𝑜û𝑡 →+∞

3. Fonction de coût Pouvez-vous donner une fonction 𝒇 telle que Prédiction Solution Pouvez-vous donner une fonction 𝒇 telle que 𝐥𝐢𝐦 𝒙→ 𝟎 + 𝒇 𝒙 =+∞ et 𝒇 𝟏 =𝟎 ? Erreur très grave Coût très élevé 0,23 0,03 0,17 0,08 0,02 0,16 0,14 0,11 0,04 1 Si 𝑝 2 →0, il faudrait 𝑐𝑜û𝑡 →+∞

3. Fonction de coût Pouvez-vous donner une fonction 𝒇 telle que 𝐥𝐢𝐦 𝒙→ 𝟎 + 𝒇 𝒙 =+∞ et 𝒇 𝟏 =𝟎 ? Par exemple : −𝐥𝐧⁡(𝒙) (ou encore : 𝟏 𝒙 −𝟏)

3. Fonction de coût Prédiction Solution Coût 0,02 0,87 0,01 0,03 1 1 − ln 0,87 =0,14

3. Fonction de coût Prédiction Solution Coût 0,23 0,03 0,17 0,08 0,02 0,16 0,14 0,11 0,04 1 − ln 0,03 =3,51 Si on a le nombre ‘j’ en entrée, le coût associé est −ln⁡( 𝑝 𝑗 ).

3. Fonction de coût Prédiction Solution Coût M images 0,23 0,03 0,17 0,08 0,02 0,16 0,14 0,11 0,04 1 − ln 0,03 =3,51 Calculs avec les paramètres 𝑥 𝑖,𝑗 Si on a le nombre ‘j’ en entrée, le coût associé est −ln⁡( 𝑝 𝑗 ). M coûts qui dépendent des 𝑥 𝑖,𝑗

3. Fonction de coût Coût total Mathématisation du problème : M images 𝐶( 𝑥 1,1 , 𝑥 1,2 ,…, 𝑥 𝑛,𝐾 )= 𝑚=1 𝑀 𝐶 𝑚 ( 𝑥 1,1 , 𝑥 1,2 ,…, 𝑥 𝑛,𝐾 ) Calculs avec les paramètres 𝑥 𝑖,𝑗 Coût de la 𝑚 𝑖è𝑚𝑒 image M coûts qui dépendent des 𝑥 𝑖,𝑗 Mathématisation du problème : Trouver les paramètres 𝒙 𝒊,𝒋 qui minimisent le coût total ! Problème d’optimisation !

4. Dérivée et apprentissage Problème d’optimisation classique : - On a 𝑓 𝑥 - On calcule 𝑓′(𝑥) - On réalise un tableau de signes de 𝑓′(𝑥) - On en déduit la (dé)croissance de 𝑓(𝑥) - On identifie les extrema En pratique, ce n’est pas aussi simple ! Commençons par supposer que notre coût dépend d’une seule variable 𝑥.

4. Dérivée et apprentissage 𝐶 𝑥 =𝑎 𝑥 4 +𝑏 𝑥 3 +𝑐 𝑥 2 +𝑑𝑥+𝑒 𝑎=0.22, b=−2.15, c=6.67, d=−8.82, e=9.34 Problème d’optimisation classique : - On a 𝑓(x) - On calcule 𝑓′(𝑥) - On réalise un tableau de signes de 𝑓′(𝑥) - On en déduit la (dé)croissance de 𝑓(x) - On identifie les extrema En pratique, ce n’est pas aussi simple ! Commençons par supposer que notre coût dépend d’une seule variable 𝑥. But : obtenir l’abscisse du minimum, c-à-d la valeur de 𝑥 𝑚𝑖𝑛 𝑥 𝑚𝑖𝑛

4. Dérivée et apprentissage 𝐶 𝑥 =𝑎 𝑥 4 +𝑏 𝑥 3 +𝑐 𝑥 2 +𝑑𝑥+𝑒 𝑎=0.22, b=−2.15, c=6.67, d=−8.82, e=9.34 But : obtenir l’abscisse du minimum, c-à-d la valeur de 𝑥 𝑚𝑖𝑛 𝑥 𝑚𝑖𝑛

4. Dérivée et apprentissage 𝐶 𝑥 =𝑎 𝑥 4 +𝑏 𝑥 3 +𝑐 𝑥 2 +𝑑𝑥+𝑒 𝑎=0.22, b=−2.15, c=6.67, d=−8.82, e=9.34 But : obtenir l’abscisse du minimum, c-à-d la valeur de 𝑥 𝑚𝑖𝑛 𝑥 𝑚𝑖𝑛

4. Dérivée et apprentissage

4. Dérivée et apprentissage Prenons au hasard une valeur initiale pour 𝑥 et calculons 𝐶 𝑥 .

4. Dérivée et apprentissage Prenons au hasard une valeur initiale pour 𝑥 et calculons 𝐶 𝑥 . Ce que voit l’humain qui triche Ce que sait l’ordinateur

4. Dérivée et apprentissage La dérivée, en quelques mots La dérivée de 𝒇 en 𝒂, notée 𝒇′(𝒂), est définie par 𝒇 ′ 𝒂 = lim 𝒙→𝒂 𝒇 𝒙 −𝒇(𝒂) 𝒙−𝒂 La pente de la tangente au graphe de 𝒇 en (𝒂, 𝒇 𝒂 ) est donnée par 𝒇 ′ 𝒂 , 𝒆𝒕 𝒕 𝒂 ≡𝒚 −𝒇 𝒂 = 𝒇 ′ 𝒂 (𝒙−𝒂) Ce que voit l’humain qui triche Ce que sait l’ordinateur Note : Connaissant la valeur initiale 0.7, les opérations successives qui lui sont appliquées, et la valeur finale obtenue 𝐶(0.7), l’ordinateur peut calculer directement 𝐶′(0.7) sans passer par le calcul de 𝐶′(𝑥) puis son évaluation en 0.7 Pour obtenir l’information sur la pente, l’ordinateur doit calculer 𝑪′(𝟎.𝟕)

4. Dérivée et apprentissage Ce que voit l’humain qui triche Ce que sait l’ordinateur 𝐶 ′ 0.7 =−2.34 Réessayer avec une valeur >0.7 Suggestion : 0.7 − 𝐶 ′ 0.7 =3.04

4. Dérivée et apprentissage Ce que voit l’humain qui triche Ce que sait l’ordinateur 𝐶 ′ 3.04 =−2.37 Réessayer avec une valeur >3.04 Suggestion : 3.04 − 𝐶 ′ 3.04 =5.41

4. Dérivée et apprentissage Ce que voit l’humain qui triche Ce que sait l’ordinateur 𝐶 ′ 5.41 =18.75 Réessayer avec une valeur <5.41 Suggestion : 5.41 − 𝐶 ′ 5.41 =−13.34

4. Dérivée et apprentissage Ce que voit l’humain qui triche Ce que sait l’ordinateur 𝐶 ′ −13.34 =−3509.22 On fait des sauts trop grands, ça ne converge pas !

4. Dérivée et apprentissage Ce que voit l’humain qui triche Ce qu’on a fait Ce qu’on va faire Ce que sait l’ordinateur 𝐶ℎ𝑜𝑖𝑠𝑖𝑟 𝑥 0 𝑎𝑢 ℎ𝑎𝑠𝑎𝑟𝑑, 𝑝𝑢𝑖𝑠 𝑥 1 = 𝑥 0 − 𝐶 ′ 𝑥 0 𝑥 2 = 𝑥 1 − 𝐶 ′ 𝑥 1 𝑥 3 = 𝑥 2 − 𝐶 ′ 𝑥 2 … 𝒙 𝒊 = 𝒙 𝒊−𝟏 − 𝑪 ′ 𝒙 𝒊−𝟏 𝐶ℎ𝑜𝑖𝑠𝑖𝑟 𝑥 0 𝑎𝑢 ℎ𝑎𝑠𝑎𝑟𝑑, 𝑝𝑢𝑖𝑠 𝑥 1 = 𝑥 0 − 𝜆𝐶 ′ 𝑥 0 𝑥 2 = 𝑥 1 − 𝜆𝐶 ′ 𝑥 1 𝑥 3 = 𝑥 2 − 𝜆𝐶 ′ 𝑥 2 … 𝒙 𝒊 = 𝒙 𝒊−𝟏 − 𝜆𝑪 ′ 𝒙 𝒊−𝟏 𝒙 𝒕𝒆𝒔𝒕 ← 𝒙 𝒕𝒆𝒔𝒕 − 𝜆𝑪 ′ 𝒙 𝒕𝒆𝒔𝒕 𝐶 ′ −13.34 =−3509.22 Ce saut est généralement trop grand On fait des sauts trop grands, ça ne converge pas ! Avec, par exemple, 𝜆=0.2

4. Dérivée et apprentissage Ce qu’on a fait Ce qu’on va faire 𝐶ℎ𝑜𝑖𝑠𝑖𝑟 𝑥 0 𝑎𝑢 ℎ𝑎𝑠𝑎𝑟𝑑, 𝑝𝑢𝑖𝑠 𝑥 1 = 𝑥 0 − 𝐶 ′ 𝑥 0 𝑥 2 = 𝑥 1 − 𝐶 ′ 𝑥 1 𝑥 3 = 𝑥 2 − 𝐶 ′ 𝑥 2 … 𝒙 𝒊 = 𝒙 𝒊−𝟏 − 𝑪 ′ 𝒙 𝒊−𝟏 𝐶ℎ𝑜𝑖𝑠𝑖𝑟 𝑥 0 𝑎𝑢 ℎ𝑎𝑠𝑎𝑟𝑑, 𝑝𝑢𝑖𝑠 𝑥 1 = 𝑥 0 − 𝜆𝐶 ′ 𝑥 0 𝑥 2 = 𝑥 1 − 𝜆𝐶 ′ 𝑥 1 𝑥 3 = 𝑥 2 − 𝜆𝐶 ′ 𝑥 2 … 𝒙 𝒊 = 𝒙 𝒊−𝟏 − 𝜆𝑪 ′ 𝒙 𝒊−𝟏 𝒙 𝒕𝒆𝒔𝒕 ← 𝒙 𝒕𝒆𝒔𝒕 − 𝜆𝑪 ′ 𝒙 𝒕𝒆𝒔𝒕 Ce saut est généralement trop grand Avec, par exemple, 𝜆=0.2

4. Dérivée et apprentissage Ce qu’on a fait Ce qu’on va faire 𝐶ℎ𝑜𝑖𝑠𝑖𝑟 𝑥 0 𝑎𝑢 ℎ𝑎𝑠𝑎𝑟𝑑, 𝑝𝑢𝑖𝑠 𝑥 1 = 𝑥 0 − 𝐶 ′ 𝑥 0 𝑥 2 = 𝑥 1 − 𝐶 ′ 𝑥 1 𝑥 3 = 𝑥 2 − 𝐶 ′ 𝑥 2 … 𝒙 𝒊 = 𝒙 𝒊−𝟏 − 𝑪 ′ 𝒙 𝒊−𝟏 𝐶ℎ𝑜𝑖𝑠𝑖𝑟 𝑥 0 𝑎𝑢 ℎ𝑎𝑠𝑎𝑟𝑑, 𝑝𝑢𝑖𝑠 𝑥 1 = 𝑥 0 − 𝜆𝐶 ′ 𝑥 0 𝑥 2 = 𝑥 1 − 𝜆𝐶 ′ 𝑥 1 𝑥 3 = 𝑥 2 − 𝜆𝐶 ′ 𝑥 2 … 𝒙 𝒊 = 𝒙 𝒊−𝟏 − 𝜆𝑪 ′ 𝒙 𝒊−𝟏 𝒙 𝒕𝒆𝒔𝒕 ← 𝒙 𝒕𝒆𝒔𝒕 − 𝜆𝑪 ′ 𝒙 𝒕𝒆𝒔𝒕 Ce saut est généralement trop grand Avec, par exemple, 𝜆=0.2

4. Dérivée et apprentissage

4. Dérivée et apprentissage

4. Dérivée et apprentissage

4. Dérivée et apprentissage

4. Dérivée et apprentissage

4. Dérivée et apprentissage Comment faire quand on a plusieurs variables ? On a ici 𝑛 ∗10 variables, avec 𝑛=28 ∗28=784 →7840 variables ! Gérer la/les dérivée(s) ?!

4. Dérivée et apprentissage Comment faire quand on a plusieurs variables ? Soit la fonction de deux variables suivante 𝑓 𝑥,𝑦 = 𝑥 2 𝑦 3 + sin (4𝑥+ cos (5𝑦) ) On peut dériver par rapport à 𝑥 en considérant que 𝑦 est une constante 𝜕𝑓 𝜕𝑥 𝑥,𝑦 =2𝑥 𝑦 3 + 4cos 4𝑥+ cos (5𝑦) On peut dériver par rapport à 𝑦 en considérant que 𝑥 est une constante 𝜕𝑓 𝜕𝑦 𝑥,𝑦 =3 𝑥 2 𝑦 2 − 5cos 4𝑥+ cos (5𝑦) sin (5𝑦) On a ici 𝑛 ∗10 variables, avec 𝑛=28 ∗28=784 →7840 variables ! Gérer la/les dérivée(s) ?!

4. Dérivée et apprentissage Comment faire quand on a plusieurs variables ? Avec une seule variable 𝑥 Avec plusieurs variables 𝑥 𝑖,𝑗 Le coût est 𝐶(𝑥) 𝐶ℎ𝑜𝑖𝑠𝑖𝑟 𝑥 𝑡𝑒𝑠𝑡 𝑎𝑢 ℎ𝑎𝑠𝑎𝑟𝑑, 𝑝𝑢𝑖𝑠 𝒙 𝒕𝒆𝒔𝒕 ← 𝒙 𝒕𝒆𝒔𝒕 − λ𝑪 ′ 𝒙 𝒕𝒆𝒔𝒕 On a ici 𝑛 ∗10 variables, avec 𝑛=28 ∗28=784 →7840 variables ! Le coût est 𝐶( 𝑥 1,1 , 𝑥 1,2 ,…, 𝑥 𝑛,𝐾 ) 𝑃𝑜𝑢𝑟 𝑐ℎ𝑎𝑞𝑢𝑒 𝑖,𝑗, 𝑐ℎ𝑜𝑖𝑠𝑖𝑟 𝑥 𝑖,𝑗, 𝑡𝑒𝑠𝑡 𝑎𝑢 ℎ𝑎𝑠𝑎𝑟𝑑, 𝑝𝑢𝑖𝑠 𝒙 𝒊,𝒋,𝒕𝒆𝒔𝒕 ← 𝒙 𝒊,𝒋,𝒕𝒆𝒔𝒕 −λ 𝝏𝑪 𝝏 𝒙 𝒊,𝒋 ( 𝒙 𝟏,𝟏,𝒕𝒆𝒔𝒕 , 𝒙 𝟏,𝟐,𝒕𝒆𝒔𝒕 ,…, 𝒙 𝒏,𝑲,𝒕𝒆𝒔𝒕 ) 𝜕𝐶 𝜕𝑥 ( 𝑥 𝑡𝑒𝑠𝑡 ) L’ordinateur apprend, s’améliore, devient ‘intelligent’ ! Quand faut-il arrêter le processus ? Gérer la/les dérivée(s) ?!

4. Dérivée et apprentissage Comment faire quand on a plusieurs variables ? Avec une seule variable 𝑥 Avec plusieurs variables 𝑥 𝑖,𝑗 Le coût est 𝐶(𝑥) 𝐶ℎ𝑜𝑖𝑠𝑖𝑟 𝑥 𝑡𝑒𝑠𝑡 𝑎𝑢 ℎ𝑎𝑠𝑎𝑟𝑑, 𝑝𝑢𝑖𝑠 𝒙 𝒕𝒆𝒔𝒕 ← 𝒙 𝒕𝒆𝒔𝒕 − λ𝑪 ′ 𝒙 𝒕𝒆𝒔𝒕 Le coût est 𝐶( 𝑥 1,1 , 𝑥 1,2 ,…, 𝑥 𝑛,𝐾 ) 𝑃𝑜𝑢𝑟 𝑐ℎ𝑎𝑞𝑢𝑒 𝑖,𝑗, 𝑐ℎ𝑜𝑖𝑠𝑖𝑟 𝑥 𝑖,𝑗, 𝑡𝑒𝑠𝑡 𝑎𝑢 ℎ𝑎𝑠𝑎𝑟𝑑, 𝑝𝑢𝑖𝑠 𝒙 𝒊,𝒋,𝒕𝒆𝒔𝒕 ← 𝒙 𝒊,𝒋,𝒕𝒆𝒔𝒕 −λ 𝝏𝑪 𝝏 𝒙 𝒊,𝒋 ( 𝒙 𝟏,𝟏,𝒕𝒆𝒔𝒕 , 𝒙 𝟏,𝟐,𝒕𝒆𝒔𝒕 ,…, 𝒙 𝒏,𝑲,𝒕𝒆𝒔𝒕 ) 𝜕𝐶 𝜕𝑥 ( 𝑥 𝑡𝑒𝑠𝑡 ) L’ordinateur apprend, s’améliore, devient ‘intelligent’ ! Quand faut-il arrêter le processus ?

5. Surapprentissage Intuition : plus on laisse l’ordinateur apprendre, plus il devient fort. Oui et non ! Oui sur les données d’entraînement, non sur de nouvelles données. Il y a surapprentissage !

5. bis - Surapprentissage Source : https://data.oecd.org/belgium.htm

5. bis - Surapprentissage Épreuve de modélisation Arthur, 5A5, CRMT Aziz, 5A5, CRMT

5. bis - Surapprentissage Épreuve de modélisation Arthur, 5A5, CRMT Aziz, 5A5, CRMT

5. bis - Surapprentissage Épreuve de modélisation Arthur, 5A5, CRMT Aziz, 5A5, CRMT Fonction 𝑓d’ Arthur : 𝑓 𝑥 = 4.6 10 24 𝑥 10 − 1.8 10 20 𝑥 9 − 6.1 10 18 𝑥 8 + 4.9 10 14 𝑥 7 + 9.7 10 11 𝑥 6 + 4.9 10 11 𝑥 5 − 3.8 10 4 𝑥 4 − 7.7 10 𝑥 3 + 379.8 𝑥 2 +4.5∗ 10 6 𝑥 −4.5∗ 10 9 Fonction 𝑓d’ Aziz : 𝑓 𝑥 =0.0239𝑥−37.56 Excellent ! Satisfaisant

5. bis - Surapprentissage Épreuve de prédiction Épreuve de modélisation Arthur, 5A5, CRMT Aziz, 5A5, CRMT Fonction 𝑓d’ Arthur : 𝑓 𝑥 = 4.6 10 24 𝑥 10 − 1.8 10 20 𝑥 9 − 6.1 10 18 𝑥 8 + 4.9 10 14 𝑥 7 + 9.7 10 11 𝑥 6 + 4.9 10 11 𝑥 5 − 3.8 10 4 𝑥 4 − 7.7 10 𝑥 3 + 379.8 𝑥 2 +4.5∗ 10 6 𝑥 −4.5∗ 10 9 Fonction 𝑓d’ Aziz : 𝑓 𝑥 =0.0239𝑥−37.56 Prédiction en 1970 : calculer 𝑓(1970) Prédiction en 2010 : calculer 𝑓(2010) Excellent ! Satisfaisant

5. bis - Surapprentissage Épreuve de prédiction Arthur, 5A5, CRMT Aziz, 5A5, CRMT Fonction 𝑓d’ Arthur : 𝑓 𝑥 = 4.6 10 24 𝑥 10 − 1.8 10 20 𝑥 9 − 6.1 10 18 𝑥 8 + 4.9 10 14 𝑥 7 + 9.7 10 11 𝑥 6 + 4.9 10 11 𝑥 5 − 3.8 10 4 𝑥 4 − 7.7 10 𝑥 3 + 379.8 𝑥 2 +4.5∗ 10 6 𝑥 −4.5∗ 10 9 Fonction 𝑓d’ Aziz : 𝑓 𝑥 =0.0239𝑥−37.56 Prédiction en 1970 : calculer 𝑓(1970) Prédiction en 2010 : calculer 𝑓(2010) Catastrophique Plutôt pas mal !

5. bis - Surapprentissage Épreuve de prédiction Épreuve de modélisation Arthur, 5A5, CRMT Aziz, 5A5, CRMT Arthur, 5A5, CRMT Aziz, 5A5, CRMT Catastrophique Plutôt pas mal ! Excellent ! Satisfaisant

5. Surapprentissage Intuition : plus on laisse l’ordinateur apprendre, plus il devient fort. Oui et non ! Oui sur les données d’entraînement, non sur de nouvelles données. Il y a surapprentissage ! Moralité : mieux vaut éviter d’être trop fort sur les données d’entraînement ! Comment éviter le surapprentissage ici ?

5. Surapprentissage Mettre des images de validation de coté Intuition : plus on laisse l’ordinateur apprendre, plus il devient fort. Oui et non ! Oui sur les données d’entraînement, non sur de nouvelles données. Il y a surapprentissage ! Moralité : mieux vaut éviter d’être trop fort sur les données d’entraînement ! Comment éviter le surapprentissage ici ? Mettre des images de validation de coté Geler régulièrement l’apprentissage, tester l’ordinateur sur ces images Prendre note du coût total sur ces images Au début, ce coût va diminuer, puis il finira par augmenter. Début du surapprentissage Stopper l’apprentissage

5. Surapprentissage Mettre des images de validation de coté Geler régulièrement l’apprentissage, tester l’ordinateur sur ces images Prendre note du coût total sur ces images Au début, ce coût va diminuer, puis il finira par augmenter. Début du surapprentissage. Stopper l’apprentissage

5. Surapprentissage Mettre des images de validation de coté Geler régulièrement l’apprentissage, tester l’ordinateur sur ces images Prendre note du coût total sur ces images Au début, ce coût va diminuer, puis il finira par augmenter. Début du surapprentissage. Stopper l’apprentissage Coût en fonction du temps Images d’entraînement Coût en fonction du temps Images de validation Début du surapprentissage

5. Surapprentissage Coût en fonction du temps Images d’entraînement Images de validation Début du surapprentissage

6. Récapitulatif

6. Récapitulatif

6. Récapitulatif

7. Pour aller plus loin Plusieurs couches intermédiaires http://www.mdpi.com/2078-2489/3/4/756

7. Pour aller plus loin Plusieurs couches intermédiaires https://www.researchgate.net/publication/287209604_Prediction_of_Final_Concentrate_Grade_Using_Artificial_Neural_Networks_from_Gol-E-Gohar_Iron_Ore_Plant/figures?lo=1

7. Pour aller plus loin D’autres structures https://medium.com/@smallfishbigsea/a-walk-through-of-alexnet-6cbd137a5637

7. Pour aller plus loin D’autres données https://machinelearningmastery.com/use-pre-trained-vgg-model-classify-objects-photographs/

7. Pour aller plus loin D’autres données 1000+ catégories 152 couches 60M de paramètres https://machinelearningmastery.com/use-pre-trained-vgg-model-classify-objects-photographs/

7. Pour aller plus loin D’autres tâches (YOLO) https://www.youtube.com/watch?v=WZmSMkK9VuA

7. Pour aller plus loin D’autres tâches https://www.google.be/search?q=detection+resnet&client=firefox-b-ab&dcr=0&source=lnms&tbm=isch&sa=X&ved=0ahUKEwiB6qzIkOTZAhVKCcAKHcjoCWsQ_AUICigB&biw=1536&bih=752#imgdii=tBfklMrrbkf1LM:&imgrc=Uz09jJE9nAlihM:

7. Pour aller plus loin D’autres tâches (PSP-Net) https://www.youtube.com/watch?v=cHz9_JLjgpg

Merci pour votre attention !