Est-ce que les ordinateurs peuvent apprendre? Yoshua Bengio Labo Universitaire Bell Université de Montréal 21 septembre 2001.

Slides:



Advertisements
Présentations similaires
Probabilités et statistiques au lycée
Advertisements

La reconnaissance vocale
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Relational Learning as a Search in a Critical Region Lou Fedon 9 Mars 2006.
Data Mining.
Classification et prédiction
Classification et prédiction
Champs de Markov en Vision par Ordinateur
RECONNAISSANCE DE FORMES
Présentation des programmes de terminale STG Juin 2006.
A QUOI SERVENT-ILS ? QUAND INTERVIENNENT-ILS ? COMMENT LES CONSTRUIRE
GEF 435 Principes des systèmes d’exploitation
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Cours d'algorithmique 11 / Intranet 1 9 janvier 2006 Cours dAlgorithmique N P - complétude.
Application de réseaux bayésiens à la détection de fumées polluantes
Yann Chevaleyre et Jean-Daniel Zucker
Complexité et Classification
LI.A ça ressemble à ça… des fois…. Ou pas… Rappels et définition de lIA – Lidée quon sen fait – Jusquoù on va aujourdhui / dans le futur? – Petit Etat.
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Apprendre à partir des observations
Tests de comparaison de moyennes
Introduction to Information Systems
Marketing Engineering
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
Traitements d'images et Vision par ordinateur
Méthode des k plus proches voisins
RECONNAISSANCE DE FORMES
Construction de modèles visuels
DEA Perception et Traitement de l’Information
Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802
© LICEF LICEF Centre de Recherche LICEF Université du Québec TÉLUQ Luniversité à distance 4750 avenue Henri-Julien Montréal.
Les réseaux de neurones
La corrélation et la régression
Les prévisions et la gestion de la demande
Le forage de données ou data mining
Dépannage du 12 mars 2007.
Travail de fin d’études
Logiciels et technologies de l'information de gestion
Classification automatique de textes
Introduction à la reconnaissance:
VOX-TELEMARK Créateur de clients.
1exploitation des services ITIL Définition d’un événement Un événement est une occurrence détectable ou discernable ayant :  une signification sur la.
Compétences relatives à l’employabilité
Reconnaissance des personnes par le visage dans des séquences vidéo
Informatique et Science du Numérique
S. Canu, laboratoire PSI, INSA de Rouen
Intelligence Artificielle
Institut de sciences et technologies Département d’informatique
Apprentissage « machine »
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Reconnaissance de chiffres manuscrits
Les réseaux de neurones à réservoir en traitement d’images
TIPE Les dames chinoises
Recherche de motifs par projections aléatoires
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.
Informatique et Science du Numérique
Knowledge discovery in Databases (KDD)
GPA-779 Application des systèmes experts et des réseaux de neurones.
Le Marketing Prédictif
1 Apprentissage par exemples Jean-François Bérubé Traitement statistique des langages naturels Université de Montréal DIRO, 10 Avril 2003.
Vous présente en quelques réalisations un réel savoir-faire, le fruit de longues années d’expériences, aujourd’hui à votre service. Toutes les fonctionnalités.
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
System de recommandations
Algorithmes parallèles
Plan 1. Probabilités conditionnelles 2. Indépendance en probabilité
Personnalisation de l’apprentissage des langues en ligne Marie-Noëlle Godin Conceptrice pédagogique.
OC Informatique. Qui devrait choisir cette option ? Futurs étudiants à l'EPFL ou à l'ETHZ Futurs étudiants scientifiques Tous les élèves intéressés et.
Transcription de la présentation:

Est-ce que les ordinateurs peuvent apprendre? Yoshua Bengio Labo Universitaire Bell Université de Montréal 21 septembre 2001

Apprentissage et nouvelles technologies L’apprentissage: une caractéristique centrale de l’intelligence L’apprentissage: une caractéristique centrale de l’intelligence L’apprentissage: facile pour les humains, difficile pour les machines! L’apprentissage: facile pour les humains, difficile pour les machines! Les algorithmes d’apprentissage: nouvelles technologies, vaste domaine d’applications Les algorithmes d’apprentissage: nouvelles technologies, vaste domaine d’applications

Aibo Taibo Robot-chien-jouet japonais avec de l’apprentissage par renforcement.

Intelligence artificielle Aibo réagit à son environnement Aibo réagit à son environnement Il peut s’adapter en vue d’obtenir plus de renforcements positifs Il peut s’adapter en vue d’obtenir plus de renforcements positifs Le contrôle de tous les moteurs est extrêmement complexe, Le contrôle de tous les moteurs est extrêmement complexe, L’interprétation des signaux provenant des senseurs: aussi très complexe. L’interprétation des signaux provenant des senseurs: aussi très complexe. Robots: on ne sait pas comment les programmer mais on peut dire quand ça marche. Robots: on ne sait pas comment les programmer mais on peut dire quand ça marche.

Rôle de l’apprentissage Apprentissage d’une identité Apprentissage d’une identité Propriétaire peut baptiser Aibo Propriétaire peut baptiser Aibo Reconnaissance vocale Reconnaissance vocale On peut lui apprendre quelques commandes simples On peut lui apprendre quelques commandes simples Apprentissage de comportements, grâce à des algorithmes d’apprentissage Apprentissage de comportements, grâce à des algorithmes d’apprentissage On joue à la balle avec Aibo, et il développe l’intérêt pour jouer à la balle On joue à la balle avec Aibo, et il développe l’intérêt pour jouer à la balle Aibo Aibo:

Algorithmes Algorithme Algorithme « Recette » pour faire accomplir une tâche à un ordinateur « Recette » pour faire accomplir une tâche à un ordinateur Par ex.: trier une liste, faire une recherche dans une base de données, calculer √2 Par ex.: trier une liste, faire une recherche dans une base de données, calculer √2 Sujet d’étude de l’informatique Sujet d’étude de l’informatique On programme un algorithme dans un langage de programmation (Java, C++…) On programme un algorithme dans un langage de programmation (Java, C++…) Informatique classique: définition de la tâche + solution mathématique algorithme Informatique classique: définition de la tâche + solution mathématique algorithme

Alternative: programmer par l’exemple… Ensemble des exemples d’entraînement {(visage, identité)} Exemple test (, ?) Anne Jean Maud Eric Paul Qui est-ce? Une image = profil d’un cas

Algorithme du plus proche voisin Choisir l’exemple d’apprentissage dont le ‘profil’ (image) est le plus proche de celui de l’exemple test identité =Paul plus proche voisin

Pourquoi l’apprentissage? Si on a pas assez de connaissances explicites pour obtenir un algorithme qui résout le problème Si on a pas assez de connaissances explicites pour obtenir un algorithme qui résout le problème Mais on a beaucoup d’exemples de la tâche à accomplir (base de données = exemples) Mais on a beaucoup d’exemples de la tâche à accomplir (base de données = exemples) Exemples: Exemples: Reconnaissance de visages/caractères/voix Reconnaissance de visages/caractères/voix Prise de décision Prise de décision finance finance marketing marketing Estimation Estimation du risque de crédit, de probabilité de fraude du risque de crédit, de probabilité de fraude de primes d’assurance de primes d’assurance Etc… Etc…

Où se situe le machine learning Intersection de l’informatique, statistiques et domaines particuliers Intersection de l’informatique, statistiques et domaines particuliers statistiquesinformatique Domaine d’application

Deux phases dans l’apprentissage Entraînement (supervisé) Entraînement (supervisé) On présente des exemples au système On présente des exemples au système Le système « apprend » à partir des exemples Le système « apprend » à partir des exemples Le système modifie graduellement ses paramètres ajustables pour que sa sortie ressemble à la sortie désirée Le système modifie graduellement ses paramètres ajustables pour que sa sortie ressemble à la sortie désirée Utilisation Utilisation Nouveaux exemples jamais vus auparavant Nouveaux exemples jamais vus auparavant On demande au système de GÉNÉRALISER On demande au système de GÉNÉRALISER

Types de problèmes Classification Classification Dire si l’entrée appartient à une certaine CLASSE Dire si l’entrée appartient à une certaine CLASSE Y a-t-il un visage, oui ou non? Y a-t-il un visage, oui ou non? De qui est-ce le visage? (parmi un nombre fini) De qui est-ce le visage? (parmi un nombre fini) Régression Régression Faire une prédiction à partir d’un exemple Faire une prédiction à partir d’un exemple Prédire la valeur de la bourse demain, étant donné les valeurs des jours et mois passés Prédire la valeur de la bourse demain, étant donné les valeurs des jours et mois passés Estimation de densité Estimation de densité A-t-on déjà vu cet exemple (ou un exemple similaire)? A-t-on déjà vu cet exemple (ou un exemple similaire)? Quelles sont les K catégories principales de données? Quelles sont les K catégories principales de données?

Formes d’apprentissage / feedback Supervisé Supervisé On donne “la bonne réponse” pendant l’entraînement On donne “la bonne réponse” pendant l’entraînement Le plus efficace, car fournit plus d’informations Le plus efficace, car fournit plus d’informations Utile pour classification, régression, estimation de probabilité conditionnelle (quelle est la probabilité qu’un client avec tel profil achète tel produit?) Utile pour classification, régression, estimation de probabilité conditionnelle (quelle est la probabilité qu’un client avec tel profil achète tel produit?) Renforcement Renforcement On ne donne PAS la bonne réponse,le système fait une hypothèse, et on lui dit “bon / pas bon” On ne donne PAS la bonne réponse,le système fait une hypothèse, et on lui dit “bon / pas bon” Utile pour le contrôle de robots (Aibo) Utile pour le contrôle de robots (Aibo) Non supervisé Non supervisé Ex: quelles sont les catégories principales de clients typiques? (segmentation du marché) Ex: quelles sont les catégories principales de clients typiques? (segmentation du marché)

Généraliser est difficile On ne veut pas apprendre par cœur On ne veut pas apprendre par cœur Bonne réponse sur exemples d’entraînement seulement Bonne réponse sur exemples d’entraînement seulement Facile pour un ordinateur (un fichier de données) Facile pour un ordinateur (un fichier de données) Difficile pour les humains (on force nos enfants…) Difficile pour les humains (on force nos enfants…) Apprendre en vue de généraliser Apprendre en vue de généraliser Plus intéressant! Plus intéressant! FONDAMENTALEMENT plus difficile: plusieurs façons de généraliser FONDAMENTALEMENT plus difficile: plusieurs façons de généraliser On doit extraire l’essence, la structure dans les données, et pas seulement apprendre la bonne réponse pour quelques cas On doit extraire l’essence, la structure dans les données, et pas seulement apprendre la bonne réponse pour quelques cas

Exemple: on tire des données Entrée = profil du cas Sortie = valeur à prédire Pointillé = la meilleure réponse possible étant donnée l’entrée (mais inconnue de l’apprenant) Chaque point= un exemple

Overfitting On apprend par cœur mais ça ne généralise pas bien à de nouveaux cas. Erreur faible sur les exemples d’apprentissage mais élevée en test.

Underfitting On a choisi un modèle trop simple (linéaire): erreur élevée en apprentissage ET en test (pointillé)

Un « bon modèle » Le modèle est suffisamment flexible pour capturer la forme courbe mais pas trop pour obtenir de l’overfitting.

Malédiction de la dimensionalité L’apprentissage peut devenir de plus en plus difficile au fur et à mesure que le nombre de caractéristiques de chaque cas augmente. L’apprentissage peut devenir de plus en plus difficile au fur et à mesure que le nombre de caractéristiques de chaque cas augmente. Exemple: profils des clients ciblés Exemple: profils des clients ciblés Nombre D’appels Durée des appels Chaque case contient le nombre de cas rencontrés Nombre de cases = # cat. durées fois # cat. appels = 6 x On peut dresser ce genre de table aussi pour les autres clients, puis comparer les deux tables à la case correspondant à un nouveau cas.

Malédiction de la dimensionalité Si le nombre de est 100 Si le nombre de caractéristiques est 100 et que chaque caractéristique peut prendre 10 valeurs, alors le nombre de cases (profils différents) est et que chaque caractéristique peut prendre 10 valeurs, alors le nombre de cases (profils différents) est 10 x 10 x 10 … x 10 = x 10 x 10 … x 10 = 10 Ce nombre étant astronomique, même le grand nombre de clients de Bell Canada en est une infime fraction (sans compter que les clients ciblés sont très minoritaires). Ce nombre étant astronomique, même le grand nombre de clients de Bell Canada en est une infime fraction (sans compter que les clients ciblés sont très minoritaires). La plupart des cases seront donc vides. La plupart des cases non-vides contiendront seulement 1 cas. La plupart des cases seront donc vides. La plupart des cases non-vides contiendront seulement 1 cas. Pour généraliser il faut donc découvrir une structure plus vaste (regarder le plus proche voisin ne suffit pas), ce que beaucoup de cas ont en commun. Pour généraliser il faut donc découvrir une structure plus vaste (regarder le plus proche voisin ne suffit pas), ce que beaucoup de cas ont en commun. 100

Battre la malédiction! Certains algorithmes d’apprentissage modernes prétendent faire face à ce défi: Certains algorithmes d’apprentissage modernes prétendent faire face à ce défi: Réseaux de neurones artificiels Réseaux de neurones artificiels Support vector machines Support vector machines Adaboost Adaboost L’idée de base: utiliser un modèle flexible mais qui permet de résumer l’information dans les données. Si il existe des régularités dans les données alors ce type de modèle a de bonnes chances de les capturer. L’idée de base: utiliser un modèle flexible mais qui permet de résumer l’information dans les données. Si il existe des régularités dans les données alors ce type de modèle a de bonnes chances de les capturer. Réseaux de neurones: découvrir des projections intéressantes des données. Réseaux de neurones: découvrir des projections intéressantes des données.

Estimation de probabilité Détection de fraude: Détection de fraude: Estimer la distribution de probabilité des cas ordinaires. Quand un client a un profil qui est très différent (cas peu probable), envoyer un signal. Estimer la distribution de probabilité des cas ordinaires. Quand un client a un profil qui est très différent (cas peu probable), envoyer un signal. Marketing ciblé: Marketing ciblé: Prédire avec quel probabilité un client avec un certain profil sera intéressé par un nouveau produit X. On pourra concentrer les efforts de marketing sur les clients avec probabilité élevée. Prédire avec quel probabilité un client avec un certain profil sera intéressé par un nouveau produit X. On pourra concentrer les efforts de marketing sur les clients avec probabilité élevée. Entrée = profil du client Entrée = profil du client Sortie = probabilité d’un évènement Sortie = probabilité d’un évènement

Infrastructure pour l’analyse de donnéees ESSENTIEL: pour que de telles applications fonctionnent, il faut ESSENTIEL: pour que de telles applications fonctionnent, il faut une grande quantité de données, une grande quantité de données, bien structurées (bases de données accessibles aux autres départements de l’entreprise) bien structurées (bases de données accessibles aux autres départements de l’entreprise) uniformisation de la capture de données à travers l’entreprise. uniformisation de la capture de données à travers l’entreprise. Expertise sur le domaine (e.g. marketing) Expertise sur le domaine (e.g. marketing) Expertise en statistique / algorithmes d’apprentissage Expertise en statistique / algorithmes d’apprentissage

Meilleure estimation, meilleur profit Le modèle estime P(achat|profil) Le modèle estime P(achat|profil) On peut estimer les coûts impliqués dans le contact marketing et le gain futur découlant de l’achat On peut estimer les coûts impliqués dans le contact marketing et le gain futur découlant de l’achat Ça nous donne le profit ou la perte espérée: on peut donc ordonner les clients et choisir un seuil de profit. Ça nous donne le profit ou la perte espérée: on peut donc ordonner les clients et choisir un seuil de profit.

Pour en savoir plus… Yoshua Bengio dirige le LISA (laboratoire d’informatique des systèmes adaptatifs) Yoshua Bengio dirige le LISA (laboratoire d’informatique des systèmes adaptatifs) Chaire de Recherche du Canada sur les Algorithmes d’Apprentissage Statistique Chaire de Recherche du Canada sur les Algorithmes d’Apprentissage Statistique Chez Bell: Alan Bernardi, Krzystof Dzieciolowski, Oryal Tanir, Rick Booth. Chez Bell: Alan Bernardi, Krzystof Dzieciolowski, Oryal Tanir, Rick Booth.