Les Réseaux de Neurones

Slides:



Advertisements
Présentations similaires
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Advertisements

Plan Les réseaux de neurones Le réseau RBF RBF et Mushroom Historique
Fabrice Lauri, François Charpillet, Daniel Szer
Non linéarités liées à la thermique
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Classification et prédiction
1/30 Rendu par tracé de chemins ESSI2 George Drettakis http: //www-sop.imag.fr/reves/George.Drettakis/cours/ESSI2/index.html.
RECONNAISSANCE DE FORMES
LES RESEAUX DE NEURONES
A Pyramid Approach to Subpixel Registration Based on Intensity
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Systèmes Experts implémentation en Prolog
1 Efficient Data and Program Integration Using Binding Patterns Ioana Manolescu, Luc Bouganim, Francoise Fabret, Eric Simon INRIA.
Analyse de la variance à un facteur
Minimisation Techniques 1 Assimilation Algorithms: Minimisation Techniques Yannick Trémolet ECMWF Data Assimilation Training Course March 2006.
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Classification automatique de documents
Concepts avancés en mathématiques et informatique appliquées
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
Une théorie générale des réseaux connexionnistes
44 Contrôle du déroulement du programme. 4-2 Objectifs A la fin de ce cours, vous serez capables de : Utiliser les constructions de prise de décision.
Application des algorithmes génétiques
Réseaux de neurones artificiels « la rétropropagation du gradient »
Classification Multi Source En Intégrant La Texture
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Applications du perceptron multicouche
Cours de physique générale I Ph 11
1.2 COMPOSANTES DES VECTEURS
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Méthode des k plus proches voisins
Méthodes Connexionnistes Apprentissage Fusion d’informations
RECONNAISSANCE DE FORMES
LES NOMBRES PREMIERS ET COMPOSÉS
Réseaux de neurones.
Les réseaux de neurones
Mémoires associatives
Chapitre 7 Réseau ART.
GPA-779 Perceptron multicouche
Synthèse Applications des réseaux de neurones en reconnaissance de formes et en vision par ordinateur.
Représentation des systèmes dynamiques dans l’espace d’état
Résumé Domaine des réseaux de neurones.
Représentation des systèmes dynamiques dans l’espace d’état
Courbes de Bézier.
Les modèles linéaires (Generalized Linear Models, GLM)
2. Théorie de la consommation (demande)
Détection du meilleur format de compression pour une matrice creuse dans un environnement parallèle hétérogène Olfa HAMDI-LARBI.
Tutorat en bio-informatique Le 21 novembre Exercices 2 et 3 (MAT1400) - solutions Chapitre 11.7, Analyse - concepts et contextes vol. 2 27) Cherchez.
Filtrage de Kalman et aperçu probabiliste
Les réseaux de neurones artificiels (RNA)
ASI 3 Méthodes numériques pour l’ingénieur
Réseaux bayésiens: Inférence
GOL503 Spécificités sectorielles
Les réseaux de neurones
Présentation de la méthode des Eléments Finis
DEA Perception et Traitement de l’Information
Elaboré par M. NUTH Sothan 1. 2 Soit x, y et z des coordonnées cartésiennes à 3 dimension. G un ensemble de points dans le plan (u, v). Déf. : On appelle.
Apprentissage avec un réseau de neurones artificiels
 La fondation des réseaux neuronaux : L’être humain apprend d’abord par analogie, et le raisonnement inductif et déductif vient après.  La fondation.
1. Présentation générale du système
Perceptron multicouches
Chapitre 3 :Algèbre de Boole
Rappels de statistiques descriptives
Christelle Scharff IFI 2004
Les réseaux de neurones à réservoir en traitement d’images
Institut de sciences et technologies Département d’informatique
Karima Tabari1, Mounir Boukadoum1, Sylvain Chartier2,3, Hakim Lounis1
Les réseaux de neurones à réservoir en traitement d’images
Chapitre 1 - Introduction.
GPA-779 Application des systèmes experts et des réseaux de neurones.
Transcription de la présentation:

Les Réseaux de Neurones Chapitre 3: Les Réseaux de Neurones Réseaux de Neurones et Apprentissage Automatique 1

Modèles Connectionistes (Réseaux de Neurones) Cerveau humain Nombre de neurones: ~10-100 billion (1010 – 1011) (“There are as many neurons in the brain as there are stars in the Milky Way”; David Eagleman, Discover, 31 juillet 2007) Connections par neurone: ~10-100 mille (104 – 105) Temps de commutation d’1 Neurone : ~ 0.001 (10-3) seconde Temps de reconnaissance d’une scène/image : ~0.1 second 100 pas d’inférences pas suffisants!  calculs massivement parallèles

Modèles Connectionistes (Réseaux de Neurones) Définition d’un Réseau de Neurones: "... un système composé de plusieurs éléments de calcul simples fonctionnant en parallèle et dont la fonction est déterminée par la structure du réseau, les poids des connexions, et le traitement effectué sur les éléments de calcul ou nœuds." - DARPA (1988) Propriétés des réseaux de neurones Beaucoup d’unités semblables aux neurones; commutations basées sur des seuils Beaucoup d'interconnexions pondérées entre les unités Processus distribué hautement parallèle. L'accent est mis sur ​​le réglage automatique des poids

Quand considérer les réseaux de neurones? Input: Haute-Dimensionalité et valeurs discrètes ou réelles e.g., input brut provenant de capteurs Conversion possible de données symboliques en données quantitatives (numériques) Output: vecteurs à valeurs discrètes ou réelles e.g décisions de controle d’un actionneur de robot Conversion possible qualitative/quantitative (symbolique/numérique) Données: Peuvent contenir du bruit Fonction cible: forme inconnue Résultat: la lisibilité (pour l'homme) moins importante que la performance Performance mesurée uniquement en termes de précision et d'efficacité Lisibilité: la capacité d'expliquer les inférences faites à l'aide de modèles Exemples: reconnaissance de phonèmes dans la parole; classification d’Images; Prédictions financières

Véhicule à Apprentissage Autonome avec un RN (ALVINN) Pomerleau et al http://www.cs.cmu.edu/afs/cs/project/alv/member/www/projects/ALVINN.html Conduit à 110 kms/h sur autoroute Hidden-to-Output Unit Weight Map (for one hidden unit) Input-to-Hidden Unit

Le Perceptron  Perceptron: modèle d’un simple neurone Linear Threshold Unit (LTU) or Linear Threshold Gate (LTG) (Unité à seuil linéaire) input à l’unité: défini comme combinaison linéaire Output de l’unité: fonction d’activation à seuil selon le input (seuil  =- w0) Réseau de perceptrons Neurone modélisé utilisant une unité connectée à d’autres unités par liens pondérés wi Multi-Layer Perceptrons (MLP) (réseau multi-couches de perceptrons) x0 = 1 w0 x1 x2 xn w1 w2 wn 

Surface de Décision d’un Perceptron Perceptron: peut représenter quelques fonctions utiles (And, Or, Nand, Nor) Emulation de portes logiques par LTU (McCulloch and Pitts, 1943) e.g., Quels poids représentent g(x1, x2) = AND(x1, x2)? OR(x1, x2)? NOT(x)? (w0 + w1 . x1 + w2 . x2 w0 = -0.8 w1 = w2 = 0.5 w0 = - 0.3 w0 = 0.3 w1 = -0.5) Quelques fonctions non représentables e.g., non linéairement séparables Solution: utiliser un réseau de perceptrons (LTUs) Exemple A + - x1 x2 Exemple B - x1 x2 +

Séparateurs Linéaires Définition Fonctionnelle f(x) = 1 si w1x1 + w2x2 + … + wnxn  ; 0 sinon : valeur du seuil Fonctions Linéairement Séparables Disjonctions: c(x) = x1’  x2’  …  xm’ m-de-n: c(x) = au moins 3 de (x1’ , x2’, …, xm’ ) Ou Exclusif (XOR): c(x) = x1  x2 DNF Générale : c(x) = T1  T2  … Tm; Ti = l1  l2  …  lk Data Set Linéairement Séparable (LS) x1 x2 + -

Règles d’Apprentissage pour Perceptrons Règle d’apprentissage (training rule; learning rule) Pas spécifique à l’apprentissage supervisé Contexte: mise à jour de modèle Règle d’apprentissage de Hebb (1949) Idée: si deux unités sont toutes deux actives («firing»), le poids entre elles devrait augmenter wij = wij + r oi oj où r est une constante: le taux d’apprentissage Appuyées par des preuves neurophysiologiques Règle d’apprentissage du Perceptron (Rosenblatt, 1959) Idée : quand une valeur cible de sortie est prévue pour un neurone pour 1 certain input, on peut progressivement mettre à jour les poids pour apprendre à produire le output désiré Supposons LTU avec unités input/output binaires (booléennes); où t = c(x) est la valeur ciblée en sortie, o le output du perceptron, r une constante taux d’apprentissage (e.g., 0.1) On peut démontrer la convergence si D est linéairement séparable et r petit

Algorithme d’Apprentissage du Perceptron Algorithme de descente simple par gradient Applicable à l’apprentissage de concepts, apprentissage symbolique Algorithme Train-Perceptron (D  {<x, t(x)  c(x)>}) Initialiser tous les poids wi à des valeurs aléatoires TANTQUE pas tous les exemples prédis correctement FAIRE POUR chaque exemple d’apprentissage x  D Calculer le output actuel o(x) POUR i = 1 à n wi  wi + r(t - o)xi // règle d’apprentissage du perceptron Apprenabilité du Perceptron (Learnability) Rappel: peut apprendre seulement h  H - i.e. fonctions linéairement séparables Minsky & Papert, 1969, ont démontré les limites de la représentation e.g., parité (XOR à n attributs: x1  x2  …  xn) e.g., symmétrie, connexité en reconnaissance de formes visuelle Livre influent Perceptrons a découragé la recherche sur RNs ~10 ans

Convergence du Perceptron Theorème de Convergence du Perceptron Si les données sont linéairement séparables alors l'algorithme d'apprentissage du perceptron converge Théoreme de boucle du Perceptron Si les données d'apprentissage ne sont pas LS alors l'algorithme d’apprentissage du perceptron finira par reprendre le même ensemble de poids et entrera ainsi dans une boucle infinie Comment améliorer la robustesse et l'expressivité? Objectif 1: développer un algorithme qui trouvera l’ approximation la plus proche Objectif 2: développer une architecture qui peut surmonter la limitation de la représentation

Descente par Gradient : Principe Comprendre la Descente par Gradient pour des unités linéaires Soit le cas simple d’une unité linéaire sans seuil: Objectif: trouver le meilleur ajustement (“best fit”) à l’ensemble de données D Algorithme d’approximation Objectif quantitatif : minimiser l’erreur sur l’ensemble d’apprentissage D Fonction Erreur : somme des carrés des erreurs (Sum of Squared Errors, SSE) Comment minimiser l’erreur? Optimisation simple Se déplacer dans la direction de la plus grande pente (gradient) dans l’espace poids-erreur Calculée en cherchant la tangente i.e. dérivées partielles de E par rapport aux poids (wi)

Descente du Gradient : Dérivation de la règle du Delta/LMS (Widrow-Hoff) Définition: Gradient Règle d’apprentissage de descente du gradient modifiée

Descente du Gradient : Dérivation de la règle du Delta/LMS (Widrow-Hoff) Algorithme Descente du Gradient (D, r) Chaque exemple d’app. est 1 paire de la forme <x, t(x)>, où x est le vecteur de valeurs input, t(x) est la valeur en sortie, et r taux d’apprentissage (e.g., 0.05) Initialiser tous les poids wi à de (petites) valeurs aléatoires JUSQU’A ce que la condition de terminaison soit satisfaite, FAIRE Initialiser chaque wi à zéro POUR chaque <x, t(x)> dans D, FAIRE Entrer l’instance x à l’unité et calculer le output o POUR chaque poids wi d’1 unité linéaire, FAIRE wi  wi + r(t - o)xi wi  wi + wi RETOURNER w final Mécanique de la règle du Delta Gradient est basé sur la dérivée Importance: ultérieurement, nous utiliserons des fonctions d’activation non-linéaires (fonctions de transfert, squashing functions)

Descente du Gradient : Dérivation de la règle du Delta/LMS (Widrow-Hoff) Concepts LS : Peut achever une classification parfaite Exemple A: la règle d’apprentissage du perceptron converge Concepts Non-LS : peuvent uniquement approximer Exemple B: non LS; règle du delta converge, mais pas mieux que 3 corrects Exemple C: non LS; de meilleurs résultats avec la règle du delta Vecteur de poids w Règle du Delta : minimise erreur  distance du séparateur (i.e., maximise ) Exemple A + - x1 x2 Exemple B - x1 x2 Exemple C x1 x2 + - +

Descente du Gradient Incrémentale (Stochastique) Descente du Gradient en Mode Batch JUSQU’A condition de terminaison satisfaite, FAIRE 1. Calculer le gradient 2. RETOURNER w final Descente du Gradient en Mode Incrémental (En ligne) JUSQU’A condition de terminaison satisfaite, FAIRE POUR chaque donnée d=<x, t(x)> dans D, FAIRE RETOURNER w final Émulation du Mode Batch La Descente du gradient incrémentale peut approximer la descente du gradient batch de très près si r est suffisamment petit

Descente du Gradient: Standard vs Stochastique Converge vers un vecteur de poids avec erreur minimale indépendamment du fait si D Lin. Séparable ou pas, pour peu que le taux d’apprentissage r soit suffisamment petit. Difficultés: Convergence à un minimum local peut être lente Pas de garantie de trouver un minimum global Descente du Gradient Stochastique sensée alléger ces difficultés Différences En DG Standard, somme d’erreur sur D avant la MAJ des poids W  plus de calculs pour chaque pas de MAJ de poids (mais taille du pas plus grande par MAJ de poids) DG stochastique: peut parfois éviter de tomber sur des minima locaux Les 2 sont utilisées assez souvent en pratique

Réseaux Multicouches d’Unités non Linéaires Rappel: fonction d’activation sgn (w  x) Fonction d’activation nonlinéaire : généralisation desgn Réseaux Multicouches Type exact: Perceptrons Multi-Couches (MLPs) Définition: 1 réseau multicouches feedforward (alimentation avant) est composé d’1 couche d’entrée , 1 ou plusieurs couches cachées, et 1 couche de sortie. Seules les couches cachées et de sortie contiennent des perceptrons (unités à seuil ou non-linéaires) MLPs en Théorie Réseau (2 ou plusieurs couches) peut représenter toute fonction avec une erreur arbitrairement petite Apprentissage même d’un Réseau Multicouches de 3-unités est NP-hard MLPs en Pratique Conception de réseaux de neurones pour des fonctions arbitraires est difficile Apprentissage friand en calculs même quand la structure est “connue” o1 o2 v42 Output Layer u 11 h1 h2 h3 h4 Hidden Layer x1 x2 x3 Input Layer

 Fonctions d’Activation Non Linéaires Fonction d’Activation Sigmoide Fonction Linéaire d’activation à seuil: sgn (w  x) Fonction d’activation non linéaire (transfer, squashing) : généralisation de sgn  est la fonction sigmoide Pouvons déduire des règles de gradient pour l’apprentissage de 1 unité sigmoide Réseaux multicouches feedforward d’unités sigmoides (avec backpropagation) Fonction d’Activation Tangente Hyperbolique x1 x2 xn w1 w2 wn  x0 = 1 w0

Gradient d’Erreur pour une Unité Sigmoide Rappel: Gradient d’1 fonction d’erreur Gradient Fonction d’Activation Sigmoide Nous savons que: Donc :

Algorithme de Backpropagation (propagation arrière) Idée intuitive : Distribuer le blâme sur les erreurs aux couches précédentes Algorithme Train-by-Backprop (D, r) Each training example is a pair of the form <x, t(x)>, where x is the vector of input values and t(x) is the output value. r is the learning rate (e.g., 0.05) Initialize all weights wi to (small) random values UNTIL the termination condition is met, DO FOR each <x, t(x)> in D, DO Input the instance x to the unit and compute the output o(x) = (net(x)) FOR each output unit k, DO (calculate its error ) FOR each hidden unit j, DO Update each w = ui,j (a = hj) or w = vj,k (a = ok) wstart-layer, end-layer  wstart-layer, end-layer +  wstart-layer, end-layer wstart-layer, end-layer  r end-layer aend-layer RETURN final u, v o1 o2 v42 Output Layer u 11 h1 h2 h3 h4 Hidden Layer x1 x2 x3 Input Layer

Algorithme de Backpropagation (propagation arrière) Idée intuitive : Distribuer le blâme sur les erreurs aux couches précédentes Algorithme Train-by-Backprop (D, r) Chaque exempled’apprentissage est une paire <x, t(x)>, où x est le vecteur input et t(x) est le vecteur cible. r est le taux d’apprentissage (e.g., 0.05) Initialiser tous les poids wi à des valeurs aléatoires petites JUSQU’A atteinte de la condition de terminaison, FAIRE POUR chaque <x, t(x)> dans D, FAIRE Input l’instance x à l’unité et calculer le output o(x) = (net(x)) POUR chaque unité output k, FAIRE (calculer son erreur ) POUR chaque unité cachée j, FAIRE MAJ de chaque w = ui,j (a = hj) ou w = vj,k (a = ok) wstart-layer, end-layer  wstart-layer, end-layer +  wstart-layer, end-layer wstart-layer, end-layer  r end-layer aend-layer RETOURNER u, v o1 o2 v42 Output Layer u 11 h1 h2 h3 h4 Hidden Layer x1 x2 x3 Input Layer

Backpropagation et Optima Locaux Descente du Gradient en Backpropagation Appliquée à toutes les matrices de poids du réseau Propriété: Backpropagation sur les réseaux feedforward trouvera un minimum local (pas nécessairement global) de la fonction erreur Backprop en pratique L’optimisation locale donne souvent de bons résultats (l’executer plusieurs fois) Souvent on inclut un momentum (élan) de poids  Apprentissage souvent très lent : milliers d’itérations sur D (epochs) Inférence (appliquer le réseau après apprentissage) typiquement très rapide. E.g.: Classification; Controle.

Puissance de Représentation (i.e., Expressivité) RNs Feedforward : Puissance de Représentation et Biais Puissance de Représentation (i.e., Expressivité) Backprop présentée pour RNs feedforward à 1 couche cachée (RN 2 couches) RN feedforward à 2 couches Toute fonction booléenne Toute fonction continue bornée (approximation avec erreur arbitrairement petite) : 1 output (unités linéaires sans seuil) + 1 cachée (sigmoid) RN feedforward 3 couches: toute fonction (approximation avec erreur arbitrairement petite): output (unités linéaires), 2 couches cachées (sigmoides)

Apprentissage de Représentations de Couche Cachée Unités cachées et extraction de traits Procédure d’apprentissage: représentation de couches cachées minimisant erreur E Backprop définit parfois de nouveaux traits (cachés) non explicites dans la representation du input x, mais capte les propriétés des instances input les + pertinentes à l’apprentissage de la fonction ciblet(x) Les unités expriment des traits nouvellement construits Fonction cible (Sparse aka 1-of-C, Codage) RN apprend à découvrir des représentations utiles des couches cachées

Convergence de la Backpropagation Pas de Garantie de Convergence à 1 Solution Optimale Globale Rappel: perceptron converge à la meilleure h  H, pour peu que h  H; i.e., LS Descente du gradient vers 1 minimum local (peut être pas un minimum global) de la fonction erreur Améliorations possibles de la backprop (BP) Le terme “momentum” (variante de BP mais règle de MAJ des poids légèrement différente) Descente du gradient stochastique (variante de l’algorithme BP) Apprentissage de réseaux multiples avec poids initiaux différents Nature de la Convergence Initialiser poids à presque zero Réseau initial presque linéaire Fonctions de plus en plus non-linéaires avec l’avancée de l’apprentissage

Surapprentissage (Overtraining) des RNs Définition de Overfitting h’ pire que h sur Dtest, meilleure sur Dtrain A cause d’itérations excessives L’éviter: critère d’arrêt (cross-validation: holdout, k-fold) Error vs epochs (Exemple 2) Error vs epochs (Exemple 1)

Overfitting des RNs D’autres causes d’Overfitting sont possibles Nombre d’unités cachées parfois décidées à l’avance Trop d’unités cachées Trop peu d’unités cachées (“underfitting”) RNs qui n’arrivent pas à progresser (“croître”) Analogie: système d’équations linéaires (plus d’inconnues que d’équations) Approches de Solutions Eviter: Ensemble Hold out cross-validation ou partage de k façons (k ways) Weight decay: diminuer chaque poids d’1 certain facteur à chaque iteration (epoch) Détection/traitement: random restarts, addition et suppression de poids ou d’unités

Exemple: RN pour la Reconnaissance de Visages: la Tâche Tâche d’apprentissage: Classer des images de visages de diverses personnes ayant différentes poses: 20 personnes; 32 images par personne (624 images niveaux gris, résolution de chacune 120 x 128, intensité des niveaux de gris 0 (noir) à 255 (blanc)) expressions variables (heureux, triste, en colère, neutre) Différentes directions (regardant à gauche, à droite, tout droit, vers le haut) Portant des lunettes ou pas Variation de l’arrière-plan derrière la personne Vêtements portés par la personne Position du visage dans l'image Différentes fonctions cibles peuvent être apprises Id de la personne; direction; genre; port de lunettes ; etc. Dans notre cas: apprendre la direction vers laquelle la personne regarde

RN pour la Reconnaissance de Visages

Reconnaissance de Visages: Décisions de conception Codage de l’input: Comment coder une image? Extraction de contours, régions d’intensités uniformes, autres traits locaux? Problème: nombre variable de caractéristiques  # variable d'unités d'entrée Choix: coder l’image sur 30 x 32 valeurs d'intensité des pixels (résumé /moyennes de 120 x 128 originale )  exigences de calcul gérables Ceci est crucial en cas de ALVINN (conduite autonome) Codage de l’Output : Output du RN: 1 de 4 valeurs Option1: une unité (valeurs e.g. 0.2, 0.4, 0.6, 0.8) Option2: codage de l’output 1-of-n (meilleure option) Note: plutôt que valeurs 0 et 1, 0.1 et 0.9 utilisés (unités sigmoides ne peuvent produire output 0 et 1)

RN pour la Reconnaissance de Visages Précision de 90%, Reconnaissance de visages 1-of-20 http://www.cs.cmu.edu/~tom/faces.html Gauche Tout droit Droite Haut Output Layer Weights (including w0 = ) after 1 Epoch Hidden Layer Weights after 25 Epochs Hidden Layer Weights after 1 Epoch 30 x 32 Inputs

Reconnaissance de Visages: Décisions de conception Structure du RN: Combien d’unités et comment les interconnecter habituellement: 1 ou 2 couches d’unités sigmoides (parfois 3). Plus que cela, apprentissage trop lent! Combien d’unités cachées? De préférence assez peu. E.g. avec 3 unités cachées: 5 min apprentissage; 90% Avec 30 unités cachées: 1 heure apprentissage; résultat à peine meilleur Autres paramètres d’ apprentissage: Learning rate: r = 0.3; momentum α = 0.3 (si trop grands, pas de convergence à erreur acceptable) - Descente du gradient utilisée.

Apprentissage Poids du RN Initialisés à de petites valeurs aléatoires Poids d’unités d'entrée Initialisés à 0 Nombre d'itérations d’apprentissage Données partitionnées en ensembles d'apprentissage et de validation Descente du Gradient utilisée Chaque 50 itérations, performance du RN évaluée par rapport à l’ensemble de validation RN final: celui avec la meilleure précision par raport à l’ens. de validation résultat final (90%) mesuré sur 3ème ens. (de tests)

Réseaux Récurrents Représenter des séries de temps RN Feedforward : y(t + 1) = net (x(t)) Besoin de capter les relations temporelles Approches de Solution Cycles orientés Feedback Output-to-input [Jordan] Hidden-to-input [Elman] Input-to-input Capte des relations dans le temps Entre x(t’  t) et y(t + 1) Entre y(t’  t) et y(t + 1)

Quelques Applications de RNs Diagnostique Les plus proches de l'apprentissage de concepts et classification Certains RNs peuvent être post-traités pour produire des diagnostics probabilistes Prévision et surveillance Pronostic (prévision) Prévoir une continuation de données (typiquement numériques) Systèmes d'aide à la décision Systèmes de conseils Fournir une assistance aux experts humains dans la prise de décisions Design (fabrication, ingénierie) Thérapie (médecine) Gestion des crises (médicale, économique, militaire, sécurité informatique) Automation du Contrôle Robots Mobiles Capteurs et actionneurs autonomes Et bien plus encore (Raisonnement automatisé, etc.)