La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 ROADEF 99 GARCIA-CABARBAYE-TOMASINI Apport de lapprentissage par renforcement aux problèmes de maintenance optimale : Application aux constellations.

Présentations similaires


Présentation au sujet: "1 ROADEF 99 GARCIA-CABARBAYE-TOMASINI Apport de lapprentissage par renforcement aux problèmes de maintenance optimale : Application aux constellations."— Transcription de la présentation:

1 1 ROADEF 99 GARCIA-CABARBAYE-TOMASINI Apport de lapprentissage par renforcement aux problèmes de maintenance optimale : Application aux constellations de satellites Frédérick GARCIA INRA BIA, Toulouse André CABARBAYE, Linda TOMASINI CNES, Toulouse

2 2 ROADEF 99 GARCIA-CABARBAYE-TOMASINI Plan 1. Introduction 2. Entretien d'une constellation 3. Maintenance optimale 4. Modèle markovien de l'entretien d'une constellation 5. Principes de l'apprentissage par renforcement 5. Application à la constellation 6. Conclusion

3 3 ROADEF 99 GARCIA-CABARBAYE-TOMASINI Introduction Importance du problème de lentretien des constellations Démarche prospective menée en parallèle avec des techniques de simulation Illustration des possibilités et limitations de l apprentissage par renforcement

4 4 ROADEF 99 GARCIA-CABARBAYE-TOMASINI Le problème de lentretien dune constellation Géométrie de la constellation considérée 8 plans orbitaux régulièrement espacés (4 satellites/plan) Spares à basse altitude Dérive naturelle des spares par rapport aux orbites opérationnelles Lancements sur lorbite intermédiaire des spares dérive naturelle, puis changement d altitude par propulsion lanceurs de capacités, coûts, fiabilités et délais de disponibilité différents

5 5 ROADEF 99 GARCIA-CABARBAYE-TOMASINI °/jour Evénements aléatoires Satellites sujets à panne ou fin de vie Défaillances lanceurs et mises à poste Critère à minimiser : Coût des satellites + Coût des lanceurs + Coût dindisponibilité de service Actions de maintenance Remplacement d un satellite défaillant ou en fin de vie par un spare Lancement de plusieurs satellites pour remplacer des satellites défaillants ou « approchant » la fin de vie Le problème de lentretien dune constellation

6 6 ROADEF 99 GARCIA-CABARBAYE-TOMASINI Optimisation de la maintenance Modèles mathématiques sattaquant à une difficulté particulière Modèles d inspection : système non continûment observable Système partiellement observable Système sujet à des chocs (dommage accumulé) Réparation dun composant ou remplacement du système Utilisation de spares sujets ou non à dégradation Délai de mise à disposition des spares Systèmes utilisés de façon intermittente

7 7 ROADEF 99 GARCIA-CABARBAYE-TOMASINI Approches mathématiques à base de processus stochastiques contrôlés par des actions de maintenance files dattente, systèmes semi-markoviens ou markoviens,... Critères doptimisation (coût d une action ou d une indisponibilité) Somme des coûts pondérés Coût moyen par unité de temps Optimisation de la maintenance

8 8 ROADEF 99 GARCIA-CABARBAYE-TOMASINI Résultats du type : preuve dune structure optimale de politique ou bien hypothèse dune structure de politique et recherche analytique ou numérique des paramètres optimaux. Structures de politiques remplacement si panne, ou si âge ou dommage > seuil remplacement si nb de réparations > seuil remplacement simultané dunités arrivant en fin de vie (T-w<âge

9 9 ROADEF 99 GARCIA-CABARBAYE-TOMASINI Spécificités de la maintenance dune constellation Système à unités multiples Seule action de maintenance possible : remplacements de satellites Maintenance préventive ou curative Remplacement simultané de plusieurs unités Temps de remplacement variable Utilisation de spares ou de satellites neufs Spares sujets à panne

10 10 ROADEF 99 GARCIA-CABARBAYE-TOMASINI Différentes approches considérées Optimisation de politiques paramétrées choix d une structure optimisation des paramètres par simulation Recherche d une politique optimale modèle markovien algorithmes de programmation dynamique stochastique, ou apprentissage par renforcement

11 11 ROADEF 99 GARCIA-CABARBAYE-TOMASINI Modèle markovien de la maintenance de la constellation Etats du système e sol : liste de lancement programmés e spare : liste de spares avec leurs orbites et leurs âges e op : état et âge des 32 satellites opérationnels Actions a sol : nombre de satellites à lancer (0, 2, 5, 7) a lanc : orbite basse cible pour le lancement courant (1,..8) a spare : envoi de chaque spare en orbite haute (2 8 )

12 12 ROADEF 99 GARCIA-CABARBAYE-TOMASINI Dynamique de l état t = 1 mois = dérive dun plan spare panne au lancement et à la mise à poste pannes satellites (loi exponentielle) Coûts c(a sol ) : production satellites + lancement c(e op ) : indisponibilité de service on cherche à minimiser t c t, <1 Modèle markovien de la maintenance de la constellation

13 13 ROADEF 99 GARCIA-CABARBAYE-TOMASINI Caractérisation dune politique markovienne optimale Passage par l intermédiaire d une fonction de valeur V*(e) Equation d optimalité en V* V*(e) = min a { c(e,a) + e p(e | e,a) V*(e ) } On en déduit une politique optimale *(e) = argmin a { c(e,a) + e p(e | e,a) V*(e ) }

14 14 ROADEF 99 GARCIA-CABARBAYE-TOMASINI Le cas de la constellation Les actions a sol, a lanc, a spare sont exécutées en séquence Equations d optimalité : V sol *(e) = min a sol { c(a sol ) + V lanc *(e) } V lanc *(e) = min a lanc { e p(e | e, a lanc ) V spare *(e) } V spare *(e) = min a spare { c(e op ) + e p(e | e, a spare ) V sol *(e) }

15 15 ROADEF 99 GARCIA-CABARBAYE-TOMASINI Algorithmes doptimisation de V* et * Programmation dynamique : Résolution de l équation en V* par des méthodes itératives (value iteration, policy iteration) Limitation de la P.D. : Algorithmes polynomiaux en n S et n A Inapplicable dès que n S ou n A deviennent trop importants

16 16 ROADEF 99 GARCIA-CABARBAYE-TOMASINI Principe de l apprentissage par renforcement Utilisation de la simulation pour mettre à jour localement la fonction de valeur V*(e) atat a t+1 a t+N etet e t+1 e t+N ctct c t+1 V t+1 (e t ) = (1- ) V t (e t ) + {c t + V t (e t+1 ) } L action a t est choisie selon V t plus exploration aléatoire Il est possible de paramétrer la fonction V (représentations linéaires, réseaux de neurones..)

17 17 ROADEF 99 GARCIA-CABARBAYE-TOMASINI De nombreuses applications Robotique, jeux Recherche opérationnelle (conduite optimale des systèmes de production, routage, ordonnancement, maintenance, etc...) Les politiques obtenues améliorent souvent les meilleures politiques paramétrées connues jusqualors.

18 18 ROADEF 99 GARCIA-CABARBAYE-TOMASINI Application à la maintenance de constellation Choix de l algorithme : approximate policy iteration Résolution tous les t = 1 mois à partir de la configuration courante Paramétrisation des fonctions de valeur V sol *, V lanc *, V spare *

19 19 ROADEF 99 GARCIA-CABARBAYE-TOMASINI Conclusions Complexité du problème global La partie expérimentale sera menée dans les prochains mois Validation rapide des résultats (comparaison par simulation avec des politiques heuristiques)


Télécharger ppt "1 ROADEF 99 GARCIA-CABARBAYE-TOMASINI Apport de lapprentissage par renforcement aux problèmes de maintenance optimale : Application aux constellations."

Présentations similaires


Annonces Google