Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parGalehot Godet Modifié depuis plus de 11 années
1
Application aux constellations de satellites
Apport de l’apprentissage par renforcement aux problèmes de maintenance optimale : Application aux constellations de satellites Frédérick GARCIA INRA BIA, Toulouse André CABARBAYE, Linda TOMASINI CNES, Toulouse
2
Plan 1. Introduction 2. Entretien d'une constellation
3. Maintenance optimale 4. Modèle markovien de l'entretien d'une constellation 5. Principes de l'apprentissage par renforcement 5. Application à la constellation 6. Conclusion
3
Introduction Importance du problème de l’entretien des constellations
Démarche prospective menée en parallèle avec des techniques de simulation Illustration des possibilités et limitations de l ’apprentissage par renforcement
4
Le problème de l’entretien d’une constellation
Géométrie de la constellation considérée 8 plans orbitaux régulièrement espacés (4 satellites/plan) Spares à basse altitude Dérive naturelle des spares par rapport aux orbites opérationnelles Lancements sur l’orbite intermédiaire des spares dérive naturelle, puis changement d ’altitude par propulsion lanceurs de capacités, coûts, fiabilités et délais de disponibilité différents
5
Le problème de l’entretien d’une constellation
4 Evénements aléatoires Satellites sujets à panne ou fin de vie Défaillances lanceurs et mises à poste Critère à minimiser : Coût des satellites Coût des lanceurs Coût d’indisponibilité de service 4 4 °/jour 3 4 4 4 4 Actions de maintenance Remplacement d ’un satellite défaillant ou en fin de vie par un spare Lancement de plusieurs satellites pour remplacer des satellites défaillants ou « approchant » la fin de vie
6
Optimisation de la maintenance
Modèles mathématiques s’attaquant à une difficulté particulière Modèles d ’inspection : système non continûment observable Système partiellement observable Système sujet à des chocs (dommage accumulé) Réparation d’un composant ou remplacement du système Utilisation de spares sujets ou non à dégradation Délai de mise à disposition des spares Systèmes utilisés de façon intermittente
7
Optimisation de la maintenance
Approches mathématiques à base de processus stochastiques contrôlés par des actions de maintenance files d’attente, systèmes semi-markoviens ou markoviens, ... Critères d’optimisation (coût d ’une action ou d ’une indisponibilité) Somme des coûts pondérés Coût moyen par unité de temps
8
Optimisation de la maintenance
Résultats du type : preuve d’une structure optimale de politique ou bien hypothèse d’une structure de politique et recherche analytique ou numérique des paramètres optimaux. Structures de politiques remplacement si panne, ou si âge ou dommage > seuil remplacement si nb de réparations > seuil remplacement simultané d’unités arrivant en fin de vie (T-w<âge<T)
9
Spécificités de la maintenance d’une constellation
Système à unités multiples Seule action de maintenance possible : remplacements de satellites Maintenance préventive ou curative Remplacement simultané de plusieurs unités Temps de remplacement variable Utilisation de spares ou de satellites neufs Spares sujets à panne
10
Différentes approches considérées
Optimisation de politiques paramétrées choix d ’une structure optimisation des paramètres par simulation Recherche d ’une politique optimale modèle markovien algorithmes de programmation dynamique stochastique, ou apprentissage par renforcement
11
Modèle markovien de la maintenance de la constellation
Etats du système esol : liste de lancement programmés espare : liste de spares avec leurs orbites et leurs âges eop : état et âge des 32 satellites opérationnels Actions asol : nombre de satellites à lancer (0, 2, 5, 7) alanc : orbite basse cible pour le lancement courant (1,..8) aspare : envoi de chaque spare en orbite haute (28)
12
Modèle markovien de la maintenance de la constellation
Dynamique de l ’état Dt = 1 mois = dérive d’un plan spare panne au lancement et à la mise à poste pannes satellites (loi exponentielle) Coûts c(asol) : production satellites + lancement c(eop) : indisponibilité de service on cherche à minimiser S gt ct , g<1
13
Caractérisation d’une politique markovienne optimale
Passage par l ’intermédiaire d ’une fonction de valeur V*(e) Equation d ’optimalité en V* V*(e) = mina { c(e,a) + g Se’ p(e’ | e,a) V*(e ’) } On en déduit une politique optimale p*(e) = argmina { c(e,a) + g Se’ p(e’ | e,a) V*(e ’) }
14
Le cas de la constellation
Les actions asol , alanc , aspare sont exécutées en séquence Equations d ’optimalité : Vsol*(e) = minasol { c(asol ) + Vlanc*(e’) } Vlanc*(e) = minalanc { Se’ p(e’ | e, alanc) Vspare*(e’) } Vspare*(e) = minaspare { c(eop ) + g Se’ p(e’ | e, aspare) Vsol*(e’) }
15
Algorithmes d’optimisation de V* et p*
Programmation dynamique : Résolution de l ’équation en V* par des méthodes itératives (value iteration, policy iteration) Limitation de la P.D. : Algorithmes polynomiaux en nS et nA Inapplicable dès que nS ou nA deviennent trop importants
16
l ’apprentissage par renforcement
Principe de l ’apprentissage par renforcement Utilisation de la simulation pour mettre à jour localement la fonction de valeur V*(e) ct+1 ct ct+1 at at+N at+1 et+N et et+1 Vt+1(et) = (1- a) Vt(et) + a {ct + g Vt(et+1) } L ’action at est choisie selon Vt plus exploration aléatoire Il est possible de paramétrer la fonction V (représentations linéaires, réseaux de neurones ..)
17
De nombreuses applications
Robotique, jeux Recherche opérationnelle (conduite optimale des systèmes de production, routage, ordonnancement, maintenance, etc...) Les politiques obtenues améliorent souvent les meilleures politiques paramétrées connues jusqu’alors.
18
maintenance de constellation
Application à la maintenance de constellation Choix de l ’algorithme : approximate policy iteration Résolution tous les Dt = 1 mois à partir de la configuration courante Paramétrisation des fonctions de valeur Vsol*, Vlanc*, Vspare*
19
Conclusions Complexité du problème global
La partie expérimentale sera menée dans les prochains mois Validation rapide des résultats (comparaison par simulation avec des politiques heuristiques)
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.