Combined use of dynamic inversion and reinforcement learning for optimal adaptive control of supersonic transport airplane motion

G. Dhiman; Дхиман Г.; Yu. V. Tiumentsev; Тюменцев Ю. В.; R. A. Tskhay; Цхай Р. A.

doi:10.31857/S0002338825010133

Совместное использование метода динамической инверсии и обучения с подкреплением для оптимального адаптивного управления движением сверхзвукового пассажирского самолета

Авторы: Дхиман Г.¹, Тюменцев Ю.В.¹, Цхай Р.A.¹
Учреждения:
1. Московский авиационный институт (Национальный исследовательский университет)
Выпуск: № 1 (2025)
Страницы: 163-180
Раздел: СИСТЕМЫ УПРАВЛЕНИЯ ДВИЖУЩИМИСЯ ОБЪЕКТАМИ
URL: https://permmedjournal.ru/0002-3388/article/view/684565
DOI: https://doi.org/10.31857/S0002338825010133
EDN: https://elibrary.ru/AIJWTM
ID: 684565

Цитировать

Полный текст

Открытый доступ
Доступ закрыт

Доступ предоставлен
Доступ закрыт

Только для подписчиков

Аннотация
Полный текст
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

Рассматривается задача управления движением летательных аппаратов в условиях неопределенностей, обусловленных неполным и неточным знанием их характеристик, а также нештатными ситуациями в полете, оказывающими влияние на свойства летательного аппарата как объекта управления. Одним из эффективных инструментов решения задач подобного рода, обеспечивающих корректировку алгоритмов управления летательного аппарата с учетом его изменившейся динамики, является обучение с подкреплением в варианте приближенного динамического программирования в сочетании с искусственными нейронными сетями. Применительно к задачам управления поведением сложных динамических систем в последнее десятилетие в рамках приближенного динамического программирования активно развивается семейство методов, известное под наименованием “метод адаптивного критика”. Рассматривается применение одного из вариантов этого подхода и развитие его за счет совместного использования с методом динамической инверсии. Данный подход позволяет формировать оптимальный адаптивный закон управления движением летательного аппарата. Его эффективность демонстрируется на примере управления продольным движением сверхзвукового пассажирского самолета.

Ключевые слова

сверхзвуковой пассажирский самолет, управление движением, динамическая инверсия, приближенное динамическое программирование, метод адаптивного критика, SNAC-подход, оптимальное адаптивное управление

Полный текст

Об авторах

Г. Дхиман

Московский авиационный институт (Национальный исследовательский университет)

Автор, ответственный за переписку.
Email: gd9617@mail.ru
Россия, Москва

Ю. В. Тюменцев

Московский авиационный институт (Национальный исследовательский университет)

Email: yutium@gmail.com
Россия, Москва

Р. A. Цхай

Московский авиационный институт (Национальный исследовательский университет)

Email: romantskhai106@yandex.ru
Россия, Москва

Список литературы

Powell W.B. Approximate Dynamic Programming: Solving the Curse of Dimensionality. 2nd Ed. Wiley, 2011. 658 p.
Werbos P.J. Approximate Dynamic Programming for Real-time Control and Neural Modeling // Handbook of Intelligent Control: Neural, Fuzzy, and Adaptive Approaches, Van Nostrand Reinhold / Eds D.A. White, D.A. Sofge. N.Y. USA, 1992. P. 493–525.
Lewis F.L., Vrabie D. Reinforcement Learning and Adaptive Dynamic Programming for Feedback Control // IEEE Circuits and Systems Magazine. 2009. V. 9. № 3. P. 32–50.
Reinforcement Learning and Approximate Dynamic Programming for Feedback Control / Eds F.L. Lewis, D. Liu. Wiley, 2013. 634 p.
Liu D., Xue S., Zhao B., Luo B., Wei Q. Adaptive Dynamic Programming for Control: A Survey and Recent Advances // IEEE Trans. on Systems, Man, and Cybernetics. 2021. V. 51. № 1. P. 142–160.
Wei Q., Song R., Li B., Lin X. Self-learning Optimal Control of Nonlinear Systems: Adaptive Dynamic Programming Approach. Springer, 2018. 240 p.
Song R., Wei Q., Li Q. Adaptive Dynamic Programming: Single and Multiple Controllers. Springer, 2019. 278 p.
Liu D., Wei Q., Wang D., Yang X., Li H. Adaptive Dynamic Programming with Applications in Optimal Control. Springer, 2017. 609 p.
Хайкин С. Нейронные сети: полный курс. 2-е изд. М.: Вильямс, 2006. 1106 с.
Werbos P.J. A Menu of Designs for Reinforcement Learning over Time // Neural Networks for Control / Eds W.T.Miller, R.S.Sutton, P.J.Werbos. Cambridge, MA: MIT Press, 1990. P. 67–95.
Ferrari S., Stengel R.F. Online Adaptive Critic Flight Control // J. Guidance, Control, and Dynamics. 2004. V. 27. № 5. P. 777–786.
Vamvoudakis K.G., Lewis F.L. Online Actor-critic Algorithm to Solve the Continuous-Time Infinite Horizon Optimal Control Problem // Automatica. 2010. V. 46. P. 878–888.
Wang D., He H., Liu D. Adaptive Critic Nonlinear Robust Control: A Survey // IEEE Trans. Cybern. 2017. V. 47. № 10. P. 1–22.
Wang D., Mu C. Adaptive Critic Control with Robust Stabilization for Uncertain Nonlinear Systems. Springer Nature, 2019. 317 p.
Wang D., Ha M, Zhao M. Advanced Optimal Control and Applications Involving Critic Intelligence. Springer Nature, 2023. 283 p.
Padhi R., Unikrishnan N., Wang X., Balakrishnan S.N. A Single Network Adaptive Critic (SNAC) Architecture for Optimal Control Synthesis for a Class of Nonlinear Systems // Neural Networks. 2006. V. 19. P. 1648–1660.
Steck J.E., Lakshmikanth G.S., Watkins J.M. Adaptive Critic Optimization of Dynamic Inverse Control // AIAA Infotech and Aerospace Conf. Garden Grove, California, USA. Preprint 2012–2408. 21 p.
Lakshmikanth G.S., Padhi R., Watkins J.M., Steck J.E. Single Network Adaptive Critic Aided Dynamic Inversion for Optimal Regulation and Command Tracking with Online Adaptation for Enhanced Robustness // Optimal Control Applications and Methods. 2014. V. 35. P. 479–500.
Lakshmikanth G.S., Padhi R., Watkins J.M., Steck J.E. Adaptive Flight-Control Design Using Neural-Network-Aided Optimal Nonlinear Dynamic Inversion // J. Aerospace Information Systems. 2014. V. 11. № 11. P. 785–806.
Heyer S. Reinforcement Learning for Flight Control: Learning to Fly the PH-LAB. MS Thesis. Deft, Netherlands: Delft University of Technology, 2019. 126 p.
Teirlinck C. Reinforcement Learning for Flight Control: Hybrid Offline-Online Learning for Robust and Adaptive Fault-Tolerance. MS Thesis. Deft, Netherlands: Delft University of Technology, 2022. 153 p.
Tiumentsev Yu.V., Tshay R.A. SNAC Approach to Aircraft Motion Control // Studies in Computational Intelligence. 2023. V. 1120. P. 420–434.
Enns D., Bugajski D., Hendrick R., Stein G. Dynamic Inversion: An Evolving Methodology for Flight Control Design // Intern. J. Control. 1994. V. 59. № 1. P. 71–91.
Looye G. Design of Robust Autopilot Control Laws with Nonlinear Dynamic Inversion // Automatisierungstechnik. 2001. V. 49. № 12. P. 523–531.
Lombaerts T.J.J., Huisman H.O., Chu Q.P., Mulder J.A., Joosten D.A. Nonlinear Reconfiguring Flight Control Based on Online Physical Model Identification // J. of Guidance, Control, and Dynamics, 2009. V. 32. № 3. P. 727–748.
Lombaerts T.J.J., Looye G.H.N. Design and Flight Testing of Nonlinear Auto Flight Control Laws // AIAA Guidance, Navigation and Control Conf. Minneapolis, Minnesota, USA. Preprint 2012–4982. 24 p.
Горбань А.Н. Обобщенная аппроксимационная теорема и вычислительные возможности нейронных сетей // Сиб. журн. вычисл. математики. 1998. Т. 1. № 1. С.11–24.
Горбань А.Н., Дунин-Барковский, Кирдин А.Н. и др. Нейроинформатика. Новосибирск: Наука, 1998. 296 с.
Шибзухов З.М. Некоторые вопросы теоретической нейроинформатики // XIII Всеросс. науч.-техн. конф. “Нейроинформатика-2011”, Школа-семинар “Соврем. проблемы нейроинформатики”. M.: Изд-во МИФИ, 2011. С. 1–30.
Cook M.V. Flight Dynamics Principles. 2nd Ed. Elsevier, 2007. 496 p.
Stevens B.L., Lewis F.L., Johnson E.N. Aircraft Control and Simulation: Dynamics, Controls Design and Autonomous Systems. 3rd Ed. Wiley, 2016. 764 p.
Sutton R.S., Barto A.G. Reinforcement Learning: An Introduction. 2nd Ed. Cambridge, Massachusetts, USA: The MIT Press, 2018. 548 p.
Chulin M.I., Tiumentsev Yu.V., Zarubin R.A. LQR Approach to Aircraft Control Based on the Adaptive Critic Design // Studies in Computational Intelligence. 2023. V. 1120. P. 406–419.
Tiumentsev Yu.V., Zarubin R.A. Lateral Motion Control of a Maneuverable Aircraft Using Reinforcement Learning // Optical Memory and Neural Networks. 2024. V. 33. № 1. P. 1–12.
Prodanik V.A., Efremov A.V. Synthesis of a Controller Based on the Principle of Inverse Dynamics and the Online Identification of a Lateral Motion Model in a Next-Generation Supersonic Transport // Recent Developments in High-Speed Transport / Eds D.Y.Strelets, O.N. Korsun. Springer, 2023. P. 41–49.
Lewis F.L., Vrabie D.L., Syrmos V.L. Optimal Control. 3rd Ed. Hoboken, New Jersey: John Wiley & Sons, Inc., 2012. 550 p.
Bryson A.E., Ho Y.-C. Applied Optimal Control: Optimization, Estimation and Control. N.Y: Taylor & Francis Group, 1975. 496 p.
Grishina A.Y., Efremov A.V. Development of a Controller Law for a Supersonic Transport Using Alternative Means of Automation in the Landing Phase // Recent Developments in High-Speed Transport / Eds D.Y. Strelets, O.N. Korsun. Springer, 2023. P. 41–49.
Webb B.D., Takahashi T.T. Emerging Federal Regulatory Framework for Future Supersonic Transport Aircraft // AIAA SCITECH Forum, San Diego, California, USA. Preprint 2022–0366. 23 p.
Ericsson L., Reding J. Unsteady Aerodynamics of Slender Delta Wings at Large Angles of Attack // J. Aircraft. 1975. V. 12. № 9. P. 721–729.

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

2. Рис. 1. Обобщенная схема обучения с подкреплением.

Скачать (124KB)

Метаданные

3. Рис. 2. Общая структура ACD-алгоритма адаптивного управления динамической системой.

Скачать (94KB)

Метаданные

4. Рис. 3. Схема обучения сети НС-критика при SNAC-подходе к управлению движением.

Скачать (93KB)

Метаданные

5. Рис. 4. Схема совместной работы SNAC и DI (Jзад – заданное значение угла тангажа).

Скачать (40KB)

Метаданные

6. Рис. 5. Отработка заданного угла тангажа, равного 5°, при совместном использовании SNAC и DI.

Скачать (127KB)

Метаданные

7. Рис. 6. Отработка многоступенчатого задающего сигнала по углу тангажа при совместном использовании SNAC и DI.

Скачать (132KB)

Метаданные

8. Рис. 7. Стабилизация балансировочного угла атаки при совместном использовании SNAC и DI (aбал – балансировочное значение угла атаки).

Скачать (222KB)

Метаданные

9. Рис. 8. Сравнение различных вариантов схемы DI + SNAC при моделировании отказа в системе (v – вспомогательный входной сигнал согласно сооотношению (2.5)).

Скачать (179KB)

Метаданные

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

№ 2 (2025)

№ 2 (2025)

Полный текст

Аннотация

Ключевые слова

Полный текст

Об авторах

Г. Дхиман

Ю. В. Тюменцев

Р. A. Цхай

Список литературы

Дополнительные файлы