Метод выявления актуальных тем тренажерной подготовки пилотов на основе кластеризации отчетов по безопасности полетов
https://doi.org/10.26467/2079-0619-2024-27-4-34-49
Аннотация
Технологии обработки естественного языка (natural language processing – NLP) в одном из своих применений обеспечивают эффективное исследование закономерностей и тенденций в больших наборах текстовых данных. Текстовые данные по безопасности полетов, представленные в виде отчетов по расследованию авиационных происшествий, являются перспективным объектом для извлечения новой полезной информации, которую можно использовать как при управлении безопасностью полетов, так и в рамках тренажерной подготовки. В данной работе рассматриваются вопросы применения технологий NLP для исследования корпуса отчетов по безопасности полетов ПАО «Аэрофлот – российские авиалинии». Целью исследования является разработка метода выявления актуальных тем тренажерной подготовки пилотов. Представлен анализ существующих зарубежных исследований в области интеллектуального анализа текстовой информации в гражданской авиации. Выявлено, что за рубежом активно применяют технологии NLP для изучения отчетов по безопасности полетов. В статье представлена схема метода выявления актуальных тем тренажерной подготовки пилотов, основанного на кластеризации отчетов по безопасности полетов. Описаны процедуры предварительной обработки текста и построение его векторного пространства. Научной новизной подхода является то, что в отличие от предыдущих работ предлагается использовать полное векторное представление отчетов по безопасности полетов, которое строится объединением матриц тематических и семантических векторов. Проведена апробация предложенного метода. Анализируемый корпус текстов составил 1080 отчетов. В результате применения алгоритма кластеризации были идентифицированы 36 кластеров, которые затем были визуализированы с помощью алгоритма t-распределенного стохастического эмбеддинга соседей (t-distributed Stochastic Neighbor Embedding – t-SNE). Практическая значимость результатов исследования заключается в том, что подход, основанный на кластеризации отчетов, позволит проводить более глубокий анализ отчетов по безопасности полетов, что может упростить и ускорить работу как специалистов по управлению безопасностью полетов, так и инструкторов по тренажерной подготовке пилотов.
Об авторах
З. Р. ЗаббаровРоссия
Заббаров Зульфат Рифкатович, аспирант;
Пилот
г. Москва;
г. Ульяновск
А. К. Волков
Россия
Волков Александр Константинович, кандидат технических наук, доцент, доцент кафедры обеспечения авиационной безопасности
г. Ульяновск
Список литературы
1. Groff L. Applying natural language processing tools to occurrence reports [Электронный ресурс] // ICAO, 2018. 20 p. URL: https://www.icao.int/safety/iStars/Documents/IUG%20Meeting%201/Presentations/Applying%20Natural%20Language%20Processing%20Tools%20to%20Occurrence%20Reports%20-%20Loren%20Groff.pdf (дата обращения: 20.01.2024).
2. Junjie L., Huijuan Y., Yinlan D. Application of text analysis technology in aviation safety information analysis [Электронный ресурс] // Journal of Physics: Conference Series. 2020. Vol. 1624, no. 3. Pp. 032033. DOI: 10.1088/1742-6596/1624/3/032033 (дата обращения: 20.01.2024).
3. Pimm C. Natural Language Processing (NLP) tools for the analysis of incident and accident reports / C. Pimm, C. Raynal, N. Tulechki, E. Hermann, G. Caudy [Электронный ресурс] // International Conference on HumanComputer Interaction in Aerospace (HCI-Aero). Belgium, Brussels, 2012. Pp. 1–7. URL: https://core.ac.uk/download/pdf/50536379.pdf (дата обращения: 20.01.2024).
4. Rose R.L., Puranik T.G., Mavris D.N. Natural language processing based method for clustering and analysis of aviation safety narratives [Электронный ресурс] // Aerospace. 2020. Vol. 7, no. 10. ID: 143. DOI: 10.3390/aerospace7100143 (дата обращения: 20.01.2024).
5. Miyamoto A., Bendarkar M.V., Mavris D.N. Natural language processing of aviation safety reports to identify inefficient operational patterns [Электронный ресурс] // Aerospace. 2022. Vol. 9, no. 8. ID: 450. DOI: 10.3390/aerospace9080450 (дата обращения: 20.01.2024).
6. Madeira T. Machine learning and natural language processing for prediction of human factors in aviation incident reports / T. Madeira, R. Melício, D. Valério, L. Santos [Электронный ресурс] // Aerospace. 2021. Vol. 8, no. 2. ID: 47. DOI: 10.3390/aerospace8020047 (дата обращения: 20.01.2024).
7. Kuhn K.D. Using structural topic modeling to identify latent topics and trends in aviation incident reports // Transportation Research Part C-emerging Technologies. 2018. Vol. 87. Pp. 105–122. DOI: 10.1016/j.trc.2017.12.018
8. Switzer J., Khan L., Muhaya F.B. Subjectivity classification and analysis of the ASRS corpus [Электронный ресурс] // 2011 IEEE International Conference on Information Reuse & Integration. USA, Las Vegas, NV, 2011. Pp. 160–165. DOI: 10.1109/IRI.2011.6009539 (дата обращения: 22.01.2024).
9. Ono M., Nakanishi M. Analysis of human factors and resilience competences in asrs data using natural language processing // Digital Human Modeling and Applications in Health, Safety, Ergonomics and Risk Management. HCII 2023. Lecture Notes in Computer Science. 2023. Vol. 14029. Pp. 548–561. DOI: 10.1007/978-3-031-35748-0_37
10. Blei D.M., Ng A.Y., Jordan M.I. Latent dirichlet allocation // The Journal of Machine Learning Research. 2003. Vol. 3. Pp. 993–1022.
11. Мэрфи К.П. Вероятностное машинное обучение: введение / Пер. с англ. А.А. Слинкина. М.: ДМК Пресс, 2022. 990 с.
12. Ester M. A Density-based algorithm for discovering clusters in large spatial databases with Noise / M. Ester, H.P. Kriegel, J. Sander, X. Xu [Электронный ресурс] // Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining (KDD-96), USA, Washington, DC, 1996. Pp. 1–6. URL: https://cs.fit.edu/~pkc/classes/ml-internet/papers/ester96kdd-dbscan.pdf (дата обращения: 23.01.2024).
13. Nils H., Gampfer F., Buchkremer R. Latent dirichlet allocation and t-distributed stochastic neighbor embedding enhance scientific reading comprehension of articles related to enterprise architecture // AI. 2021. Vol. 2, no. 2. Pp. 179–194. DOI: 10.3390/ai2020011
14. Van Der Maaten L. Accelerating t-SNE using tree-based algorithms // Journal of Machine Learning Research. 2015. Vol. 15, Pp. 3221–3245.
15. Van der Maaten L., Hinton G.E. Visualizing high-dimensional data using t-SNE // Journal of Machine Learning Research. 2008. Vol. 9. Pp. 2579–2605.
16. Коршунов А., Гомзин А. Тематическое моделирование текстов на естественном языке // Труды Института системного программирования РАН. 2012. № 23. С. 215–242. DOI: 10.15514/ISPRAS-2012-23-13
17. Slutsky A., Hu X., An Y. Tree labeled LDA: a hierarchical model for web summaries [Электронный ресурс] // Proceedings of the 2013 IEEE International Conference on Big Data. USA, Silicon Valley, CA, 2013. Pp. 134–140. DOI: 10.1109/BigData.2013.6691745 (дата обращения: 28.01.2024).
18. Краснов Ф.В., Баскакова Е.Н., Смазневич И.С. Оценка прикладного качества тематических моделей для задач кластеризации // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2021. № 56. С. 100–111. DOI: 10.17223/19988605/56/11
19. Shaheen S., Marco R.S. Full-text or abstract? Examining topic coherence scores using Latent Dirichlet Allocation [Электронный ресурс] // 2017 IEEE International Conference on Data Science and Advanced Analytics (DSAA). Japan, Tokyo, 2017. Pp. 165–174. DOI: 10.1109/DSAA.2017.61 (дата обращения: 28.01.2024).
Рецензия
Для цитирования:
Заббаров З.Р., Волков А.К. Метод выявления актуальных тем тренажерной подготовки пилотов на основе кластеризации отчетов по безопасности полетов. Научный вестник МГТУ ГА. 2024;27(4):34-49. https://doi.org/10.26467/2079-0619-2024-27-4-34-49
For citation:
Zabbarov Z.R., Volkov A.K. A method for identifying relevant topics of pilot simulator training based on clustering of flight safety reports. Civil Aviation High Technologies. 2024;27(4):34-49. (In Russ.) https://doi.org/10.26467/2079-0619-2024-27-4-34-49