Анализ UMAP – метода снижения размерности исходных данных в машинном обучении для прогнозирования отказов в локомотивном комплексе
https://doi.org/10.21683/1729-2646-2022-22-4-53-62
Аннотация
Цель. Преобразование признаков является одним из этапов применения методов машинного обучения, оказывающих существенное влияние на качество регрессионных моделей. Целью настоящей статьи является разработка критериев оценки качества снижения размерности данных на этапе преобразования признаков и адаптация метода UMAP к решению задачи прогнозирования количества дней до отказа на локомотивах ОАО «РЖД».
Методы. Методы преобразования данных делятся на две группы: одни пытаются сохранить глобальную структуру данных, вторые – локальные расстояния между точками. В настоящей статье подробно рассмотрен нелинейный метод снижения размерности UMAP, низкоразмерное представление данных в котором основывается на преобразовании графа ближайших соседей с сохранением структуры данных. Изучение структуры многообразия исходных данных осуществляется с применением методов топологического анализа данных и методами построения нечетких симплицированных множеств.
Результаты. Анализ теоретической базы UMAP, впервые проведенный на русском языке, позволил обоснованно выделить три основных параметра метода, варьирование которых оказывает существенное влияние на вид данных, полученных в результате преобразования. В частности – на качество разделения классов на двумерном пространстве. Также были определены характеристики входного набора параметров, влияющих на результаты UMAP. Продемонстрированы результаты практического применения метода UMAP. На промежуточных этапах: перечень ближайших соседей, взвешенный граф ближайших соседей. Основной результат: низкоразмерное представление данных (из исходных 44 измерений) на двумерном пространстве с разделением классов, что подтверждается как расчетами, так и визуально.
Выводы. Определено, что UMAP является эффективным и обоснованным методом снижения размерности, позволяющим за счет варьирования параметров преобразовывать данные таким образом, чтобы повысить качество подаваемых на модели машинного обучения данных по критерию «очевидное разделение классов». Преобразование является промежуточным этапом для подготовки данных к применению регрессионных моделей, и разделение классов выполнено для исключения грубых ошибок регрессий.
Об авторах
О. Б. ПроневичРоссия
Проневич Ольга Борисовна – кандидат технических наук, руководитель проектов отдела постановки задач, внедрения и сопровождения системных разработок отделения управления рисками сложных технических систем
Москва
А. П. Клокова
Россия
Клокова Анна Павловна – аспирант, Российский университет транспорта РУТ (МИИТ); специалист отделения управления рисками сложных технических систем
Москва
Список литературы
1. Шубинский И.Б., Проневич О.Б. Методы интеллектуального анализа данных для прогнозирования опасных событий // Железнодорожный транспорт. 2021. № 12. С. 27-31.
2. Проневич О.Б., Зайцев М.В. Интеллектуальные методы повышения точности прогнозирования редких опасных событий на железнодорожном транспорте // Надежность. 2021. Т. 21. № 3. С. 54-65. DOI: 10.21683/1729-2646-2021-21-3-54-65
3. Применение методов машинного обучения для прогнозирования опасных отказов объектов железнодорожного пути / И.Б. Шубинский, А.М. Замышляев, О.Б. Проневич, А.Н. Игнатов, Е.Н. Платонов // Надежность. 2020. Т. 20. № 2. С. 43-53. DOI: 10.21683/1729-2646-2020-20-2-43-53
4. Платонов Е.Н., Просвирин К.В. Прогнозирование дефектов верхнего строения железнодорожного пути методами машинного обучения // Вестник компьютерных и информационных технологий. 2022. Т. 19. № 2. С. 8-18. DOI: 10.14489/vkit.2022.02.pp.008-018
5. Корнеева Е.В. Сидоренко В.Г. Анализ применимости термина Big Data к автоматизированной системе оперативного управления перевозками // Наука и техника транспорта. 2022. № 1. С. 70-76.
6. Устич П.А., Иванов А.А., Мажидов Ф.А. Применение информационных технологий в системе технического обслуживания и ремонта вагонов // Автоматизация. Современные технологии. 2016. № 10. С. 29-38.
7. Калайдин Е.Н., Пиронко М.Д. Особенности сбора и обработки данных для построения моделей машинного обучения // Актуальные проблемы экономической теории и практики: сборник научных трудов / под редакцией В.А. Сидорова. Краснодар, 2020. С. 116-123.
8. Тимченко Е.А. Проблемы предочистки данных // Молодежная наука – развитию агропромышленного комплекса: материалы Всероссийской (национальной) научно-практической конференции студентов, аспирантов и молодых ученых. Курск, 3-4 декабря 2020 г. С. 263-269.
9. Акимов А.А., Валитов Д.Р., Кубряк А.И. Предварительная обработка данных для машинного обучения // Научное обозрение. Технические науки. 2022. № 2. С. 26-31. DOI: 10.17513/srts.1391
10. Анализ существующих методов снижения размерности входных данных / С.Д. Ерохин, Б.Б. Борисенко, И.Д. Мартишин, А.С. Фадеев // Телекоммуникации и транспорт. 2022. Т. 16. № 1. С. 30-37. DOI: 10.36724/2072-8735-2022-16-1-30-37
11. Федотов М.В., Грачев В.В. Предиктивная аналитика технического состояния систем тепловозов с использованием нейросетевых прогнозных моделей // Бюллетень результатов научных исследований. 2021. № 3. С. 102-114. DOI: 10.20295/2223-9987-2021-3-102-114.
12. Хамидов О.Р., Грищенко А.В. Обнаружение неисправностей подшипников качения асинхронного тягового электродвигателя локомотивов на основе современных интеллектуальных методов // Вестник транспорта Поволжья. 2020. № 1 (79). С. 35-41.
13. Диагностирование газовоздушного тракта тепловозного дизеля с использованием интеллектуального классификатора / В.В. Грачев, М.В. Федотов, А.В. Грищенко, Ф.Ю. Базилевский, А.Л. Шарапов // Бюллетень результатов научных исследований. 2022. № 2. С. 124- 140. DOI: 10.20295/2223-9987-2022-2-124-140
14. Ефименко Е.Ю., Мясников Е.В. Оценка методов снижения размерности в задаче распознавания личности по походке // Сборник трудов по материалам VII Международной конференции и молодежной школы «Информационные технологии и нанотехнологии» (ИТНТ 2021), Самара, 20-24 сентября 2021. Самарский университет, 2021. Т. 2. С. 159-160.
15. Горбунова А.А. Сравнительный анализ алгоритмов снижения размерности данных для исследования экспрессии генов // 77-я научная конференция студентов и аспирантов Белорусского государственного университета: материалы конференции в 3 ч., Минск, 11–22 мая 2020 года. Минск: Белорусский государственный университет, 2020. С. 161-164.
16. Кулагин М.А. Интеллектуальная система анализа и прогнозирования нарушений при управлении подвижным составом: дис. … канд. техн. наук: 2.9.8. М., 2022. 229 с.
17. Leland McInnes, John Healy, James Melville. UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction [Электронный ресурс]. Режим доступа: https://arxiv.org/pdf/1802.03426.pdf, свободный (дата обращения 03.10.2022). DOI: 10.48550/ arXiv.1802.03426
18. Leland McInnes, John Healy, James Melville. UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction // arXiv. — 2020. — 21 September. DOI: https://doi.org/10.48550/arXiv.1802.03426
19. Wei Dong, Charikar Moses, Kai Li. Efficient k-nearest neighbor graph construction for generic similarity measures // Conference: Proceedings of the 20th international conference on World wide web, March 28–April 1, 2011. Hyderabad, India, 2011. Pages 577–586. DOI: 10.1145/1963405.1963487
20. Kai Ming Ting, Takashi Washio, Ye Zhu et al. Breaking the curse of dimensionality with Isolation Kernel [Электронный ресурс]. Режим доступа: https://arxiv.org/pdf/2109.14198.pdf, свободный (дата обращения 03.10.2022). DOI: 10.48550/arXiv.2109.14198
Рецензия
Для цитирования:
Проневич О.Б., Клокова А.П. Анализ UMAP – метода снижения размерности исходных данных в машинном обучении для прогнозирования отказов в локомотивном комплексе. Надежность. 2022;22(4):53-62. https://doi.org/10.21683/1729-2646-2022-22-4-53-62
For citation:
Pronevich O.B., Klokova A.P. Analysis of UMAP, the method for reducing the dimensionality of initial data in machine learning for the purpose of failure prediction in a motive power service. Dependability. 2022;22(4):53-62. (In Russ.) https://doi.org/10.21683/1729-2646-2022-22-4-53-62