Preview

Надежность

Расширенный поиск

Интеллектуальные методы повышения точности прогнозирования редких опасных событий на железнодорожном транспорте

https://doi.org/10.21683/1729-2646-2021-21-3-54-65

Полный текст:

Аннотация

Цель статьи – рассмотреть подходы к методам повышения качества прогнозирования и классификации несбалансированных данных и выбрать методы, позволяющие повысить точность классификации редких событий. При прогнозировании появления редких событий методами машинного обучения ученые сталкиваются с проблемой несоответствия качества обученных моделей их реальной способности правильно спрогнозировать появление редкого события. Предмет исследования в статье – обучение моделей при исходных несбалансированных данных. Объект исследования – информация об инцидентах и опасных событиях на объектах железнодорожного электроснабжения. Проблема несбалансированных данных выражается заметной диспропорции между типами наблюдаемых событий – количествами представителей различных классов.
Методы. При работе с несбалансированными данными, в зависимости от характера задачи, качества и объема исходных данных, применяют различные методы повышения качества моделей классификации и прогнозирования Data Science. Часть этих методов направлена на работу с признаками и параметрами моделей классификации. К ним относятся методы FAST, CFS, нечёткие классификаторы, GridSearchCV и другие. Другая группа методов ориентирована на формирование репрезентативных подмножеств из исходного массив данных – сэмплов. Методы сэмплинга данных позволяют исследовать влияние пропорции классов на качество машинного обучения. В частности, в рамках настоящей статьи подробно рассматривается метод NearMiss.
Результаты. Проблема дисбаланса классов при анализе количества инцидентов на объектах железнодорожного транспорта существуют с 2015 года. Несмотря на снижение доли опасных событий на объектах железнодорожного электроснабжения в течении трех лет с 2018 года, не исключен рост количества таких событий. Статистика долей опасных событий на уровне месяца демонстрирует отсутствие тренда на снижение и наличие пиков. В таких условиях эффективным периодом наблюдений за количеством инцидентов и опасных событий является месяц. Визуализация соотношения классов показала отсутствие выраженной границы между представителями класса большинства (инцидентами) и класса меньшинства (опасные события). Исследовалось соотношение классов в двух и трех измерениях в натуральных величинах и с применением метода главных компонент. Такая «близость» классов является одной из причин ошибок прогноза. В рамках работы проведен анализ имеющегося исследовательского опыта повышения качества машинного обучения при работе с несбалансированными данными. Определены и уточнены используемые для описания степени дисбалансов классов термины. Изучены сильные и слабые стороны различных методов работы с такими данными, приведено описание сильных и слабых сторон 50 методов. Из методов работы с количеством представителей классов при решении задачи классификации (прогнозирования появления) редких опасных событий на железнодорожном транспорте выбран метод NearMiss. Указанный метод позволяет проводить эксперименты с пропорциями представителей классов и методами отбора представителей классов. По результатам серии экспериментов удалось добиться повышения точности классификации редких опасных событий от 0 до 70-90%.

Об авторах

О. Б. Проневич
АО «НИИАС»
Россия

Ольга Борисовна Проневич – начальник отдела

ул. Нижегородская, д. 27, стр. 1, Москва, 109029

тел +7 (495) 786-68-57 



М. В. Зайцев
АО «НИИАС»
Россия

Михаил Вадимович Зайцев – ведущий специалист

ул. Нижегородская, д. 27, стр. 1, Москва, 109029

тел +7 (495) 786-68-57



Список литературы

1. Севастьянов Л.А, Шетиние Е.Ю. О методах повышения точности многоклассовой классификации на несбалансированных данных // Информатика и ее применение. 2020. Том 14. № 1. С. 63-70.

2. Садов М.А. Исследование методов классификации текстов для несбалансированных данных // Полиматис. 2016. № 2. С. 28-41.

3. Маслихов С.Р., Мохов А.С., Толчеев В.Ю. Построение сбалансированных классов в задаче классификации запросов пользователей // Сборник трудов V Международной научно-практической конференции «Дистанционные образовательные технологии». 2020. С. 245-248.

4. Шипицын А.В., Журавлева Н.В. Оценка онлайнзаявок на ипотечный кредит с помощью алгоритмов Machine Learnng // Вестник Белгородского университета кооперации, экономики и права. 2016. № 4(60). С. 199-209.

5. Chawla N.V., Bowyer W.B., Hall L.O. et al. SMOTE: Synthetic Minority Over-sampling Technique // Journal of Artificial Intelligence Research. 2002. № 16. P. 321-357.

6. Ali A., Shamsuddin S.M., Ralescu A. Classification with class imbalance problem: a review // International Journal of Advances in Soft Computing. 2013. № 7. P. 176-204.

7. Mladenic D., Grobelnik M. Feature selection for unbalanced class distribution and naive bayes // Proceedings of the Sixteenth International Conference on Machine Learning (ICML 1999), Bled, Slovenia, June 27–30, 1999. P. 258–267.

8. Yang T.-N., Wang S.-D. Robust algorithms for principal component analysis // Pattern Recognition Letters. 1999. 20(9). P. 927-933.

9. Yu H., Ni J., Zhao J. ACOSampling: An ant colony optimization-based undersampling method for classifying imbalanced DNA microarray data // Neurocomputing. 2013. 101(0). P. 309-318.

10. Chawla N.V. SMOTE: synthetic minority oversampling technique // arXiv:1106.1813, 2002.

11. García S., Herrera F. Evolutionary undersampling for classification with imbalanced datasets: Proposals and taxonomy // Evolutionary Computation. 2009. 17(3). P. 275-306.

12. Yin L. Feature selection for high-dimensional imbalanced data // Neurocomputing. 2013. 105(0). P. 3-11.

13. Sun Y. Cost-sensitive boosting for classification of imbalanced data // Pattern recognition. 2007. 40(12). P. 3358-3378.

14. Luukka P. Nonlinear fuzzy robust PCA algorithms and similarity classifier in bankruptcy analysis // Expert Systems with Applications. 2010. 37(12). P. 8296-8302.

15. Zheng Z., Wu X., Srihari R. Feature selection for text categorization on imbalanced data // ACM SIGKDD Explorations Newsletter. 2004. 6(1). P. 80-89.

16. Visa S., Ralescu A.L. Fuzzy Classifiers for Imbalanced Data Sets. University of Cincinnati, Computer Science Dept. Cincinnati, OH, United States, 2007. 157 p.

17. Imam T., Ting K., Kamruzzaman J. z-SVM: An SVM for Improved Classification of Imbalanced Data // AI 2006: Advances in Artificial Intelligence. 19th Australian Joint Conference on Artificial Intelligence, Hobart, Australia, December 4-8, 2006. Proceedings. P. 264-273.

18. Fernández A., M.J. del Jesus, Herrera F. Hierarchical fuzzy rule based classification systems with genetic rule selection for imbalanced data-sets // International Journal of Approximate Reasoning. 2009. 50(3). P.561-577.

19. Kriminger E., Principe J.C., Lakshminarayan C. Nearest Neighbor Distributions for imbalanced classification // The 2012 international joint conference on neural networks (IJCNN), Brisbane, QLD, Australia, 10–15 June 2012. P. 1–5.

20. Li Y., Zhang X. Improving k nearest neighbor with exemplar generalization for imbalanced classification // Advances in knowledge discovery and data mining: 15th Pacific-Asia Conference, PAKDD 2011, Shenzhen, China, May 24-27, 2011, Proceedings, Part II. P. 321-332.

21. Candès E.J. Robust principal component analysis // Journal of the ACM (JACM). 2011. 58(3). P. 11.

22. Japkowicz N., Myers C., Gluck M. A novelty detection approach to classification // IJCAI. Vol. 1. 1995. P. 518–523.

23. Jolliffe I. Principal component analysis // Encyclopedia of Statistics in Behavioral Science. John Wiley & Sons, Ltd, 2005.

24. Cao P., Zhao D., Zaiane O. An Optimized CostSensitive SVM for Imbalanced Data Learning // Advances in Knowledge Discovery and Data Mining: 17th Pacific-Asia Conference, PAKDD 2013, Gold Coast, Australia, April 14-17, 2013, Proceedings, Part II. P. 280-292.

25. Cao P., Zhao D., Zaiane O. A PSO-based CostSensitive Neural Network for Imbalanced Data Classification // Trends and Applications in Knowledge Discovery and Data Mining: PAKDD 2013 International Workshops: DMApps, DANTH, QIMIE, BDM, CDA, CloudSD, Gold Coast, QLD, Australia, April 14-17, 2013, Revised Selected Papers. P 452–463.

26. Wang X., Shao H, Japkowicz N et al. Using SVM with Adaptively Asymmetric Misclassification Costs for Mine-Like Objects Detection // 2012 11th International Conference on Machine Learning and Applications, Boca Raton, FL, USA, 12-15 Dec. 2012. P. 78–82.

27. Yang P., Liu W, Zhou B.B. et al. Ensemble-based wrapper methods for feature selection and class imbalance learning // Advances in Knowledge Discovery and Data Mining: 17th Pacific-Asia Conference, PAKDD 2013, Gold Coast, Australia, April 14-17, 2013, Proceedings, Part I. P. 544-555.

28. Yu E., Cho S. Ensemble based on GA wrapper feature selection // Computers & Industrial Engineering. 2006. 51(1). P.111-116.

29. Liao J.-J. An ensemble-based model for two-class imbalanced financial problem // Economic Modelling. 2014. 37(0). P.175-183.

30. Liu Y., AnA., Huang X. Boosting prediction accuracy on imbalanced datasets with SVM ensembles // Advances in Knowledge Discovery and Data Mining, 10th Pacific-Asia Conference, PAKDD 2006, Singapore, April 9-12, 2006, Proceedings. P. 107-118.

31. Seiffert C. RUSBoost: A hybrid approach to alleviating class imbalance // Systems, Man and Cybernetics. Part A: Systems and Humans. IEEE Transactions. 2010. 40(1). P.185-197.

32. Chawla N.V. SMOTEBoost: Improving prediction of the minority class in boosting, // Proceedings of Conference: Knowledge Discovery in Databases: PKDD 2003, 7th European Conference on Principles and Practice of Knowledge Discovery in Databases, Cavtat-Dubrovnik, Croatia, September 22-26, 2003. P. 107-119.

33. Wasikowski M., Chen X.-W. Combating the small sample class imbalance problem using feature selection // Knowledge and Data Engineering. IEEE Transactions. 2010. 22(10). P.1388-1400.

34. Martino M.D. Novel Classifier Scheme for Unbalance Problems // Pattern Recognition Letters. 2013. Vol. 34. Issue 10. P. 1146–1151.

35. Fernández A. A study of the behaviour of linguistic fuzzy rule based classification systems in the framework of imbalanced data-sets // Fuzzy Sets and Systems. 2008. 159(18). P. 2378-2398.

36. Le X., Mo-Yuen C., Taylor L.S. Power Distribution Fault Cause Identification With Imbalanced Data Using the Data Mining-Based Fuzzy Classification E-Algorithm // Power Systems. IEEE Transactions. 2007. 22(1). P. 164-171.

37. Soler V. Imbalanced Datasets Classification by Fuzzy Rule Extraction and Genetic Algorithms // Data Mining Workshops 2006. ICDM Workshops 2006. Sixth IEEE International Conference 2006.

38. Hung C.-M. Huang Y.-M. Conflict-sensitivity contexture learning algorithm for mining interesting patterns using neuro-fuzzy network with decision rules // Expert Systems with Applications. 2008. 34(1). P. 159-172.

39. Jeatrakul P., Wong K.W., Fung C.C. Classification of imbalanced data by combining the complementary neural network and SMOTE algorithm // Proceedings of the 17th international conference on Neural information processing: models and applications. Volume Part II. 2010. SpringerVerlag: Sydney, Australia. P. 152-159.

40. Malof J.M., Mazurowski M.A., Tourassi G.D. The effect of class imbalance on case selection for case-based classifiers: An empirical study in the context of medical decision support // Neural Networks. 2012. 25(0). P. 141-145.

41. Mazurowski M.A. Training neural network classifiers for medical decision making: the effects of imbalanced datasets on classification performance // Neural networks. 2008. 21(2-3). P. 427-436.

42. Culotta A. Sorensen J. Dependency tree kernels for relation extraction // Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004.

43. Drummond C., Holte R.C. Exploiting the cost (in) sensitivity of decision tree splitting criteria // ICML. 2000.

44. Al-Shahib A., Breitling R., Gilbert D. Feature selection and the class imbalance problem in predicting protein function from sequence // Applied Bioinformatics. 2005. 4(3). P. 195-203.

45. Koziarski M. Radial-Based Undersampling for imbalanced data classification // Pattern Recognition. 2020. Vol. 102.

46. He H., Bai Y., Garcia E.A. et al. ADASYN: adaptive synthetic sampling approach for imbalanced learning // IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence). 2008. P. 1322-1328.

47. Mani I., Zhang I. kNN approach to unbalanced data distributions: a case study involving information extraction // Proceedings of Workshop on Learning from Imbalanced Datasets. 2003. Vol. 126.

48. Wilson D.L. Asymptotic properties of nearest neighbor rules using edited data // IEEE Trans. Syst. Man Cybern. 1972. 2 (3). P. 408-421.

49. Tomek I. Two modifications of CNN // IEEE Trans. Syst. Man Cybern. 1976. 6. P. 769-772.

50. Hart P. The condensed nearest neighbor rule // IEEE Trans. Inf. Theory. 1968. 14(3). P. 515-516.

51. Махсотова Ц.В. Исследование методов классификации при несбалансированности классов // Научный журнал. 2017. №5 (18). URL: https://cyberleninka.ru/article/n/issledovanie-metodov-klassifikatsii-prinesbalansirovannosti-klassov (дата обращения: 5 июля 2020 г.).

52. Каврин Д.А., Субботин С.А. Методы количественного решения проблемы несбалансированности классов // Радіоелектроніка, інформатика, управління. 2018. №1 (44). URL: https://cyberleninka.ru/article/n/metody-kolichestvennogo-resheniya-problemynesbalansirovannosti-klassov (дата обращения: 6 июля 2020 г.).

53. Yi Lu, Hong Guo, Feldkamp L. Robust neural learning from unbalanced data samples // 1998 IEEE International Joint Conference on Neural Networks Proceedings. IEEE World Congress on Computational Intelligence (Cat. No.98CH36227), Anchorage, AK. 1998. Vol. 3. P. 1816-1821.

54. Al-Stouhi S., Reddy C.K. Transfer learning for class imbalance problems with inadequate data // Knowledge and Information Systems. 2016. 48. P. 201–228.

55. Near-Miss – version 0.9.0.dev0. API reference. URL: https://imbalanced-learn.org/dev/references/generated/imblearn.under_sampling.NearMiss.html (дата обращения: 10 июля 2021 г.).

56. Sun Y. Cost-Sensitive Boosting for Classification of Imbalanced Data // Pattern Recognition. 2007. Vol. 40. Issue 12. P. 3358–3378.


Для цитирования:


Проневич О.Б., Зайцев М.В. Интеллектуальные методы повышения точности прогнозирования редких опасных событий на железнодорожном транспорте. Надежность. 2021;21(3):54-64. https://doi.org/10.21683/1729-2646-2021-21-3-54-65

For citation:


Pronevich O.B., Zaitsev M.V. Intelligent methods for improving the accuracy of prediction of rare hazardous events in railway transportation. Dependability. 2021;21(3):54-64. https://doi.org/10.21683/1729-2646-2021-21-3-54-65

Просмотров: 122


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1729-2646 (Print)
ISSN 2500-3909 (Online)