ДОСЛІДЖЕННЯ МЕТОДІВ ВИЯВЛЕННЯ АНОМАЛІЙ НА ЕТАПІ ПОПЕРЕДНЬОЇ ОБРОБКИ ДАНИХ
DOI:
https://doi.org/10.26906/SUNZ.2022.1.052Ключові слова:
попередня обробка даних, машинне навчання, preprocessing, Standard Deviation Method, Local Outlier Factor, Random Forest KNN, BaggingАнотація
Предметом дослідження є методи та засоби виявлення аномалій в даних. Метою статті є підвищення якості класифікації даних за рахунок виявлення аномалій на етапі їх попередньої обробки. Завдання: дослідити методи виявлення аномалій на етапі попередньої обробки даних, визначити поріг прийняття рішень anomaly_score для кожного із методів та оцінити якість класифікації до та після preprocessing. Використовуваними методами є: методи штучного інтелекту, машинного навчання, ансамблеві методи. Отримано такі результати: досліджено методи виявлення аномалій: метод стандартного відхилення (Standard Deviation Method), метод локального рівня викидів (Local Outlier Factor), метод Ізолюючого лісу (Isolation Forest). Отримано залежність кількості аномалій від порогу прийняття рішень для кожного із методів. Оцінку якості попередньої обробки даних виконано з використанням класифікаторів на основі методів KNN та беггінгу (Bagging). Досліджені методи реалізовані програмно з використанням хмарного сервісу GOOGLE COLAB на основі Jupyter Notebook. Висновки. Наукова новизна отриманих результатів полягає у дослідженні методів виявлення аномалій на етапі попередньої обробки даних, вибору мета-алгоритму preprocessing та визначення оптимальних параметрів його налаштування.Завантаження
Посилання
Cui Z. G., Cao Y. Wu, Liu H.N, Qiu, Z. F., Chen, C. W. Research on preprocessing technology of building energy consumption monitoring data based on machine learning algorithm. Build. Sci. 2018, Vol. 34 (2), C. 94–99.
Bernhard Schölkopf, Robert C Williamson, Alex J Smola et al. Support vector method for novelty detection Advances in Neural Information Processing Systems, Denver, United States, 2000, P. 582–588.
Zhou Chong, Paffenroth Randy C. Anomaly detection with robust deep autoencoders, ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Halifax, Canada, 2017, P. 665–674.
Adrian Alan Pol, Gianluca Cerminara, Cécile Germain et al. Detector monitoring with artificial neural networks at the CMS experiment at the CERN Large Hadron Collider. Computing and Software for Big Science. 2019,Vol. 3 (1), P. 3-8.
Stankevicius Mantas, Marcinkevicius Virginijus, Rapsevicius Valdas. Comparison of Supervised Machine Learning Techniques for CERN CMS Of49 fline Data Certification. Doctoral Consortium/Forum@ DB&IS, 2018, P. 170–176.,
Adrian Alan Pol, Virginia Azzolini, Gianluca Cerminara et al. Anomaly detection using Deep Autoencoders for the assessment of the quality of the data acquired by the CMS experiment, EPJ Web of Conferences, EDP Sciences, 2019, Vol. 214, P. 5.
Maxim Borisyak, Artem Ryzhikov, Andrey Ustyuzhanin et al. (1 + epsilon)-class Classification: an Anomaly Detection Method for Highly Imbalanced or Incomplete Data Sets, Journal of Machine Learning Research, 2020, Vol. 21(72), P. 1–22.
Гавриленко С.Ю., Шевердін І. В. Розробка методу ідентифікації стану комп’ютерної системи на основі алгоритму «Isolation Forest», Радіоелектроніка, інформатика, управління, 2021, №.1(56), Р. 105-116.
Support vector method for novelty detection / Bernhard Schölkopf,Robert C Williamson, Alex J Smola et al., Advances in Neural InformationProcessing System, Denver, United States, 2000, P. 582–588.
Большаков А.С., Губанкова Е.В. Обнаружение аномалий в компьютерных сетях с использованием методов машинного обучения, Телекоммуникационные устройства и системы, 2020. Т. 10. № 1. С. 37-42.
Breunig M. M. et al. LOF: identifying density-based local outliers, ACM sigmodrecord – ACM, 2000, Vol. 29 (2), P. 93-104.
Breunig, M. M ., Kriegel, H.P., Ng, R.T ., Сандер, Дж.. LOF: определение локальных выбросов на основе плотности, Материалы Международной конференции ACM SIGMOD 2000 г. по управлению данными. SIGMOD, 2000, С. 93–104.
Zhou, H., Wang, P., & Li, H. Research on adaptive parameter determination in DBSCAN algorithm, Journal of Xi'an University of Technology, 2014, 28(3), P.289-292.
Karami A., Johansson R. Choosing DBSCAN parameters automatically using differential evolution, International Journal of Computer Applications, 2014, Vol. 91(7), P.1-11.
Arthur Zimek, Erich Schubert. Outlier Detection. Encyclopedia of Database Systems, Springe,r New York, 2017. Р.96-106.
Dai, Zhifeng and Xiaomin Chang. Predicting Stock Return with Economic Constraint: Can Interquartile Range Truncate the Outliers, Mathematical Problems in Engineering, 2021, Р. 1-12.
Liu, Fei Tony, Ting, Kai Ming and Zhou, Zhi-Hua. Isolation forest, Proceedings of the 2008 Eighth IEEE International Conference on Data Mining, December 2008, P. 413–422.