ДОСЛІДЖЕННЯ МЕТОДІВ ПІДВИЩЕННЯ ЯКОСТІ КЛАСИФІКАЦІЇ НА НЕЗБАЛАНСОВАНИХ ДАНИХ

  • Svitlana Gavrylenko
  • Vladislav Zozulia
  • Viktoriia Omelchenko
Ключові слова: машинне навчання, мережева безпека, балансування даних, системи виявлення вторгнень, Undersampling, Oversampling, SMOTEENN, SVMSMOTE, BorderlineSMOTE, ADASYN, SMOTE, KMeansSMOTE

Анотація

Предметом дослідження є методи балансування вихідних даних. Метою статті є підвищення якості систем виявлення вторгнень у комп’ютерні мережі за рахунок використання методів балансування класів. Завдання: дослідити методи балансування класів та розробити метод класифікації на незбалансованих даних для підвищення рівня мережевої безпеки. Використовуваними методами є: методи штучного інтелекту, машинного навчання. Отримано такі результати: Досліджено методи балансування класів, які базуються на технології Undersampling, Oversampling та їх комбінації. Для подальшого дослідження обрано такі методи: SMOTEENN, SVMSMOTE, BorderlineSMOTE, ADASYN, SMOTE, KMeansSMOTE. У якості вихідних даних використано набір UNSW-NB 15, який містить інформацію про нормальне функціонування мережі та під час вторгнень. У якості базового класифікатора використано дерево рішень на основі CART (Classification And Regression Tree) алгоритму. За результатами досліджень отримано, що використання методу SMOTEENN надає можливість підвищити якість виявлення вторгнень у функціонування мережі. Висновки. Наукова новизна отриманих результатів полягає у комплексному використанні методів балансування даних та методу класифікації даних на основі дерева рішень для виявлення вторгнень у комп’ютерні мережі, що дозволило зменшити кількість помилок II роду.

Завантаження

Дані про завантаження поки що недоступні.

Посилання

1. S. Gavrylenko, V. Chelak, S. Semenov. Development of Method for Identification the Computer System State based on the Decision Tree with Multi-Dimensional Nodes. Radio Electronics, Computer Science, Control (RECSC). 2022, V.4, pp.113-121.
2. Krawczyk, Bartosz. Learning from imbalanced data: open challenges and future directions. Progress in Artificial Intelligence, 2016, V.5, pp.221-232.
3. C. Wheelus, E. Bou-Harb and X. Zhu. Tackling Class Imbalance in Cyber Security Datasets. 2018 IEEE International Conference on Information Reuse and Integration (IRI), Salt Lake City, UT, USA. 2018, pp.229-232.
4. Abdi L, Sattar H. To combat multi-class imbalanced problems by means of over-sampling techniques. IEEE Trans Knowl Data Eng. 2016, V.28, pp.238–251.
5. Will Badr. Having an Imbalanced Dataset? Here Is How You Can Fix It. [Електронний ресурс] – Режим доступу: https://towardsdatascience. com/ having-an-imbalanced-dataset-here-is-how-you-can-solve-it-1640568947eb.
6. Jason Brownlee. Cost-Sensitive Learning for Imbalanced Classification. [Електронний ресурс] – Режим доступу: https://machinelearningmastery. com/cost-sensitive-learning-for-imbalanced-classification/.
7. D. L. Wilson. Asymptotic Properties of Nearest Neighbor Rules Using Edited Data. IEEE Transactions on Systems, Man, and Cybernetics. 1972, V.3, pp.408-421.
8. Luque A, Carrasco A, Martin A, Heras de las A. The impact of class imbalance in classification performance metrics based on the binary confusion matrix. Pattern Recogn. 2019, pp.216–231.
9. Batista, Gustavo EAPA, Ronaldo C. Prati, and Maria Carolina Monard. A study of the behavior of several methods for balancing machine learning training data. ACM SIGKDD explorations newsletter. 2004,V.6, pp.20-29.
10. Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP. SMOTE: synthetic minority over sampling technique. J Artif Intellig Res. 2002, pp.321–357.
11. Douzas G, Bacao F, Last F. Improving imbalanced learning through a heuristic oversampling method based on k-means and SMOTE. Inf Sci. 2018, V.465, pp.1–20.
12. Blagus R, Lusa L. SMOTE for High-dimensional class-imbalanced data. BMC Bioinf. 2013, V.14, pp.14-106.
13. Fu G.H., Xu F., Zhang B.Y., Yi L.Zh. Stable variable selection of class-imbalanced data with precision-recall criterion. Chemometrics and Intelligent Laboratory Systems. 2017, V.171, pp.241-250.
14. Haixiang G., Yijing L., Shang J., Mingyun G., Yuanyue H., Bing G. Learning from class-imbalanced data: Review of methods and applications. Expert Systems with Applications. 2017, V.73, pp.220-239.
15. Nour Moustafa and Jill Slay. Unsw-nb15: a comprehensive data set for network intrusion detection systems (unsw-nb15 network data set). Military Communications and Information Systems Conference (MilCIS). 2015, pp.1-6.
16. Douzas Georgios, Fernando Bacao, and Felix Last. Improving imbalanced learning through a heuristic oversampling method based on k-means and SMOTE. Information Sciences. 2018, V. 465, pp.1-20.
Опубліковано
2023-06-09
Як цитувати
Gavrylenko Svitlana Дослідження методів підвищення якості класифікації на незбалансованих даних / Svitlana Gavrylenko, Vladislav Zozulia, Viktoriia Omelchenko // Системи управління, навігації та зв’язку. Збірник наукових праць. – Полтава: ПНТУ, 2023. – Т. 2 (72). – С. 87-91. – doi:https://doi.org/10.26906/SUNZ.2023.2.087.
Розділ
Інформаційні технології

Найбільш популярні статті цього автора (авторів)