ОБРОБКА ДАНИХ, ЩО МІСТЯТЬ ПРОПУСКИ В ЗАДАЧАХ КЛАСТЕРИЗАЦІЇ

O. A. Kobylin; S. O. Vyskrebentseva; R. V. Petrova

doi:10.26906/SUNZ.2019.5.045

Автор(и)

O. A. Kobylin
S. O. Vyskrebentseva
R. V. Petrova

DOI:

https://doi.org/10.26906/SUNZ.2019.5.045

Ключові слова:

кластеризація, неповні дані, обробка та аналіз даних, Data Mining, FCM, методи відновлення даних, мова програмування R

Анотація

Предметом досліджень є методи підготовки та обробки вхідних даних, що містять пропущені значення, для їх подальшого аналізу та кластеризації. Метою дослідження є розгляд існуючих методів позбавлення від пропусків у даних в задачах кластеризації та доцільність їх використання у реальних задачах. Завдання: аналіз переваг та недоліків кожного з методів, що направлені на відновлення даних, для визначення доцільності використання їх в задачах кластеризації та виділення оптимального методу, порівняльний аналіз методів, оцінка результативності за наслідками порівняння кластеризації відновлених даних з результатами кластеризації еталонних даних. Методи: FCM - для проведення безпосередньо кластеризації даних, метод видалення всіх рядків, що містять пропуски, заповнення пропусків вибірковими статистиками, заповнення пропусків з урахуванням структури зв’язків. Результати: ефективність застосування методів при підготовці даних для подальшої кластеризації залежить від кількості наявних пропусків в похідному наборі. Якщо таких рядків досить мало, то кожен, з розглянутих методів, може бути використаний і дати необхідні результати. Але, якщо рядків з пропусками досить багато, наприклад 30%, тоді найбільш прийнятними для використання можна назвати методи, що пов’язані з заміною значень, однак слід враховувати, що така заміна може призвести до спотворення даних, а з рештою і результатів. Висновки. Наукова новизна – дослідження проблеми кластеризації даних, що містять пропущені значення та розгляд методів, які дозволяють розв’язати цю задачу. Проведення експериментів та порівняння результатів кожного з методів, висновки про доцільність використання того чи іншого методу та побічні ефекти. Практична значущість роботи полягає у визначені можливості використання в реальних задачах, що зазвичай не є ідеальними і з великою ймовірністю міститимуть пропуски, методів обробки даних для використання їх в задачах кластеризації.

Завантажити

Дані для завантаження поки недоступні.

Посилання

Шумейко, А. А., & Сотник, С. Л. (2012). Интеллектуальный анализ данных. Днепропетровск: Белая ЕА, 212.

Жамбю, М., & Айвазян, С. А. (1988). Иерархический кластер-анализ и соответствия. Финансы и статистика.

Jain, A. K., Murty, M. N., Flynn, P. J. (1999). Data clustering: a review. ACM computing surveys (CSUR), 31(3), 264-323.

Steinley, D. (2006). К means clustering a half century synthesis. British Journal of Math. and Stat. Psychology, 59(1), 1-34.

Huang, Z., & Ng, M. K. (1999). A fuzzy k-modes algorithm for clustering categorical data. IEEE Transactions on Fuzzy Systems, 7(4), 446-452..

Schafer, J. L., & Graham, J. W. (2002). Missing data: our view of the state of the art. Psychological methods, 7(2), 147.

Bodyanskiy, Y., Vynokurova, O., Kobylin, I., & Kobylin, O. (2016). Adaptive fuzzy clustering of short time series with unevenly distributed observations in Data Stream Mining tasks. Information Technology and Management Science, 19(1), 23-28.

Rabotiahov, A., Kobylin, O., Dudar, Z., & Lyashenko, V. (2018, February). Bionic image segmentation of cytology samples method. In 2018 14th International Conference on Advanced Trends in Radioelecrtronics, Telecommunications and Computer Engineering (TCSET) (pp. 665-670). IEEE.

Oleg, K., Sergii, M., & Mykhailo, S. (2017, October). Video Clustering via Multidimensional Time-Series Analysis. In Proceedings of the 9th International Conference on Information Management and Engineering (pp. 60-63). ACM.