ДОСЛІДЖЕННЯ ПРОГРАМНО-АПАРАТНИХ ЗАСОБІВ РОЗПІЗНАВАННЯ МОВИ ЖЕСТІВ У РЕАЛЬНОМУ ЧАСІ

Dmytro Herasymchuk; Volodymyr Fedorchenko

doi:10.26906/SUNZ.2026.2.069

Автор(и)

Dmytro Herasymchuk
Volodymyr Fedorchenko

DOI:

https://doi.org/10.26906/SUNZ.2026.2.069

Ключові слова:

мова жестів, розпізнавання жестів, реальний час, веб-камера, MediaPipe, OpenCV, YOLOv8, комп’ютерний зір

Анотація

Актуальність. Реалізація розпізнавання жестів у реальному часі на доступних обчислювальних платформах (ноутбук/ПК) є важливою для створення інклюзивних інтерфейсів та систем взаємодії людини з комп’ютером. Практичний інтерес становить вибір такого програмно-апаратного конвеєра, який забезпечує прийнятний компроміс між точністю та швидкодією під час роботи з відеопотоком з веб-камери. Об’єкт дослідження: програмноапаратні конвеєри розпізнавання статичних жестів зображення руки у відеопотоці в режимі реального часу. Мета статті: розробити прототип системи, що зчитує кадри з веб-камери, та виконати порівняльне дослідження трьох підходів (MediaPipe, OpenCV, YOLOv8n) за показниками якості розпізнавання і швидкодії на платформі класу Intel Core i3 + NVIDIA GeForce MX350. Результати дослідження. Реалізовано модульну програмну архітектуру, у якій кожен підхід оформлено як окремий конвеєр із уніфікованим виходом (клас жесту, довіра, затримка). Для MediaPipe використано landmarks-ознаки з подальшою класифікацією, для OpenCV — ознаки форми (контур, Hu-інваріанти, HOG) із SVM, для YOLOv8n — детекцію класу жесту на кадрі. Проведено оцінювання Accuracy/Precision/Recall/F1 і вимірювання FPS/latency для кількох роздільних здатностей; показано, що MediaPipe і YOLOv8n забезпечують близьку якість для статичних жестів, тоді як OpenCV-підхід більш чутливий до освітлення та складності фону, а також має помітні втрати швидкодії на високих роздільностях. Висновки. Встановлено, що для ноутбуків класу i3+MX350 найпрактичнішим за співвідношенням «якість/ресурси» є MediaPipe-конвеєр для статичних жестів, тоді як YOLOv8n доцільний у задачах, де потрібна вища стійкість до фону та більший контекст зображення; класичний OpenCV-підхід може бути корисним як легкий базовий варіант, але потребує ретельної нормалізації умов зйомки та доопрацювання сегментації.

Завантажити

Дані для завантаження поки недоступні.

Посилання

1. Zhang F., Bazarevsky V., Vakunov A. et al. MediaPipe Hands: On-device real-time hand tracking. arXiv:2006.10214, 2020. URL: https://arxiv.org/abs/2006.10214

2. Bradski G. The OpenCV Library // Dr. Dobb’s Journal. 2000. URL: http://www.drdobbs.com/open-source/the-opencvlibrary/184404319

3. Redmon J., Farhadi A. YOLO9000: Better, Faster, Stronger // Proc. IEEE CVPR. 2017. P. 7263–7271. DOI: https://doi.org/10.1109/CVPR.2017.690

4. Ultralytics. YOLOv8: документація та бенчмарки швидкодії. 2023–2026. URL: https://docs.ultralytics.com

5. Koller O. Quantitative survey of the state of the art in sign language recognition. arXiv, 2020. URL: https://arxiv.org/abs/2008

6. Subburaj S., Murugavalli S. Survey on sign language recognition in context of vision-based and deep learning // Measurement: Sensors. 2022. Vol. 23. 100385. DOI: https://doi.org/10.1016/j.measen.2022.100385

7. Pigou L., Dieleman S., Kindermans P.-J., Schrauwen B. Sign language recognition using convolutional neural networks // ECCV Workshops (LNCS). 2015. P. 572–578. DOI: https://doi.org/10.1007/978-3-319-16178-5_40

8. Camgoz N. C., Koller O., Hadfield S., Bowden R. Sign Language Transformers: Joint End-to-End Sign Language Recognition and Translation // Proc. IEEE CVPR. 2020. URL: https://openaccess.thecvf.com/content_CVPR_2020/papers/

9. Cao Z., Simon T., Wei S.-E., Sheikh Y. OpenPose: Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields // IEEE TPAMI. 2021. Vol. 43(1). P. 172–186. DOI: https://doi.org/10.1109/TPAMI.2019.2929257

10. Goodfellow I., Bengio Y., Courville A. Deep Learning. MIT Press, 2016. URL: https://www.deeplearningbook.org