ДОСЛІДЖЕННЯ ПРОГРАМНО-АПАРАТНИХ ЗАСОБІВ РОЗПІЗНАВАННЯ МОВИ ЖЕСТІВ У РЕАЛЬНОМУ ЧАСІ
DOI:
https://doi.org/10.26906/SUNZ.2026.2.069Ключові слова:
мова жестів, розпізнавання жестів, реальний час, веб-камера, MediaPipe, OpenCV, YOLOv8, комп’ютерний зірАнотація
Актуальність. Реалізація розпізнавання жестів у реальному часі на доступних обчислювальних платформах (ноутбук/ПК) є важливою для створення інклюзивних інтерфейсів та систем взаємодії людини з комп’ютером. Практичний інтерес становить вибір такого програмно-апаратного конвеєра, який забезпечує прийнятний компроміс між точністю та швидкодією під час роботи з відеопотоком з веб-камери. Об’єкт дослідження: програмноапаратні конвеєри розпізнавання статичних жестів зображення руки у відеопотоці в режимі реального часу. Мета статті: розробити прототип системи, що зчитує кадри з веб-камери, та виконати порівняльне дослідження трьох підходів (MediaPipe, OpenCV, YOLOv8n) за показниками якості розпізнавання і швидкодії на платформі класу Intel Core i3 + NVIDIA GeForce MX350. Результати дослідження. Реалізовано модульну програмну архітектуру, у якій кожен підхід оформлено як окремий конвеєр із уніфікованим виходом (клас жесту, довіра, затримка). Для MediaPipe використано landmarks-ознаки з подальшою класифікацією, для OpenCV — ознаки форми (контур, Hu-інваріанти, HOG) із SVM, для YOLOv8n — детекцію класу жесту на кадрі. Проведено оцінювання Accuracy/Precision/Recall/F1 і вимірювання FPS/latency для кількох роздільних здатностей; показано, що MediaPipe і YOLOv8n забезпечують близьку якість для статичних жестів, тоді як OpenCV-підхід більш чутливий до освітлення та складності фону, а також має помітні втрати швидкодії на високих роздільностях. Висновки. Встановлено, що для ноутбуків класу i3+MX350 найпрактичнішим за співвідношенням «якість/ресурси» є MediaPipe-конвеєр для статичних жестів, тоді як YOLOv8n доцільний у задачах, де потрібна вища стійкість до фону та більший контекст зображення; класичний OpenCV-підхід може бути корисним як легкий базовий варіант, але потребує ретельної нормалізації умов зйомки та доопрацювання сегментації.Завантажити
Посилання
1. Zhang F., Bazarevsky V., Vakunov A. et al. MediaPipe Hands: On-device real-time hand tracking. arXiv:2006.10214, 2020. URL: https://arxiv.org/abs/2006.10214
2. Bradski G. The OpenCV Library // Dr. Dobb’s Journal. 2000. URL: http://www.drdobbs.com/open-source/the-opencvlibrary/184404319
3. Redmon J., Farhadi A. YOLO9000: Better, Faster, Stronger // Proc. IEEE CVPR. 2017. P. 7263–7271. DOI: https://doi.org/10.1109/CVPR.2017.690
4. Ultralytics. YOLOv8: документація та бенчмарки швидкодії. 2023–2026. URL: https://docs.ultralytics.com
5. Koller O. Quantitative survey of the state of the art in sign language recognition. arXiv, 2020. URL: https://arxiv.org/abs/2008
6. Subburaj S., Murugavalli S. Survey on sign language recognition in context of vision-based and deep learning // Measurement: Sensors. 2022. Vol. 23. 100385. DOI: https://doi.org/10.1016/j.measen.2022.100385
7. Pigou L., Dieleman S., Kindermans P.-J., Schrauwen B. Sign language recognition using convolutional neural networks // ECCV Workshops (LNCS). 2015. P. 572–578. DOI: https://doi.org/10.1007/978-3-319-16178-5_40
8. Camgoz N. C., Koller O., Hadfield S., Bowden R. Sign Language Transformers: Joint End-to-End Sign Language Recognition and Translation // Proc. IEEE CVPR. 2020. URL: https://openaccess.thecvf.com/content_CVPR_2020/papers/
9. Cao Z., Simon T., Wei S.-E., Sheikh Y. OpenPose: Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields // IEEE TPAMI. 2021. Vol. 43(1). P. 172–186. DOI: https://doi.org/10.1109/TPAMI.2019.2929257
10. Goodfellow I., Bengio Y., Courville A. Deep Learning. MIT Press, 2016. URL: https://www.deeplearningbook.org
Завантаження
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2026 Dmytro Herasymchuk, Volodymyr Fedorchenko

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution-NonCommercial 4.0 International License.