ОРГАНІЗАЦІЯ ПАРАЛЕЛЬНОГО ВИКОНАННЯ МЕТОДІВ ОБРОБКИ ГОЛОСОВИХ СИГНАЛІВ НА БАГАТОЯДЕРНИХ CPU ТА GPU

Автор(и)

  • Maksym Bondarenko
  • Heorhii Ivashchenko

DOI:

https://doi.org/10.26906/SUNZ.2025.4.039

Ключові слова:

системи голосової ідентифікації, обробка сигналів, виділення характеристик, нормалізація, MFCC, спектральне віднімання та вейвлет-фільтрація, CPU, GPU, iGPU

Анотація

Актуальність. Набули поширення такі системи, як голосові помічники та засоби ідентифікації мовця, які функціонують на основі обробки голосових сигналів. Продуктивність цих систем залежить від обсягів даних і умов функціонування. Обробка великих масивів голосових сигналів або забезпечення роботи в реальному часі вимагає високопродуктивних обчислень. Таку швидкодію можна досягти за допомогою масивно-паралельних систем, включаючи багатопроцесорні кластери або дискретні GPU. Об’єкт дослідження: організація паралельних обчислювальних процесів у задачах обробки голосових сигналів із використанням можливостей архітектур сучасних процесорів. Мета статті: розробка системи паралельної обробки голосових сигналів з адаптованими алгоритмами для багатоядерних CPU, інтегрованих та дискретних GPU. Результати дослідження. Порівняльний аналіз показав, що за невеликого навантаження (голосові помічники, персональні застосунки) достатньо використання CPU, що забезпечує ефективне виконання обчислень із низькими часовими затримками. Натомість для обробки великих масивів голосових даних запропонований паралельний підхід, реалізований на CPU і GPU, що скорочує час виконання на 25-30% порівняно з послідовною реалізацією на CPU. Висновки. Дослідження показали, що використання паралелізму на CPU доцільне для етапів обробки голосового сигналу із малим обсягом обчислень, тоді як дискретні GPU можуть бути використані на етапах обчислення MFCC, спектрального віднімання та вейвлет-фільтрації.

Завантаження

Дані завантаження ще не доступні.

Посилання

1. A. Kumar, S. Jain and M. Kumar, "Deep Learning based Fusion for a Multi-Biometric Identification Using LSTM", 2024 1st International Conference on Advanced Computing and Emerging Technologies (ACET), Ghaziabad, India, 2024, pp. 1-6. https://doi.org/10.1109/ACET61898.2024.10730213.

2. Mykhailichenko I., Ivashchenko H., Barkovska O., Liashenko O., “Application of Deep Neural Network for Real-Time Voice Command Recognition”, IEEE 3rd KhPI Week on Advanced Technology (KhPIWeek), Kharkiv, Ukraine, pp. 1-4. https://doi.org/10.1109/KhPIWeek57572.2022.9916473.

3. Бондаренко М. Е., Іващенко Г. С. Використання послідовності методів попередньої обробки в системах голосової ідентифікації. Системи управління, навігації та зв’язку. Полтава: ПНТУ, 2025. Т. 2 (80). С. 90-96. https://doi.org/10.26906/SUNZ.2025.2.090.

4. B. Gawrych and P. Czarnul, "Performance Assessment of OpenMP Constructs and Benchmarks Using Modern Compilers and Multi-Core CPUs", 2023 18th Conference on Computer Science and Intelligence Systems (FedCSIS), Warsaw, Poland, 2023, pp. 973-978. https://doi.org/10.15439/2023F7822.

5. I. Vasileska, P. Tomšič, L. Kos and L. Bogdanović, "Unveiling Performance Insights and Portability Achievements Between CUDA and SYCL for Particle-in-Cell Codes on Different GPU Architectures", 2024 47th MIPRO ICT and Electronics Convention (MIPRO), Opatija, Croatia, 2024, pp. 1115-1120, DOI: https://doi.org/10.1109/MIPRO60963.2024.10569866.

6. F. Lumpp, H. D. Patel and N. Bombieri, "A Framework for Optimizing CPU-iGPU Communication on Embedded Platforms", 2021 58th ACM/IEEE Design Automation Conference (DAC), San Francisco, CA, USA, 2021, pp. 685-690. https://doi.org/10.1109/DAC18074.2021.9586304.

7. H. Li, J. K. Ng and T. Abdelzaher, "Enabling Real-time AI Inference on Mobile Devices via GPU-CPU Collaborative Execution", 2022 IEEE 28th International Conference on Embedded and Real-Time Computing Systems and Applications (RTCSA), Taipei, Taiwan, 2022, pp. 195-204. https://doi.org/10.1109/RTCSA55878.2022.00027.

8. R. M. Fazliddinovich and B. U. Abdumurodovich, "Parallel processing capabilities in the process of speech recognition", 2017 International Conference on Information Science and Communications Technologies (ICISCT), Tashkent, Uzbekistan, 2017, pp. 1-3. https://doi.org/10.1109/ICISCT.2017.8188585.

9. L. Yu, Y. Ukidave and D. Kaeli, "GPU-Accelerated HMM for Speech Recognition", 2014 43rd International Conference on Parallel Processing Workshops, Minneapolis, MN, USA, 2014, pp. 395-402. https://doi.org/10.1109/ICPPW.2014.59.

10. S. M. Hussain, B. Saritha, B. S. Reddy, C. Srikar, B. Suchitra and G. Purnachandrarao, "DeepVoice: An End-to-End Speaker Recognition System Leveraging Convolutional and Recurrent Neural Networks for Robust Voice Identification", 2025 International Conference on Electronics, AI and Computing (EAIC), Jalandhar, India, 2025, pp. 1-5. https://doi.org/10.1109/EAIC66483.2025.11101389.

11. M. Dyvak and O. Kindzerskyi, "Implementation of Parallel Computation for Identification of Interval Models based on Multi-core Parallelism and CUDA Technology", 2024 14th International Conference on Advanced Computer Information Technologies (ACIT), Ceske Budejovice, Czech Republic, 2024, pp. 72-76. https://doi.org/10.1109/ACIT62333.2024.10712545.

12. R. Kouatly and T. A. Khan, "Performance of Text-Independent Automatic Speaker Recognition on a Multicore System", in Tsinghua Science and Technology, vol. 29, no. 2, pp. 447-456, April 2024. https://doi.org/10.26599/TST.2023.9010018.

13. P. Foster, S. Sigtia, S. Krstulovic, J. Barker, M. D. Plumbley. "CHiME-Home: A Dataset for Sound Source Recognition in a Domestic Environment", in Proceedings of the 11th Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), 2015, pp. 1-5. https://doi.org/10.1109/WASPAA.2015.7336899.

14. A. Moondra and P. Chahal, "Voice Feature Extraction Method Analysis for Speaker Recognition with Degraded Human Voice", 2023 5th International Conference on Advances in Computing, Communication Control and Networking (ICAC3N), Greater Noida, India, 2023, pp. 385-388. https://doi.org/10.1109/ICAC3N60023.2023.10541716.

15. Y. A. Wubet and K. -Y. Lian, "Speaker Anonymization for Voice Biometrics Protection Using Voice Conversion and MultiTarget Speaker Voice Fusion", in IEEE Transactions on Information Forensics and Security, vol. 20, pp. 6046-6057, 2025. https://doi.org/10.1109/TIFS.2025.3577023.

Downloads

Опубліковано

2025-12-02

Номер

Розділ

Інформаційні технології

Статті цього автора (авторів), які найбільше читають