БАГАТОВЕКТОРНА ГОЛОСОВА ІДЕНТИФІКАЦІЯ КОРИСТУВАЧА З УРАХУВАННЯМ ФОНЕТИЧНИХ ВАРІАЦІЙ ГОЛОСУ

Authors

  • Maksym Bondarenko
  • Heorhii Ivashchenko

DOI:

https://doi.org/10.26906/SUNZ.2026.1.040

Keywords:

біометричні системи, системи голосової ідентифікації, ідентифікація мовця, голосовий сигнал, вектор ознак, багатовекторний профіль ознак, фонетичні зміни голосу, адаптивне оновлення, FAR, FRR

Abstract

Актуальність. Системи голосової ідентифікації широко застосовуються в біометричних системах контролю доступу, персоналізованих застосунках та інтелектуальних інтерфейсах, у яких основною вимогою є надійне розпізнавання користувачів з урахуванням індивідуальних варіацій голосу. Традиційні підходи, що ґрунтуються на статичних векторних представленнях фонетичних мовленнєвих ознак, демонструють обмежену здатність адаптації до нових даних зібраних при довготривалої експлуатації системи біометричної ідентифікації. Це зумовлює зростання похибок через поступові зміни акустичних характеристик та індивідуальних параметрів голосу мовця. Об’єкт дослідження: процес формування та оновлення векторних профілів користувачів та їх використання у системах голосової ідентифікації. Мета статті: розробка адаптивного методу ідентифікації мовця на основі багатовекторного профілю ознак з оновленням векторних представлень. Результати дослідження. Запропоновано метод оновлення векторного профілю ознак, що забезпечує адаптивне формування голосового профілю користувача та підтримує його актуальність у процесі подальшої експлуатації, забезпечуючи можливість поступового донавчання. Проведені експериментальні дослідження в умовах фізіологічних змін голосу та середовища запису показали, що використання багатовекторного подання дозволяє знизити показник FRR порівняно із використанням статичних профілів та оновленням лише домінантного вектору. Висновки. Результати підтверджують доцільність застосування адаптивного багатовекторного профілю ознак для підвищення стійкості та точності систем ідентифікації мовця.

Downloads

Download data is not yet available.

References

1. Бондаренко М. E., Іващенко Г. С. Використання послідовності методів попередньої обробки в системах голосової ідентифікації. Системи управління, навігації та зв’язку. Полтава: ПНТУ. 2025. № 2 (80). С. 90-96. https://doi.org/10.26906/SUNZ.2025.2.090

2. Samonte M. J. C., Callejo J. K., Lumbera D. C. N., Ocaya J. C. B. Mitigating Vishing in Digital Banking Through Caller Authentication and Verification Technologies. 2024 14th International Conference on Software Technology and Engineering ICSTE, Macau, China, 2024, pp. 102-108. https://doi.org/10.1109/ICSTE63875.2024.00025

3. Parida S., Mukharjee T., Panda S., Pati B. Deep-Detector: Deepfake Voice Recognition using Machine Learning. 2025 Int. Conf. on ІСС (ICoICC), Bhubaneswar, 2025, pp. 1-5. https://doi.org/10.1109/ICoICC64033.2025.11052136

4. Бондаренко М. E., Іващенко Г. С. Організація паралельного виконання методів обробки голосових сигналів на багатоядерних CPU та GPU. Системи управління, навігації та зв’язку. Полтава: ПНТУ. 2025. № 4 (82). С. 39-44. https://doi.org/10.26906/SUNZ.2025.4.39-44

5. Feng C., Leer E., Anderson D. V. Identification of Voice Quality Variation Using I-Vectors. 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), New Paltz, NY, USA, 2019, pp. 105-109. https://doi.org/10.1109/WASPAA.2019.8937289

6. Shrestha R. Speaker Recognition using Multiple X-Vector Speaker Representations with Two-Stage Clustering and Outlier Detection Refinement. IEEE Intl Conf on Dependable, Autonomic and Secure Computing, Pervasive Intelligence and Computing, Falerna, Italy, 2022, pp. 1-6. https://doi.org/10.1109/DASC/PiCom/CBDCom/Cy55231.2022.9927875

7. Rahimi A., Afouras T., Zisserman A. Voicevector: Multimodal Enrolment Vectors for Speaker Separation. 2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW), Seoul, Korea, Republic of, 2024, pp. 785-789. https://doi.org/10.1109/ICASSPW62465.2024.10627309

8. Zhang J., Liss J., Jayasuriya S., Berisha V. Robust Vocal Quality Feature Embeddings for Dysphonic Voice Detection. IEEE/ACM Trans. on ASL Proc., vol. 31, pp. 1348-1359. https://doi.org/10.1109/TASLP.2023.3261753

9. Yi L., Mak M. W. Disentangled Speaker Embedding for Robust Speaker Verification. 2022 IEEE Int. Conference on Acoustics, Speech and Signal Processing, Singapore, 2022, pp. 7662-7666. https://doi.org/10.1109/ICASSP43922.2022.9747778

10. Tiwari, V. K. Speaker identification using multi-modal i-vector approach for varying length speech in voice interactive systems. Cognitive Systems Research, vol. 57, 2019, pp. 66-77. https://doi.org/10.1016/j.cogsys.2018.09.028

11. Zhang Y., Bi Z., Xiao F., Yang X., Zhu Q., Guan J. Attacking Voice Anonymization Systems with Augmented Feature and Speaker Identity Difference. 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Hyderabad, India, 2025, pp. 1-2. https://doi.org/10.1109/ICASSP49660.2025.10889535

12. Peng S., Sugiyama K., Liu X., Mine T. Balancing Embedding Spectrum for Recommendation. ACM Transactions on Recommender Systems, vol. 3(4), 2025, pp. 1–25. https://doi.org/10.1145/3718488

13. Wan Q., Bouchard M. Performance evaluation of mixtures of PLDA and conventional PLDA for a small-set speaker verification system. 2017 IEEE 30th CCECE, Windsor, ON, Canada, 2017, pp. 1–4. https://doi.org/10.1109/CCECE.2017.7946645

14. Douze M., Guzhva A., Deng C., Johnson J., Szilvasy G. The Faiss library. IEEE Transactions on Big Data. 2025, pp. 1–17. https://doi.org/10.1109/TBDATA.2025.3618474

Downloads

Published

2026-02-13

Most read articles by the same author(s)