ІНФОРМАЦІЙНА ТЕХНОЛОГІЯ ВИЯВЛЕННЯ ДІПФЕЙКІВ НА ОСНОВІ ГЛИБИННОГО НАВЧАННЯ ТА МУЛЬТИМОДАЛЬНОГО АНАЛІЗУ ДЛЯ ІНТЕЛЕКТУАЛЬНИХ СИСТЕМ ІНФОРМАЦІЙНОЇ БЕЗПЕКИ

Victoria Vysotska; Lyubomyr Chyrun; Oleksandr Lavrut; Tetiana Lavrut; Roman Romavchyk

doi:10.26906/SUNZ.2026.2.052

Автор(и)

Victoria Vysotska
Lyubomyr Chyrun
Oleksandr Lavrut
Tetiana Lavrut
Roman Romavchyk

DOI:

https://doi.org/10.26906/SUNZ.2026.2.052

Ключові слова:

кібербезпека, діпфейк, мультимодальний аналіз, глибинне навчання, трансформери, attentionмеханізм, інформаційна безпека, синтетичний медіаконтент, комп’ютерний зір, обробка аудіо, машинне навчання

Анотація

Актуальність. Стрімкий розвиток технологій глибинного навчання сприяв появі високоякісного синтетичного медіаконтенту (діпфейків), що становить суттєву загрозу для інформаційної безпеки, цифрової довіри та медіапростору. Сучасні методи детекції діпфейків, які базуються на аналізі окремих модальностей (відео, аудіо або тексту), часто не забезпечують достатньої точності та узагальнюваності, що обумовлює необхідність розроблення мультимодальних підходів. Об’єкт дослідження. Процеси виявлення синтетичного медіаконтенту (діпфейків) у цифровому інформаційному середовищі. Мета статті. Розробка ефективного методу виявлення діпфейків на основі мультимодального аналізу з використанням моделей глибинного навчання та attention-механізмів. Результати дослідження. У роботі запропоновано інформаційну технологію виявлення діпфейків, що базується на комплексній обробці відео-, аудіо- та текстових даних. Розроблено узагальнений пайплайн, який включає попередню обробку медіаконтенту, виділення ознак для кожної модальності, мультимодальну інтеграцію та класифікацію. Для підвищення ефективності застосовано трансформерні архітектури з використанням механізмів self-attention і crossattention, що дозволяють моделювати внутрішньо- та міжмодальні залежності. Проведені експериментальні дослідження на публічних датасетах продемонстрували, що запропонований підхід забезпечує підвищення точності виявлення діпфейків до 0,95 та F1-міри до 0,925, що перевищує результати одномодальних моделей. Висновки. Отримані результати підтверджують доцільність використання мультимодального підходу та attention-механізмів для задачі виявлення діпфейків. Запропонована інформаційна технологія забезпечує підвищену точність, інтерпретованість та може бути використана у системах інформаційної безпеки, цифрової криміналістики та автоматизованого аналізу медіаконтенту. Перспективи подальших досліджень пов’язані з оптимізацією обчислювальної складності моделей та адаптацією до обробки потокових даних у реальному часі.

Завантажити

Дані для завантаження поки недоступні.

Посилання

1. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser Ł., Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30. https://proceedings.neurips.cc/paper/2017/hash/3f5ee243547dee91fbd053c1c4a845aa-Abstract.html

2. Xu, Y., Wei, H., Lin, M. et al. Transformers in computational visual media: A survey. Comp. Visual Media 8, 33–62 (2022). https://doi.org/10.1007/s41095-021-0247-3

3. Hafiz, A. M., Parah, S. A., & Bhat, R. U. A. (2021). Attention mechanisms and deep learning for machine vision: A survey of the state of the art. arXiv preprint arXiv:2106.07550. https://doi.org/10.48550/arXiv.2106.07550

4. Xu, P., Zhu, X., & Clifton, D. A. (2023). Multimodal learning with transformers: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12113-12132. https://doi.org/10.1109/TPAMI.2023.3275156

5. Tsai, Y. H. H., Bai, S., Liang, P. P., Kolter, J. Z., Morency, L. P., & Salakhutdinov, R. (2019, July). Multimodal transformer for unaligned multimodal language sequences. In Proceedings of the 57th annual meeting of the association for computational linguistics (pp. 6558-6569). https://doi.org/10.48550/arXiv.1906.00295

6. Islam, S., Elmekki, H., Elsebai, A., Bentahar, J., Drawel, N., Rjoub, G., & Pedrycz, W. (2024). A comprehensive survey on applications of transformers for deep learning tasks. Expert Systems with Applications, 241, 122666. https://doi.org/10.48550/arXiv.2306.07303

7. Salvi, D., Liu, H., Mandelli, S., Bestagini, P., Zhou, W., Zhang, W., & Tubaro, S. (2023). A robust approach to multimodal deepfake detection. Journal of Imaging, 9(6), 122. https://doi.org/10.3390/jimaging9060122

8. Raza, M. A., & Malik, K. M. (2023). Multimodaltrace: Deepfake detection using audiovisual representation learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 993-1000). https://doi.org/10.3390/info17040347

9. Erokhin, D., & Komendantova, N. (2026). A Review of Tools and Technologies to Combat Deepfakes. Information, 17(4), 347. https://doi.org/10.3390/info17040347

10. Nailwal, S., Singhal, S., Singh, N. T., & Raza, A. (2023, November). Deepfake detection: A multi-algorithmic and multimodal approach for robust detection and analysis. In 2023 international conference on research methodologies in knowledge management, artificial intelligence and telecommunication engineering (RMKMATE) (pp. 1-8). IEEE. https://doi.org/10.1109/RMKMATE59243.2023.10369155

11. Gandhi, K., Kulkarni, P., Shah, T., Chaudhari, P., Narvekar, M., & Ghag, K. (2024). A multimodal framework for deepfake detection. arXiv preprint arXiv:2410.03487. https://doi.org/10.48550/arXiv.2410.03487

12. Heidari, A., Jafari Navimipour, N., Dag, H., & Unal, M. (2024). Deepfake detection using deep learning methods: A systematic and comprehensive review. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 14(2), e1520. https://doi.org/10.1002/widm.1520

13. Comito, C., Caroprese, L., & Zumpano, E. (2023). Multimodal fake news detection on social media: a survey of deep learning techniques. Social Network Analysis and Mining, 13(1), 101. https://doi.org/10.1007/s13278-023-01104-w

14. Sedik, A., Faragallah, O. S., El-sayed, H. S., El-Banby, G. M., El-Samie, F. E. A., Khalaf, A. A., & El-Shafai, W. (2022). An efficient cybersecurity framework for facial video forensics detection based on multimodal deep learning. Neural Computing and Applications, 34(2), 1251-1268. https://doi.org/10.1007/s00521-021-06416-6

15. Vysotska, V., Smelyakov, K., Chupryna, A., Darahan, D., Torubara, O., & Shyshymenko, O. (2025). Social engineering in Ukraine: Threats and intelligent detection approaches. In CEUR Workshop Proceedings (Vol. 4110, pp. 317-331). https://ceur-ws.org/Vol-4110/paper24.pdf

16. Tan, D., Yang, Y., Niu, C., Li, S., Yang, D., & Tan, B. (2025). A review of deep learning based multimodal forgery detection for video and audio. Discover Applied Sciences, 7(9), 987. https://doi.org/10.1007/s42452-025-07629-3

17. Qureshi, S. M., Saeed, A., Almotiri, S. H., Ahmad, F., & Al Ghamdi, M. A. (2024). Deepfake forensics: a survey of digital forensic methods for multimodal deepfake identification on social media. PeerJ Computer Science, 10, e2037. https://doi.org/10.7717/peerj-cs.2037

18. Vysotska, V., Nazarkevych, M., Vladov, S., Lozynska, O., Markiv, O., Romanchuk, R., & Danylyk, V. (2024). Devising A Method For Detecting Information Threats In The Ukrainian Cyber Space Based On Machine Learning. Eastern-European Journal of Enterprise Technologies, 132(2). 132, Issue 2, p36. https://doi.org/10.15587/1729-4061.2024.317456