ДОСЛІДЖЕННЯ МОЖЛИВОСТЕЙ БАГАТОМОВНОЇ МОДЕЛІ BERT ДЛЯ ВИЗНАЧЕННЯ СЕМАНТИЧНОЇ ПОДІБНОСТІ НОВИННОГО КОНТЕНТУ

  • S. Olizarenko
  • V. Argunov
Ключові слова: обробка природної мови, BERT, семантична подібність, новинний контент, глибоке навчання

Анотація

Мета статті – провести дослідження більш ефективного способу визначення семантичної подібності багатомовного вмісту новин на основі вбудовування речень за допомогою першого завдання попередньо навченої багатомовної моделі BERT. Результати. В роботі представлені результати впровадження сучасних досягнень в області обробки природної мови на основі методів і моделей технологій глибокого навчання в систему управління новинним контентом HIPSTO (HIPSTO Publishing, AI Technology, Digital Media, Mobile Apps). Досліджено можливості та способи застосування багатомовної моделі BERT для вирішення проблеми семантичної подібності новинного контенту. Зокрема, пропонується ефективний метод визначення семантичної подібності багатомовного новинного контенту в агрегованих новинних стрічках HIPSTO. Даний підхід заснований на використанні в системі управління новинним контентом HIPSTO векторних уявлень речень з використанням першого завдання попередньо навченої багатомовної моделі BERT. Результати досліджень, представлених в роботі, підкреслюють ефективність розвитку даної технології в рамках проекту HIPSTO. Подальший викладення матеріалу надає науково-експериментальне обґрунтування отриманих результатів, що мають вже практичну реалізацію в перших версіях HIPSTO

Завантаження

Дані про завантаження поки що недоступні.

Посилання

1. Yinfei Yang, Daniel Cer, Amin Ahmad, Mandy Guo, Jax Law, Noah Constant, Gustavo Hernandez Abrego, Steve Yuan, Chris Tar, Yun-Hsuan Sung, Brian Strope, Ray Kurzweil Multilingual Universal Sentence Encoder for Sematic Retrieval. arXiv:1907.04307v1 [cs.CL] 9 Jul 2019.
2. Daniel Cer, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St. John, Noah Constant, Mario Guajardo-Cespedes, Steve Yuan, Chris Tar, Brian Strope, and Ray Kurzweil. 2018. Universal sentence encoder for English. In Proceedings of the 2018 Conf. on Empirical Methods in Natural Language Proc.: System Demonstrations, pages 169–174.
3. Yoon Kim. 2014. Convolutional neural networks for sentence classification. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1746–1751.
4. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Ł ukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In Proceedings of NIPS, pages 6000–6010.
5. Ceshine Lee Multilingual Similarity Search Using Pretrained Bidirectional LSTM Encoder. Evaluating LASER (Language-Agnostic SEntence Representations)/ https://medium.com/the-artificial-impostor/multilingual-similarity-search-using-pretrained-bidirectional-lstm-encoder-e34fac5958b0.
6. Zero-shot transfer across 93 languages: Open-sourcing enhanced LASER library. POSTED ON JAN 22, 2019 TO AI RESEARCH/ https://engineering.fb.com/ai-research/laser-multilingual-sentence-embeddings/.
7. Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805v2 [cs.CL] 24 May 2019.
8. Join GitHub today, available at: https://github.com/google-research/bert.
9. Ceshine Lee News Topic Similarity Measure using Pretrained BERT Model. Utilizing Next Sentence Predictions, available at: https://medium.com/the-artificial-impostor/news-topic-similarity-measure-using-pretrained-bert-model-1dbfe6a66f1d.
10. Jay Alammar The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning), available at: http://jalammar.github.io/illustrated-bert.
11. available at: https://github.com/ CyberZHG/keras-bert.
12. available at: https://bert-as-service.readthedocs.io.
13. Using NLP to Automate Customer Support, Part Two, available at: https://blog.floydhub.com/automate-customer-support-part-two.
14. available at: https://github.com/facebookresearch/SentEval.
15. Sam Sucik Compressing BERT for faster prediction, available at: https://blog.rasa.com/compressing-bert-for-faster-prediction-2.
Опубліковано
2020-09-11
Як цитувати
Olizarenko S. Дослідження можливостей багатомовної моделі bert для визначення семантичної подібності новинного контенту / S. Olizarenko, V. Argunov // Системи управління, навігації та зв’язку. Збірник наукових праць. – Полтава: ПНТУ, 2020. – Т. 3 (61). – С. 94-98. – doi:https://doi.org/10.26906/SUNZ.2020.3.094.
Розділ
Інформаційні технології