ЦИФРОВІ ПРЕДСТАВЛЕННЯ TELEGRAM-КАНАЛІВ
DOI:
https://doi.org/10.26906/SUNZ.2024.1.158Ключові слова:
обробка текстів природною мовою, BERT, тематична класифікація повідомлень, representation learningАнотація
Предметом дослідження цієї статті є цифрові представлення текстових інформаційних ресурсів на прикладі Telegram-каналів. Мета роботи – визначити оптимальний для подальшої тематичної класифікації метод формування цифрових представлень Telegram-каналів. У статті вирішуються наступні завдання: означення підходів до формування вхідного вектору; визначення етапів обробки текстових даних для цифрового представлення Telegramканалу; створення датасету цифрових представлення Telegram-каналів; розмітка датасету для розв’язання задачі класифікації; визначення гіперпараметрів оптимальних моделей класифікації. Отримано такі результати: створений датасет цифрових представлень Telegram-каналів, сформованих на основі мережі SBERT, за трьома підходами: агрегація векторів публікацій, конкатенація ключових слів за методом TF-IDF та поєднання перших двох підходів; визначено, що підхід конкатенації ключових слів за методом TF-IDF та поєднання перших двох підходів до формування цифрових представлень Telegram-каналів на основі текстових публікацій є найбільш ефективним для подальшої класифікації за тематикою; визначено оптимальні за точністю гіперпараметри моделей тематичної класифікації: Logistic Regressio та нейромережі глибокого навчання. Перспективним напрямком подальших досліджень є оцінювання застосування запропонованих цифрових представлень до задач кластеризації та пошуку.Завантаження
Посилання
Cкринінг українського суспільства протягом повномасштабної війни. Національна рада України з питань телебачення і радіомовлення. URL: https://www.nrada.gov.ua/wp-content/uploads/2022/05/GradusResearch_Report_Suspilne_50K_27042022.pdf .
Mikolov, T., Chen, K., Corrado, G., & Dean, J. Efficient estimation of word representations in vector space. 2013. arXiv preprint arXiv:1301.3781.
Pennington, J., Socher, R., & Manning, C. D. Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) 2014, October. (pp. 1532-1543).
Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. Enriching word vectors with subword information. Transactions of the association for computational linguistics, 5, 135-146. 2017.
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805. 2018.
Reimers, N., & Gurevych, I.. Sentence-BERT: Sentence embeddings using siamese BERT-networks. arXiv preprint arXiv:1908.10084. 2019
Barbaro, F., & Skumanich, A. Addressing socially destructive disinformation on the web with advanced AI tools: Russia as a case study. In Companion Proceedings of the ACM Web Conference 2023 (pp. 204-207). 2023, April.
Wei, F., & Nguyen, U. T. Twitter Bot Detection Using Neural Networks and Linguistic Embeddings. IEEE Open Journal of the Computer Society. 2023.
Hugging Face – The AI community building the future. Hugging Face. URL: https://huggingface.co/ (date of access: 30.11.2023).
NLTK : Natural Language Toolkit. NLTK :: Natural Language Toolkit. URL: https://www.nltk.org/ (date of access: 30.11.2023).
Ukrainian-Stopwords. GitHub. URL: https://github.com/skupriienko/Ukrainian-Stopwords (date of access: 30.11.2023).
stopwords-iso/stopwords-ru. GitHub. URL: https://github.com/stopwords-iso/stopwords-ru (date of access: 30.11.2023).
Korobov M.: Morphological Analyzer and Generator for Russian and Ukrainian Languages // Analysis of Images, Social Networks and Texts,pp 320-332. 2015.
scikit-learn: machine learning in Python. scikit-learn. URL: https://scikit-learn.org/ (date of access: 30.11.2023).
The Pushshift Telegram Dataset / B. Jason et al. Zenodo. URL: https://zenodo.org/records/3607497 (date of access: 30.11.2023).
Dataset-for-teenagers-chat-in-Telegram-groups: Dataset for teenagers' chat in Telegram groups (Persian). GitHub. URL:https://github.com/imRezaAlie/Dataset-for-teenagers-chat-in-Telegram-groups (date of access: 30.11.2023).
Temnikova I. TRACES Bulgarian Telegram Dataset Annotated with Linguistic Markers of Lies. Zenodo. URL:https://zenodo.org/records/7614294 (date of access: 30.11.2023).
Crypto telegram groups. Kaggle: Your Machine Learning and Data Science Community. URL:https://www.kaggle.com/datasets/aagghh/crypto-telegram-groups (date of access: 30.11.2023).
Telegram channels and groups catalog. TGStat.com. URL: https://tgstat.com/ (date of access: 30.11.2023).
Keras: The high-level API for TensorFlow | TensorFlow Core [Electronic resource] // TensorFlow. – Mode of access: https://www.tensorflow.org/guide/keras (date of access: 08.12.2023)