МЕТОДИ ПРОТИДІЇ АВТОМАТИЗОВАНОМУ ЗБОРУ ІНФОРМАЦІЇ З ВЕБСТОРІНОК
Ключові слова:
парсингове програмне забезпечення, методи протидії ботам, парсери, crawler
Анотація
Робота присвячена аналізу методів протидії автоматизованому скануванню веб-вузлів. Метою роботи є аналіз алгоритмів та особливостей роботи парсингових систем та, на основі отриманих даних, побудова системи засобу, який буде спеціалізуватися саме на виявленні та протидії атак з використанням парсингових систем. Методом дослідження виступає аналіз методів протидії парсинговим системам. У роботі було розглянуто історію виникнення автоматизованих систем, їх класифікацію, особливості роботи та методи протидії. Запропоновані методи спеціалізуються на захисті від парсингових систем, та створює мінімальне додаткове навантаження на серверне обладнання, що не заважає роботі звичайним користувачам. Дані методи будуть корисними власникам великих ресурсів, на яких головним є саме інформація.Завантаження
Дані про завантаження поки що недоступні.
Посилання
1. Pevnev V., Frolov A., Tsuranov M., and Zemlyanko H. Ensuring data integrity in infocommunication systems. International Journal of Computer Science, 21(2), 2022. pp.228–233. doi.org/10.47839/ijc.21.2.2591;
2. Статистика ботів. Begibot. URL: https://www.begindot.com/ua/
3. Imperva Bad Bot Report. Imperva. URL – https://www.imperva.com/resources/reports/2023-Imperva-Bad-Bot-Report.pdf
4. A. Serkov, V. Tkachenko, V. Kharchenko, V. Pevnev, K. Trubchaninova, N. Doukas, “Method of increasing security of spatial intelligence in the industrial internet of things systems,” Proceedings of the 24th Int. Conference on Circuits, Systems, Communications and Computers, CSCC’2020, 2020, pp. 283–289. https://doi.org/10.1109/CSCC49995.2020.00058;
5. Serkov, A., Tkachenko, V., Kharchenko, V., Pevnev, V. Method to Enhance the Bandwidth and Noise Immunity of IIoT When Exposed to Natural and Intentional Electromagnetic Interference. 2020 IEEE Int. Conf. on Problems of Inf. Science and Technology (PIC S&T). Kharkiv, 2020. p.527–532. doi: https:// doi.org/10.1109/picst51311.2020.94679295
6. Instagram тестує нові попередження. Unian. URL: https://www.unian.net/techno/iskusstvennyy-intellekt-ne-proydet-instagram-testiruet-novye-preduprezhdeniya-12348897.html
7. Чат-бот. Sendpulse. URL: https://sendpulse.ua/ua/support/glossary/chatbot
8. Що таке веб-краулер? Brightdata. URL: https://ua-brightdata.com/blog/web-data-ru/what-is-a-web-crawler
9. ALGOL. Ain. URL: https://ain.ua/ua/2021/09/24/5-mertvix-jazikov-programmirovanija/
10. Пошуковий індекс. Roistat. URL: http://surl.li/qrnqh.
11. Чат-бот «Еліза» з 1960-х років пройшов тест Т'юрінга краще, ніж ChatGPT. Technovery. URL: https://technovery.com/chat-bot-eliza-iz-1960-h-godov-proshel-test-tyuringa-luchshe-chem-chatgpt/
12. Beagle. DBpedia. URL – https://dbpedia.org/page/Bagle_(computer_worm)
13. Akbot. DataProtection. URL: https://vms.dataprotection.com.ua/virus/?i=95482
14. Виявлено ботнет Win32/Georbot, який використовує для оновлення сайт уряду Грузії. ESET. URL: https://www.eset.com/ua-ru/about/newsroom/press-releases/malware/obnaruzhen-win32-georbot-napadenie-ru/
15. Izz ad-Din al-Qassam Cyber Fighters. Radware. URL – https://www.radware.com/security/ddos-knowledge-center/ddospedia/izz-ad-din-al-qassam-cyber-fighters/
16. Ботнет Mirai. Enigmasoftware. URL: https://www.enigmasoftware.com/ua/mirai-botnet-udaleniye/
17. 8 найбільших DDoS-атак в історії. Timeweb. URL: http://surl.li/qrnql.
18. Securing Broncos Country. Checkpoint. URL – https://www.checkpoint.com/security-in-action/
19. Cybersecurity news from Hong Kong. Portswigger. URL – https://portswigger.net/daily-swig/hong-kong
20. Malicious attacks on the web and crawling of information data by Python technology. URL https://www.researchgate.net/ publication/351772882_Malicious_attacks_on_the_web_and_crawling_of_information_data_by_Python_technology
21. Хакери знову напали на американські банки. Finance.Bigmir. URL: https://finance.bigmir.net/news/2824135
22. Protection from even the most severe DDoS attacks. Stormwall. URL – https://stormwall.network/
23. Актуальні кіберзагрози: IV квартал 2023 року. Fortiguard. URL: https://www.ptsecurity.com/ru-ru/research/analytics/cybersecurity-threatscape-2022-q4/
24. Anti-Botnet Services. Fortiguard. URL – https://www.fortiguard.com/services/botnet
25. EnemyBot. Enigmasoftware. https://www.enigmasoftware.com/ua/enemybot-udaleniye/
26. Що таке ботнет? ESET. URL: https://www.eset.com/ua-ru/support/information/entsiklopediya-ugroz/zashchita-ot-botnetov/
27. Розвиток ботнетів і DDoS-атак. IITD. URL: https://iitd.com.ua/ua/news/rozvitok-botnetiv-i-ddos-atak/
28. Crypto Mining Bot. Netacea. URL – https://netacea.com/glossary/crypto-mining-bot/
29. Pevnev V., Tsuranov M., Zemlianko H., Amelina O. Conceptual Model of Information Security, Integrated Computer Technologies in Mechanical Engineering, 2020, Vol. No 188, pp. 158–168. DOI: 10.1007/978-3-030-66717-7_14;
30. Загальні відомості про наші пошукові роботи та інструменти для збору даних. Google Developers. URL: https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers?hl
31. Uniform Resource Identifier. RFC. URL – https://www.rfc-editor.org/rfc/rfc3986
32. Що таке robots.txt і навіщо взагалі потрібний індексний файл. Netpeak. URL: https://netpeak.net/ua/blog/
33. Як перевірити IP-адреси сервера та домену в спам-базахю. Unisender. URL: http://surl.li/qrnrh.
34. Перевірка IP-адрес у спам-листах. Ukraine.com. URL: https://www.ukraine.com.ua/info/tools/rbl
35. Email Blacklist Перевірка. BRBL. URL: https://ipcalc.co/rbl/
36. What is a DNSBL? DNSBL. URL – https://www.dnsbl.info/
37. Spamhaus. Spamhaus Project. URL – https://www.spamhaus.org
38. Захист від ботів з PT Application Firewall. Slideshare. URL: https://www.slideshare.net/VsevolodPetrov/pt-application-firewall
39. WAF. ITglobal. URL: https://itglobal.com/ru-ru/company/glossary/waf/
40. Web Application Firewall. Omnilink. URL: https://omnilink.ua/web-application-firewall/
41. Що таке CAPTCHA? Google. URL: https://support.google.com/a/answer/1217728?hl=ru
42. BestCaptchaSolver. Bestcaptchasolver. URL: https://bestcaptchasolver.com/
43. Regular Expressions in XQuery: A Rephrased Perspective. CopyProgramming. URL – https://copyprogramming.com/howto/xquery-regular-expressions
44. Що таке XPath? Функції та синтаксис. HighLoad. URL: https://highload.today/xpath-xml
2. Статистика ботів. Begibot. URL: https://www.begindot.com/ua/
3. Imperva Bad Bot Report. Imperva. URL – https://www.imperva.com/resources/reports/2023-Imperva-Bad-Bot-Report.pdf
4. A. Serkov, V. Tkachenko, V. Kharchenko, V. Pevnev, K. Trubchaninova, N. Doukas, “Method of increasing security of spatial intelligence in the industrial internet of things systems,” Proceedings of the 24th Int. Conference on Circuits, Systems, Communications and Computers, CSCC’2020, 2020, pp. 283–289. https://doi.org/10.1109/CSCC49995.2020.00058;
5. Serkov, A., Tkachenko, V., Kharchenko, V., Pevnev, V. Method to Enhance the Bandwidth and Noise Immunity of IIoT When Exposed to Natural and Intentional Electromagnetic Interference. 2020 IEEE Int. Conf. on Problems of Inf. Science and Technology (PIC S&T). Kharkiv, 2020. p.527–532. doi: https:// doi.org/10.1109/picst51311.2020.94679295
6. Instagram тестує нові попередження. Unian. URL: https://www.unian.net/techno/iskusstvennyy-intellekt-ne-proydet-instagram-testiruet-novye-preduprezhdeniya-12348897.html
7. Чат-бот. Sendpulse. URL: https://sendpulse.ua/ua/support/glossary/chatbot
8. Що таке веб-краулер? Brightdata. URL: https://ua-brightdata.com/blog/web-data-ru/what-is-a-web-crawler
9. ALGOL. Ain. URL: https://ain.ua/ua/2021/09/24/5-mertvix-jazikov-programmirovanija/
10. Пошуковий індекс. Roistat. URL: http://surl.li/qrnqh.
11. Чат-бот «Еліза» з 1960-х років пройшов тест Т'юрінга краще, ніж ChatGPT. Technovery. URL: https://technovery.com/chat-bot-eliza-iz-1960-h-godov-proshel-test-tyuringa-luchshe-chem-chatgpt/
12. Beagle. DBpedia. URL – https://dbpedia.org/page/Bagle_(computer_worm)
13. Akbot. DataProtection. URL: https://vms.dataprotection.com.ua/virus/?i=95482
14. Виявлено ботнет Win32/Georbot, який використовує для оновлення сайт уряду Грузії. ESET. URL: https://www.eset.com/ua-ru/about/newsroom/press-releases/malware/obnaruzhen-win32-georbot-napadenie-ru/
15. Izz ad-Din al-Qassam Cyber Fighters. Radware. URL – https://www.radware.com/security/ddos-knowledge-center/ddospedia/izz-ad-din-al-qassam-cyber-fighters/
16. Ботнет Mirai. Enigmasoftware. URL: https://www.enigmasoftware.com/ua/mirai-botnet-udaleniye/
17. 8 найбільших DDoS-атак в історії. Timeweb. URL: http://surl.li/qrnql.
18. Securing Broncos Country. Checkpoint. URL – https://www.checkpoint.com/security-in-action/
19. Cybersecurity news from Hong Kong. Portswigger. URL – https://portswigger.net/daily-swig/hong-kong
20. Malicious attacks on the web and crawling of information data by Python technology. URL https://www.researchgate.net/ publication/351772882_Malicious_attacks_on_the_web_and_crawling_of_information_data_by_Python_technology
21. Хакери знову напали на американські банки. Finance.Bigmir. URL: https://finance.bigmir.net/news/2824135
22. Protection from even the most severe DDoS attacks. Stormwall. URL – https://stormwall.network/
23. Актуальні кіберзагрози: IV квартал 2023 року. Fortiguard. URL: https://www.ptsecurity.com/ru-ru/research/analytics/cybersecurity-threatscape-2022-q4/
24. Anti-Botnet Services. Fortiguard. URL – https://www.fortiguard.com/services/botnet
25. EnemyBot. Enigmasoftware. https://www.enigmasoftware.com/ua/enemybot-udaleniye/
26. Що таке ботнет? ESET. URL: https://www.eset.com/ua-ru/support/information/entsiklopediya-ugroz/zashchita-ot-botnetov/
27. Розвиток ботнетів і DDoS-атак. IITD. URL: https://iitd.com.ua/ua/news/rozvitok-botnetiv-i-ddos-atak/
28. Crypto Mining Bot. Netacea. URL – https://netacea.com/glossary/crypto-mining-bot/
29. Pevnev V., Tsuranov M., Zemlianko H., Amelina O. Conceptual Model of Information Security, Integrated Computer Technologies in Mechanical Engineering, 2020, Vol. No 188, pp. 158–168. DOI: 10.1007/978-3-030-66717-7_14;
30. Загальні відомості про наші пошукові роботи та інструменти для збору даних. Google Developers. URL: https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers?hl
31. Uniform Resource Identifier. RFC. URL – https://www.rfc-editor.org/rfc/rfc3986
32. Що таке robots.txt і навіщо взагалі потрібний індексний файл. Netpeak. URL: https://netpeak.net/ua/blog/
33. Як перевірити IP-адреси сервера та домену в спам-базахю. Unisender. URL: http://surl.li/qrnrh.
34. Перевірка IP-адрес у спам-листах. Ukraine.com. URL: https://www.ukraine.com.ua/info/tools/rbl
35. Email Blacklist Перевірка. BRBL. URL: https://ipcalc.co/rbl/
36. What is a DNSBL? DNSBL. URL – https://www.dnsbl.info/
37. Spamhaus. Spamhaus Project. URL – https://www.spamhaus.org
38. Захист від ботів з PT Application Firewall. Slideshare. URL: https://www.slideshare.net/VsevolodPetrov/pt-application-firewall
39. WAF. ITglobal. URL: https://itglobal.com/ru-ru/company/glossary/waf/
40. Web Application Firewall. Omnilink. URL: https://omnilink.ua/web-application-firewall/
41. Що таке CAPTCHA? Google. URL: https://support.google.com/a/answer/1217728?hl=ru
42. BestCaptchaSolver. Bestcaptchasolver. URL: https://bestcaptchasolver.com/
43. Regular Expressions in XQuery: A Rephrased Perspective. CopyProgramming. URL – https://copyprogramming.com/howto/xquery-regular-expressions
44. Що таке XPath? Функції та синтаксис. HighLoad. URL: https://highload.today/xpath-xml
Опубліковано
2024-04-30
Як цитувати
Yudin O. Методи протидії автоматизованому збору інформації з вебсторінок / O. Yudin, M. Shypunov // Системи управління, навігації та зв’язку. Збірник наукових праць. – Полтава: ПНТУ, 2024. – Т. 2 (76). – С. 163-168. – doi:https://doi.org/10.26906/SUNZ.2024.2.163.
Розділ
Інформаційні технології
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.