EVOLUTION AND DISTRIBUTION ANALYSIS OF MULTIMODAL ARTIFICIAL INTELLIGENCE SYSTEMS

A. Kapiton; D. Tyshсhenko; A. Desiatko; V. Lazorenko

doi:10.26906/SUNZ.2024.4.075

Автор(и)

A. Kapiton
D. Tyshсhenko
A. Desiatko
V. Lazorenko

DOI:

https://doi.org/10.26906/SUNZ.2024.4.075

Ключові слова:

штучний інтелект, біоінженерія, генеративні моделі, мультимодальність

Анотація

У статті розглянуто основні аспекти еволюції та проаналізовано розвиток мультимодальних систем штучного інтелекту. Визначено, що в сучасних реаліях штучний інтелект зазнав трансформаційного зсуву в бік охоплення мультимодальності у великих мовних моделях. Праналізовано шляхи вдосконалення великих мовних моделей за допомогою здатності обробляти і генерувати великий обсяг даних. Метою цього дослідження є аналіз вимог до розробки та впровадження мультимодальних систем штучного інтелекту. Дослджено етапи трансформації штучного інтелекту у напрямку мультимодальності іноваційного розвитку у великих мовних моделях. Розглянуто питання верифікації та взаємодії інформаційних систем з навколишнім світом. Визначено, що вони за своєю суттю є мультимодальними, багатокомпонентними. Проаналізлвано шляхи вдосконалення великих мовних моделей за допомогою здатності обробляти і генерувати різні модальності даних. Досліджено, що сучасні мультимодальні системи штучного інтелекту ефективно використовуються в різних галузях науки, освіти, еконміки та потребують подальшого розвитку та вдосконалення. Визначено, що внаслідок бурхливого розвитку інформаційних технологій та систем в різних спектрах життєдіяльності, ШІ переживає бурхливої модифікації, де особливої уваги заслуговують генеративні моделі, які стають все більш досконалими. Виконано огляд архітектури моделі AnyGPT, де модальності токенізуються в дискретні токени, на основі яких LLM виконує мультимодальне сприйняття та генерування в авторегресії. Визначено, що методологія, що лежить в основі AnyGPT, є багатокомпонентною, модель якої демонструє можливості на рівні зі спеціалізованими моделями в усіх протестованих модальностях оцінювання. Встановлено, що інструменти, призначені для виявлення об’єктів, згенерованих штучним інтелектом, перебувають у стані розвитку, та постійно модифікуються.

Завантаження

Дані завантаження ще не доступні.

Посилання

Chengyi Wang, Sanyuan Chen, Yu Wu, Zi-Hua Zhang, Long Zhou, Shujie Liu, Zhuo Chen, Yanqing Liu, Huaming Wang, Jinyu Li, Lei He, Sheng Zhao, and Furu Wei. Neural codec language models are zero-shot text to speech synthesizers. ArXiv preprint, abs/2301.02111, 2023. URL: https://arxiv.org/abs/2301.02111.

Zineng Tang, Ziyi Yang, Mahmoud Khademi, Yang Liu, Chenguang Zhu, and Mohit Bansal. Codi-2: In-context, interleaved, and interactive any-to-any generation. ArXiv preprint, abs/2311.18775, 2023a. URL: https://arxiv.org/abs/2311.18775.

Y. Wang, Y. Kordi, S. Mishra, A. Liu, N. A. Smith, D. Khashabi, and H. Hajishirzi. Self-instruct: Aligning language model with self generated instructions. ArXiv preprint, abs/2212.10560, 2022. URL: https://arxiv.org/abs/2212.10560.

Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, and Tat-Seng Chua. Next-gpt: Any-to-any multimodal llm. ArXiv preprint, abs/2309.05519, 2023. URL; https://arxiv.org/abs/2309.05519.

Yusong Wu, K. Chen, Tianyu Zhang, Yuchen Hui, Taylor Berg-Kirkpatrick, and Shlomo Dubnov. Large-scale contrastive language-audio pretraining with feature fusion and keyword-to-caption augmentation. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 1–5, 2022. URL:https://api.semanticscholar.org/CorpusID: 253510826.

Neil Zeghidour, Alejandro Luebs, Ahmed Omran, Jan Skoglund, and Marco Tagliasacchi. Soundstream: An end-to-end neural audio codec. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 30:495–507, 2021. URL:https://api.semanticscholar.org/CorpusID: 236149944.

Tyshсhenko D., Franchuk Т., Zakharov R., Moskalenko V. Підтримка динамічних потреб безпеки засобами VPN Системи управління, навігації та зв’язку. Полтава: ПНТУ, 2024. Т. 3 (77). 149-152.

Курилех А., Капітон А. Використання штучного інтелекту для розвитку CRM-систем. Стан, досягнення та перспективи інформаційних систем і технологій. Одеса: ОНТУ, 2024. 357-359.

Капітон А., Сухоребрий О., Ненич Д. Використання мультимодального штучного інтелекту в економіці, освіті, науці та транспорті. Інформаційні технології та цифрова економікa. Київ: ДУІТ, 2024. 83-85.

Kапітон А, Гладкий С., Пророк М. Практичні застосування інтеграції штучного інтелекту в процес освіти. Стан, досягнення та перспективи інформаційних систем і технологій Одеса: ОНТУ, 2024. 348-349.

PwC’s 2023 Emerging Technology Survey. URL: https://www.pwc.com/us/en/tech-effect/ai-analytics/ai-predictions.html

Gemini. URL: https://blog.google/technology/ai/google-gemini-ai/#sundar-note

Bing. URL: https://www.microsoft.com/en-us/edge/features/the-newbing?form=MA13FJ

Introducing LLaMA. URL: https://ai.meta.com/blog/large-language-model-llamameta-ai/

Chat With RTX. URL: https://www.nvidia.com/en-us/ai-on-rtx/chat-with-rtxgenerative-ai/

Verner S. IBM adds AI-enhanced data resilience capabilities to help combat ransomware and other threats with enhanced storage solutions, 2024. URL: newsroom.ibm.com/

AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling URL: https://arxiv.org/pdf/2402.12226

Laion-aesthetics. URL: https://laion.ai/blog/laion-aesthetics/, 2022a.

Laion coco: 600m synthetic captions from laion2b-en. URL: https://laion.ai/blog/laion-coco/, 2022b.

AI identification tools URL: https://thetransmitted.com/ai/instrumenty-identyfikacziyi-shi-zhovten-2024/