ВИКОРИСТАННЯ ГЕНЕРАТИВНИХ ДИФУЗІЙНИХ МОДЕЛЕЙ МАШИННОГО НАВЧАННЯ У СТВОРЕННІ ЗОБРАЖЕНЬ
DOI:
https://doi.org/10.26906/SUNZ.2022.4.114Ключові слова:
GAN, generative ad versarial net works, штучний інтелект, дифузійні моделі, цифрове мистецтво, ImageNetmodel, WordNetАнотація
За останній рік стався значний сплеск популярності генеративних мереж. Завдяки публічним випускам таких просунутих моделей, як DALL-E, Stable Diffusions або GPT-3, кожен із скромним, звичайним апаратним забезпеченням може спробувати машинне навчання [3]. Моделі дифузії натхненні нерівноважною термодинамікою. Дифузійні моделі є підкатегорією моделей на основі ймовірності. Відомо, що вони пропонують надійно масштабовані високоточні зображення, зберігаючи при цьому нерухомий тренувальний об’єкт. Ці моделі генерують вибірки шляхом поступового видалення шуму із сигналу, а їх мета навчання може бути виражена як перезважена варіаційна нижня межа [2]. Цей клас моделей уже відповідає найсучаснішому [6] на CIFAR-10 [3], але все ще відстає від GAN щодо складних наборів даних, таких як LSUN і ImageNet. Нікол і Дхарівал [4] виявили, що ці моделі надійно вдосконалюються зі збільшенням обсягу обчислень і можуть створювати високоякісні зразки навіть на складному наборі даних ImageNet 256 × 256 за допомогою стека підвищення дискретизації. Проте FID цієї моделі все ще неконкурентоспроможний із BigGANdeep [5], поточним сучасним сучасним набором даних. Більше того, ці моделі здатні створювати нескінченну кількість унікальних високоякісних зображень, людської мови та реалістичної музики, яку на перший погляд неможливо відрізнити від рукотворної. Популярність генеративних моделей швидко зростає. Ймовірнісні моделі можуть забезпечити кращу продуктивність у порівнянні з GAN. Дифузійні моделі є новою перспективною категорією ймовірнісних моделей. DiscoDiffusion – це комбінація моделей CLIP та ImageNet. Вона може генерувати цифрові картини на основі текстових підказок. Для цієї моделі можливі численні застосування, такі як створення відео, анімації та графічного контенту. При виборі DiscoDiffusion замість GAN слід враховувати певні відмінності.Завантаження
Посилання
Prafulla Dhariwal, Alex Nichol – Diffusion Models Beat GANs on Image Synthesis URL: https://arxiv.org/pdf/2105.05233.pdf
Sakib Shahriar - GAN Computers Generate Arts? A Survey on Visual Arts, Music, and Literary Text Generation using Generative Adversarial Network, URL: https://arxiv.org/ftp/arxiv/papers/2108/2108.03857.pdf
Ali Razavi, Aaron van den Oord, Oriol Vinyals – Generating Diverse High-Fidelity Images with VQ-VAE-2, URL: https://arxiv.org/pdf/1906.00446
Rewon Child Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them on Images, URL: https://arxiv.org/pdf/2011.10650
Matthew Cateer – CLIP Prompt Engineering for Generative Art, URL: https://matthewmcateer.me/blog/clip-promptengineering/
Andrew Brock, Theodore Lim, J.M. Ritchie, Nick Weston - Neural Photo Editing with Introspective Adversarial Networks, URL: https://arxiv.org/pdf/1609.07093
Open AI Image GPT, URL: https://openai.com/blog/image-gpt/
ImageNet: About, URL: https://www.image-net.org/about.php
Google Trends, URL: https://trends.google.com/
Golovko G. V., Nikiforova K. M. Information systems use at Poltava national technical Yuri Kondratyuk University. Control, navigation and communication systems. 2018. Vol. 3. Р. 103-105.