ВИКОРИСТАННЯ ГЕНЕРАТИВНИХ ДИФУЗІЙНИХ МОДЕЛЕЙ МАШИННОГО НАВЧАННЯ У СТВОРЕННІ ЗОБРАЖЕНЬ

  • O. Rudenko
  • O. Bilokin
Ключові слова: GAN, generative ad versarial net works, штучний інтелект, дифузійні моделі, цифрове мистецтво, ImageNetmodel, WordNet

Анотація

За останній рік стався значний сплеск популярності генеративних мереж. Завдяки публічним випускам таких просунутих моделей, як DALL-E, Stable Diffusions або GPT-3, кожен із скромним, звичайним апаратним забезпеченням може спробувати машинне навчання [3]. Моделі дифузії натхненні нерівноважною термодинамікою. Дифузійні моделі є підкатегорією моделей на основі ймовірності. Відомо, що вони пропонують надійно масштабовані високоточні зображення, зберігаючи при цьому нерухомий тренувальний об’єкт. Ці моделі генерують вибірки шляхом поступового видалення шуму із сигналу, а їх мета навчання може бути виражена як перезважена варіаційна нижня межа [2]. Цей клас моделей уже відповідає найсучаснішому [6] на CIFAR-10 [3], але все ще відстає від GAN щодо складних наборів даних, таких як LSUN і ImageNet. Нікол і Дхарівал [4] виявили, що ці моделі надійно вдосконалюються зі збільшенням обсягу обчислень і можуть створювати високоякісні зразки навіть на складному наборі даних ImageNet 256 × 256 за допомогою стека підвищення дискретизації. Проте FID цієї моделі все ще неконкурентоспроможний із BigGANdeep [5], поточним сучасним сучасним набором даних. Більше того, ці моделі здатні створювати нескінченну кількість унікальних високоякісних зображень, людської мови та реалістичної музики, яку на перший погляд неможливо відрізнити від рукотворної. Популярність генеративних моделей швидко зростає. Ймовірнісні моделі можуть забезпечити кращу продуктивність у порівнянні з GAN. Дифузійні моделі є новою перспективною категорією ймовірнісних моделей. DiscoDiffusion – це комбінація моделей CLIP та ImageNet. Вона може генерувати цифрові картини на основі текстових підказок. Для цієї моделі можливі численні застосування, такі як створення відео, анімації та графічного контенту. При виборі DiscoDiffusion замість GAN слід враховувати певні відмінності.

Завантаження

Дані про завантаження поки що недоступні.

Посилання

1. Prafulla Dhariwal, Alex Nichol – Diffusion Models Beat GANs on Image Synthesis URL: https://arxiv.org/pdf/2105.05233.pdf
2. Sakib Shahriar - GAN Computers Generate Arts? A Survey on Visual Arts, Music, and Literary Text Generation using Generative Adversarial Network, URL: https://arxiv.org/ftp/arxiv/papers/2108/2108.03857.pdf
3. Ali Razavi, Aaron van den Oord, Oriol Vinyals – Generating Diverse High-Fidelity Images with VQ-VAE-2, URL: https://arxiv.org/pdf/1906.00446
4. Rewon Child Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them on Images, URL: https://arxiv.org/pdf/2011.10650
5. Matthew Cateer – CLIP Prompt Engineering for Generative Art, URL: https://matthewmcateer.me/blog/clip-promptengineering/
6. Andrew Brock, Theodore Lim, J.M. Ritchie, Nick Weston - Neural Photo Editing with Introspective Adversarial Networks, URL: https://arxiv.org/pdf/1609.07093
7. Open AI Image GPT, URL: https://openai.com/blog/image-gpt/
8. ImageNet: About, URL: https://www.image-net.org/about.php
9. Google Trends, URL: https://trends.google.com/
10. Golovko G. V., Nikiforova K. M. Information systems use at Poltava national technical Yuri Kondratyuk University. Control, navigation and communication systems. 2018. Vol. 3. Р. 103-105.
Опубліковано
2022-11-29
Як цитувати
Rudenko O. Використання генеративних дифузійних моделей машинного навчання у створенні зображень / O. Rudenko, O. Bilokin // Системи управління, навігації та зв’язку. Збірник наукових праць. – Полтава: ПНТУ, 2022. – Т. 4 (70). – С. 114-116. – doi:https://doi.org/10.26906/SUNZ.2022.4.114.
Розділ
Інформаційні технології

Найбільш популярні статті цього автора (авторів)