ОСОБЛИВОСТІ ТА МОЖЛИВОСТІ ЗАСТОСУВАННЯ LLM У СФЕРІ РОЗРОБКИ ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ
DOI:
https://doi.org/10.26906/SUNZ.2024.4.109Ключові слова:
Великі Мовні Моделі, штучний інтелект, fine-tuning, векторизація, OpenSourceАнотація
У даній статті досліджено ролі та можливості Великих Мовних Моделей (LMM) у сфері розробки програмного забезпечення, які варіюються від спеціалізованих, орієнтованих на конкретні мови або домени, до загальних моделей, які можуть застосовуватися до широкого спектру задач. Проведено огляд основних особливостей LMM, акцент на їхньому потенціалі у глибинному аналізі та генерації тексту, а також розкриває можливості застосування в широкому спектрі задач. Проаналізовано основні напрями щодо оптимізації роботи з LMM, які включають в себе контекст, fine tuning, векторизація інформації, використання вбудованого інструментарію платформ, prompt engineering, zero-shot prompting, few-shot prompting, chain-of-thought prompting, directional stimulus prompting, промпт з використанням dsp, промпт без використання dsp, tree of thought prompting, reward prompting, Developer driven LLM, Repository driven LLM, Project driven LLM. Детально аналізуються переваги та недоліки комерційних та відкритих (OpenSource) моделей. Представлено стратегії використання LLM моделей для розробників, як особистий досвід роботи з LLM та ідеї які ще доведеться реалізовувати. Особливу увагу приділено концепціям, які орієнтовані на розробника, які надають підтримку та відповіді на основі великих даних та контексту проекту та включають в собі певні звички в кодуванні, вподобання до певних технологій чи бібліотек, і навіть специфічні доменні знання, які розробник застосовує у своїй рутинній роботі. Визначено необхідність враховувати, хто буде використовувати модель: лише розробники чи також замовники та користувачі, в залежності від аудиторії, адаптування рівеня доступу до інформації. Сформовані ймовірні проблеми роботи з LLM з якими можуть зіткнутися розробники при роботі з великими мовними моделями, які можуть генерувати нерелевантні відповіді, містити помилкову інформацію чи створювати її (галюцинації), а також мати упередження та затримку у врахуванні останніх подій. Визначено людський фактор, як ключовий фактор в оцінці і користуванні результатами роботи мовних моделей, перед її впровадженням у проект. Робота призначена для інформування розробників про стратегії вибору та адаптації моделей LMM для специфічних вимог проектів з урахуванням їхнього контексту.Завантаження
Посилання
(2024), “Prompting Techniques (Техніки промптингу)”, Prompt Engineering Guide, URL: https://www.promptingguide.ai/techniques/
Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, and Quoc V. Le (2022),”Finetuned language models are zero-shot learners”, Published as a conference paper at ICLR 2022, pp. 1–46, URL: https://arxiv.org/pdf/2109.01652.pdf
Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei (2020), Language Models are Few-Shot Learners, aXiv:2005.14165, 75 p., URL: https://arxiv.org/abs/2005.14165
Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou (2022), Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,14 p., URL: https://arxiv.org/abs/2201.11903
Zekun Li, Baolin Peng, Pengcheng He, Michel Galley, Jianfeng Gao, Xifeng Yan (2023), Guiding Large Language Models via Directional Stimulus Prompting, 27 p., URL: https://arxiv.org/abs/2302.11520
Shunyu Yao, Dian Yu, Jeffrey Zhao, (2023), Tree of Thoughts: Deliberate Problem Solving with Large Language Models, 14 p., URL: https://arxiv.org/abs/2305.10601