LLaMA

LLaMA (Large Language Model Meta AI) — велика модель мови (LLM), випущена Meta AI у лютому 2023 року. Модель була навчена на широкому спектрі джерел даних, підтримуючи 20 мов з латинським і кириличним алфавітами. Унікальність LLaMA полягає у тому, що її можна запускати в автономному режимі на різних пристроях, зокрема ноутбуках і смартфонах, завдяки програмним інструментам, які дозволяють їй функціонувати на графічних процесорах споживчого класу^[1]. Вона доступна в декількох розмірах (кількість параметрів: 7B, 13B, 33B і 65B), що дозволяє використовувати її в різних випадках. LLaMA покликана демократизувати доступ до досліджень у галузі ШІ, оскільки вимагає менших обчислювальних потужностей і ресурсів і не потребує доступу до інтернету. Розробники LLaMA повідомили, що продуктивність моделі з 13 мільярдами параметрів у більшості тестів NLP перевищила продуктивність значно більшої GPT-3 (зі 175 мільярдами параметрів) і що найбільша модель була конкурентоспроможною з такими сучасними моделями, як PaLM. У той час як найпотужніші LLM зазвичай були доступні лише через обмежені API (якщо взагалі були доступні), Meta випустила вагові коефіцієнти LLaMA за некомерційною ліцензією. Протягом тижня після випуску LLaMA, дані моделі були відкрито опубліковані на інтернет-форумі 4chan за допомогою BitTorrent.

Архітектура і навчання

LLaMA використовує архітектуру типу трансформер, тобто використовує механізми самоуваги(англ. self-attention) для розуміння контексту слів у реченні та перекладу його у вихідні дані. Вона широко використовується для задач, пов'язаних з обробкою природної мови, завдяки своїй здатності ефективно обробляти далекі залежності в тексті. Трансформер є стандартною архітектурою для мовного моделювання з 2018 року. LLaMA, як і інші великі мовні моделі, працює, приймаючи на вхід послідовність слів і передбачаючи наступне слово, щоб рекурсивно генерувати текст. Токенізатор LLaMA - це модель BPE, заснована на фрагменті речення, з помітною особливістю, яка полягає в тому, що він не додає до рядка префіксний пробіл при декодуванні послідовності, якщо перша лексема є початком слова. Розробники LLaMA зосередили свої зусилля на масштабуванні продуктивності моделі шляхом збільшення об’єму навчальних даних, а не кількості параметрів, вважаючи, що панівними витратами для LLM є виконання висновків на навченій моделі, а не обчислювальні витрати процесу навчання. LLaMA було навчено на 1,4 трильйона токенів, отриманих із загальнодоступних джерел даних, у тому числі:

Веб-сторінки, зібрані CommonCrawl
Репозиторії з відкритим кодом на GitHub
Вікіпедія 20 різними мовами
Загальнодоступні книги проєкту «Гутенберг»
Вихідний код LaTeX для наукових статей, завантажених в ArXiv
Запитання та відповіді з веб-сайтів Stack Exchange

Розробка і реліз

Розробка LLaMA була мотивована необхідністю зробити великі мовні моделі більш доступними для дослідницької спільноти. Раніше значні ресурси, необхідні для навчання та запуску таких великих моделей, обмежували доступ до них, що ускладнювало розуміння дослідниками того, як і чому працюють ці великі мовні моделі. Це сповільнювало прогрес у зусиллях, спрямованих на підвищення їхньої надійності та пом'якшення відомих проблем, таких як упередженість, токсичність і потенціал для генерування дезінформації. Про реліз LLaMA було оголошено 23 лютого 2023 року у документі з описом навчання, архітектури та продуктивності моделі. Код, використаний для навчання моделі, був опублікований під ліцензією GPL 3. Доступ до вагових показників моделі регулювався шляхом подачі заявки, причому доступ надавався на індивідуальній основі академічним дослідникам, тим, хто працює в уряді, громадському секторі та академічному середовищі, а також дослідницьким лабораторіям по всьому світу.

Застосування і поширення

LLaMA була розроблена як універсальний інструмент і може бути застосована в багатьох різних ситуаціях, від створення творчого тексту до розв'язання математичних теорем. Менші моделі легше перенавчити та налаштувати для конкретних потреб.

Тривають дослідження, спрямовані на подолання проблем упередженості, токсичних коментарів та галюцинацій, характерних для великих мовних моделей, і LLaMA не є винятком з цих викликів. Випустивши код LLaMA, інші дослідники зможуть легше тестувати нові підходи до обмеження або усунення цих проблем у великих мовних моделях.

Центр дослідження базових моделей (CRFM) Інституту людського інтелекту Стенфордського університету (HAI) випустив Alpaca, навчальний рецепт на основі моделі LLaMA 7B, який використовує метод «самонавчання» для налаштування інструкцій із метою отримання можливостей, порівняних з моделлю OpenAI GPT-3.5 series text-davinci-003, за помірну ціну^[2] ^[3]. Кілька проєктів з відкритим кодом продовжують цю роботу з тонкого налаштування LLaMA за допомогою набору даних Alpaca.

Список літератури

↑ Introducing LLaMA: A foundational, 65-billion-parameter language model. ai.facebook.com (укр.). Процитовано 15 червня 2023.
↑ Taori, Rohan; Gulrajani, Ishaan; Zhang, Tianyi; Dubois, Yann; Li, Xuechen; Guestrin, Carlos; Liang, Percy; Hashimoto, Tatsunori B. (13 березня 2023). Alpaca: A Strong, Replicable Instruction-Following Model. Stanford Center for Research on Foundation Models.
↑ Smith N. A., Hajishirzi H. Self-Instruct: Aligning Language Model with Self Generated Instructions // ArXiv.org — 2022. — ISSN 2331-8422 — arXiv:2212.10560
d:Track:Q104633932d:Track:Q117202254d:Track:Q38882473d:Track:Q118398