Алгоритм SARSA

Машинне навчання та добування даних
Частина з циклу

Парадигми Кероване навчання Некероване навчання Інтерактивне навчання Пакетне навчання Метанавчання Напівкероване навчання Самокероване навчання Навчання з підкріпленням Навчання на основі правил Квантове машинне навчання^[en]
Задачі Класифікація Породжувальна модель Регресія Кластерування Знижування розмірності Оцінювання густини Виявляння аномалій Очищування даних^[en] АвтоМН Асоціативні правила Семантичний аналіз^[en] Структурове передбачування Конструювання ознак Навчання ознак Навчання ранжуванню Виведення граматик^[en] Навчання онтологій^[en] Мультимодальне навчання^[en]
Кероване навчання (класифікація • регресія) Ансамблі Випадковий ліс Бутстрепова агрегація Підсилювання Градієнтне підсилювання^[en] AdaBoost^[en] Дерева рішень MARS^[en] CART Доречно-векторна машина k-сусідів Лінійна регресія Логістична регресія Лінійний розділювальний аналіз Наївний баєсів класифікатор Перцептрон Підмайстрове навчання Опорно-векторна машина Штучні нейронні мережі
Кластерування BIRCH^[en] CURE Ієрархічне k-середніх Нечітке Очікування-максимізація DBSCAN OPTICS Спектральне Зсув середнього^[en]
Знижування розмірності Факторний аналіз Метод незалежних компонент^[en] Канонічна кореляція Дискримінантний аналіз Метод головних компонент Власний узагальнений розклад^[en] Розклад невід'ємних матриць t-розподілене вкладення стохастичної близькості Навчання розріджених словників^[en]
Структурове передбачування Графові моделі Баєсова мережа Прихована марковська модель Умовне випадкове поле
Виявляння аномалій RANSAC k-НС Коефіцієнт локального відхилення Відстань Кука Ізоляційний ліс^[en]
Штучна нейронна мережа Автокодувальник Когнітивні обчислення^[en] Глибоке навчання DeepDream^[en] Нейронна мережа прямого поширення Рекурентна нейронна мережа ДКЧП ВРВ МВС Резервуарне обчислення Обмежена машина Больцмана ГЗМ Дифузійна модель Самоорганізаційна карта Згорткова нейронна мережа U-Net Трансформер Зоровий Спайкова нейронна мережа^[en] Мемтранзистор Електрохімічна ПДД^[en] (ECRAM)
Навчання з підкріпленням Q-навчання SARSA Метод часових різниць Багатоагентне навчання з підкріпленням Гра проти себе^[en]
Навчання з людьми Активне навчання (машинне навчання)^[en] Краудсорсинг Людина-в-циклі
Діагностування моделей Крива спроможності навчатися^[en]
Математичні засади Ядрові машини Компроміс зсуву та дисперсії Ймовірнісно приблизно коректне навчання Мінімізація емпіричного ризику Оккамове навчання^[en] Регуляризація LASSO^[en] Тихонова Еластично-сіткова^[en] Статистичне навчання Теорія Вапника — Червоненкіса Теорія обчислювального навчання^[en]
Місця машинного навчання ECML PKDD^[en] NeurIPS^[en] ICML^[en] ICLR IJCAI ML JMLR
Пов'язані статті Глосарій штучного інтелекту^[en] Список наборів даних для досліджень з машинного навчання Перелік понять машинного навчання^[en]
п о р

SARSA — алгоритм пошуку стратегії марковського процесу вирішування, який використовується у навчанні з підкріпленням. Гевін Руммері та Махесан Ніранжан у 1994 році запропонували його під назвою «Modified Connectionist Q-Learning» (MCQ-L)^[1]. Назва SARSA, запропонована Річардом Саттоном, згадувалася у їх статті лише у виносці.

Ця назва означає, що оновлення Q-функції залежить від поточного стану агента S₁, дії A₁, яку агент обирає, винагороди R, яку отримує агент за вибір цієї дії, стану S₂, в який переходить агент після виконання цієї дії, та, нарешті, наступної дії А₂, яку агент обирає виходячи зі свого нового стану. Скорочення букв (s_t, a_t, r_t, s_{t + 1}, a_{t + 1}) і дає назву SARSA.^[2] Деякі автори використовують інший підхід і записують набір букв у вигляді (s_t, a_t, r_{t + 1}, s_{t + 1}, a_{t + 1}), залежно від того, за який крок агента формально дається винагорода. В решті статті використовується перша домовленість.

Алгоритм

Q(s_{t},a_{t})\leftarrow Q(s_{t},a_{t})+\alpha \,[r_{t}+\gamma \,Q(s_{t+1},a_{t+1})-Q(s_{t},a_{t})]

За алгоритмом SARSA, агент взаємодіє з середовищем та оновлює стратегію згідно з виконаними діями, отже, цей алгоритм можна віднести до класу алгоритмів навчання за поточною стратегією (англ. on-policy). Значення Q-функції для дії та стану оновлюється відповідно похибці, що регулюється за допомогою коефіцієнту швидкості навчання $\alpha$ . Значення Q-функції представляє сумарну винагороду, яку можна отримати за весь залишившийся час у межах цього епізоду, за умови виконання дії a в стані s, з додаванням знеціненої винагороди за виконання дії в наступному стані.

Деякі оптимізації алгоритму Q-навчання можуть бути застосовані і до SARSA.^[3]

Гіперпараметри

Коефіцієнт швидкості навчання (α)

Коефіцієнт швидкості навчання визначає, наскільки отримана за дану ітерацію інформація змінює попередню інформацію. Коефіцієнт 0 змусить агента ніяк не навчитися, тоді як коефіцієнт 1 змусить агента враховувати лише інформацію, отриману за останню ітерацію алгоритму.

Коефіцієнт знецінювання (γ)

Коефіцієнт знецінювання (англ. discount factor) визначає важливість майбутніх винагород. Коефіцієнт 0 змушує агента враховувати лише поточну винагороду, тоді як коефіцієнт близький до 1^[4], змусить намагатися досягти максимальної довгострокової винагороди. Якщо коефіцієнт знецінювання дорівнює або перевищує 1, то значення $Q$ -функції може не збігатися.

Початкові умови (Q(s₀, a₀))

Оскільки SARSA є ітераційним алгоритмом, він передбачає наявність початкових умов до того, як відбудеться перше оновлення. Високе (нескінченне) початкове значення, також відоме як «оптимістичні початкові умови»,^[5] може заохочувати дослідження: незалежно від того, які дії виконує агент, формула оновлення призводить до того, що наступні ітерації мають більш високі значення винагороди, ніж попередні, тим самим збільшуючи ймовірність їх вибору. У 2013 році була запропонована ідея використання першої винагороди r в якості початкових умов. При такому підході, після виконання агентом першої дії, отримана винагорода використовується як початкове значення Q. Що при фіксованих винагородах, дозволяє навчати відразу після першого кроку. Такий метод обирання початкових умов повторює поведінку людини в багатьох експериментах з бінарним вибором.^[6]

Примітки

↑ Online Q-Learning using Connectionist Systems" by Rummery & Niranjan (1994). Архів оригіналу за 8 червня 2013. Процитовано 18 червня 2020.
↑ Reinforcement Learning: An Introduction Richard S. Sutton and Andrew G. Barto (chapter 6.4). Архів оригіналу за 5 липня 2020. Процитовано 18 червня 2020.
↑ Wiering, Marco; Schmidhuber, Jürgen (1 жовтня 1998). Fast Online Q(λ) (PDF). Machine Learning (англ.). 33 (1): 105—115. doi:10.1023/A:1007562800292. ISSN 0885-6125. S2CID 8358530. Архів оригіналу (PDF) за 30 жовтня 2018. Процитовано 23 листопада 2021.
↑ Arguments against myopic training - LessWrong. www.lesswrong.com (англ.). Процитовано 13 листопада 2022.
↑ 2.7 Optimistic Initial Values. incompleteideas.net. Архів оригіналу за 5 липня 2020. Процитовано 28 лютого 2018.
↑ Shteingart, H; Neiman, T; Loewenstein, Y (May 2013). The Role of First Impression in Operant Learning (PDF). J Exp Psychol Gen. 142 (2): 476—88. doi:10.1037/a0029550. PMID 22924882. Архів оригіналу (PDF) за 26 січня 2021. Процитовано 18 червня 2020.

Диференційовні обчислення

Загальне

Диференційовне програмування^[en]
Нейронна машина Тюрінга
Диференційовний нейрокомп'ютер^[en]
Автоматичне диференціювання
Нейроморфні обчислення
Кабельна теорія
Розпізнавання образів
Теорія обчислювального навчання^[en]
Тензорний аналіз

Поняття

Мови програмування

Python
Julia

Застосування

Машинне навчання
- Навчання в контексті
Штучна нейронна мережа
- Глибоке навчання
Наукові обчислення^[en]
Штучний інтелект

Апаратне забезпечення

Інтелектний процесор^[en]
Тензорний процесор
Зоровий процесор
Мемристор
SpiNNaker^[en]

Програмні бібліотеки

Втілення

Аудіовізуальні	NateNet AlexNet WaveNet^[en] Синтез людських зображень^[en] Розпізнавання рукописного введення Оптичне розпізнавання символів Синтез мовлення Розпізнавання мовлення Розпізнавання облич AlphaFold^[en] DALL-E

Словесні	Word2vec Трансформер BERT Нейронний машинний переклад Project Debater^[en] Watson GPT-2 GPT-3

Вирішувальні	AlphaGo AlphaZero Q-навчання SARSA OpenAI Five Самокерований автомобіль MuZero^[en] Обирання дії Керування роботами^[en]