ReLU

Зрі́заний ліні́йний ву́зол^[1]^[2], іноді ви́прямлений ліні́йний ву́зол^[3] (англ. rectified linear unit, ReLU^[4]), або випрямля́ч^[5]^[6] (англ. rectifier) у контексті штучних нейронних мереж є передавальною функцією, яка визначена таким чином:

f(x)=x^{+}=\max(0,x)

де x вхідне значення нейрона. Вона є аналогом напівперіодичного випрямляча у схемотехніці. Ця передавальна функція була запроваджена для динамічних мереж Ганлозером (англ. Hahnloser) та іншими у 2000 році^[7] з біологічним підґрунтям та математичним обґрунтуванням.^[8] В 2011 році вперше було продемонстровано, як забезпечити краще навчання глибоких мереж,^[9] на відміну від передавальних функцій, які широко використовувались до цього, а саме, логістичною функцією (яка була запозичена з теорії ймовірностей; дивись логістична регресія) і виявились більш практичними^[10] ніж гіперболічний тангенс. ReLU є, станом на 2018, найбільш популярною передавальною функцією для глибоких нейронних мереж.^[11]^[12]

Гладке наближення ReLU є гладкою функцією

f(x)=\log(1+\exp x),

яка називається softplus-функцією.^[13] Похідною softplus є $f'(x)=\exp x/(1+\exp x)=1/(1+\exp(-x))$ , тобто логістична функція.

ReLU часто використовується при глибокому навчанні в задачах комп'ютерного зору^[9] та розпізнавання мовлення^[14]^[15].

Варіації

ReLU з шумом

До ReLU можна додати гауссів шум, що дає ReLU з шумом^[4]

f(x)=\max(0,x+Y)

, з

Y\sim {\mathcal {N}}(0,\sigma (x))

ReLU з шумом успішно використовуються в задачах комп'ютерного зору в обмежених машинах Больцмана.^[4]

Нещільна ReLU

Нещільна ReLU використовує невеличкий додатній градієнт, коли передавач не активний.^[15]

f(x)={\begin{cases}x,&{\mbox{якщо }}x>0\\0.01x,&{\mbox{інакше}}\end{cases}}

Параметрична ReLU

Параметрична ReLU узагальнює нещільну ReLU, а саме додається параметр нещільності, який навчається разом з іншими параметрами нейронної мережі.^[16]

f(x)={\begin{cases}x,&{\mbox{якщо }}x>0\\ax,&{\mbox{інакше}}\end{cases}}

Зауважте, що для $a\leqslant 1$ , це еквівалентно

f(x)=\max(x,ax)

і тому таке відношення називають «максимальним виводом» (англ. maxout) мережі.^[16]

ELU

Експоненціально-лінійна ReLU робить середнє передавача ближчим до нуля, що прискорює навчання. Було показано, що ELU може отримати більш високу точність класифікації, ніж ReLU.^[17]

$f(x)={\begin{cases}x,&{\mbox{якщо }}x\geqslant 0\\a(e^{x}-1),&{\mbox{інакше}}\end{cases}}$

$a$ є гіперпараметром, який налаштовується і $a\geqslant 0$ — константа.

Переваги

Біологічна правдоподібність: Одностороння на відміну від центрально симетричного гіперболічного тангенса.
Розріджена активація: наприклад, у випадково ініціалізованій мережі, тільки близько 50 % прихованих елементів активуються (мають не нульове значення).
Краще градієнтне поширення: рідше виникає проблема зникання градієнту у порівнянні з сигмоїдальною передавальною функцією, яка може виникнути в обох напрямках.^[18]
Швидкість обчислення: тільки порівняння, додавання та множення.
Інваріантність відносно масштабування: $\max(0,ax)=a\max(0,x)$ для $a\geqslant 0$ .

ReLU було використано для відокремлення специфічного збудження та неспецифічного інгібування у піраміді з нейронною абстракцією (англ. Neural Abstraction Pyramid), яка була навчена керовано, щоб вирішувати декілька завдань комп'ютерного зору.^[19] У 2011,^[9] ReLU використовували як елемент нелінійності з метою показати, можливість глибокого навчання нейронної мережі без попереднього некерованого навчання. ReLU, на відміну від сигмоїда та подібних передавальних функцій, дозволяє швидше та ефективніше навчання глибоких нейронних мереж на великих та складних наборах даних.

Потенційні складнощі

Не регулярна у нулі: проте похідна існує в усіх інших точка, також можна на власний розсуд задати значення у нулі — 0 або 1.
Несиметрична
Необмежена
Наявність мертвих зон: може трапитись так, що нейрони будуть переведені у стан, в якому вони стануть неактивними для всіх вхідних значень. Для такого стану відсутнє зворотне поширення градієнту, яке проходить через нейрон і тому в такому стані нейроном потрапляє у незмінний стан і «вмирає». Це один з різновидів проблеми зникання градієнту. В деяких випадках велика кількість нейронів мережі може застигнути у мертвому стані, і справити ефект зменшення місткості моделі. Така проблема зазвичай виникає коли встановлено дуже велику швидкість навчання. Цей ефект можна послабити, якщо натомість використати нещільну ReLU.

Див. також

Softmax
Сигмоїда
Swish функція
Тобіт модель^[en]

Примітки

↑ Білоус, Наталія; Комаров, Олексій (2018). Використання методів глибинного навчання для сегментації пухлин головного мозку на МРТ-зображеннях (PDF). Інформаційні системи та технології. Коблеве — Харків. с. 438. Архів оригіналу (PDF) за 16 травня 2021. Процитовано 16 травня 2021.
↑ Проніна, О. І. (2019). Робоча програма навчальної дисципліни «Машинне навчання» для здобувачів освітнього ступеня магістра за спеціальністю 122 «Комп’ютерні науки», освітньої програми «Інформаційні системи та технології». Маріуполь: ПДТУ. Архів оригіналу за 16 травня 2021. Процитовано 16 травня 2021.
↑ Момотюк, П. В. (2016). Оптимізація архітектури згорткових нейронних мереж за розташуванням вузлів ReLU (PDF). Перспективи розвитку сучасної науки. Львів. с. 94—96. Архів оригіналу (PDF) за 16 травня 2021. Процитовано 16 травня 2021.
↑ ^а ^б ^в Vinod Nair and Geoffrey Hinton (2010). Rectified Linear Units Improve Restricted Boltzmann Machines (PDF). ICML. Архів оригіналу (PDF) за 29 липня 2018. Процитовано 10 серпня 2018.
↑ Бубенщиков, О. В.; Лєпа, Є. В. (2019). Використання згортальних нейронних мереж для ідентифікації обличчя людини (PDF). Інформаційні технології. Вісник ХНТУ. Херсон: ХНТУ. 1 (68): 136—142. Архів оригіналу (PDF) за 6 березня 2022. Процитовано 12 травня 2022.
↑ Ялова, К. М.; Яшина, К. В.; Ткаченко, М. В. (2018). Розпізнавання образів згортковою нейронною мережею (PDF). Технічні науки. Вісник ХНУ. Хмельницький: ХНУ. 2 (259). Архів оригіналу (PDF) за 18 квітня 2022. Процитовано 12 травня 2022.
↑ R Hahnloser, R. Sarpeshkar, M A Mahowald, R. J. Douglas, H.S. Seung (2000). Digital selection and analogue amplification coexist in a cortex-inspired silicon circuit. Nature. Т. 405. с. 947—951.
↑ R Hahnloser, H.S. Seung (2001). Permitted and Forbidden Sets in Symmetric Threshold-Linear Networks. NIPS 2001.
↑ ^а ^б ^в Xavier Glorot, Antoine Bordes and Yoshua Bengio^[en] (2011). Deep sparse rectifier neural networks (PDF). AISTATS. Архів оригіналу (PDF) за 13 грудня 2016. Процитовано 10 серпня 2018.
↑ Yann LeCun, Leon Bottou, Genevieve B. Orr and Klaus-Robert Müller^[en] (1998). Efficient BackProp (PDF). У G. Orr and K. Müller (ред.). Neural Networks: Tricks of the Trade. Springer. Архів оригіналу (PDF) за 31 серпня 2018. Процитовано 10 серпня 2018.
↑ LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). Deep learning. Nature. 521 (7553): 436—444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442.
↑ Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (16 жовтня 2017). Searching for Activation Functions. arXiv:1710.05941 [cs.NE].
↑ C. Dugas, Y. Bengio, F. Bélisle, C. Nadeau, R. Garcia, NIPS'2000, (2001), Incorporating Second-Order Functional Knowledge for Better Option Pricing [Архівовано 31 серпня 2018 у Wayback Machine.].
↑ László Tóth (2013). Phone Recognition with Deep Sparse Rectifier Neural Networks (PDF). ICASSP. Архів оригіналу (PDF) за 25 вересня 2019. Процитовано 10 серпня 2018.
↑ ^а ^б Andrew L. Maas, Awni Y. Hannun, Andrew Y. Ng (2014). Rectifier Nonlinearities Improve Neural Network Acoustic Models [Архівовано 19 червня 2018 у Wayback Machine.]
↑ ^а ^б He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015). Delving Deep into Rectifiers: Surpassing Human-Level Performance on Image Net Classification. arXiv:1502.01852 [cs.CV].
↑ Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015). Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs). arXiv:1511.07289 [cs.LG].
↑ Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (14 червня 2011). Deep Sparse Rectifier Neural Networks. PMLR (англ.). Архів оригіналу за 24 серпня 2018. Процитовано 11 серпня 2018.
↑ Behnke, Sven (2003). Hierarchical Neural Networks for Image Interpretation. Lecture Notes in Computer Science. Т. 2766. Springer. doi:10.1007/b11963. Архів оригіналу за 11 серпня 2018. Процитовано 11 серпня 2018.

В іншому мовному розділі є повніша стаття Rectifier (neural networks)(англ.). Ви можете допомогти, розширивши поточну статтю за допомогою перекладу з англійської.

Дивитись автоперекладену версію статті з мови «англійська».
Перекладач повинен розуміти, що відповідальність за кінцевий вміст статті у Вікіпедії несе саме автор редагувань. Онлайн-переклад надається лише як корисний інструмент перегляду вмісту зрозумілою мовою. Не використовуйте невичитаний і невідкоригований машинний переклад у статтях української Вікіпедії!
Машинний переклад Google є корисною відправною точкою для перекладу, але перекладачам необхідно виправляти помилки та підтверджувати точність перекладу, а не просто скопіювати машинний переклад до української Вікіпедії.
Не перекладайте текст, який видається недостовірним або неякісним. Якщо можливо, перевірте текст за посиланнями, поданими в іншомовній статті.
Докладні рекомендації: див. Вікіпедія:Переклад.

Диференційовні обчислення

Загальне

Диференційовне програмування^[en]
Нейронна машина Тюрінга
Диференційовний нейрокомп'ютер^[en]
Автоматичне диференціювання
Нейроморфні обчислення
Кабельна теорія
Розпізнавання образів
Теорія обчислювального навчання^[en]
Тензорний аналіз

Поняття

Градієнтний спуск
- СГС
Кластерування
Регресія
- Перенавчання
Змагальність^[en]
Увага
Згортка
Функції втрат
Зворотне поширення
Унормовування^[en]
Передавальна функція
- Нормована експоненційна
- Сигмоїда
- Випрямляч
Регуляризація
Набори даних
- Нарощування^[en]

Мови програмування

Python
Julia

Застосування

Машинне навчання
- Навчання в контексті
Штучна нейронна мережа
- Глибоке навчання
Наукові обчислення^[en]
Штучний інтелект

Апаратне забезпечення

Інтелектний процесор^[en]
Тензорний процесор
Зоровий процесор
Мемристор
SpiNNaker^[en]

Програмні бібліотеки

Втілення

Аудіовізуальні	NateNet AlexNet WaveNet^[en] Синтез людських зображень^[en] Розпізнавання рукописного введення Оптичне розпізнавання символів Синтез мовлення Розпізнавання мовлення Розпізнавання облич AlphaFold^[en] DALL-E

Словесні	Word2vec Трансформер BERT Нейронний машинний переклад Project Debater^[en] Watson GPT-2 GPT-3

Вирішувальні	AlphaGo AlphaZero Q-навчання SARSA OpenAI Five Самокерований автомобіль MuZero^[en] Обирання дії Керування роботами^[en]