Тип искусственной нейронной сети, использующей радиальные базисные функции в качестве функций активации
В области математическое моделирование, а сеть радиальных базисных функций является искусственная нейронная сеть который использует радиальные базисные функции в качестве функции активации. Выход сети - это линейная комбинация радиальных базисных функций входов и параметров нейрона. Сети радиальных базисных функций имеют множество применений, в том числе аппроксимация функции, прогнозирование временных рядов, классификация, и система контроль. Впервые они были сформулированы в статье 1988 г. Брумхедом и Лоу, исследователями из Королевские сигналы и радиолокационная станция.[1][2][3]
Сетевая архитектура
Рисунок 1: Архитектура сети радиальных базисных функций. Входной вектор
![Икс](https://wikimedia.org/api/rest_v1/media/math/render/svg/87f9e315fd7e2ba406057a97300593c4802b53e4)
используется в качестве входных данных для всех радиальных базисных функций, каждая с разными параметрами. Выход сети представляет собой линейную комбинацию выходов радиальных базисных функций.
Сети с радиальной базисной функцией (RBF) обычно имеют три уровня: входной уровень, скрытый слой с нелинейной функцией активации RBF и линейный выходной слой. Вход можно смоделировать как вектор действительных чисел.
. Выход сети тогда является скалярной функцией входного вектора,
, и задается
![varphi ({mathbf {x}}) = sum _ {{i = 1}} ^ {N} a_ {i} ho (|| {mathbf {x}} - {mathbf {c}} _ {i} || )](https://wikimedia.org/api/rest_v1/media/math/render/svg/5d3f00656452dd9ba352cc6f9b5da5e84f26c9a2)
куда
- количество нейронов в скрытом слое,
центральный вектор нейрона
, и
это вес нейрона
в линейном выходном нейроне. Функции, которые зависят только от расстояния от центрального вектора, радиально симметричны относительно этого вектора, отсюда и название радиальной базисной функции. В базовой форме все входы подключены к каждому скрытому нейрону. В норма обычно считается Евклидово расстояние (Хотя Расстояние Махаланобиса работает лучше с распознаванием образов[4][5][редактирование ]), а радиальная базисная функция обычно принимается равной Гауссовский
.
Гауссовские базисные функции локальны по отношению к центральному вектору в том смысле, что
![lim _ {{|| x || o infty}} ho (leftVert {mathbf {x}} - {mathbf {c}} _ {i} ightVert) = 0](https://wikimedia.org/api/rest_v1/media/math/render/svg/e228af07a1d45849b6de2df04c072717a1e71624)
то есть изменение параметров одного нейрона имеет лишь небольшой эффект для входных значений, которые находятся далеко от центра этого нейрона.
При определенных мягких условиях на форму функции активации RBF-сети являются универсальные аппроксиматоры на компактный подмножество
.[6] Это означает, что RBF-сеть с достаточным количеством скрытых нейронов может аппроксимировать любую непрерывную функцию на замкнутом ограниченном множестве с произвольной точностью.
Параметры
,
, и
определяются таким образом, чтобы оптимизировать соответствие между
и данные.
Рисунок 2: Две ненормализованные радиальные базисные функции в одном входном измерении. Базовые функциональные центры расположены по адресу
![c_ {1} = 0,75](https://wikimedia.org/api/rest_v1/media/math/render/svg/fe11449bb06a41bb025d458a303c09ef9d711865)
и
![c_ {2} = 3,25](https://wikimedia.org/api/rest_v1/media/math/render/svg/9c87f6d7433adb240ff1c931655a45e92c8fc0cf)
.
Нормализованный
Рисунок 3: Две нормализованные радиальные базисные функции в одном входном измерении (
сигмоиды ). Базовые функциональные центры расположены по адресу
![c_ {1} = 0,75](https://wikimedia.org/api/rest_v1/media/math/render/svg/fe11449bb06a41bb025d458a303c09ef9d711865)
и
![c_ {2} = 3,25](https://wikimedia.org/api/rest_v1/media/math/render/svg/9c87f6d7433adb240ff1c931655a45e92c8fc0cf)
.
Рисунок 4: Три нормализованных радиальных базисных функции в одном входном измерении. Дополнительная базовая функция имеет центр в
![c_ {3} = 2,75](https://wikimedia.org/api/rest_v1/media/math/render/svg/89c1e802d2ac82aa6c9cbb430f8407a8c830ca7c)
Рисунок 5: Четыре нормализованных радиальных базисных функции в одном входном измерении. Четвертая базисная функция имеет центр в
![c_ {4} = 0](https://wikimedia.org/api/rest_v1/media/math/render/svg/94c51ac170b378e042bd1b4c9311a0abcc16b61b)
. Обратите внимание, что первая базовая функция (темно-синий) стала локализованной.
Нормализованная архитектура
В дополнение к вышесказанному ненормализованный архитектура, сети RBF могут быть нормализованный. В этом случае отображение
![varphi ({mathbf {x}}) {stackrel {{mathrm {def}}} {=}} {frac {sum _ {{i = 1}} ^ {N} a_ {i} ho {ig (} leftVert { mathbf {x}} - {mathbf {c}} _ {i} ightVert {ig)}} {sum _ {{i = 1}} ^ {N} ho {ig (} leftVert {mathbf {x}} - { mathbf {c}} _ {i} ightVert {ig)}}} = sum _ {{i = 1}} ^ {N} a_ {i} u {ig (} leftVert {mathbf {x}} - {mathbf { c}} _ {i} ightVert {ig)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/486b2f00832c16fd08f7e4fca1a6c9914ee62582)
куда
![u {ig (} leftVert {mathbf {x}} - {mathbf {c}} _ {i} ightVert {ig)} {stackrel {{mathrm {def}}} {=}} {frac {ho {ig (} leftVert {mathbf {x}} - {mathbf {c}} _ {i} ightVert {ig)}} {sum _ {{j = 1}} ^ {N} ho {ig (} leftVert {mathbf {x}} - {mathbf {c}} _ {j} ightVert {ig)}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1ee3175554e2fe9f23944e249f123cd91dc5a4b0)
известна как «нормализованная радиальная базисная функция».
Теоретическая мотивация нормализации
Есть теоретическое обоснование этой архитектуры в случае стохастического потока данных. Предположим, что стохастическое ядро приближение для совместной плотности вероятности
![Pleft ({mathbf {x}} land yight) = {1 over N} sum _ {{i = 1}} ^ {N}, ho {ig (} leftVert {mathbf {x}} - {mathbf {c}} _ {i} ightVert {ig)}, sigma {ig (} leftvert y-e_ {i} ightvert {ig)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/92b316ac28ffd4ace8f397009e5ac70dd7ceff5c)
где гири
и
являются примерами из данных, и мы требуем, чтобы ядра были нормализованы
![int ho {ig (} leftVert {mathbf {x}} - {mathbf {c}} _ {i} ightVert {ig)}, d ^ {n} {mathbf {x}} = 1](https://wikimedia.org/api/rest_v1/media/math/render/svg/27e6480159dfe41a9b7d0a89e8ca611bc1ab605b)
и
.
Плотности вероятностей во входном и выходном пространствах равны
![Pleft ({mathbf {x}} ight) = int Pleft ({mathbf {x}} land yight), dy = {1 over N} sum _ {{i = 1}} ^ {N}, ho {ig (} leftVert {mathbf {x}} - {mathbf {c}} _ {i} ightVert {ig)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/795cd7e4376f445a2cd9d4f3e3e706d8b159c993)
и
Ожидание y при вводе
является
![varphi left ({mathbf {x}} ight) {stackrel {{mathrm {def}}} {=}} Eleft (ymid {mathbf {x}} ight) = int y, Pleft (ymid {mathbf {x}} ight ) dy](https://wikimedia.org/api/rest_v1/media/math/render/svg/ee7847866da0fe61434352fa808ce96f573243b2)
куда
![Pleft (ymid {mathbf {x}} ight)](https://wikimedia.org/api/rest_v1/media/math/render/svg/d2d9bec19ce078fd33d0fe7a6ee09c59a70f0f3e)
условная вероятность y при данном
Условная вероятность связана с совместной вероятностью через Теорема Байеса
![Pleft (ymid {mathbf {x}} ight) = {frac {Pleft ({mathbf {x}} land yight)} {Pleft ({mathbf {x}} ight)}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/08d598fa99d1e81fd1305f56813f9335da504d9f)
что дает
.
Это становится
![varphi left ({mathbf {x}} ight) = {frac {sum _ {{i = 1}} ^ {N} e_ {i} ho {ig (} leftVert {mathbf {x}} - {mathbf {c}) } _ {i} ightVert {ig)}} {sum _ {{i = 1}} ^ {N} ho {ig (} leftVert {mathbf {x}} - {mathbf {c}} _ {i} ightVert { ig)}}} = сумма _ {{i = 1}} ^ {N} e_ {i} u {ig (} leftVert {mathbf {x}} - {mathbf {c}} _ {i} ightVert {ig) }](https://wikimedia.org/api/rest_v1/media/math/render/svg/4a91662157b85a5fb10cb56f7ec661fe0b486c07)
когда выполняются интеграции.
Локальные линейные модели
Иногда удобно расширить архитектуру, включив в нее местный линейный модели. В этом случае архитектуры становятся, в первую очередь,
![varphi left ({mathbf {x}} ight) = sum _ {{i = 1}} ^ {N} left (a_ {i} + {mathbf {b}} _ {i} cdot left ({mathbf {x} } - {mathbf {c}} _ {i} ight) ight) ho {ig (} leftVert {mathbf {x}} - {mathbf {c}} _ {i} ightVert {ig)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8ebfa8ca8ed7f6071e40852c469ea4d9323654a6)
и
![varphi left ({mathbf {x}} ight) = sum _ {{i = 1}} ^ {N} left (a_ {i} + {mathbf {b}} _ {i} cdot left ({mathbf {x} } - {mathbf {c}} _ {i} ight) ight) u {ig (} leftVert {mathbf {x}} - {mathbf {c}} _ {i} ightVert {ig)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/482ba8560e9c5cdbec68f332f75c6e83794f978e)
в ненормализованном и нормализованном случаях соответственно. Здесь
веса подлежат определению. Возможны также линейные члены более высокого порядка.
Этот результат можно записать
![varphi left ({mathbf {x}} ight) = sum _ {{i = 1}} ^ {{2N}} sum _ {{j = 1}} ^ {n} e _ {{ij}} v _ {{ij }} {ig (} {mathbf {x}} - {mathbf {c}} _ {i} {ig)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8632dfb5010bbd8c2b9099fcccb08913338a6dfe)
куда
![e _ {{ij}} = {начало {случаи} a_ {i}, & {mbox {if}} iin [1, N] b _ {{ij}}, & {mbox {if}} iin [N + 1 , 2N] конец {case}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e69e7a0b20246396ad4ecf0619932d3818cb14fb)
и
![v _ {{ij}} {ig (} {mathbf {x}} - {mathbf {c}} _ {i} {ig)} {stackrel {{mathrm {def}}} {=}} {egin {case} delta _ {{ij}} ho {ig (} leftVert {mathbf {x}} - {mathbf {c}} _ {i} ightVert {ig)}, & {mbox {if}} iin [1, N] left (x _ {{ij}} - c _ {{ij}} ight) ho {ig (} leftVert {mathbf {x}} - {mathbf {c}} _ {i} ightVert {ig)}, & {mbox { if}} iin [N + 1,2N] end {case}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e6194ed23e27bf63b899a072ce2803f31fba1f84)
в ненормализованном случае и
![v _ {{ij}} {ig (} {mathbf {x}} - {mathbf {c}} _ {i} {ig)} {stackrel {{mathrm {def}}} {=}} {egin {case} delta _ {{ij}} u {ig (} leftVert {mathbf {x}} - {mathbf {c}} _ {i} ightVert {ig)}, & {mbox {if}} iin [1, N] left (x _ {{ij}} - c _ {{ij}} ight) u {ig (} leftVert {mathbf {x}} - {mathbf {c}} _ {i} ightVert {ig)}, & {mbox { if}} iin [N + 1,2N] end {case}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0f7d20e63f94b312d972d1c925a999de68c68735)
в нормализованном случае.
Здесь
это Дельта-функция Кронекера определяется как