Сеть радиальных базисных функций - Radial basis function network

В области математическое моделирование, а сеть радиальных базисных функций является искусственная нейронная сеть который использует радиальные базисные функции в качестве функции активации. Выход сети - это линейная комбинация радиальных базисных функций входов и параметров нейрона. Сети радиальных базисных функций имеют множество применений, в том числе аппроксимация функции, прогнозирование временных рядов, классификация, и система контроль. Впервые они были сформулированы в статье 1988 г. Брумхедом и Лоу, исследователями из Королевские сигналы и радиолокационная станция.^[1]^[2]^[3]

Сетевая архитектура

Рисунок 1: Архитектура сети радиальных базисных функций. Входной вектор

{displaystyle x}

используется в качестве входных данных для всех радиальных базисных функций, каждая с разными параметрами. Выход сети представляет собой линейную комбинацию выходов радиальных базисных функций.

Сети с радиальной базисной функцией (RBF) обычно имеют три уровня: входной уровень, скрытый слой с нелинейной функцией активации RBF и линейный выходной слой. Вход можно смоделировать как вектор действительных чисел. ${displaystyle mathbf {x} в mathbb {R} ^ {n}}$ . Выход сети тогда является скалярной функцией входного вектора, ${displaystyle varphi: mathbb {R} ^ {n} o mathbb {R}}$ , и задается

{displaystyle varphi (mathbf {x}) = sum _ {i = 1} ^ {N} a_ {i} ho (|| mathbf {x} -mathbf {c} _ {i} ||)}

куда ${displaystyle N}$ - количество нейронов в скрытом слое, ${displaystyle mathbf {c} _ {i}}$ центральный вектор нейрона ${displaystyle i}$ , и ${displaystyle a_ {i}}$ это вес нейрона ${displaystyle i}$ в линейном выходном нейроне. Функции, которые зависят только от расстояния от центрального вектора, радиально симметричны относительно этого вектора, отсюда и название радиальной базисной функции. В базовой форме все входы подключены к каждому скрытому нейрону. В норма обычно считается Евклидово расстояние (Хотя Расстояние Махаланобиса работает лучше с распознаванием образов^[4]^[5]^{[редактирование ]}), а радиальная базисная функция обычно принимается равной Гауссовский

{displaystyle ho {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert {ig)} = exp left [- eta leftVert mathbf {x} -mathbf {c} _ {i} ightVert ^ {2 } ight]}

.

Гауссовские базисные функции локальны по отношению к центральному вектору в том смысле, что

{displaystyle lim _ {|| x || o infty} ho (leftVert mathbf {x} -mathbf {c} _ {i} ightVert) = 0}

то есть изменение параметров одного нейрона имеет лишь небольшой эффект для входных значений, которые находятся далеко от центра этого нейрона.

При определенных мягких условиях на форму функции активации RBF-сети являются универсальные аппроксиматоры на компактный подмножество ${displaystyle mathbb {R} ^ {n}}$ .^[6] Это означает, что RBF-сеть с достаточным количеством скрытых нейронов может аппроксимировать любую непрерывную функцию на замкнутом ограниченном множестве с произвольной точностью.

Параметры ${displaystyle a_ {i}}$ , ${displaystyle mathbf {c} _ {i}}$ , и ${displaystyle eta _ {i}}$ определяются таким образом, чтобы оптимизировать соответствие между ${displaystyle varphi}$ и данные.

Рисунок 2: Две ненормализованные радиальные базисные функции в одном входном измерении. Базовые функциональные центры расположены по адресу

{displaystyle c_ {1} = 0,75}

и

{displaystyle c_ {2} = 3,25}

.

Нормализованный

Рисунок 3: Две нормализованные радиальные базисные функции в одном входном измерении (сигмоиды ). Базовые функциональные центры расположены по адресу

{displaystyle c_ {1} = 0,75}

и

{displaystyle c_ {2} = 3,25}

.

Рисунок 4: Три нормализованных радиальных базисных функции в одном входном измерении. Дополнительная базовая функция имеет центр в

{displaystyle c_ {3} = 2,75}

Рисунок 5: Четыре нормализованных радиальных базисных функции в одном входном измерении. Четвертая базисная функция имеет центр в

{displaystyle c_ {4} = 0}

. Обратите внимание, что первая базовая функция (темно-синий) стала локализованной.

Нормализованная архитектура

В дополнение к вышесказанному ненормализованный архитектура, сети RBF могут быть нормализованный. В этом случае отображение

{displaystyle varphi (mathbf {x}) {stackrel {mathrm {def}} {=}} {frac {sum _ {i = 1} ^ {N} a_ {i} ho {ig (} leftVert mathbf {x} - mathbf {c} _ {i} ightVert {ig)}} {sum _ {i = 1} ^ {N} ho {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert {ig)} }} = сумма _ {i = 1} ^ {N} a_ {i} u {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert {ig)}}

куда

{displaystyle u {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert {ig)} {stackrel {mathrm {def}} {=}} {frac {ho {ig (} leftVert mathbf {x } -mathbf {c} _ {i} ightVert {ig)}} {sum _ {j = 1} ^ {N} ho {ig (} leftVert mathbf {x} -mathbf {c} _ {j} ightVert {ig )}}}}

известна как «нормализованная радиальная базисная функция».

Теоретическая мотивация нормализации

Есть теоретическое обоснование этой архитектуры в случае стохастического потока данных. Предположим, что стохастическое ядро приближение для совместной плотности вероятности

{displaystyle Pleft (mathbf {x} land yight) = {1 over N} sum _ {i = 1} ^ {N}, ho {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert { ig)}, сигма {ig (} leftvert y-e_ {i} ightvert {ig)}}

где гири ${displaystyle mathbf {c} _ {i}}$ и ${displaystyle e_ {i}}$ являются примерами из данных, и мы требуем, чтобы ядра были нормализованы

{displaystyle int ho {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert {ig)}, d ^ {n} mathbf {x} = 1}

и

{displaystyle int sigma {ig (} leftvert y-e_ {i} ightvert {ig)}, dy = 1}

.

Плотности вероятностей во входном и выходном пространствах равны

{displaystyle Pleft (mathbf {x} ight) = int Pleft (mathbf {x} land yight), dy = {1 over N} sum _ {i = 1} ^ {N}, ho {ig (} leftVert mathbf {x } -mathbf {c} _ {i} ightVert {ig)}}

и

Ожидание y при вводе ${displaystyle mathbf {x}}$ является

{displaystyle varphi left (mathbf {x} ight) {stackrel {mathrm {def}} {=}} Eleft (ymid mathbf {x} ight) = int y, Pleft (ymid mathbf {x} ight) dy}

куда

{displaystyle Pleft (ymid mathbf {x} ight)}

условная вероятность y при данном ${displaystyle mathbf {x}}$ Условная вероятность связана с совместной вероятностью через Теорема Байеса

{displaystyle Pleft (ymid mathbf {x} ight) = {frac {Pleft (mathbf {x} land yight)} {Pleft (mathbf {x} ight)}}}

что дает

{displaystyle varphi left (mathbf {x} ight) = int y, {frac {Pleft (mathbf {x} land yight)} {Pleft (mathbf {x} ight)}}, dy}

.

Это становится

{displaystyle varphi left (mathbf {x} ight) = {frac {sum _ {i = 1} ^ {N} e_ {i} ho {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert {ig)}} {сумма _ {i = 1} ^ {N} ho {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert {ig)}}} = сумма _ {i = 1 } ^ {N} e_ {i} u {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert {ig)}}

когда выполняются интеграции.

Локальные линейные модели

Иногда удобно расширить архитектуру, включив в нее местный линейный модели. В этом случае архитектуры становятся, в первую очередь,

{displaystyle varphi left (mathbf {x} ight) = sum _ {i = 1} ^ {N} left (a_ {i} + mathbf {b} _ {i} cdot left (mathbf {x} -mathbf {c}) _ {i} ight) ight) ho {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert {ig)}}

и

{displaystyle varphi left (mathbf {x} ight) = sum _ {i = 1} ^ {N} left (a_ {i} + mathbf {b} _ {i} cdot left (mathbf {x} -mathbf {c}) _ {i} ight) ight) u {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert {ig)}}

в ненормализованном и нормализованном случаях соответственно. Здесь ${displaystyle mathbf {b} _ {i}}$ веса подлежат определению. Возможны также линейные члены более высокого порядка.

Этот результат можно записать

{displaystyle varphi left (mathbf {x} ight) = sum _ {i = 1} ^ {2N} sum _ {j = 1} ^ {n} e_ {ij} v_ {ij} {ig (} mathbf {x} -mathbf {c} _ {i} {ig)}}

куда

{displaystyle e_ {ij} = {egin {case} a_ {i}, & {mbox {if}} iin [1, N] b_ {ij}, & {mbox {if}} iin [N + 1,2N ] конец {случаи}}}

и

{displaystyle v_ {ij} {ig (} mathbf {x} -mathbf {c} _ {i} {ig)} {stackrel {mathrm {def}} {=}} {egin {cases} delta _ {ij} ho {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert {ig)}, & {mbox {if}} iin [1, N] left (x_ {ij} -c_ {ij} ight ) ho {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert {ig)}, & {mbox {if}} iin [N + 1,2N] end {case}}}

в ненормализованном случае и

{displaystyle v_ {ij} {ig (} mathbf {x} -mathbf {c} _ {i} {ig)} {stackrel {mathrm {def}} {=}} {egin {case} delta _ {ij} u {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert {ig)}, & {mbox {if}} iin [1, N] left (x_ {ij} -c_ {ij} ight ) u {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert {ig)}, & {mbox {if}} iin [N + 1,2N] end {case}}}

в нормализованном случае.

Здесь ${displaystyle delta _ {ij}}$ это Дельта-функция Кронекера определяется как

{displaystyle delta _ {ij} = {egin {case} 1, & {mbox {if}} i = j 0, & {mbox {if}} ieq jend {case}}}

.

Обучение персонала

Сети RBF обычно обучаются на основе пар входных и целевых значений. ${displaystyle mathbf {x} (t), y (t)}$ , ${displaystyle t = 1, dots, T}$ по двухэтапному алгоритму.

На первом этапе центральные векторы ${displaystyle mathbf {c} _ {i}}$ из функций RBF в скрытом слое выбраны. Этот шаг можно выполнить несколькими способами; центры могут быть отобраны случайным образом из некоторого набора примеров, или они могут быть определены с использованием k-означает кластеризацию. Обратите внимание, что этот шаг без присмотра.

Второй шаг просто соответствует линейной модели с коэффициентами ${displaystyle w_ {i}}$ к выходам скрытого слоя относительно некоторой целевой функции. Общей целевой функцией, по крайней мере, для оценки регрессии / функции, является функция наименьших квадратов:

{displaystyle K (mathbf {w}) {stackrel {mathrm {def}} {=}} sum _ {t = 1} ^ {T} K_ {t} (mathbf {w})}

куда

{displaystyle K_ {t} (mathbf {w}) {stackrel {mathrm {def}} {=}} {ig [} y (t) -varphi {ig (} mathbf {x} (t), mathbf {w}) {ig)} {ig]} ^ {2}}

.

Мы явно включили зависимость от весов. Минимизация целевой функции наименьших квадратов за счет оптимального выбора весов оптимизирует точность подбора.

Бывают случаи, когда необходимо оптимизировать несколько целей, таких как плавность и точность. В этом случае полезно оптимизировать регуляризованную целевую функцию, такую как

{displaystyle H (mathbf {w}) {stackrel {mathrm {def}} {=}} K (mathbf {w}) + lambda S (mathbf {w}) {stackrel {mathrm {def}} {=}} сумма _ {t = 1} ^ {T} H_ {t} (mathbf {w})}

куда

{displaystyle S (mathbf {w}) {stackrel {mathrm {def}} {=}} sum _ {t = 1} ^ {T} S_ {t} (mathbf {w})}

и

{displaystyle H_ {t} (mathbf {w}) {stackrel {mathrm {def}} {=}} K_ {t} (mathbf {w}) + lambda S_ {t} (mathbf {w})}

где оптимизация S максимизирует гладкость и ${displaystyle lambda}$ известен как регуляризация параметр.

Третий необязательный обратное распространение шаг может быть выполнен для точной настройки всех параметров сети RBF.^[3]

Интерполяция

Сети RBF могут использоваться для интерполяции функции ${displaystyle y: mathbb {R} ^ {n} o mathbb {R}}$ когда значения этой функции известны в конечном числе точек: ${displaystyle y (mathbf {x} _ {i}) = b_ {i}, i = 1, ldots, N}$ . Принимая известные точки ${displaystyle mathbf {x} _ {i}}$ быть центрами радиальных базисных функций и оценивать значения базисных функций в тех же точках ${displaystyle g_ {ij} = ho (|| mathbf {x} _ {j} -mathbf {x} _ {i} ||)}$ веса могут быть решены из уравнения

{displaystyle left [{egin {matrix} g_ {11} & g_ {12} & cdots & g_ {1N} g_ {21} & g_ {22} & cdots & g_ {2N} vdots && ddots & vdots g_ {N1} & g_ {N2} & cdots & g_ {NN} end {matrix}} ight] left [{egin {matrix} w_ {1} w_ {2} vdots w_ {N} end {matrix}} ight] = left [{egin {matrix} b_ {1} b_ {2} vdots b_ {N} end {matrix}} ight]}

Можно показать, что матрица интерполяции в приведенном выше уравнении невырождена, если точки ${displaystyle mathbf {x} _ {i}}$ различны, и поэтому веса ${displaystyle w}$ решается простой линейной алгеброй:

{displaystyle mathbf {w} = mathbf {G} ^ {- 1} mathbf {b}}

куда ${displaystyle G = (g_ {ij})}$ .

Аппроксимация функции

Если целью является не строгая интерполяция, а более общая аппроксимация функции или же классификация оптимизация несколько сложнее, поскольку очевидного выбора центров нет. Тренировка обычно проводится в два этапа: сначала фиксируются ширина и центры, а затем веса. Это может быть оправдано, если рассмотреть различную природу нелинейных скрытых нейронов по сравнению с линейным выходным нейроном.

Обучение базовых функциональных центров

Центры базисных функций могут быть случайным образом отобраны среди входных экземпляров или получены с помощью алгоритма обучения методом наименьших квадратов, или найдены с помощью кластеризация выборки и выбор кластерных средних в качестве центров.

Ширина RBF обычно фиксируется на одном и том же значении, которое пропорционально максимальному расстоянию между выбранными центрами.

Псевдообратное решение для линейных весов

После центров ${displaystyle c_ {i}}$ были исправлены, веса, которые минимизируют ошибку на выходе, могут быть вычислены с помощью линейного псевдообратный решение:

{displaystyle mathbf {w} = mathbf {G} ^ {+} mathbf {b}}

,

где записи грамм - значения радиальных базисных функций, вычисленных в точках ${displaystyle x_ {i}}$ : ${displaystyle g_ {ji} = ho (|| x_ {j} -c_ {i} ||)}$ .

Существование этого линейного решения означает, что в отличие от многослойных перцептронных (MLP) сетей, RBF-сети имеют явный минимизатор (когда центры фиксированы).

Тренировка линейных весов градиентным спуском

Другой возможный алгоритм обучения: градиентный спуск. При обучении градиентному спуску веса корректируются на каждом временном шаге, перемещая их в направлении, противоположном градиенту целевой функции (что позволяет найти минимум целевой функции),

{displaystyle mathbf {w} (t + 1) = mathbf {w} (t) -u {frac {d} {dmathbf {w}}} H_ {t} (mathbf {w})}

куда ${displaystyle u}$ это «параметр обучения».

В случае тренировки с линейными весами ${displaystyle a_ {i}}$ , алгоритм становится

{displaystyle a_ {i} (t + 1) = a_ {i} (t) + u {ig [} y (t) -varphi {ig (} mathbf {x} (t), mathbf {w} {ig) } {ig]} хо {ig (} leftVert mathbf {x} (t) -mathbf {c} _ {i} ightVert {ig)}}

в ненормализованном случае и

{displaystyle a_ {i} (t + 1) = a_ {i} (t) + u {ig [} y (t) -varphi {ig (} mathbf {x} (t), mathbf {w} {ig) } {ig]} u {ig (} leftVert mathbf {x} (t) -mathbf {c} _ {i} ightVert {ig)}}

в нормализованном случае.

Для локальной линейно-линейной архитектуры обучение градиентному спуску

{displaystyle e_ {ij} (t + 1) = e_ {ij} (t) + u {ig [} y (t) -varphi {ig (} mathbf {x} (t), mathbf {w} {ig) } {ig]} v_ {ij} {ig (} mathbf {x} (t) -mathbf {c} _ {i} {ig)}}

Обучение оператора проекции линейных весов

В случае тренировки с линейными весами ${displaystyle a_ {i}}$ и ${displaystyle e_ {ij}}$ , алгоритм становится

{displaystyle a_ {i} (t + 1) = a_ {i} (t) + u {ig [} y (t) -varphi {ig (} mathbf {x} (t), mathbf {w} {ig) } {ig]} {frac {ho {ig (} leftVert mathbf {x} (t) -mathbf {c} _ {i} ightVert {ig)}} {sum _ {i = 1} ^ {N} ho ^ {2} {ig (} leftVert mathbf {x} (t) -mathbf {c} _ {i} ightVert {ig)}}}}

в ненормализованном случае и

{displaystyle a_ {i} (t + 1) = a_ {i} (t) + u {ig [} y (t) -varphi {ig (} mathbf {x} (t), mathbf {w} {ig) } {ig]} {frac {u {ig (} leftVert mathbf {x} (t) -mathbf {c} _ {i} ightVert {ig)}} {sum _ {i = 1} ^ {N} u ^ {2} {ig (} leftVert mathbf {x} (t) -mathbf {c} _ {i} ightVert {ig)}}}}

в нормализованном случае и

{displaystyle e_ {ij} (t + 1) = e_ {ij} (t) + u {ig [} y (t) -varphi {ig (} mathbf {x} (t), mathbf {w} {ig) } {ig]} {frac {v_ {ij} {ig (} mathbf {x} (t) -mathbf {c} _ {i} {ig)}} {sum _ {i = 1} ^ {N} sum _ {j = 1} ^ {n} v_ {ij} ^ {2} {ig (} mathbf {x} (t) -mathbf {c} _ {i} {ig)}}}}

в локально-линейном случае.

Для одной базовой функции обучение оператора проекции сводится к Метод Ньютона.

Рисунок 6: Временные ряды логистической карты. Повторное повторение логистической карты порождает хаотический временной ряд. Значения лежат между нулем и единицей. Здесь показаны 100 тренировочных точек, использованных для тренировки примеров из этого раздела. Веса c - это первые пять точек этого временного ряда.

Примеры

Логистическая карта

Основные свойства радиальных базисных функций можно проиллюстрировать с помощью простой математической карты: логистическая карта, который отображает единичный интервал на себя. Его можно использовать для генерации удобного потока данных прототипа. Логистическую карту можно использовать для изучения аппроксимация функции, прогнозирование временных рядов, и теория управления. Карта возникла из области динамика населения и стал прототипом для хаотичный Временные ряды. Карта в полностью хаотическом режиме имеет вид

{displaystyle x (t + 1) {stackrel {mathrm {def}} {=}} fleft [x (t) ight] = 4x (t) left [1-x (t) ight]}

где t - временной индекс. Значение x в момент времени t + 1 является параболической функцией x в момент времени t. Это уравнение представляет собой базовую геометрию хаотических временных рядов, созданных логистической картой.

Генерация временного ряда из этого уравнения - это прямая задача. Примеры здесь иллюстрируют обратная задача; идентификация основной динамики или фундаментального уравнения логистической карты по образцам временных рядов. Цель - найти оценку

{displaystyle x (t + 1) = fleft [x (t) ight] приблизительно varphi (t) = varphi left [x (t) ight]}

для f.

Аппроксимация функции

Ненормализованные радиальные базисные функции

Архитектура

Рисунок 7: Ненормализованные базисные функции. Логистическая карта (синий) и приближение к логистической карте (красный) после одного прохода через обучающий набор.

{displaystyle varphi (mathbf {x}) {stackrel {mathrm {def}} {=}} sum _ {i = 1} ^ {N} a_ {i} ho {ig (} leftVert mathbf {x} -mathbf {c } _ {i} ightVert {ig)}}

куда

{displaystyle ho {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert {ig)} = exp left [- eta _ {i} leftVert mathbf {x} -mathbf {c} _ {i} ightVert ^ {2} ight] = exp left [- eta _ {i} left (x (t) -c_ {i} ight) ^ {2} ight]}

.

Поскольку на входе скаляр а не вектор, входной размер - один. Мы выбираем количество базисных функций как N = 5, а размер обучающей выборки - 100 экземпляров, сгенерированных хаотическим временным рядом. Вес ${displaystyle eta}$ принимается константа, равная 5. Веса ${displaystyle c_ {i}}$ пять экземпляров из временного ряда. Веса ${displaystyle a_ {i}}$ прошли обучение с обучением операторов проецирования:

{displaystyle a_ {i} (t + 1) = a_ {i} (t) + u {ig [} x (t + 1) -varphi {ig (} mathbf {x} (t), mathbf {w} { ig)} {ig]} {frac {ho {ig (} leftVert mathbf {x} (t) -mathbf {c} _ {i} ightVert {ig)}} {sum _ {i = 1} ^ {N} ho ^ {2} {ig (} leftVert mathbf {x} (t) -mathbf {c} _ {i} ightVert {ig)}}}}

где скорость обучения ${displaystyle u}$ принято равным 0,3. Обучение проводится за один проход через 100 тренировочных точек. В среднеквадратичная ошибка составляет 0,15.

Рисунок 8: Нормализованные базисные функции. Логистическая карта (синий) и приближение к логистической карте (красный) после одного прохода через обучающий набор. Обратите внимание на улучшение по сравнению с ненормализованным случаем.

Нормализованные радиальные базисные функции

Нормализованная архитектура RBF

{displaystyle varphi (mathbf {x}) {stackrel {mathrm {def}} {=}} {frac {sum _ {i = 1} ^ {N} a_ {i} ho {ig (} leftVert mathbf {x} - mathbf {c} _ {i} ightVert {ig)}} {sum _ {i = 1} ^ {N} ho {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert {ig)} }} = сумма _ {i = 1} ^ {N} a_ {i} u {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert {ig)}}

куда

{displaystyle u {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert {ig)} {stackrel {mathrm {def}} {=}} {frac {ho {ig (} leftVert mathbf {x } -mathbf {c} _ {i} ightVert {ig)}} {sum _ {i = 1} ^ {N} ho {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert {ig )}}}}

.

Опять таки:

{displaystyle ho {ig (} leftVert mathbf {x} -mathbf {c} _ {i} ightVert {ig)} = exp left [- eta leftVert mathbf {x} -mathbf {c} _ {i} ightVert ^ {2 } ight] = exp left [- eta left (x (t) -c_ {i} ight) ^ {2} ight]}

.

Опять же, мы выбираем количество базовых функций, равное пяти, и размер обучающего набора, равный 100 образцам, сгенерированным хаотическим временным рядом. Вес ${displaystyle eta}$ принимается константа, равная 6. Веса ${displaystyle c_ {i}}$ пять экземпляров из временного ряда. Веса ${displaystyle a_ {i}}$ прошли обучение с обучением операторов проецирования:

{displaystyle a_ {i} (t + 1) = a_ {i} (t) + u {ig [} x (t + 1) -varphi {ig (} mathbf {x} (t), mathbf {w} { ig)} {ig]} {frac {u {ig (} leftVert mathbf {x} (t) -mathbf {c} _ {i} ightVert {ig)}} {sum _ {i = 1} ^ {N} u ^ {2} {ig (} leftVert mathbf {x} (t) -mathbf {c} _ {i} ightVert {ig)}}}}

где скорость обучения ${displaystyle u}$ снова принимается равным 0,3. Обучение проводится за один проход через 100 тренировочных точек. В среднеквадратичная ошибка на тестовой выборке из 100 экземпляров - 0,084, что меньше ненормированной ошибки. Нормализация дает повышение точности. Обычно точность с нормализованными базисными функциями увеличивается еще больше по сравнению с ненормализованными функциями по мере увеличения входной размерности.

Рисунок 9: Нормализованные базисные функции. Логистическая карта (синяя) и приближение к логистической карте (красный) как функция времени. Обратите внимание, что аппроксимация подходит только для нескольких временных шагов. Это общая характеристика хаотических временных рядов.

Прогнозирование временных рядов

После того, как базовая геометрия временного ряда оценена, как в предыдущих примерах, прогноз для временного ряда может быть сделан путем итерации:

{displaystyle varphi (0) = x (1)}

{displaystyle {x} (t) приблизительно varphi (t-1)}

{displaystyle {x} (t ​​+ 1) приблизительно varphi (t) = varphi [varphi (t-1)]}

.

На рисунке показано сравнение фактического и расчетного временных рядов. Расчетный временной ряд начинается в нулевой момент времени с точным знанием x (0). Затем он использует оценку динамики для обновления оценки временного ряда для нескольких временных шагов.

Обратите внимание, что оценка точна только для нескольких временных шагов. Это общая характеристика хаотических временных рядов. Это свойство чувствительной зависимости от начальных условий, характерных для хаотических временных рядов. Небольшая начальная ошибка со временем усиливается. Мера расхождения временных рядов с почти идентичными начальными условиями известна как Показатель Ляпунова.

Контроль хаотического временного ряда

Рисунок 10: Управление логистической картой. Системе позволено естественным образом развиваться за 49 временных шагов. В момент времени 50 включается управление. Желаемая траектория для временного ряда отмечена красным. Управляемая система изучает лежащую в основе динамику и приводит временной ряд к желаемому результату. Архитектура такая же, как и в примере прогнозирования временных рядов.

Мы предполагаем, что выходом логистической карты можно управлять с помощью параметра управления. ${displaystyle c [x (t), t]}$ такой, что

{displaystyle {x} _ {} ^ {} (t + 1) = 4x (t) [1-x (t)] + c [x (t), t]}

.

Цель состоит в том, чтобы выбрать параметр управления таким образом, чтобы привести временной ряд к желаемому результату. ${displaystyle d (t)}$ . Это можно сделать, если выбрать параметр управления

{displaystyle c _ {} ^ {} [x (t), t] {stackrel {mathrm {def}} {=}} -varphi [x (t)] + d (t + 1)}

куда

{displaystyle y [x (t)] приблизительно f [x (t)] = x (t + 1) -c [x (t), t]}

является приближением к основной естественной динамике системы.

Алгоритм обучения представлен

{displaystyle a_ {i} (t + 1) = a_ {i} (t) + u varepsilon {frac {u {ig (} leftVert mathbf {x} (t) -mathbf {c} _ {i} ightVert {ig )}} {сумма _ {i = 1} ^ {N} u ^ {2} {ig (} leftVert mathbf {x} (t) -mathbf {c} _ {i} ightVert {ig)}}}}

куда

{displaystyle varepsilon {stackrel {mathrm {def}} {=}} f [x (t)] - varphi [x (t)] = x (t + 1) -c [x (t), t] -varphi [ x (t)] = x (t + 1) -d (t + 1)}

.

Смотрите также

дальнейшее чтение

Дж. Муди и К. Дж. Даркен, «Быстрое обучение в сетях локально настроенных процессоров», Нейронные вычисления, 1, 281-294 (1989). Также см Сети радиальных базисных функций по Муди и Даркену
Т. Поджио и Ф. Джироси "Сети для приближения и обучения, "Proc. IEEE 78 (9), 1484-1487 (1990).
Роджер Д. Джонс, Ю. К. Ли, К. В. Барнс, Г. В. Флейк, К. Ли, П. С. Льюис и С. Цянь,?Аппроксимация функций и прогнозирование временных рядов с помощью нейронных сетей,? Труды Международной совместной конференции по нейронным сетям, 17–21 июня, с. И-649 (1990).
Мартин Д. Бухманн (2003). Радиальные базисные функции: теория и реализация. Кембриджский университет. ISBN 0-521-63338-9.
Йи, Пол В. и Хайкин, Саймон (2001). Регуляризованные сети с радиальными базисными функциями: теория и приложения. Джон Вили. ISBN 0-471-35349-3.
Джон Р. Дэвис, Стивен В. Коггешолл, Роджер Д. Джонс, и Даниэль Шутцер, «Интеллектуальные системы безопасности», в Фридман, Рой С., Флейн, Роберт А. и Ледерман, Джесс, редакторы (1995). Искусственный интеллект на рынках капитала. Чикаго: Ирвин. ISBN 1-55738-811-3.CS1 maint: несколько имен: список авторов (связь)
Саймон Хайкин (1999). Нейронные сети: всеобъемлющий фундамент (2-е изд.). Река Аппер Сэдл, Нью-Джерси: Prentice Hall. ISBN 0-13-908385-5.
С. Чен, К. Ф. Н. Коуэн и П. М. Грант "Алгоритм обучения ортогональных наименьших квадратов для сетей с радиальной базисной функцией ", IEEE Transactions on Neural Networks, Vol 2, No. 2 (Mar) 1991.

[1] Broomhead, D. S .; Лоу, Дэвид (1988). Радиальные базисные функции, функциональная интерполяция с несколькими переменными и адаптивные сети (Технический отчет). RSRE. 4148.

[2] Broomhead, D. S .; Лоу, Дэвид (1988). «Многопараметрическая функциональная интерполяция и адаптивные сети» (PDF). Сложные системы. 2: 321–355.

[schwenker-3] а ^б Швенкер, Фридхельм; Kestler, Hans A .; Пальма, Гюнтер (2001). «Три этапа обучения для сетей с радиальной базисной функцией». Нейронные сети. 14 (4–5): 439–458. CiteSeerX 10.1.1.109.312. Дои:10.1016 / s0893-6080 (01) 00027-2. PMID 11411631.

[4] Бехайм, Ларби; Зитуни, Адель; Беллуар, Фабьен (январь 2004 г.). «Новый классификатор нейронных сетей RBF с оптимизированным количеством скрытых нейронов». CiteSeerX 10.1.1.497.5646.

[5] Ибрикчи, Тургай; Brandt, M.E .; Ван, Гуанью; Ациккар, Мустафа (23–26 октября 2002 г.). Расстояние Махаланобиса с радиальной базисной функциональной сетью на вторичных структурах белков. Материалы второй совместной 24-й ежегодной конференции и ежегодного осеннего собрания Общества биомедицинской инженерии. Общество инженерии в медицине и биологии, Материалы ежегодной международной конференции IEEE. 3. Хьюстон, Техас, США (опубликовано 6 января 2003 г.). С. 2184–2185. Дои:10.1109 / IEMBS.2002.1053230. ISBN 0-7803-7612-9. ISSN 1094-687X. | дата доступа = требует | url = (помощь)

[Park-6] Park, J .; И. В. Сандберг (лето 1991 г.). "Универсальное приближение с использованием сетей радиальной базисной функции". Нейронные вычисления. 3 (2): 246–257. Дои:10.1162 / neco.1991.3.2.246. PMID 31167308. S2CID 34868087.

[1]

[2]

[3]

[4]

[5]

[6]

Сеть радиальных базисных функций - Radial basis function network

Содержание

Сетевая архитектура

Нормализованный

Нормализованная архитектура

Теоретическая мотивация нормализации

Локальные линейные модели

Обучение персонала

Интерполяция

Аппроксимация функции

Обучение базовых функциональных центров

Псевдообратное решение для линейных весов

Тренировка линейных весов градиентным спуском

Обучение оператора проекции линейных весов

Примеры

Логистическая карта

Аппроксимация функции

Ненормализованные радиальные базисные функции

Нормализованные радиальные базисные функции

Прогнозирование временных рядов

Контроль хаотического временного ряда

Смотрите также

Рекомендации

дальнейшее чтение