Тихоновская регуляризация

Тихоновская регуляризация, названный в честь Андрей Тихонов, это метод регуляризация из некорректно поставленные проблемы. Частный случай регуляризации Тихонова, известный как регресс гребня,^[а] особенно полезно для смягчения проблемы мультиколлинеарность в линейная регрессия, что обычно встречается в моделях с большим количеством параметров.^[1] В целом метод обеспечивает улучшенное эффективность в задачах оценки параметров в обмен на приемлемое количество предвзятость (видеть компромисс между смещением и дисперсией ).^[2]

В простейшем случае проблема почти единичный матрица моментов ${ Displaystyle ( mathbf {X} ^ { mathsf {T}} mathbf {X})}$ смягчается добавлением положительных элементов к диагонали, тем самым уменьшая номер условия. Аналогично обыкновенный метод наименьших квадратов оценка, тогда простая оценка гребня определяется как

{ displaystyle { hat { beta}} _ {R} = ( mathbf {X} ^ { mathsf {T}} mathbf {X} + lambda mathbf {I}) ^ {- 1} mathbf {X} ^ { mathsf {T}} mathbf {y}}

куда ${ displaystyle mathbf {y}}$ это регресс, ${ displaystyle mathbf {X}}$ это матрица дизайна, ${ displaystyle mathbf {I}}$ это единичная матрица, а параметр гребня ${ displaystyle lambda geq 0}$ служит константой, смещающей диагонали матрицы моментов.^[3] Можно показать, что эта оценка является решением наименьших квадратов проблема с учетом ограничение ${ displaystyle beta ^ { mathsf {T}} beta = c}$ , который можно представить в виде лагранжиана:

{ Displaystyle мин _ { бета} , ( mathbf {y} - mathbf {X} beta) ^ { mathsf {T}} ( mathbf {y} - mathbf {X} beta) + lambda ( beta ^ { mathsf {T}} beta -c)}

что показывает, что ${ displaystyle lambda}$ это не что иное, как Множитель Лагранжа ограничения. В случае ${ displaystyle lambda = 0}$ , в которой ограничение не является обязательным, оценка гребня сводится к обыкновенный метод наименьших квадратов. Ниже обсуждается более общий подход к регуляризации Тихонова.

История

Тихоновская регуляризация была изобретена независимо во многих различных контекстах и стала широко известна благодаря ее применению к интегральным уравнениям из работАндрей Тихонов^[4]^[5]^[6]^[7]^[8] и Дэвид Л. Филлипс.^[9] Некоторые авторы используют термин Регуляризация Тихонова – ФиллипсаКонечномерный случай изложил Артур Э. Хёрл, который использовал статистический подход,^[10] и Манусом Фостером, который интерпретировал этот метод как Винер – Колмогоров (Кригинг) фильтр.^[11] Вслед за Хёрлом в статистической литературе она известна как гребневая регрессия.^[12]

Предположим, что для известной матрицы ${ displaystyle A}$ и вектор ${ displaystyle mathbf {b}}$ , мы хотим найти вектор ${ displaystyle mathbf {x}}$ такой, что^{[требуется разъяснение ]}

{ displaystyle A mathbf {x} = mathbf {b}.}

Стандартный подход обыкновенный метод наименьших квадратов линейная регрессия.^{[требуется разъяснение ]} Однако если нет ${ displaystyle mathbf {x}}$ удовлетворяет уравнению или более чем одному ${ displaystyle mathbf {x}}$ делает - то есть решение не единственное - проблема называется некорректно поставлен. В таких случаях обычная оценка методом наименьших квадратов приводит к сверхопределенный, или чаще недоопределенный система уравнений. Большинство явлений реального мира имеют эффект фильтры нижних частот в прямом направлении, где ${ displaystyle A}$ карты ${ displaystyle mathbf {x}}$ к ${ displaystyle mathbf {b}}$ . Следовательно, при решении обратной задачи обратное отображение действует как фильтр высоких частот который имеет нежелательную тенденцию к усилению шума (собственные значения / сингулярные значения являются наибольшими при обратном отображении, тогда как они были наименьшими при прямом отображении). Кроме того, обычные методы наименьших квадратов неявно обнуляют каждый элемент восстановленной версии ${ displaystyle mathbf {x}}$ то есть в нулевом пространстве ${ displaystyle A}$ , а не позволять использовать модель в качестве априорной для ${ displaystyle mathbf {x}}$ .Обычный метод наименьших квадратов стремится минимизировать сумму квадратов остатки, который можно компактно записать как

{ displaystyle | A mathbf {x} - mathbf {b} | _ {2} ^ {2},}

куда ${ Displaystyle | cdot | _ {2}}$ это Евклидова норма.

Чтобы отдать предпочтение конкретному решению с желаемыми свойствами, в эту минимизацию можно включить член регуляризации:

{ displaystyle | A mathbf {x} - mathbf {b} | _ {2} ^ {2} + | Gamma mathbf {x} | _ {2} ^ {2}}

для некоторых подходящим образом выбранных Матрица Тихонова ${ displaystyle Gamma}$ . Во многих случаях эта матрица выбирается как кратная единичная матрица ( ${ displaystyle Gamma = alpha I}$ ), отдавая предпочтение решениям с меньшим нормы; это известно как $L 2$ регуляризация.^[13] В других случаях операторы высоких частот (например, оператор разницы или взвешенный Оператор Фурье ) может использоваться для обеспечения гладкости, если основной вектор считается в основном непрерывным. Эта регуляризация улучшает условия задачи, что позволяет получить прямое численное решение. Явное решение, обозначенное ${ displaystyle { hat {x}}}$ , дан кем-то

{ displaystyle { hat {x}} = (A ^ { top} A + Gamma ^ { top} Gamma) ^ {- 1} A ^ { top} mathbf {b}.}

Эффект регуляризации может варьироваться масштабом матрицы ${ displaystyle Gamma}$ . За ${ displaystyle Gamma = 0}$ это сводится к нерегуляризованному решению методом наименьших квадратов при условии, что (A^ТА)⁻¹ существуют.

$L 2$ регуляризация используется во многих контекстах помимо линейной регрессии, например классификация с логистическая регрессия или же опорные векторные машины,^[14] и матричная факторизация.^[15]

Обобщенная тихоновская регуляризация

Для общих многомерных нормальных распределений для ${ displaystyle x}$ и ошибку данных, можно применить преобразование переменных, чтобы свести к вышеупомянутому случаю. Точно так же можно искать ${ displaystyle x}$ минимизировать

{ displaystyle | Ax-b | _ {P} ^ {2} + | x-x_ {0} | _ {Q} ^ {2},}

где мы использовали ${ Displaystyle | х | _ {Q} ^ {2}}$ обозначать квадрат взвешенной нормы ${ displaystyle x ^ { top} Qx}$ (сравните с Расстояние Махаланобиса ). В байесовской интерпретации ${ displaystyle P}$ это обратное ковариационная матрица из ${ displaystyle b}$ , ${ displaystyle x_ {0}}$ это ожидаемое значение из ${ displaystyle x}$ , и ${ displaystyle Q}$ - матрица обратной ковариации ${ displaystyle x}$ . Затем матрица Тихонова задается как факторизация матрицы ${ Displaystyle Q = Gamma ^ { top} Gamma}$ (например, Факторизация Холецкого ) и считается отбеливающий фильтр.

Эта обобщенная задача имеет оптимальное решение ${ displaystyle x ^ {*}}$ который можно явно записать по формуле

{ displaystyle x ^ {*} = (A ^ { top} PA + Q) ^ {- 1} (A ^ { top} Pb + Qx_ {0}),}

или эквивалентно

{ displaystyle x ^ {*} = x_ {0} + (A ^ { top} PA + Q) ^ {- 1} (A ^ { top} P (b-Ax_ {0})).}

Лаврентьевская регуляризация

В некоторых ситуациях можно избежать использования транспонирования ${ displaystyle A ^ { top}}$ , как предложено Михаил Лаврентьев.^[16] Например, если ${ displaystyle A}$ симметрично положительно определено, т.е. ${ displaystyle A = A ^ { top}> 0}$ , так это обратное ${ displaystyle A ^ {- 1}}$ , который, таким образом, может быть использован для установки квадрата взвешенной нормы ${ Displaystyle | х | _ {P} ^ {2} = x ^ { top} A ^ {- 1} x}$ в обобщенной регуляризации Тихонова, приводящей к минимизации

{ displaystyle | Ax-b | _ {A ^ {- 1}} ^ {2} + | x-x_ {0} | _ {Q} ^ {2}}

или, что то же самое с точностью до постоянного члена,

{ displaystyle x ^ { top} (A + Q) x-2x ^ { top} (b + Qx)}

.

Эта задача минимизации имеет оптимальное решение ${ displaystyle x ^ {*}}$ который можно явно записать по формуле

{ displaystyle x ^ {*} = (A + Q) ^ {- 1} (b + Qx_ {0})}

,

что является не чем иным, как решением обобщенной проблемы Тихонова, где ${ displaystyle A = A ^ { top} = P ^ {- 1}.}$

Регуляризация Лаврентьева, если применима, выгодна исходной регуляризации Тихонова, поскольку матрица Лаврентьева ${ displaystyle A + Q}$ могут быть лучше кондиционированы, т. е. иметь меньшую номер условия, по сравнению с матрицей Тихонова ${ displaystyle A ^ { top} A + Gamma ^ { top} Gamma.}$

Регуляризация в гильбертовом пространстве

Обычно дискретные линейные плохо обусловленные задачи возникают в результате дискретизации интегральные уравнения, и можно сформулировать регуляризацию Тихонова в исходном бесконечномерном контексте. Выше мы можем интерпретировать ${ displaystyle A}$ как компактный оператор на Гильбертовы пространства, и ${ displaystyle x}$ и ${ displaystyle b}$ как элементы в области и диапазоне ${ displaystyle A}$ . Оператор ${ Displaystyle A ^ {*} A + Gamma ^ { top} Gamma}$ тогда самосопряженный ограниченный обратимый оператор.

Связь с сингулярным разложением и фильтром Винера

С ${ displaystyle Gamma = alpha I}$ , это решение методом наименьших квадратов может быть проанализировано особым образом с помощью сингулярное разложение. Учитывая разложение по сингулярным числам

{ Displaystyle A = U Sigma V ^ { top}}

с сингулярными значениями ${ displaystyle sigma _ {я}}$ , регуляризованное решение Тихонова можно представить в виде

{ displaystyle { hat {x}} = VDU ^ { top} b,}

куда ${ displaystyle D}$ имеет диагональные значения

{ displaystyle D_ {ii} = { frac { sigma _ {i}} { sigma _ {i} ^ {2} + alpha ^ {2}}}}

и равен нулю в других местах. Это демонстрирует влияние параметра Тихонова на номер условия регуляризованной проблемы. Для обобщенного случая аналогичное представление может быть получено с использованием обобщенное сингулярное разложение.^[17]

Наконец, это связано с Фильтр Винера:

{ displaystyle { hat {x}} = sum _ {i = 1} ^ {q} f_ {i} { frac {u_ {i} ^ { top} b} { sigma _ {i}} } v_ {i},}

где веса Винера ${ displaystyle f_ {i} = { frac { sigma _ {i} ^ {2}} { sigma _ {i} ^ {2} + alpha ^ {2}}}}$ и ${ displaystyle q}$ это классифицировать из ${ displaystyle A}$ .

Определение фактора Тихонова

Оптимальный параметр регуляризации ${ displaystyle alpha}$ обычно неизвестен и часто в практических задачах определяется для этого случая метод. Возможный подход основан на байесовской интерпретации, описанной ниже. Другие подходы включают принцип несоответствия, перекрестная проверка, L-образный метод,^[18] ограниченная максимальная вероятность и объективная прогнозирующая оценка риска. Грейс Вахба доказали, что оптимальный параметр в смысле перекрестная проверка с исключением по одному сводит к минимуму^[19]^[20]

{ displaystyle G = { frac { operatorname {RSS}} { tau ^ {2}}} = { frac { | X { hat { beta}} - y | ^ {2}} { [ operatorname {Tr} (IX (X ^ {T} X + alpha ^ {2} I) ^ {- 1} X ^ {T})] ^ {2}}},}

куда ${ displaystyle operatorname {RSS}}$ это остаточная сумма квадратов, и ${ Displaystyle тау}$ это эффективное количество степеней свободы.

Используя предыдущую декомпозицию SVD, мы можем упростить приведенное выше выражение:

{ displaystyle operatorname {RSS} = left | y- sum _ {i = 1} ^ {q} (u_ {i} 'b) u_ {i} right | ^ {2} + left | sum _ {i = 1} ^ {q} { frac { alpha ^ {2}} { sigma _ {i} ^ {2} + alpha ^ {2}}} (u_ {i} 'б) u_ {i} right | ^ {2},}

{ displaystyle operatorname {RSS} = operatorname {RSS} _ {0} + left | sum _ {i = 1} ^ {q} { frac { alpha ^ {2}} { sigma _ {i} ^ {2} + alpha ^ {2}}} (u_ {i} 'b) u_ {i} right | ^ {2},}

и

{ displaystyle tau = m- sum _ {i = 1} ^ {q} { frac { sigma _ {i} ^ {2}} { sigma _ {i} ^ {2} + alpha ^ {2}}} = m-q + sum _ {i = 1} ^ {q} { frac { alpha ^ {2}} { sigma _ {i} ^ {2} + alpha ^ {2} }}.}

Отношение к вероятностной формулировке

Вероятностная формулировка обратная задача вводит (когда все неопределенности гауссовские) ковариационную матрицу ${ displaystyle C_ {M}}$ представляющий априори неопределенности параметров модели и ковариационная матрица ${ displaystyle C_ {D}}$ представляющие неопределенности наблюдаемых параметров.^[21] В частном случае, когда эти две матрицы диагональные и изотропные, ${ Displaystyle C_ {M} = sigma _ {M} ^ {2} I}$ и ${ Displaystyle C_ {D} = sigma _ {D} ^ {2} I}$ , и, в этом случае, уравнения обратной теории сводятся к приведенным выше уравнениям с ${ displaystyle alpha = { sigma _ {D}} / { sigma _ {M}}}$ .

Байесовская интерпретация

Хотя сначала выбор решения этой регуляризованной задачи может показаться искусственным, да и матрица ${ displaystyle Gamma}$ кажется довольно произвольным, процесс может быть оправдан с Байесовская точка зрения. Обратите внимание, что для некорректно поставленной задачи необходимо обязательно ввести некоторые дополнительные предположения, чтобы получить единственное решение. Статистически априорная вероятность распределение ${ displaystyle x}$ иногда воспринимается как многомерное нормальное распределение. Для простоты здесь сделаны следующие предположения: средние значения равны нулю; их компоненты независимы; компоненты имеют одинаковые стандартное отклонение ${ displaystyle sigma _ {x}}$ . Данные также подвержены ошибкам, и ошибки в ${ displaystyle b}$ также считаются независимый с нулевым средним и стандартным отклонением ${ displaystyle sigma _ {b}}$ . При этих предположениях регуляризованным по Тихонову решением является наиболее вероятно решение с учетом данных и априори распределение ${ displaystyle x}$ , в соответствии с Теорема Байеса.^[22]

Если предположение нормальность заменяется предположениями о гомоскедастичность и некоррелированность ошибки, и если все еще предполагается нулевое среднее значение, то Теорема Гаусса – Маркова следует, что решение является минимальным несмещенная линейная оценка.^[23]

Смотрите также

Оценщик LASSO - еще один метод регуляризации в статистике.
Упругая сетевая регуляризация
Матричная регуляризация

Примечания

^ В статистика, метод известен как регресс гребня, в машинное обучение это известно как снижение веса, и благодаря множеству независимых открытий, он также известен как Метод Тихонова – Миллера, то Метод Филлипса – Туми, то ограниченная линейная инверсия метод, а метод линейная регуляризация. Это связано с Алгоритм Левенберга – Марквардта за нелинейный метод наименьших квадратов проблемы.

дальнейшее чтение

Грубер, Марвин (1998). Повышение эффективности за счет сжатия: оценки регрессии Джеймса – Стейна и Риджа. Бока-Ратон: CRC Press. ISBN 0-8247-0156-9.
Кресс, Райнер (1998). «Тихоновская регуляризация». Числовой анализ. Нью-Йорк: Спрингер. С. 86–90. ISBN 0-387-98408-9.
Press, W. H .; Теукольский, С. А .; Vetterling, W. T .; Фланнери, Б. П. (2007). «Раздел 19.5. Методы линейной регуляризации». Числовые рецепты: искусство научных вычислений (3-е изд.). Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0-521-88068-8.
Салех, А. К. М. Эхсанес; Араши, Мохаммад; Кибрия, Б. М. Голам (2019). Теория оценки регрессии хребта с приложениями. Нью-Йорк: Джон Вили и сыновья. ISBN 978-1-118-64461-4.
Тэдди, Мэтт (2019). «Регуляризация». Наука о бизнес-данных: сочетание машинного обучения и экономики для оптимизации, автоматизации и ускорения принятия бизнес-решений. Нью-Йорк: Макгроу-Хилл. С. 69–104. ISBN 978-1-260-45277-8.

[1] В статистика, метод известен как регресс гребня, в машинное обучение это известно как снижение веса, и благодаря множеству независимых открытий, он также известен как Метод Тихонова – Миллера, то Метод Филлипса – Туми, то ограниченная линейная инверсия метод, а метод линейная регуляризация. Это связано с Алгоритм Левенберга – Марквардта за нелинейный метод наименьших квадратов проблемы.

[2] Кеннеди, Питер (2003). Руководство по эконометрике (Пятое изд.). Кембридж: MIT Press. С. 205–206. ISBN 0-262-61183-X.

[3] Грубер, Марвин (1998). Повышение эффективности за счет сжатия: оценки регрессии Джеймса – Стейна и Риджа. Бока-Ратон: CRC Press. С. 7–15. ISBN 0-8247-0156-9.

[4] Для выбора ${ displaystyle lambda}$ на практике см. Халаф, Гадбан; Шукур, Гази (2005). «Выбор параметра хребта для задач регрессии». Коммуникации в статистике - теория и методы. 34 (5): 1177–1182. Дои:10.1081 / STA-200056836.

[5] Тихонов Андрей Николаевич (1943). "Об устойчивости обратных задач" [Об устойчивости обратных задач]. Доклады Академии Наук СССР. 39 (5): 195–198.

[6] Тихонов, А. Н. (1963). "О решении некорректно поставленных задач и методе регуляризации". Доклады Академии Наук СССР. 151: 501–504.. Переведено на «Решение неверно сформулированных задач и метод регуляризации». Советская математика. 4: 1035–1038.

[7] Тихонов, А. Н .; В. Ю. Арсенин (1977). Решение некорректных задач. Вашингтон: Уинстон и сыновья. ISBN 0-470-99124-0.

[8] Тихонов Андрей Николаевич; Гончарский, А .; Степанов, В. В .; Ягола, Анатолий Григорьевич (30 июня 1995 г.). Численные методы решения некорректных задач.. Нидерланды: Springer, Нидерланды. ISBN 079233583X. Получено 9 августа 2018.

[9] Тихонов Андрей Николаевич; Леонов, Александр С .; Ягола, Анатолий Григорьевич (1998). Нелинейные некорректные задачи. Лондон: Чепмен и Холл. ISBN 0412786605. Получено 9 августа 2018.

[10] Филлипс, Д. Л. (1962). «Методика численного решения некоторых интегральных уравнений первого рода». Журнал ACM. 9: 84–97. Дои:10.1145/321105.321114.

[11] Хорл, Артур Э. (1962). «Применение ридж-анализа к задачам регрессии». Прогресс химического машиностроения. 58 (3): 54–59.

[12] Фостер, М. (1961). "Применение теории сглаживания Винера-Колмогорова к обращению матриц". Журнал Общества промышленной и прикладной математики. 9 (3): 387–392. Дои:10.1137/0109031.

[13] Hoerl, A.E .; Р. В. Кеннард (1970). «Ридж-регрессия: предвзятые оценки для неортогональных проблем». Технометрика. 12 (1): 55–67. Дои:10.1080/00401706.1970.10488634.

[14] Нг, Эндрю Ю. (2004). Выбор функций, регуляризация L1 и L2 и инвариантность вращения (PDF). Proc. ICML.

[15] Р.-Э. Поклонник; К.-В. Чанг; К.-Дж. Се; X.-R. Ванга; К.-Дж. Линь (2008). «LIBLINEAR: библиотека для большой линейной классификации». Журнал исследований в области машинного обучения. 9: 1871–1874.

[16] Гуань, Найян; Тао, Дачэн; Ло, Чжиган; Юань, Бо (2012). «Оперативная факторизация неотрицательной матрицы с робастной стохастической аппроксимацией». Транзакции IEEE в нейронных сетях и обучающих системах. 23 (7): 1087–1099. Дои:10.1109 / TNNLS.2012.2197827. PMID 24807135.

[17] Лаврентьев, М. М. (1967). Некоторые неправильно поставленные задачи математической физики. Нью-Йорк: Спрингер.

[Hansen_SIAM_1998-18] Хансен, Пер Кристиан (1 января 1998 г.). Недостаток ранга и дискретные некорректные задачи: численные аспекты линейного обращения (1-е изд.). Филадельфия, США: SIAM. ISBN 9780898714036.

[19] П. К. Хансен, "L-кривая и ее использование в численном решении обратных задач", [1]

[20] Вахба, Г. (1990). «Сплайновые модели для данных наблюдений». Серия региональных конференций CBMS-NSF по прикладной математике. Общество промышленной и прикладной математики. Bibcode:1990smod.conf ..... W.

[21] Голуб, Г .; Heath, M .; Вахба, Г. (1979). «Обобщенная перекрестная проверка как метод выбора хорошего параметра гребня» (PDF). Технометрика. 21 (2): 215–223. Дои:10.1080/00401706.1979.10489751.

[22] Тарантола, Альберт (2005). Теория обратной задачи и методы оценки параметров модели. (1-е изд.). Филадельфия: Общество промышленной и прикладной математики (SIAM). ISBN 0898717922. Получено 9 августа 2018.

[23] Фогель, Кертис Р. (2002). Вычислительные методы решения обратных задач.. Филадельфия: Общество промышленной и прикладной математики. ISBN 0-89871-550-4.

[24] Амемия, Такеши (1985). Продвинутая эконометрика. Издательство Гарвардского университета. стр.60–61. ISBN 0-674-00560-0.

[а]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

Тихоновская регуляризация - Tikhonov regularization

Содержание

История