Тихоновская регуляризация - Tikhonov regularization

Тихоновская регуляризация, названный в честь Андрей Тихонов, это метод регуляризация из некорректно поставленные проблемы. Частный случай регуляризации Тихонова, известный как регресс гребня,[а] особенно полезно для смягчения проблемы мультиколлинеарность в линейная регрессия, что обычно встречается в моделях с большим количеством параметров.[1] В целом метод обеспечивает улучшенное эффективность в задачах оценки параметров в обмен на приемлемое количество предвзятость (видеть компромисс между смещением и дисперсией ).[2]

В простейшем случае проблема почти единичный матрица моментов смягчается добавлением положительных элементов к диагонали, тем самым уменьшая номер условия. Аналогично обыкновенный метод наименьших квадратов оценка, тогда простая оценка гребня определяется как

куда это регресс, это матрица дизайна, это единичная матрица, а параметр гребня служит константой, смещающей диагонали матрицы моментов.[3] Можно показать, что эта оценка является решением наименьших квадратов проблема с учетом ограничение , который можно представить в виде лагранжиана:

что показывает, что это не что иное, как Множитель Лагранжа ограничения. В случае , в которой ограничение не является обязательным, оценка гребня сводится к обыкновенный метод наименьших квадратов. Ниже обсуждается более общий подход к регуляризации Тихонова.

История

Тихоновская регуляризация была изобретена независимо во многих различных контекстах и ​​стала широко известна благодаря ее применению к интегральным уравнениям из работАндрей Тихонов[4][5][6][7][8] и Дэвид Л. Филлипс.[9] Некоторые авторы используют термин Регуляризация Тихонова – ФиллипсаКонечномерный случай изложил Артур Э. Хёрл, который использовал статистический подход,[10] и Манусом Фостером, который интерпретировал этот метод как Винер – Колмогоров (Кригинг) фильтр.[11] Вслед за Хёрлом в статистической литературе она известна как гребневая регрессия.[12]

Тихоновская регуляризация

Предположим, что для известной матрицы и вектор , мы хотим найти вектор такой, что[требуется разъяснение ]

Стандартный подход обыкновенный метод наименьших квадратов линейная регрессия.[требуется разъяснение ] Однако если нет удовлетворяет уравнению или более чем одному делает - то есть решение не единственное - проблема называется некорректно поставлен. В таких случаях обычная оценка методом наименьших квадратов приводит к сверхопределенный, или чаще недоопределенный система уравнений. Большинство явлений реального мира имеют эффект фильтры нижних частот в прямом направлении, где карты к . Следовательно, при решении обратной задачи обратное отображение действует как фильтр высоких частот который имеет нежелательную тенденцию к усилению шума (собственные значения / сингулярные значения являются наибольшими при обратном отображении, тогда как они были наименьшими при прямом отображении). Кроме того, обычные методы наименьших квадратов неявно обнуляют каждый элемент восстановленной версии то есть в нулевом пространстве , а не позволять использовать модель в качестве априорной для .Обычный метод наименьших квадратов стремится минимизировать сумму квадратов остатки, который можно компактно записать как

куда это Евклидова норма.

Чтобы отдать предпочтение конкретному решению с желаемыми свойствами, в эту минимизацию можно включить член регуляризации:

для некоторых подходящим образом выбранных Матрица Тихонова . Во многих случаях эта матрица выбирается как кратная единичная матрица (), отдавая предпочтение решениям с меньшим нормы; это известно как L2 регуляризация.[13] В других случаях операторы высоких частот (например, оператор разницы или взвешенный Оператор Фурье ) может использоваться для обеспечения гладкости, если основной вектор считается в основном непрерывным. Эта регуляризация улучшает условия задачи, что позволяет получить прямое численное решение. Явное решение, обозначенное , дан кем-то

Эффект регуляризации может варьироваться масштабом матрицы . За это сводится к нерегуляризованному решению методом наименьших квадратов при условии, что (AТА)−1 существуют.

L2 регуляризация используется во многих контекстах помимо линейной регрессии, например классификация с логистическая регрессия или же опорные векторные машины,[14] и матричная факторизация.[15]

Обобщенная тихоновская регуляризация

Для общих многомерных нормальных распределений для и ошибку данных, можно применить преобразование переменных, чтобы свести к вышеупомянутому случаю. Точно так же можно искать минимизировать

где мы использовали обозначать квадрат взвешенной нормы (сравните с Расстояние Махаланобиса ). В байесовской интерпретации это обратное ковариационная матрица из , это ожидаемое значение из , и - матрица обратной ковариации . Затем матрица Тихонова задается как факторизация матрицы (например, Факторизация Холецкого ) и считается отбеливающий фильтр.

Эта обобщенная задача имеет оптимальное решение который можно явно записать по формуле

или эквивалентно

Лаврентьевская регуляризация

В некоторых ситуациях можно избежать использования транспонирования , как предложено Михаил Лаврентьев.[16] Например, если симметрично положительно определено, т.е. , так это обратное , который, таким образом, может быть использован для установки квадрата взвешенной нормы в обобщенной регуляризации Тихонова, приводящей к минимизации

или, что то же самое с точностью до постоянного члена,

.

Эта задача минимизации имеет оптимальное решение который можно явно записать по формуле

,

что является не чем иным, как решением обобщенной проблемы Тихонова, где

Регуляризация Лаврентьева, если применима, выгодна исходной регуляризации Тихонова, поскольку матрица Лаврентьева могут быть лучше кондиционированы, т. е. иметь меньшую номер условия, по сравнению с матрицей Тихонова

Регуляризация в гильбертовом пространстве

Обычно дискретные линейные плохо обусловленные задачи возникают в результате дискретизации интегральные уравнения, и можно сформулировать регуляризацию Тихонова в исходном бесконечномерном контексте. Выше мы можем интерпретировать как компактный оператор на Гильбертовы пространства, и и как элементы в области и диапазоне . Оператор тогда самосопряженный ограниченный обратимый оператор.

Связь с сингулярным разложением и фильтром Винера

С , это решение методом наименьших квадратов может быть проанализировано особым образом с помощью сингулярное разложение. Учитывая разложение по сингулярным числам

с сингулярными значениями , регуляризованное решение Тихонова можно представить в виде

куда имеет диагональные значения

и равен нулю в других местах. Это демонстрирует влияние параметра Тихонова на номер условия регуляризованной проблемы. Для обобщенного случая аналогичное представление может быть получено с использованием обобщенное сингулярное разложение.[17]

Наконец, это связано с Фильтр Винера:

где веса Винера и это классифицировать из .

Определение фактора Тихонова

Оптимальный параметр регуляризации обычно неизвестен и часто в практических задачах определяется для этого случая метод. Возможный подход основан на байесовской интерпретации, описанной ниже. Другие подходы включают принцип несоответствия, перекрестная проверка, L-образный метод,[18] ограниченная максимальная вероятность и объективная прогнозирующая оценка риска. Грейс Вахба доказали, что оптимальный параметр в смысле перекрестная проверка с исключением по одному сводит к минимуму[19][20]

куда это остаточная сумма квадратов, и это эффективное количество степеней свободы.

Используя предыдущую декомпозицию SVD, мы можем упростить приведенное выше выражение:

и

Отношение к вероятностной формулировке

Вероятностная формулировка обратная задача вводит (когда все неопределенности гауссовские) ковариационную матрицу представляющий априори неопределенности параметров модели и ковариационная матрица представляющие неопределенности наблюдаемых параметров.[21] В частном случае, когда эти две матрицы диагональные и изотропные, и , и, в этом случае, уравнения обратной теории сводятся к приведенным выше уравнениям с .

Байесовская интерпретация

Хотя сначала выбор решения этой регуляризованной задачи может показаться искусственным, да и матрица кажется довольно произвольным, процесс может быть оправдан с Байесовская точка зрения. Обратите внимание, что для некорректно поставленной задачи необходимо обязательно ввести некоторые дополнительные предположения, чтобы получить единственное решение. Статистически априорная вероятность распределение иногда воспринимается как многомерное нормальное распределение. Для простоты здесь сделаны следующие предположения: средние значения равны нулю; их компоненты независимы; компоненты имеют одинаковые стандартное отклонение . Данные также подвержены ошибкам, и ошибки в также считаются независимый с нулевым средним и стандартным отклонением . При этих предположениях регуляризованным по Тихонову решением является наиболее вероятно решение с учетом данных и априори распределение , в соответствии с Теорема Байеса.[22]

Если предположение нормальность заменяется предположениями о гомоскедастичность и некоррелированность ошибки, и если все еще предполагается нулевое среднее значение, то Теорема Гаусса – Маркова следует, что решение является минимальным несмещенная линейная оценка.[23]

Смотрите также

Примечания

  1. ^ В статистика, метод известен как регресс гребня, в машинное обучение это известно как снижение веса, и благодаря множеству независимых открытий, он также известен как Метод Тихонова – Миллера, то Метод Филлипса – Туми, то ограниченная линейная инверсия метод, а метод линейная регуляризация. Это связано с Алгоритм Левенберга – Марквардта за нелинейный метод наименьших квадратов проблемы.

Рекомендации

  1. ^ Кеннеди, Питер (2003). Руководство по эконометрике (Пятое изд.). Кембридж: MIT Press. С. 205–206. ISBN  0-262-61183-X.
  2. ^ Грубер, Марвин (1998). Повышение эффективности за счет сжатия: оценки регрессии Джеймса – Стейна и Риджа. Бока-Ратон: CRC Press. С. 7–15. ISBN  0-8247-0156-9.
  3. ^ Для выбора на практике см. Халаф, Гадбан; Шукур, Гази (2005). «Выбор параметра хребта для задач регрессии». Коммуникации в статистике - теория и методы. 34 (5): 1177–1182. Дои:10.1081 / STA-200056836.
  4. ^ Тихонов Андрей Николаевич (1943). "Об устойчивости обратных задач" [Об устойчивости обратных задач]. Доклады Академии Наук СССР. 39 (5): 195–198.
  5. ^ Тихонов, А. Н. (1963). "О решении некорректно поставленных задач и методе регуляризации". Доклады Академии Наук СССР. 151: 501–504.. Переведено на «Решение неверно сформулированных задач и метод регуляризации». Советская математика. 4: 1035–1038.
  6. ^ Тихонов, А. Н .; В. Ю. Арсенин (1977). Решение некорректных задач. Вашингтон: Уинстон и сыновья. ISBN  0-470-99124-0.
  7. ^ Тихонов Андрей Николаевич; Гончарский, А .; Степанов, В. В .; Ягола, Анатолий Григорьевич (30 июня 1995 г.). Численные методы решения некорректных задач.. Нидерланды: Springer, Нидерланды. ISBN  079233583X. Получено 9 августа 2018.
  8. ^ Тихонов Андрей Николаевич; Леонов, Александр С .; Ягола, Анатолий Григорьевич (1998). Нелинейные некорректные задачи. Лондон: Чепмен и Холл. ISBN  0412786605. Получено 9 августа 2018.
  9. ^ Филлипс, Д. Л. (1962). «Методика численного решения некоторых интегральных уравнений первого рода». Журнал ACM. 9: 84–97. Дои:10.1145/321105.321114.
  10. ^ Хорл, Артур Э. (1962). «Применение ридж-анализа к задачам регрессии». Прогресс химического машиностроения. 58 (3): 54–59.
  11. ^ Фостер, М. (1961). "Применение теории сглаживания Винера-Колмогорова к обращению матриц". Журнал Общества промышленной и прикладной математики. 9 (3): 387–392. Дои:10.1137/0109031.
  12. ^ Hoerl, A.E .; Р. В. Кеннард (1970). «Ридж-регрессия: предвзятые оценки для неортогональных проблем». Технометрика. 12 (1): 55–67. Дои:10.1080/00401706.1970.10488634.
  13. ^ Нг, Эндрю Ю. (2004). Выбор функций, регуляризация L1 и L2 и инвариантность вращения (PDF). Proc. ICML.
  14. ^ Р.-Э. Поклонник; К.-В. Чанг; К.-Дж. Се; X.-R. Ванга; К.-Дж. Линь (2008). «LIBLINEAR: библиотека для большой линейной классификации». Журнал исследований в области машинного обучения. 9: 1871–1874.
  15. ^ Гуань, Найян; Тао, Дачэн; Ло, Чжиган; Юань, Бо (2012). «Оперативная факторизация неотрицательной матрицы с робастной стохастической аппроксимацией». Транзакции IEEE в нейронных сетях и обучающих системах. 23 (7): 1087–1099. Дои:10.1109 / TNNLS.2012.2197827. PMID  24807135.
  16. ^ Лаврентьев, М. М. (1967). Некоторые неправильно поставленные задачи математической физики. Нью-Йорк: Спрингер.
  17. ^ Хансен, Пер Кристиан (1 января 1998 г.). Недостаток ранга и дискретные некорректные задачи: численные аспекты линейного обращения (1-е изд.). Филадельфия, США: SIAM. ISBN  9780898714036.
  18. ^ П. К. Хансен, "L-кривая и ее использование в численном решении обратных задач", [1]
  19. ^ Вахба, Г. (1990). «Сплайновые модели для данных наблюдений». Серия региональных конференций CBMS-NSF по прикладной математике. Общество промышленной и прикладной математики. Bibcode:1990smod.conf ..... W.
  20. ^ Голуб, Г .; Heath, M .; Вахба, Г. (1979). «Обобщенная перекрестная проверка как метод выбора хорошего параметра гребня» (PDF). Технометрика. 21 (2): 215–223. Дои:10.1080/00401706.1979.10489751.
  21. ^ Тарантола, Альберт (2005). Теория обратной задачи и методы оценки параметров модели. (1-е изд.). Филадельфия: Общество промышленной и прикладной математики (SIAM). ISBN  0898717922. Получено 9 августа 2018.
  22. ^ Фогель, Кертис Р. (2002). Вычислительные методы решения обратных задач.. Филадельфия: Общество промышленной и прикладной математики. ISBN  0-89871-550-4.
  23. ^ Амемия, Такеши (1985). Продвинутая эконометрика. Издательство Гарвардского университета. стр.60–61. ISBN  0-674-00560-0.

дальнейшее чтение