Регрессия главных компонентов - Principal component regression

В статистика, регрессия главных компонент (ПЦР) это регрессивный анализ техника, основанная на Анализ главных компонентов (СПС). В частности, ПЦР используется для оценка неизвестный коэффициенты регрессии в стандартная модель линейной регрессии.

В ПЦР вместо непосредственной регрессии зависимой переменной на независимые переменные основные компоненты независимых переменных используются как регрессоры. Обычно для регрессии используется только подмножество всех основных компонентов, что делает ПЦР своего рода упорядоченный процедура, а также вид оценщик усадки.

Часто основные компоненты с более высоким отклонения (основанные на собственные векторы соответствует высшему собственные значения из образец ковариационная матрица независимых переменных) выбраны в качестве регрессоров. Однако с целью предсказание В результате главные компоненты с низкой дисперсией также могут быть важны, а в некоторых случаях даже более важны.[1]

Одно из основных применений ПЦР - преодоление мультиколлинеарность проблема, которая возникает, когда две или более объясняющих переменных близки к коллинеарен.[2] ПЦР может эффективно справляться с такими ситуациями, исключая некоторые из основных компонентов с низкой дисперсией на этапе регрессии. Кроме того, обычно регрессируя только на подмножестве всех основных компонентов, ПЦР может привести к уменьшение размеров за счет существенного снижения эффективного количества параметров, характеризующих базовую модель. Это может быть особенно полезно в настройках с многомерные ковариаты. Кроме того, за счет соответствующего выбора основных компонентов, которые будут использоваться для регрессии, ПЦР может привести к эффективному прогноз результата на основе принятой модели.

Принцип

Метод ПЦР можно условно разделить на три основных этапа:

1. Выполнить PCA на наблюдаемых матрица данных для объясняющих переменных, чтобы получить основные компоненты, а затем (обычно) выбрать подмножество основных компонентов, полученных таким образом, для дальнейшего использования на основе некоторых подходящих критериев.
2. Теперь регрессируйте наблюдаемый вектор результатов по выбранным главным компонентам как ковариаты, используя обыкновенный метод наименьших квадратов регресс (линейная регрессия ), чтобы получить вектор оценочных коэффициентов регрессии (с измерение равное количеству выбранных главных компонентов).
3. Сейчас же преобразовать этот вектор обратно в масштаб фактических ковариат, используя выбранные Загрузки PCA (собственные векторы, соответствующие выбранным главным компонентам), чтобы получить окончательная оценка ПЦР (с размерностью, равной общему количеству ковариат) для оценки коэффициентов регрессии, характеризующих исходную модель.

Подробная информация о методе

Представление данных: Позволять обозначают вектор наблюдаемых результатов и обозначим соответствующие матрица данных наблюдаемых ковариат где, и обозначают размер наблюдаемого образец и количество ковариант соответственно, причем . Каждый из ряды обозначает один набор наблюдений для размерный ковариата и соответствующая запись обозначает соответствующий наблюдаемый результат.

Предварительная обработка данных: Предположим, что и каждый из столбцы уже были по центру так что все они имеют ноль эмпирические средства. Этот шаг центрирования имеет решающее значение (по крайней мере, для столбцов ), поскольку ПЦР предполагает использование PCA на и PCA чувствителен к центрирование данных.

Базовая модель: После центрирования стандартная Гаусс – Марков линейная регрессия модель для на можно представить как: где обозначает вектор неизвестных параметров коэффициентов регрессии, а обозначает вектор случайных ошибок с и для некоторых неизвестных отклонение параметр

Цель: Основная цель - получить эффективный оценщик для параметра , на основании данных. Один из часто используемых подходов для этого: обыкновенный метод наименьших квадратов регрессия, предполагающая является полный ранг столбца, дает объективный оценщик: из . ПЦР - это еще один метод, который можно использовать с той же целью оценки .

Шаг PCA: PCR начинается с выполнения PCA на центрированной матрице данных. . Для этого пусть обозначить разложение по сингулярным числам из где, с участием обозначающий неотрицательный сингулярные значения из , в то время столбцы из и оба ортонормированные множества векторов, обозначающих левый и правый сингулярные векторы из соответственно.

Основные компоненты: дает спектральное разложение из где с участием обозначающие неотрицательные собственные значения (также известные как основные ценности ) из , а столбцы обозначим соответствующий ортонормированный набор собственных векторов. Потом, и соответственно обозначим главный компонент и направление главных компонент (или Загрузка PCA ) соответствующий самый большой основная стоимость для каждого .

Производные ковариаты: Для любого , позволять обозначить матрица с ортонормированными столбцами, состоящая из первых столбцы . Позволять обозначить матрица, имеющая первый главные компоненты как его столбцы. можно рассматривать как матрицу данных, полученную с помощью преобразованный ковариаты вместо использования исходных ковариат .

Оценщик ПЦР: Позволять обозначим вектор оценочных коэффициентов регрессии, полученных обыкновенный метод наименьших квадратов регрессия вектора ответа на матрице данных . Тогда для любого , окончательная оценка ПЦР на основе использования первого основные компоненты представлены: .

Основные характеристики и применения оценщика ПЦР

Два основных свойства

Процесс подбора для получения оценки PCR включает в себя регрессию вектора отклика на матрицу производных данных. который имеет ортогональный колонны для любых так как главные компоненты взаимно ортогональные друг другу. Таким образом, на этапе регрессии выполнение множественная линейная регрессия совместно на выбранные главные компоненты как ковариаты эквивалентны выполнению независимый простые линейные регрессии (или одномерной регрессии) отдельно по каждому из выбранные главные компоненты как ковариата.

Когда все главные компоненты выбраны для регрессии так, чтобы , то оценка PCR эквивалентна обыкновенный метод наименьших квадратов оценщик. Таким образом, . Это легко увидеть из того, что а также наблюдая, что является ортогональная матрица.

Снижение дисперсии

Для любого , дисперсия дан кем-то

Особенно:

Следовательно, для всех у нас есть:

Таким образом, для всех у нас есть:

где указывает, что квадратная симметричная матрица является неотрицательно определенный. Следовательно, любое данное линейная форма оценки PCR имеет меньшую дисперсию по сравнению с тем же линейная форма обычного оценщика наименьших квадратов.

Решение проблемы мультиколлинеарности

Под мультиколлинеарность, две или более ковариаты очень коррелированный, так что одно можно линейно предсказать на основе других с нетривиальной степенью точности. Следовательно, столбцы матрицы данных которые соответствуют наблюдениям для этих ковариат, имеют тенденцию становиться линейно зависимый и поэтому, стремится стать не имеющий ранга теряет свою полную структуру рангов столбцов. Если говорить более количественно, одно или несколько меньших собственных значений получить (s) очень близко или стать (s) точно равным в таких ситуациях. Приведенные выше выражения дисперсии показывают, что эти маленькие собственные значения имеют максимум эффект инфляции от дисперсии оценки наименьших квадратов, тем самым дестабилизирующий оценка значительно, когда они близки к . Эту проблему можно эффективно решить с помощью оценки PCR, полученной путем исключения основных компонентов, соответствующих этим небольшим собственным значениям.

Уменьшение размеров

ПЦР также может использоваться для выполнения уменьшение размеров. Чтобы увидеть это, позвольте обозначить любой матрица, имеющая ортонормированные столбцы, для любых Предположим теперь, что мы хотим приблизительный каждое из ковариатных наблюдений сквозь ранг линейное преобразование для некоторых .

Тогда можно показать, что

сводится к минимуму матрица с первым направления главных компонентов в виде столбцов и соответствующий размерные производные ковариаты. Таким образом размерные главные компоненты обеспечивают лучшее линейное приближение ранга к матрице наблюдаемых данных .

Соответствующие ошибка реконструкции дан кем-то:

Таким образом, любой потенциал уменьшение размеров может быть достигнуто выбором , количество основных компонентов, которые будут использоваться, с помощью соответствующего порогового значения кумулятивной суммы собственные значения из . Поскольку меньшие собственные значения не вносят значительного вклада в совокупную сумму, можно продолжать отбрасывать соответствующие главные компоненты до тех пор, пока не будет превышен желаемый пороговый предел. Те же критерии могут также использоваться для решения мультиколлинеарность проблема, при которой главные компоненты, соответствующие меньшим собственным значениям, могут игнорироваться, пока поддерживается пороговый предел.

Эффект регуляризации

Поскольку оценщик PCR обычно использует только подмножество всех основных компонентов для регрессии, его можно рассматривать как своего рода упорядоченный процедура. Точнее, для любого , оценка ПЦР обозначает регуляризованное решение следующего ограниченная минимизация проблема:

Ограничение может быть эквивалентно записано как:

где:

Таким образом, когда для регрессии выбрано только надлежащее подмножество всех основных компонентов, полученная таким образом оценка PCR основана на жесткой форме регуляризация что ограничивает полученное решение пространство столбца выбранных направлений главных компонент, и, следовательно, ограничивает его ортогональный по исключенным направлениям.

Оптимальность PCR среди класса регуляризованных оценок

Учитывая задачу ограниченной минимизации, как определено выше, рассмотрим следующую ее обобщенную версию:

где, обозначает любую матрицу ранга полного столбца порядка с участием .

Позволять обозначим соответствующее решение. Таким образом

Тогда оптимальный выбор матрицы ограничений для которого соответствующая оценка достигает минимальной ошибки прогноза:[3]

где

Совершенно очевидно, что полученная оптимальная оценка тогда просто дается оценкой PCR на основе первого основные компоненты.

Эффективность

Поскольку обычная оценка методом наименьших квадратов беспристрастный для , у нас есть

где MSE обозначает среднеквадратичная ошибка. Теперь, если для некоторых , у нас дополнительно есть: , то соответствующий это также беспристрастный для и поэтому

Мы уже видели, что

что тогда подразумевает:

для этого конкретного . Таким образом, в этом случае соответствующий было бы более эффективный оценщик из в сравнении с , основанный на использовании среднеквадратичной ошибки в качестве критерия эффективности. Кроме того, любой данный линейная форма соответствующих также будет более низкий среднеквадратичная ошибка по сравнению с тем же линейная форма из .

Теперь предположим, что для данного . Тогда соответствующие является предвзятый для . Однако, поскольку

все еще возможно, что особенно если такова, что исключенные главные компоненты соответствуют меньшим собственным значениям, что приводит к более низким предвзятость.

Чтобы обеспечить эффективную оценку и прогнозирование производительности PCR в качестве средства оценки , Парк (1981) [3] предлагает следующие рекомендации по выбору основных компонентов, которые будут использоваться для регрессии: Отбросьте главный компонент тогда и только тогда, когда Практическая реализация этого руководства, конечно же, требует оценок неизвестных параметров модели. и . В общем, они могут быть оценены с использованием оценок методом наименьших квадратов, полученных из исходной полной модели. Однако Парк (1981) дает несколько измененный набор оценок, который может лучше подходить для этой цели.[3]

В отличие от критериев, основанных на кумулятивной сумме собственных значений , который, вероятно, больше подходит для решения проблемы мультиколлинеарности и для выполнения уменьшения размерности, вышеупомянутые критерии на самом деле пытаются улучшить эффективность прогнозирования и оценки PCR-оценки, вовлекая как результат, так и ковариаты в процесс выбора главного компоненты, которые будут использоваться на этапе регрессии. Альтернативные подходы с аналогичными целями включают выбор основных компонентов на основе перекрестная проверка или Mallow's Cп критерии. Часто основные компоненты также выбираются на основе их степени ассоциация с исходом.

Эффект усадки ПЦР

В общем, ПЦР - это, по сути, оценщик усадки который обычно сохраняет главные компоненты с высокой дисперсией (соответствующие более высоким собственным значениям ) как ковариаты в модели и отбрасывает оставшиеся компоненты с низкой дисперсией (соответствующие нижним собственным значениям ). Таким образом, он оказывает дискретное эффект усадки на компоненты с низкой дисперсией, полностью сводя на нет их вклад в исходную модель. Напротив, регресс гребня Оценщик оказывает эффект плавной усадки через параметр регуляризации (или параметр настройки), по сути, участвующий в его построении. Хотя он не удаляет полностью ни один из компонентов, он оказывает эффект усадки по всем из них непрерывным образом, так что степень усадки выше для компонентов с низкой дисперсией и ниже для компонентов с высокой дисперсией. Фрэнк и Фридман (1993)[4] пришли к выводу, что для целей самого прогнозирования устройство оценки гребня из-за его эффекта плавного сжатия, возможно, является лучшим выбором по сравнению с устройством оценки PCR, имеющим эффект дискретного сжатия.

Кроме того, основные компоненты получаются из собственное разложение из это включает наблюдения только для независимых переменных. Следовательно, результирующий оценщик PCR, полученный при использовании этих главных компонентов в качестве ковариат, не обязательно должен иметь удовлетворительную прогностическую характеристику для результата. Отчасти похожий оценщик, который пытается решить эту проблему с помощью самой своей конструкции, - это частичные наименьшие квадраты (PLS) оценщик. Подобно ПЦР, PLS также использует производные ковариаты более низкой размерности. Однако, в отличие от ПЦР, производные ковариаты для PLS получают на основе использования как результата, так и ковариат. В то время как PCR ищет направления с высокой дисперсией в пространстве ковариат, PLS ищет направления в пространстве ковариат, которые наиболее полезны для предсказания результата.

Недавно был разработан вариант классической ПЦР, известный как контролируемая ПЦР был предложен Бэром, Хасти, Полом и Тибширани (2006).[5] В духе, аналогичном PLS, он пытается получить производные ковариаты более низких измерений на основе критерия, который включает как результат, так и ковариаты. Метод начинается с выполнения набора простые линейные регрессии (или одномерной регрессии), в которой вектор результатов регрессирует отдельно для каждого из ковариаты, взятые по одной за раз. Тогда для некоторых , первый ковариаты, которые оказываются наиболее коррелированными с результатом (на основе степени значимости соответствующих оценочных коэффициентов регрессии), выбираются для дальнейшего использования. Затем выполняется обычная ПЦР, как описано ранее, но теперь она основана только на матрица данных, соответствующая наблюдениям для выбранных ковариат. Количество используемых ковариат: и последующее количество используемых основных компонентов: обычно выбираются перекрестная проверка.

Обобщение настроек ядра

Классический метод ПЦР, описанный выше, основан на классический PCA и считает модель линейной регрессии для прогнозирования результата на основе ковариат. Однако его легко обобщить на ядро машины установка, посредством которой функция регрессии не обязательно быть линейный в ковариатах, но вместо этого он может принадлежать Воспроизведение гильбертова пространства ядра связанный с любым произвольным (возможно нелинейный ), симметричный положительно определенное ядро. В модель линейной регрессии оказывается частным случаем этой настройки, когда функция ядра выбран, чтобы быть линейное ядро.

В общем, под ядро машины установка, вектор ковариат является первым нанесенный на карту в многомерный (потенциально бесконечномерный ) пространство функций характеризуется функция ядра выбрал. В отображение полученный таким образом известен как карта характеристик и каждый из его координаты, также известный как элементы функции, соответствует одному объекту (может быть линейный или нелинейный ) ковариат. В функция регрессии тогда предполагается, что это линейная комбинация из этих элементы функции. Таким образом лежащая в основе регрессионная модель в ядро машины настройка по сути модель линейной регрессии при том понимании, что вместо исходного набора ковариат предикторы теперь задаются вектором (потенциально бесконечномерный ) из элементы функции получено преобразование фактические ковариаты с использованием карта характеристик.

Однако трюк с ядром фактически позволяет нам работать в пространство функций без явного вычисления карта характеристик. Оказывается, достаточно только вычислить попарно внутренние продукты среди карт признаков для наблюдаемых ковариатных векторов и этих внутренние продукты просто даются значениями функция ядра оценивается в соответствующих парах ковариантных векторов. Таким образом, полученные попарные скалярные продукты могут быть представлены в виде симметричная неотрицательно определенная матрица, также известная как матрица ядра.

ПЦР в ядро машины настройка теперь может быть реализована сначала надлежащим образом центрирующий этот матрица ядра (K, скажем) относительно пространство функций а затем выполнить ядро PCA на матрица с центрированным ядром (K ', скажем), посредством чего собственное разложение K 'получается. Затем ядро ​​PCR продолжается (обычно) путем выбора подмножества всех собственные векторы так получено, а затем выполнить стандартная линейная регрессия вектора результата на выбранных собственные векторы. В собственные векторы для использования в регрессии обычно выбираются с помощью перекрестная проверка. Предполагаемые коэффициенты регрессии (имеющие ту же размерность, что и количество выбранных собственных векторов) вместе с соответствующими выбранными собственными векторами затем используются для прогнозирования результата для будущего наблюдения. В машинное обучение, этот метод также известен как спектральная регрессия.

Ясно, что ядерная PCR оказывает эффект дискретного сжатия на собственные векторы K ', очень похожий на эффект дискретного сжатия классической PCR на основные компоненты, как обсуждалось ранее. Однако карта характеристик, связанная с выбранным ядром, потенциально может быть бесконечномерной, и, следовательно, соответствующие главные компоненты и направления главных компонентов также могут быть бесконечномерными. Следовательно, эти количества часто практически невозможно изменить при настройке ядра машины. ПЦР ядра по существу решает эту проблему, рассматривая эквивалентную двойную формулировку, основанную на использовании спектральное разложение связанной матрицы ядра. В рамках модели линейной регрессии (которая соответствует выбору функции ядра в качестве линейного ядра) это сводится к рассмотрению спектрального разложения соответствующих матрица ядра а затем регрессия вектора результата на выбранном подмножестве собственных векторов так получилось. Легко показать, что это то же самое, что регрессия вектора результатов на соответствующие главные компоненты (которые в данном случае конечномерны), как определено в контексте классической PCR. Таким образом, для линейного ядра ПЦР ядра, основанная на двойной формулировке, в точности эквивалентна классической ПЦР, основанной на первичной формулировке. Однако для произвольных (и, возможно, нелинейных) ядер эта простая формулировка может стать трудноразрешимой из-за бесконечной размерности связанной карты признаков. Таким образом, в этом случае классическая ПЦР становится практически невозможной, но ядерная ПЦР, основанная на двойной формулировке, по-прежнему остается действительной и масштабируемой с вычислительной точки зрения.

Смотрите также

использованная литература

  1. ^ Джоллифф, Ян Т. (1982). «Примечание об использовании основных компонентов в регрессии». Журнал Королевского статистического общества, серия C. 31 (3): 300–303. Дои:10.2307/2348005. JSTOR  2348005.
  2. ^ Додж, Ю. (2003) Оксфордский словарь статистических терминов, ОУП. ISBN  0-19-920613-9
  3. ^ а б c Сун Х. Парк (1981). «Коллинеарность и оптимальные ограничения на параметры регрессии для оценки ответов». Технометрика. 23 (3): 289–295. Дои:10.2307/1267793.
  4. ^ Ллдико Э. Франк и Джером Х. Фридман (1993). «Статистический взгляд на некоторые инструменты регрессии хемометрики». Технометрика. 35 (2): 109–135. Дои:10.1080/00401706.1993.10485033.
  5. ^ Эрик Бэр; Тревор Хасти; Дебашис Пол; Роберт Тибширани (2006). «Прогнозирование контролируемых основных компонентов». Журнал Американской статистической ассоциации. 101 (473): 119–137. CiteSeerX  10.1.1.516.2313. Дои:10.1198/016214505000000628.

дальнейшее чтение