Модели с ошибками в переменных - Errors-in-variables models

В статистика, модели ошибок в переменных или же модели ошибок измерения[1][2][3] находятся регрессионные модели это объясняет погрешности измерения в независимые переменные. Напротив, стандартные модели регрессии предполагают, что эти регрессоры были точно измерены или наблюдались без ошибок; как таковые, эти модели учитывают только ошибки в зависимые переменные, или ответы.[нужна цитата ]

Иллюстрация регрессионное разбавление (или смещение затухания) по диапазону оценок регрессии в моделях с ошибками в переменных. Две линии регрессии (красные) ограничивают диапазон возможностей линейной регрессии. Неглубокий наклон получается, когда независимая переменная (или предиктор) находится на абсциссе (ось x). Более крутой наклон получается, когда независимая переменная находится на ординате (ось y). По соглашению с независимой переменной на оси x получается более пологий наклон. Зеленые контрольные линии - это средние значения в пределах произвольных интервалов по каждой оси. Обратите внимание, что более крутые оценки регрессии для зеленого и красного более согласуются с меньшими ошибками в переменной оси Y.

В случае, когда некоторые регрессоры были измерены с ошибками, оценка на основе стандартного предположения приводит к непоследовательный оценки, что означает, что оценки параметров не стремятся к истинным значениям даже в очень больших выборках. За простая линейная регрессия эффект является недооценкой коэффициента, известного как смещение затухания. В нелинейные модели направление смещения, вероятно, будет более сложным.[4][5]

Мотивационный пример

Рассмотрим простую модель линейной регрессии вида

куда обозначает истинный но ненаблюдаемый регрессор. Вместо этого мы наблюдаем это значение с ошибкой:

где ошибка измерения считается независимым от истинного значения .

Если Просто регрессируют на 'S (см. простая линейная регрессия ), то оценка коэффициента наклона будет

который сходится как размер выборки неограниченно увеличивается:

Вариации неотрицательны, так что в пределе оценка меньше по величине, чем истинное значение , эффект, который статистики называют затухание или же регрессионное разбавление.[6] Таким образом, "наивная" оценка методом наименьших квадратов непоследовательный в этой обстановке. Однако оценка - это согласованная оценка параметра, необходимого для наилучшего линейного предсказателя данный : в некоторых приложениях это может быть то, что требуется, а не оценка «истинного» коэффициента регрессии, хотя это предполагает, что дисперсия ошибок при наблюдении остается фиксированным. Это непосредственно следует из приведенного выше результата и того факта, что коэффициент регрессии, относящийся к К фактически наблюдаемым ′ S в простой линейной регрессии определяется выражением

Именно этот коэффициент, а не , что потребовалось бы для построения предиктора на основе наблюдаемых который подвержен шуму.

Можно утверждать, что почти все существующие наборы данных содержат ошибки разной природы и величины, поэтому систематическая ошибка ослабления встречается очень часто (хотя при многомерной регрессии направление систематической ошибки неоднозначно.[7]). Джерри Хаусман видит в этом железный закон эконометрики: «Величина оценки обычно меньше ожидаемой».[8]

Технические характеристики

Обычно модели ошибок измерения описываются с помощью скрытые переменные подход. Если переменная ответа и наблюдаемые значения регрессоров, тогда предполагается, что существуют некоторые скрытые переменные и которые соответствуют «истинным» моделям функциональные отношения , и такие, что наблюдаемые величины являются их зашумленными наблюдениями:

куда модель параметр и это те регрессоры, которые считаются безошибочными (например, когда линейная регрессия содержит точку пересечения, регрессор, который соответствует константе, безусловно, не имеет «ошибок измерения»). В зависимости от спецификации эти безошибочные регрессоры могут или не могут рассматриваться отдельно; в последнем случае просто предполагается, что соответствующие элементы в матрице дисперсии ноль.

Переменные , , все наблюдаемый, что означает, что статистик обладает набор данных из статистические единицы которые следуют за процесс генерации данных описано выше; скрытые переменные , , , и однако не наблюдаются.

Эта спецификация не охватывает все существующие модели ошибок в переменных. Например в некоторых из них работают может быть непараметрический или полупараметрический. Другие подходы моделируют отношения между и как распределительные, а не функциональные, то есть они предполагают, что условно на следует определенному (обычно параметрическому) распределению.

Терминология и предположения

  • Наблюдаемая переменная можно назвать манифест, индикатор, или же доверенное лицо Переменная.
  • Незаметная переменная можно назвать скрытый или же истинный Переменная. Его можно рассматривать либо как неизвестную константу (в этом случае модель называется функциональная модель), либо как случайная величина (соответственно структурная модель).[9]
  • Связь между ошибкой измерения и скрытая переменная можно моделировать разными способами:
    • Классические ошибки: ошибки независимый скрытой переменной. Это наиболее распространенное предположение, оно подразумевает, что ошибки вносятся измерительным устройством и их величина не зависит от измеряемого значения.
    • Средняя независимость: ошибки равны нулю в среднем для каждого значения скрытого регрессора. Это менее ограничительное предположение, чем классическое,[10] так как это позволяет наличие гетероскедастичность или другие эффекты в ошибках измерения.
    • Ошибки Берксона: ошибки не зависят от наблюдаемый регрессор Икс. Это предположение имеет очень ограниченную применимость. Один из примеров - ошибки округления: например, если у человека возраст* это непрерывная случайная величина, тогда как наблюдаемые возраст усекается до следующего наименьшего целого числа, тогда ошибка усечения приблизительно не зависит от наблюдаемого возраст. Другая возможность связана с экспериментом с фиксированным планом: например, если ученый решает провести измерение в определенный заранее определенный момент времени. скажи на , то реальное измерение может происходить при другом значении (например, из-за конечного времени реакции), и такая ошибка измерения обычно не зависит от «наблюдаемого» значения регрессора.
    • Ошибки неправильной классификации: специальный случай, используемый для фиктивные регрессоры. Если является индикатором определенного события или состояния (например, лицо мужского / женского пола, какое-либо лечение было предоставлено / нет и т. д.), то ошибка измерения в таком регрессоре будет соответствовать неправильной классификации, аналогичной ошибки типа I и типа II в статистическом тестировании. В этом случае ошибка может принимать только 3 возможных значения, а его распределение зависит от моделируется двумя параметрами: , и . Необходимым условием идентификации является то, что , то есть ошибочная классификация не должна происходить "слишком часто". (Эту идею можно обобщить на дискретные переменные с более чем двумя возможными значениями.)

Линейная модель

Сначала были изучены линейные модели ошибок в переменных, вероятно, потому что линейные модели были так широко распространены и легче нелинейных. В отличие от стандартных наименьших квадратов регрессии (OLS), расширение ошибок в регрессии переменных (EiV) от простого к многомерному случаю непросто.

Простая линейная модель

Простая линейная модель ошибок в переменных уже была представлена ​​в разделе «мотивация»:

где все переменные скаляр. Здесь α и β - интересующие параметры, тогда как σε и ση- стандартные отклонения членов погрешности - мешающие параметры. «Настоящий» регрессор Икс* рассматривается как случайная величина (структурный модель), независимо от погрешности измерения η (классический предположение).

Эта модель идентифицируемый в двух случаях: (1) либо скрытый регрессор Икс* является нет нормально распределенный, (2) или Икс* имеет нормальное распределение, но ни один εт ни ηт делятся на нормальное распределение.[11] То есть параметры α, β можно последовательно оценить на основе набора данных без дополнительной информации, при условии, что скрытый регрессор не является гауссовским.

Прежде чем этот результат идентифицируемости был установлен, статистики пытались применить максимальная вероятность метод, предполагая, что все переменные нормальные, а затем пришел к выводу, что модель не идентифицирована. Предлагаемое средство правовой защиты заключалось в предполагать что некоторые параметры модели известны или могут быть оценены из внешнего источника. К таким методам оценки относятся:[12]

  • Регрессия Деминга - предполагает, что соотношение δ = σ²ε/σ²η известен. Это может быть уместно, например, когда ошибки в у и Икс оба вызваны измерениями, и точность измерительных устройств или процедур известна. Случай, когда δ = 1 также известен как ортогональная регрессия.
  • Регресс с известными коэффициент надежности λ = σ²/ ( σ²η + σ²), куда σ² - дисперсия скрытого регрессора. Такой подход может быть применим, например, когда доступны повторяющиеся измерения одного и того же устройства, или когда коэффициент надежности известен из независимого исследования. В этом случае последовательная оценка наклона равна оценке наименьших квадратов, деленной на λ.
  • Регрессия с известными σ²η может возникнуть, когда источник ошибок в Икс's известно, и их дисперсия может быть рассчитана. Это может включать ошибки округления или ошибки, вносимые измерительным устройством. Когда σ²η известно, что коэффициент надежности можно вычислить как λ = ( σ²Иксσ²η) / σ²Икс и сведем проблему к предыдущему случаю.

Более новые методы оценки, которые не предполагают знания некоторых параметров модели, включают:

  • Метод моментов - GMM оценка на основе соединения третьего (или более высокого) порядка кумулянты наблюдаемых переменных. Коэффициент наклона можно оценить по формуле [13]

    куда (п1,п2) таковы, что K(п1+1,п2) - сустав кумулянт из (Икс,у) - не ноль. В случае, когда третий центральный момент скрытого регрессора Икс* отлична от нуля, формула сводится к

  • Инструментальные переменные - регрессия, требующая некоторых дополнительных переменных данных z, называется инструменты, были доступны. Эти переменные не должны коррелировать с ошибками в уравнении для зависимой переменной (действительный), и они также должны быть коррелированы (соответствующий) с истинными регрессорами Икс*. Если такие переменные могут быть найдены, то оценка принимает вид

Многопараметрическая линейная модель

Многопараметрическая модель выглядит точно так же, как простая линейная модель, только на этот раз β, ηт, Икст и Икс*т находятся k ×1 векторов.

В случае, когда (εт,ηт) вместе нормально, параметр β не идентифицируется тогда и только тогда, когда существует неособаяк × к блочная матрица [а А] (куда а это k ×1 вектор) такая, что a′x * распространяется нормально и независимо отA′x *. В случае, когда εт, ηt1,..., ηтк взаимно независимы, параметрβ не идентифицируется тогда и только тогда, когда в дополнение к указанным выше условиям некоторые ошибки могут быть записаны как сумма двух независимых переменных, одна из которых является нормальной.[14]

Некоторые из методов оценивания многомерных линейных моделей:

  • Всего наименьших квадратов является продолжением Регрессия Деминга к многопараметрической настройке. Когда все k+1 компоненты вектора (ε,η) имеют равные дисперсии и независимы, это эквивалентно запуску ортогональной регрессии у на векторе Икс - то есть регрессия, которая минимизирует сумму квадратов расстояний между точками (ут,Икст) и k-мерная гиперплоскость "наилучшего соответствия".
  • В метод моментов оценщик [15] можно построить на основе моментных условий E [zт·(утαβ'xт)] = 0, где (5k+3) -мерный вектор инструментов zт определяется как

    куда обозначает Произведение Адамара матриц и переменных Икст, ут были предварительно разорваны. Авторы метода предлагают использовать модифицированную оценку IV Фуллера.[16]

    При необходимости этот метод может быть расширен для использования моментов выше третьего порядка, а также для учета переменных, измеренных без ошибок.[17]
  • В инструментальные переменные подход требует поиска дополнительных переменных данных zт который будет служить инструменты для неверно измеренных регрессоров Икст. Этот метод является наиболее простым с точки зрения реализации, однако его недостаток в том, что он требует сбора дополнительных данных, что может быть дорогостоящим или даже невозможным. Когда инструменты могут быть найдены, оценщик принимает стандартную форму

Нелинейные модели

Общая модель нелинейных ошибок измерения принимает форму

Здесь функция грамм может быть параметрическим или непараметрическим. Когда функция грамм параметрический, он будет записан как г (х *, β).

Для общего векторного регрессора Икс* условия для модели идентифицируемость не известны. Однако в случае скалярной Икс* модель идентифицирована, если функция грамм имеет "логарифмическую" форму [18]

и скрытый регрессор Икс* имеет плотность

где константы A, B, C, D, E, F может зависеть от а, б, в, г.

Несмотря на этот оптимистичный результат, в настоящее время не существует методов оценки нелинейных моделей ошибок в переменных без какой-либо посторонней информации. Однако есть несколько методов, которые используют некоторые дополнительные данные: инструментальные переменные или повторные наблюдения.

Методы инструментальных переменных

  • Метод моделирования моментов Ньюи[19] для параметрических моделей - требуется дополнительный набор наблюдаемых переменные-предикторы zт, так что истинный регрессор может быть выражен как

    куда π0 и σ0 являются (неизвестными) постоянными матрицами, и ζтzт. Коэффициент π0 можно оценить с помощью стандартных наименьших квадратов регресс Икс на z. Распределение ζт неизвестен, однако мы можем смоделировать его как принадлежащий к гибкому параметрическому семейству - Серия Эджворта:

    куда ϕ это стандартный нормальный распределение.

    Смоделированные моменты могут быть вычислены с помощью выборка по важности алгоритм: сначала мы генерируем несколько случайных величин {vts ~ ϕ, s = 1,…,S, т = 1,…,Т} из стандартного нормального распределения, то вычисляем моменты при т-е наблюдение как

    куда θ = (β, σ, γ), А это просто некоторая функция инструментальных переменных z, и ЧАС - двухкомпонентный вектор моментов

    С моментными функциями мт можно применить стандарт GMM метод оценки неизвестного параметра θ.

Повторные наблюдения

В этом подходе два (а может и больше) повторных наблюдения регрессора Икс* доступны. Оба наблюдения содержат собственные ошибки измерения, однако эти ошибки должны быть независимыми:

куда Икс*η1η2. Переменные η1, η2 не обязательно должны быть одинаково распределены (хотя, если они есть, эффективность оценщика может быть немного улучшена). Только с этими двумя наблюдениями можно согласованно оценить функцию плотности Икс* с использованием Котлярского деконволюция техника.[20]

  • Метод условной плотности Ли для параметрических моделей.[21] Уравнение регрессии может быть записано в терминах наблюдаемых переменных как

    где можно было бы вычислить интеграл, если бы мы знали условную функцию плотности ƒх * | х. Если эта функция может быть известна или оценена, тогда проблема превратится в стандартную нелинейную регрессию, которую можно оценить, например, с помощью NLLS метод.
    Предполагая для простоты, что η1, η2 одинаково распределены, эта условная плотность может быть вычислена как

    где с небольшим нарушением обозначений Иксj обозначает j-й компонент вектора.
    Все плотности в этой формуле можно оценить с помощью обращения эмпирического характеристические функции. Особенно,

    Чтобы инвертировать эти характеристические функции, необходимо применить обратное преобразование Фурье с параметром обрезки C необходимо для обеспечения численной устойчивости. Например:

  • Оценщик Шеннаха для параметрической линейной по параметрам нелинейной модели в переменных.[22] Это модель вида

    куда шт представляет переменные, измеренные без ошибок. Регрессор Икс* здесь - скаляр (метод можно распространить на случай векторных Икс* также).
    Если бы не ошибки измерения, это было бы стандартным линейная модель с оценщиком

    куда

    Оказывается, все ожидаемые значения в этой формуле можно оценить с помощью одного и того же трюка с деконволюцией. В частности, для типичной наблюдаемой шт (который может быть 1, ш1т, …, шℓ т, или же ут) и некоторая функция час (который может представлять любой граммj или же граммяграммj) у нас есть

    куда φчас это преобразование Фурье из час(Икс*), но с использованием того же соглашения, что и для характеристические функции,

    ,

    и

    Полученная оценка непротиворечиво и асимптотически нормально.
  • Оценщик Шеннаха для непараметрической модели.[23] Стандарт Оценка Надарая – Ватсона для непараметрической модели принимает вид
    для подходящего выбора ядро K и пропускная способность час. Оба ожидания здесь можно оценить с помощью того же метода, что и в предыдущем методе.

Рекомендации

  1. ^ Кэрролл, Раймонд Дж .; Рупперт, Дэвид; Стефански, Леонард А .; Crainiceanu, Ciprian (2006). Погрешность измерения в нелинейных моделях: современная перспектива (Второе изд.). ISBN  978-1-58488-633-4.
  2. ^ Шеннах, Сюзанна (2016). «Последние достижения в литературе по ошибкам измерений». Ежегодный обзор экономики. 8 (1): 341–377. Дои:10.1146 / аннурьев-экономика-080315-015058.
  3. ^ Коул, Хира; Песня, Weixing (2008). «Проверка регрессионной модели с ошибками измерения Berkson». Журнал статистического планирования и вывода. 138 (6): 1615–1628. Дои:10.1016 / j.jspi.2007.05.048.
  4. ^ Грилихес, Цви; Рингстад, Видар (1970). «Ошибки в переменных в нелинейных контекстах». Econometrica. 38 (2): 368–370. Дои:10.2307/1913020. JSTOR  1913020.
  5. ^ Чешер, Эндрю (1991). «Влияние ошибки измерения». Биометрика. 78 (3): 451–462. Дои:10.1093 / biomet / 78.3.451. JSTOR  2337015.
  6. ^ Грин, Уильям Х. (2003). Эконометрический анализ (5-е изд.). Нью-Джерси: Прентис-Холл. Глава 5.6.1. ISBN  978-0-13-066189-0.
  7. ^ Wansbeek, T .; Мейер, Э. (2000). «Ошибка измерения и скрытые переменные». В Балтаги, Б. Х. (ред.). Компаньон теоретической эконометрики. Блэквелл. С. 162–179. Дои:10.1111 / b.9781405106764.2003.00013.x. ISBN  9781405106764.
  8. ^ Хаусман, Джерри А. (2001). «Неправильно измеренные переменные в эконометрическом анализе: проблемы справа и проблемы слева». Журнал экономических перспектив. 15 (4): 57–67 [стр. 58]. Дои:10.1257 / jep.15.4.57. JSTOR  2696516.
  9. ^ Фуллер, Уэйн А. (1987). Модели ошибок измерения. Джон Вили и сыновья. п. 2. ISBN  978-0-471-86187-4.
  10. ^ Хаяси, Фумио (2000). Эконометрика. Издательство Принстонского университета. С. 7–8. ISBN  978-1400823833.
  11. ^ Рейерсол, Олав (1950). «Идентифицируемость линейной связи между переменными, подверженными ошибкам». Econometrica. 18 (4): 375–389 [стр. 383]. Дои:10.2307/1907835. JSTOR  1907835. Несколько более ограничительный результат был установлен ранее Гири, Р. К. (1942). «Внутренние отношения между случайными величинами». Труды Королевской ирландской академии. 47: 63–76. JSTOR  20488436. Он показал, что при дополнительном предположении, что (ε, η) в совокупности нормальны, модель не идентифицируется тогда и только тогда, когда Икс*s нормальные.
  12. ^ Фуллер, Уэйн А. (1987). «Единственная пояснительная переменная». Модели ошибок измерения. Джон Вили и сыновья. С. 1–99. ISBN  978-0-471-86187-4.
  13. ^ Пал, Маноранджан (1980). «Последовательные оценки моментов коэффициентов регрессии при наличии ошибок в переменных». Журнал эконометрики. 14 (3): 349–364 [стр. 360–1]. Дои:10.1016/0304-4076(80)90032-9.CS1 maint: ref = harv (связь)
  14. ^ Бен-Моше, Дан (2020). «Выявление линейных регрессий с ошибками по всем переменным». Эконометрическая теория: 1–31. Дои:10.1017 / S0266466620000250.
  15. ^ Dagenais, Marcel G .; Дагене, Дениз Л. (1997). «Высшие оценки момента для моделей линейной регрессии с ошибками в переменных». Журнал эконометрики. 76 (1–2): 193–221. CiteSeerX  10.1.1.669.8286. Дои:10.1016/0304-4076(95)01789-5. В более ранней статье Приятель (1980) рассматривался более простой случай, когда все компоненты вектора (ε, η) независимы и симметрично распределены.
  16. ^ Фуллер, Уэйн А. (1987). Модели ошибок измерения. Джон Вили и сыновья. п. 184. ISBN  978-0-471-86187-4.
  17. ^ Эриксон, Тимоти; Уитед, Тони М. (2002). «Двухшаговая GMM-оценка модели ошибок в переменных с использованием моментов высокого порядка». Эконометрическая теория. 18 (3): 776–799. Дои:10.1017 / s0266466602183101. JSTOR  3533649.
  18. ^ Шеннах, С.; Hu, Y .; Левбель А. (2007). «Непараметрическая идентификация классической модели ошибок в переменных без дополнительной информации». Рабочий документ.
  19. ^ Ньюи, Уитни К. (2001). «Гибкая имитационная оценка момента нелинейной модели погрешностей переменных». Обзор экономики и статистики. 83 (4): 616–627. Дои:10.1162/003465301753237704. HDL:1721.1/63613. JSTOR  3211757.
  20. ^ Ли, Тонг; Вуонг, Куанг (1998). «Непараметрическая оценка модели погрешности измерения с использованием нескольких показателей». Журнал многомерного анализа. 65 (2): 139–165. Дои:10.1006 / jmva.1998.1741.
  21. ^ Ли, Тонг (2002). «Робастное и непротиворечивое оценивание нелинейных моделей ошибок в переменных». Журнал эконометрики. 110 (1): 1–26. Дои:10.1016 / S0304-4076 (02) 00120-3.
  22. ^ Шеннах, Сюзанна М. (2004). «Оценка нелинейных моделей с погрешностью измерения». Econometrica. 72 (1): 33–75. Дои:10.1111 / j.1468-0262.2004.00477.x. JSTOR  3598849.
  23. ^ Шеннах, Сюзанна М. (2004). «Непараметрическая регрессия при наличии ошибки измерения». Эконометрическая теория. 20 (6): 1046–1093. Дои:10.1017 / S0266466604206028.

дальнейшее чтение

внешняя ссылка