Модели с ошибками в переменных - Errors-in-variables models

В статистика, модели ошибок в переменных или же модели ошибок измерения^[1]^[2]^[3] находятся регрессионные модели это объясняет погрешности измерения в независимые переменные. Напротив, стандартные модели регрессии предполагают, что эти регрессоры были точно измерены или наблюдались без ошибок; как таковые, эти модели учитывают только ошибки в зависимые переменные, или ответы.^{[нужна цитата ]}

Иллюстрация регрессионное разбавление (или смещение затухания) по диапазону оценок регрессии в моделях с ошибками в переменных. Две линии регрессии (красные) ограничивают диапазон возможностей линейной регрессии. Неглубокий наклон получается, когда независимая переменная (или предиктор) находится на абсциссе (ось x). Более крутой наклон получается, когда независимая переменная находится на ординате (ось y). По соглашению с независимой переменной на оси x получается более пологий наклон. Зеленые контрольные линии - это средние значения в пределах произвольных интервалов по каждой оси. Обратите внимание, что более крутые оценки регрессии для зеленого и красного более согласуются с меньшими ошибками в переменной оси Y.

В случае, когда некоторые регрессоры были измерены с ошибками, оценка на основе стандартного предположения приводит к непоследовательный оценки, что означает, что оценки параметров не стремятся к истинным значениям даже в очень больших выборках. За простая линейная регрессия эффект является недооценкой коэффициента, известного как смещение затухания. В нелинейные модели направление смещения, вероятно, будет более сложным.^[4]^[5]

Мотивационный пример

Рассмотрим простую модель линейной регрессии вида

{displaystyle y_ {t} = alpha + eta x_ {t} ^ {*} + varepsilon _ {t} ,, quad t = 1, ldots, T,}

куда ${displaystyle x_ {t} ^ {*}}$ обозначает истинный но ненаблюдаемый регрессор. Вместо этого мы наблюдаем это значение с ошибкой:

{displaystyle x_ {t} = x_ {t} ^ {*} + eta _ {t},}

где ошибка измерения ${displaystyle eta _ {t}}$ считается независимым от истинного значения ${displaystyle x_ {t} ^ {*}}$ .

Если ${displaystyle y_ {t}}$ Просто регрессируют на ${displaystyle x_ {t}}$ 'S (см. простая линейная регрессия ), то оценка коэффициента наклона будет

{displaystyle {hat {eta}} = {frac {{frac {1} {T}} sum _ {t = 1} ^ {T} (x_ {t} - {ar {x}}) (y_ {t}) - {ar {y}})} {{frac {1} {T}} sum _ {t = 1} ^ {T} (x_ {t} - {ar {x}}) ^ {2}}}, ,}

который сходится как размер выборки ${displaystyle T}$ неограниченно увеличивается:

{displaystyle {hat {eta}} {xrightarrow {p}} {frac {operatorname {Cov} [, x_ {t}, y_ {t},]} {operatorname {Var} [, x_ {t},]}} = {frac {eta sigma _ {x ^ {*}} ^ {2}} {sigma _ {x ^ {*}} ^ {2} + sigma _ {eta} ^ {2}}} = {frac {eta } {1 + sigma _ {eta} ^ {2} / sigma _ {x ^ {*}} ^ {2}}} ,.}

Вариации неотрицательны, так что в пределе оценка меньше по величине, чем истинное значение ${displaystyle eta}$ , эффект, который статистики называют затухание или же регрессионное разбавление.^[6] Таким образом, "наивная" оценка методом наименьших квадратов непоследовательный в этой обстановке. Однако оценка - это согласованная оценка параметра, необходимого для наилучшего линейного предсказателя ${displaystyle y}$ данный ${displaystyle x}$ : в некоторых приложениях это может быть то, что требуется, а не оценка «истинного» коэффициента регрессии, хотя это предполагает, что дисперсия ошибок при наблюдении ${displaystyle x ^ {*}}$ остается фиксированным. Это непосредственно следует из приведенного выше результата и того факта, что коэффициент регрессии, относящийся к ${displaystyle y_ {t}}$ К фактически наблюдаемым ${displaystyle x_ {t}}$ ′ S в простой линейной регрессии определяется выражением

{displaystyle eta _ {x} = {frac {operatorname {Cov} [, x_ {t}, y_ {t},]} {operatorname {Var} [, x_ {t},]}}.}

Именно этот коэффициент, а не ${displaystyle eta}$ , что потребовалось бы для построения предиктора ${displaystyle y}$ на основе наблюдаемых ${displaystyle x}$ который подвержен шуму.

Можно утверждать, что почти все существующие наборы данных содержат ошибки разной природы и величины, поэтому систематическая ошибка ослабления встречается очень часто (хотя при многомерной регрессии направление систематической ошибки неоднозначно.^[7]). Джерри Хаусман видит в этом железный закон эконометрики: «Величина оценки обычно меньше ожидаемой».^[8]

Технические характеристики

Обычно модели ошибок измерения описываются с помощью скрытые переменные подход. Если ${displaystyle y}$ переменная ответа и ${displaystyle x}$ наблюдаемые значения регрессоров, тогда предполагается, что существуют некоторые скрытые переменные ${displaystyle y ^ {*}}$ и ${displaystyle x ^ {*}}$ которые соответствуют «истинным» моделям функциональные отношения ${displaystyle g (cdot)}$ , и такие, что наблюдаемые величины являются их зашумленными наблюдениями:

{displaystyle {egin {case} y ^ {*} = g (x ^ {*} !, w, |, heta), y = y ^ {*} + varepsilon, x = x ^ {*} + eta , конец {case}}}

куда ${displaystyle heta}$ модель параметр и ${displaystyle w}$ это те регрессоры, которые считаются безошибочными (например, когда линейная регрессия содержит точку пересечения, регрессор, который соответствует константе, безусловно, не имеет «ошибок измерения»). В зависимости от спецификации эти безошибочные регрессоры могут или не могут рассматриваться отдельно; в последнем случае просто предполагается, что соответствующие элементы в матрице дисперсии ${displaystyle eta}$ ноль.

Переменные ${displaystyle y}$ , ${displaystyle x}$ , ${displaystyle w}$ все наблюдаемый, что означает, что статистик обладает набор данных из ${displaystyle n}$ статистические единицы ${displaystyle left {y_ {i}, x_ {i}, w_ {i} ight} _ {i = 1, dots, n}}$ которые следуют за процесс генерации данных описано выше; скрытые переменные ${displaystyle x ^ {*}}$ , ${displaystyle y ^ {*}}$ , ${displaystyle varepsilon}$ , и ${displaystyle eta}$ однако не наблюдаются.

Эта спецификация не охватывает все существующие модели ошибок в переменных. Например в некоторых из них работают ${displaystyle g (cdot)}$ может быть непараметрический или полупараметрический. Другие подходы моделируют отношения между ${displaystyle y ^ {*}}$ и ${displaystyle x ^ {*}}$ как распределительные, а не функциональные, то есть они предполагают, что ${displaystyle y ^ {*}}$ условно на ${displaystyle x ^ {*}}$ следует определенному (обычно параметрическому) распределению.

Терминология и предположения

Наблюдаемая переменная ${displaystyle x}$ можно назвать манифест, индикатор, или же доверенное лицо Переменная.
Незаметная переменная ${displaystyle x ^ {*}}$ можно назвать скрытый или же истинный Переменная. Его можно рассматривать либо как неизвестную константу (в этом случае модель называется функциональная модель), либо как случайная величина (соответственно структурная модель).^[9]
Связь между ошибкой измерения ${displaystyle eta}$ $эта$ и скрытая переменная ${displaystyle x ^ {*}}$ $х ^ {*}$ можно моделировать разными способами:
- Классические ошибки: ${displaystyle eta perp x ^ {*}}$ ошибки независимый скрытой переменной. Это наиболее распространенное предположение, оно подразумевает, что ошибки вносятся измерительным устройством и их величина не зависит от измеряемого значения.
- Средняя независимость: ${displaystyle operatorname {E} [eta | x ^ {*}], =, 0,}$ ошибки равны нулю в среднем для каждого значения скрытого регрессора. Это менее ограничительное предположение, чем классическое,^[10] так как это позволяет наличие гетероскедастичность или другие эффекты в ошибках измерения.
- Ошибки Берксона: ${displaystyle eta, perp, x,}$ ошибки не зависят от наблюдаемый регрессор Икс. Это предположение имеет очень ограниченную применимость. Один из примеров - ошибки округления: например, если у человека возраст* это непрерывная случайная величина, тогда как наблюдаемые возраст усекается до следующего наименьшего целого числа, тогда ошибка усечения приблизительно не зависит от наблюдаемого возраст. Другая возможность связана с экспериментом с фиксированным планом: например, если ученый решает провести измерение в определенный заранее определенный момент времени. ${displaystyle x}$ скажи на ${displaystyle x = 10s}$ , то реальное измерение может происходить при другом значении ${displaystyle x ^ {*}}$ (например, из-за конечного времени реакции), и такая ошибка измерения обычно не зависит от «наблюдаемого» значения регрессора.
- Ошибки неправильной классификации: специальный случай, используемый для фиктивные регрессоры. Если ${displaystyle x ^ {*}}$ является индикатором определенного события или состояния (например, лицо мужского / женского пола, какое-либо лечение было предоставлено / нет и т. д.), то ошибка измерения в таком регрессоре будет соответствовать неправильной классификации, аналогичной ошибки типа I и типа II в статистическом тестировании. В этом случае ошибка ${displaystyle eta}$ может принимать только 3 возможных значения, а его распределение зависит от ${displaystyle x ^ {*}}$ моделируется двумя параметрами: ${displaystyle alpha = operatorname {Pr} [eta = -1 | x ^ {*} = 1]}$ , и ${displaystyle eta = имя оператора {Pr} [eta = 1 | x ^ {*} = 0]}$ . Необходимым условием идентификации является то, что ${displaystyle alpha + eta <1}$ , то есть ошибочная классификация не должна происходить "слишком часто". (Эту идею можно обобщить на дискретные переменные с более чем двумя возможными значениями.)

Линейная модель

Сначала были изучены линейные модели ошибок в переменных, вероятно, потому что линейные модели были так широко распространены и легче нелинейных. В отличие от стандартных наименьших квадратов регрессии (OLS), расширение ошибок в регрессии переменных (EiV) от простого к многомерному случаю непросто.

Простая линейная модель

Простая линейная модель ошибок в переменных уже была представлена в разделе «мотивация»:

{displaystyle {egin {case} y_ {t} = alpha + eta x_ {t} ^ {*} + varepsilon _ {t}, x_ {t} = x_ {t} ^ {*} + eta _ {t} , конец {case}}}

где все переменные скаляр. Здесь α и β - интересующие параметры, тогда как σ_ε и σ_η- стандартные отклонения членов погрешности - мешающие параметры. «Настоящий» регрессор Икс* рассматривается как случайная величина (структурный модель), независимо от погрешности измерения η (классический предположение).

Эта модель идентифицируемый в двух случаях: (1) либо скрытый регрессор Икс* является нет нормально распределенный, (2) или Икс* имеет нормальное распределение, но ни один ε_т ни η_т делятся на нормальное распределение.^[11] То есть параметры α, β можно последовательно оценить на основе набора данных ${displaystyle scriptstyle (x_ {t} ,, y_ {t}) _ {t = 1} ^ {T}}$ без дополнительной информации, при условии, что скрытый регрессор не является гауссовским.

Прежде чем этот результат идентифицируемости был установлен, статистики пытались применить максимальная вероятность метод, предполагая, что все переменные нормальные, а затем пришел к выводу, что модель не идентифицирована. Предлагаемое средство правовой защиты заключалось в предполагать что некоторые параметры модели известны или могут быть оценены из внешнего источника. К таким методам оценки относятся:^[12]

Регрессия Деминга - предполагает, что соотношение δ = σ²_ε/σ²_η известен. Это может быть уместно, например, когда ошибки в у и Икс оба вызваны измерениями, и точность измерительных устройств или процедур известна. Случай, когда δ = 1 также известен как ортогональная регрессия.
Регресс с известными коэффициент надежности λ = σ²_∗/ ( σ²_η + σ²_∗), куда σ²_∗ - дисперсия скрытого регрессора. Такой подход может быть применим, например, когда доступны повторяющиеся измерения одного и того же устройства, или когда коэффициент надежности известен из независимого исследования. В этом случае последовательная оценка наклона равна оценке наименьших квадратов, деленной на λ.
Регрессия с известными σ²_η может возникнуть, когда источник ошибок в Икс's известно, и их дисперсия может быть рассчитана. Это может включать ошибки округления или ошибки, вносимые измерительным устройством. Когда σ²_η известно, что коэффициент надежности можно вычислить как λ = ( σ²_Икс − σ²_η) / σ²_Икс и сведем проблему к предыдущему случаю.

Более новые методы оценки, которые не предполагают знания некоторых параметров модели, включают:

Метод моментов - GMM оценка на основе соединения третьего (или более высокого) порядка кумулянты наблюдаемых переменных. Коэффициент наклона можно оценить по формуле ^[13]
${displaystyle {hat {eta}} = {frac {{hat {K}} (n_ {1}, n_ {2} +1)} {{hat {K}} (n_ {1} + 1, n_ {2 })}}, четверка n_ {1}, n_ {2}> 0,}$
куда (п₁,п₂) таковы, что K(п₁+1,п₂) - сустав кумулянт из (Икс,у) - не ноль. В случае, когда третий центральный момент скрытого регрессора Икс* отлична от нуля, формула сводится к
${displaystyle {hat {eta}} = {frac {{frac {1} {T}} sum _ {t = 1} ^ {T} (x_ {t} - {ar {x}}) (y_ {t}) - {ar {y}}) ^ {2}} {{frac {1} {T}} sum _ {t = 1} ^ {T} (x_ {t} - {ar {x}}) ^ {2 } (y_ {t} - {ar {y}})}}.}$
Инструментальные переменные - регрессия, требующая некоторых дополнительных переменных данных z, называется инструменты, были доступны. Эти переменные не должны коррелировать с ошибками в уравнении для зависимой переменной (действительный), и они также должны быть коррелированы (соответствующий) с истинными регрессорами Икс*. Если такие переменные могут быть найдены, то оценка принимает вид
${displaystyle {hat {eta}} = {frac {{frac {1} {T}} sum _ {t = 1} ^ {T} (z_ {t} - {ar {z}}) (y_ {t}) - {ar {y}})} {{frac {1} {T}} sum _ {t = 1} ^ {T} (z_ {t} - {ar {z}}) (x_ {t} - { ar {x}})}}.}$

Многопараметрическая линейная модель

Многопараметрическая модель выглядит точно так же, как простая линейная модель, только на этот раз β, η_т, Икс_т и Икс*_т находятся k ×1 векторов.

{displaystyle {egin {case} y_ {t} = alpha + eta 'x_ {t} ^ {*} + varepsilon _ {t}, x_ {t} = x_ {t} ^ {*} + eta _ {t } .end {case}}}

В случае, когда (ε_т,η_т) вместе нормально, параметр β не идентифицируется тогда и только тогда, когда существует неособаяк × к блочная матрица [а А] (куда а это k ×1 вектор) такая, что a′x * распространяется нормально и независимо отA′x *. В случае, когда ε_т, η_t1,..., η_тк взаимно независимы, параметрβ не идентифицируется тогда и только тогда, когда в дополнение к указанным выше условиям некоторые ошибки могут быть записаны как сумма двух независимых переменных, одна из которых является нормальной.^[14]

Некоторые из методов оценивания многомерных линейных моделей:

Всего наименьших квадратов является продолжением Регрессия Деминга к многопараметрической настройке. Когда все k+1 компоненты вектора (ε,η) имеют равные дисперсии и независимы, это эквивалентно запуску ортогональной регрессии у на векторе Икс - то есть регрессия, которая минимизирует сумму квадратов расстояний между точками (у_т,Икс_т) и k-мерная гиперплоскость "наилучшего соответствия".
В метод моментов оценщик ^[15] можно построить на основе моментных условий E [z_т·(у_т − α − β'x_т)] = 0, где (5k+3) -мерный вектор инструментов z_т определяется как
${displaystyle {egin {align} & z_ {t} = left (1 z_ {t1} 'z_ {t2}' z_ {t3} 'z_ {t4}' z_ {t5} 'z_ {t6}' z_ {t7} ') ight) ', quad {ext {где}} & z_ {t1} = x_ {t} circ x_ {t} & z_ {t2} = x_ {t} y_ {t} & z_ {t3} = y_ {t} ^ {2} & z_ {t4} = x_ {t} circ x_ {t} circ x_ {t} -3 {ig (} имя оператора {E} [x_ {t} x_ {t} '] circ I_ {k} {ig)} x_ {t} & z_ {t5} = x_ {t} circ x_ {t} y_ {t} -2 {ig (} имя оператора {E} [y_ {t} x_ {t} '] circ I_ {k} {ig)} x_ {t} -y_ {t} {ig (} имя оператора {E} [x_ {t} x_ {t} '] circ I_ {k} {ig)} iota _ {k} & z_ {t6} = x_ {t} y_ {t} ^ {2} -имя оператора {E} [y_ {t} ^ {2}] x_ {t} -2y_ {t} имя оператора {E} [x_ {t} y_ {t}] & z_ {t7} = y_ {t} ^ {3} -3y_ {t} имя оператора {E} [y_ {t} ^ {2}] конец {выровнено}}}$
куда ${displaystyle circ}$ обозначает Произведение Адамара матриц и переменных Икс_т, у_т были предварительно разорваны. Авторы метода предлагают использовать модифицированную оценку IV Фуллера.^[16]
При необходимости этот метод может быть расширен для использования моментов выше третьего порядка, а также для учета переменных, измеренных без ошибок.^[17]
В инструментальные переменные подход требует поиска дополнительных переменных данных z_т который будет служить инструменты для неверно измеренных регрессоров Икс_т. Этот метод является наиболее простым с точки зрения реализации, однако его недостаток в том, что он требует сбора дополнительных данных, что может быть дорогостоящим или даже невозможным. Когда инструменты могут быть найдены, оценщик принимает стандартную форму
${displaystyle {hat {eta}} = {ig (} X'Z (Z'Z) ^ {- 1} Z'X {ig)} ^ {- 1} X'Z (Z'Z) ^ {- 1 } Z'y.}$

Нелинейные модели

Общая модель нелинейных ошибок измерения принимает форму

{displaystyle {egin {case} y_ {t} = g (x_ {t} ^ {*}) + varepsilon _ {t}, x_ {t} = x_ {t} ^ {*} + eta _ {t}) .end {case}}}

Здесь функция грамм может быть параметрическим или непараметрическим. Когда функция грамм параметрический, он будет записан как г (х *, β).

Для общего векторного регрессора Икс* условия для модели идентифицируемость не известны. Однако в случае скалярной Икс* модель идентифицирована, если функция грамм имеет "логарифмическую" форму ^[18]

{displaystyle g (x ^ {*}) = a + bln {ig (} e ^ {cx ^ {*}} + d {ig)}}

и скрытый регрессор Икс* имеет плотность

{displaystyle f_ {x ^ {*}} (x) = {egin {cases} Ae ^ {- Be ^ {Cx} + CDx} (e ^ {Cx} + E) ^ {- F}, & {ext { if}} d> 0 Ae ^ {- Bx ^ {2} + Cx} & {ext {if}} d = 0end {case}}}

где константы A, B, C, D, E, F может зависеть от а, б, в, г.

Несмотря на этот оптимистичный результат, в настоящее время не существует методов оценки нелинейных моделей ошибок в переменных без какой-либо посторонней информации. Однако есть несколько методов, которые используют некоторые дополнительные данные: инструментальные переменные или повторные наблюдения.

Методы инструментальных переменных

Метод моделирования моментов Ньюи^[19] для параметрических моделей - требуется дополнительный набор наблюдаемых переменные-предикторы z_т, так что истинный регрессор может быть выражен как
${displaystyle x_ {t} ^ {*} = pi _ {0} 'z_ {t} + sigma _ {0} zeta _ {t},}$
куда π₀ и σ₀ являются (неизвестными) постоянными матрицами, и ζ_т ⊥ z_т. Коэффициент π₀ можно оценить с помощью стандартных наименьших квадратов регресс Икс на z. Распределение ζ_т неизвестен, однако мы можем смоделировать его как принадлежащий к гибкому параметрическому семейству - Серия Эджворта:
${displaystyle f_ {zeta} (v;, гамма) = phi (v), сумма extstyle _ {j = 1} ^ {J}! gamma _ {j} v ^ {j}}$
куда ϕ это стандартный нормальный распределение.
Смоделированные моменты могут быть вычислены с помощью выборка по важности алгоритм: сначала мы генерируем несколько случайных величин {v_ts ~ ϕ, s = 1,…,S, т = 1,…,Т} из стандартного нормального распределения, то вычисляем моменты при т-е наблюдение как
${displaystyle m_ {t} (heta) = A (z_ {t}) {frac {1} {S}} sum _ {s = 1} ^ {S} H (x_ {t}, y_ {t}, z_ {t}, v_ {ts}; heta) sum _ {j = 1} ^ {J}! gamma _ {j} v_ {ts} ^ {j},}$
куда θ = (β, σ, γ), А это просто некоторая функция инструментальных переменных z, и ЧАС - двухкомпонентный вектор моментов
${displaystyle {egin {align} & H_ {1} (x_ {t}, y_ {t}, z_ {t}, v_ {ts}; heta) = y_ {t} -g ({hat {pi}} 'z_ {t} + sigma v_ {ts}, eta), & H_ {2} (x_ {t}, y_ {t}, z_ {t}, v_ {ts}; heta) = z_ {t} y_ {t} - ({hat {pi}} 'z_ {t} + sigma v_ {ts}) g ({hat {pi}}' z_ {t} + sigma v_ {ts}, eta) end {выровнено}}}$
С моментными функциями м_т можно применить стандарт GMM метод оценки неизвестного параметра θ.

Повторные наблюдения

В этом подходе два (а может и больше) повторных наблюдения регрессора Икс* доступны. Оба наблюдения содержат собственные ошибки измерения, однако эти ошибки должны быть независимыми:

{displaystyle {egin {cases} x_ {1t} = x_ {t} ^ {*} + eta _ {1t}, x_ {2t} = x_ {t} ^ {*} + eta _ {2t}, end { случаи}}}

куда Икс* ⊥ η₁ ⊥ η₂. Переменные η₁, η₂ не обязательно должны быть одинаково распределены (хотя, если они есть, эффективность оценщика может быть немного улучшена). Только с этими двумя наблюдениями можно согласованно оценить функцию плотности Икс* с использованием Котлярского деконволюция техника.^[20]

Метод условной плотности Ли для параметрических моделей.^[21] Уравнение регрессии может быть записано в терминах наблюдаемых переменных как
${displaystyle operatorname {E} [, y_ {t} | x_ {t},] = int g (x_ {t} ^ {*}, eta) f_ {x ^ {*} | x} (x_ {t} ^ {*} | x_ {t}) dx_ {t} ^ {*},}$
где можно было бы вычислить интеграл, если бы мы знали условную функцию плотности ƒ_{х * | х}. Если эта функция может быть известна или оценена, тогда проблема превратится в стандартную нелинейную регрессию, которую можно оценить, например, с помощью NLLS метод.
Предполагая для простоты, что η₁, η₂ одинаково распределены, эта условная плотность может быть вычислена как
${displaystyle {hat {f}} _ {x ^ {*} | x} (x ^ {*} | x) = {frac {{hat {f}} _ {x ^ {*}} (x ^ {* })} {{hat {f}} _ {x} (x)}} prod _ {j = 1} ^ {k} {hat {f}} _ {eta _ {j}} {ig (} x_ { j} -x_ {j} ^ {*} {ig)},}$
где с небольшим нарушением обозначений Икс_j обозначает j-й компонент вектора.
Все плотности в этой формуле можно оценить с помощью обращения эмпирического характеристические функции. Особенно,
${displaystyle {egin {align} & {hat {varphi}} _ {eta _ {j}} (v) = {frac {{hat {varphi}}} _ {x_ {j}} (v, 0)} {{ шляпа {varphi}} _ {x_ {j} ^ {*}} (v)}}, quad {ext {where}} {hat {varphi}} _ {x_ {j}} (v_ {1}, v_ { 2}) = {frac {1} {T}} sum _ {t = 1} ^ {T} e ^ {iv_ {1} x_ {1tj} + iv_ {2} x_ {2tj}}, {hat { varphi}} _ {x_ {j} ^ {*}} (v) = exp int _ {0} ^ {v} {frac {partial {hat {varphi}} _ {x_ {j}} (0, v_ { 2}) / partial v_ {1}} {{hat {varphi}} _ {x_ {j}} (0, v_ {2})}} dv_ {2}, & {hat {varphi}} _ {x } (u) = {frac {1} {2T}} sum _ {t = 1} ^ {T} {Big (} e ^ {iu'x_ {1t}} + e ^ {iu'x_ {2t}} {Big)}, quad {hat {varphi}} _ {x ^ {*}} (u) = {frac {{hat {varphi}} _ {x} (u)} {prod _ {j = 1} ^ {k} {hat {varphi}} _ {eta _ {j}} (u_ {j})}}. конец {выровнено}}}$
Чтобы инвертировать эти характеристические функции, необходимо применить обратное преобразование Фурье с параметром обрезки C необходимо для обеспечения численной устойчивости. Например:
${displaystyle {hat {f}} _ {x} (x) = {frac {1} {(2pi) ^ {k}}} int _ {- C} ^ {C} cdots int _ {- C} ^ { C} e ^ {- iu'x} {hat {varphi}} _ {x} (u) du.}$
Оценщик Шеннаха для параметрической линейной по параметрам нелинейной модели в переменных.^[22] Это модель вида
${displaystyle {egin {case} y_ {t} = extstyle sum _ {j = 1} ^ {k} eta _ {j} g_ {j} (x_ {t} ^ {*}) + sum _ {j = 1 } ^ {ell} eta _ {k + j} w_ {jt} + varepsilon _ {t}, x_ {1t} = x_ {t} ^ {*} + eta _ {1t}, x_ {2t} = x_ {t} ^ {*} + eta _ {2t}, конец {случаи}}}$
куда ш_т представляет переменные, измеренные без ошибок. Регрессор Икс* здесь - скаляр (метод можно распространить на случай векторных Икс* также).
Если бы не ошибки измерения, это было бы стандартным линейная модель с оценщиком
${displaystyle {hat {eta}} = {ig (} {hat {operatorname {E}}} [, xi _ {t} xi _ {t} ',] {ig)} ^ {- 1} {hat {operatorname {E}}} [, xi _ {t} y_ {t},],}$
куда
${displaystyle xi _ {t} '= (g_ {1} (x_ {t} ^ {*}), cdots, g_ {k} (x_ {t} ^ {*}), w_ {1, t}, cdots) , w_ {l, t}).}$
Оказывается, все ожидаемые значения в этой формуле можно оценить с помощью одного и того же трюка с деконволюцией. В частности, для типичной наблюдаемой ш_т (который может быть 1, ш_1т, …, ш_{ℓ т}, или же у_т) и некоторая функция час (который может представлять любой грамм_j или же грамм_яграмм_j) у нас есть
${displaystyle operatorname {E} [, w_ {t} h (x_ {t} ^ {*}),] = {frac {1} {2pi}} int _ {- infty} ^ {infty} varphi _ {h} (-u) psi _ {w} (u) du,}$
куда φ_час это преобразование Фурье из час(Икс*), но с использованием того же соглашения, что и для характеристические функции,
${displaystyle varphi _ {h} (u) = int e ^ {iux} h (x) dx}$ ,
и
${displaystyle psi _ {w} (u) = operatorname {E} [, w_ {t} e ^ {iux ^ {*}},] = {frac {operatorname {E} [w_ {t} e ^ {iux_ { 1t}}]} {имя оператора {E} [e ^ {iux_ {1t}}]}} exp int _ {0} ^ {u} i {frac {имя оператора {E} [x_ {2t} e ^ {ivx_ { 1t}}]} {имя оператора {E} [e ^ {ivx_ {1t}}]}} dv}$
Полученная оценка ${displaystyle scriptstyle {hat {eta}}}$ непротиворечиво и асимптотически нормально.
Оценщик Шеннаха для непараметрической модели.^[23] Стандарт Оценка Надарая – Ватсона для непараметрической модели принимает вид
${displaystyle {hat {g}} (x) = {frac {{hat {operatorname {E}}} [, y_ {t} K_ {h} (x_ {t} ^ {*} - x),]} { {hat {имя оператора {E}}} [, K_ {h} (x_ {t} ^ {*} - x),]}},}$
для подходящего выбора ядро K и пропускная способность час. Оба ожидания здесь можно оценить с помощью того же метода, что и в предыдущем методе.

дальнейшее чтение

Догерти, Кристофер (2011). «Стохастические регрессоры и ошибки измерения». Введение в эконометрику (Четвертое изд.). Издательство Оксфордского университета. С. 300–330. ISBN 978-0-19-956708-9.
Кмента Ян (1986). «Оценка с недостаточными данными». Элементы эконометрики (Второе изд.). Нью-Йорк: Макмиллан. стр.346–391. ISBN 978-0-02-365070-3.
Шеннах, Сюзанна. «Погрешность измерения в нелинейных моделях - обзор». Серия рабочих документов Cemmap. Cemmap. Получено 6 февраля, 2018.

внешняя ссылка

[1] Кэрролл, Раймонд Дж .; Рупперт, Дэвид; Стефански, Леонард А .; Crainiceanu, Ciprian (2006). Погрешность измерения в нелинейных моделях: современная перспектива (Второе изд.). ISBN 978-1-58488-633-4.

[2] Шеннах, Сюзанна (2016). «Последние достижения в литературе по ошибкам измерений». Ежегодный обзор экономики. 8 (1): 341–377. Дои:10.1146 / аннурьев-экономика-080315-015058.

[3] Коул, Хира; Песня, Weixing (2008). «Проверка регрессионной модели с ошибками измерения Berkson». Журнал статистического планирования и вывода. 138 (6): 1615–1628. Дои:10.1016 / j.jspi.2007.05.048.

[4] Грилихес, Цви; Рингстад, Видар (1970). «Ошибки в переменных в нелинейных контекстах». Econometrica. 38 (2): 368–370. Дои:10.2307/1913020. JSTOR 1913020.

[5] Чешер, Эндрю (1991). «Влияние ошибки измерения». Биометрика. 78 (3): 451–462. Дои:10.1093 / biomet / 78.3.451. JSTOR 2337015.

[6] Грин, Уильям Х. (2003). Эконометрический анализ (5-е изд.). Нью-Джерси: Прентис-Холл. Глава 5.6.1. ISBN 978-0-13-066189-0.

[7] Wansbeek, T .; Мейер, Э. (2000). «Ошибка измерения и скрытые переменные». В Балтаги, Б. Х. (ред.). Компаньон теоретической эконометрики. Блэквелл. С. 162–179. Дои:10.1111 / b.9781405106764.2003.00013.x. ISBN 9781405106764.

[8] Хаусман, Джерри А. (2001). «Неправильно измеренные переменные в эконометрическом анализе: проблемы справа и проблемы слева». Журнал экономических перспектив. 15 (4): 57–67 [стр. 58]. Дои:10.1257 / jep.15.4.57. JSTOR 2696516.

[9] Фуллер, Уэйн А. (1987). Модели ошибок измерения. Джон Вили и сыновья. п. 2. ISBN 978-0-471-86187-4.

[10] Хаяси, Фумио (2000). Эконометрика. Издательство Принстонского университета. С. 7–8. ISBN 978-1400823833.

[11] Рейерсол, Олав (1950). «Идентифицируемость линейной связи между переменными, подверженными ошибкам». Econometrica. 18 (4): 375–389 [стр. 383]. Дои:10.2307/1907835. JSTOR 1907835. Несколько более ограничительный результат был установлен ранее Гири, Р. К. (1942). «Внутренние отношения между случайными величинами». Труды Королевской ирландской академии. 47: 63–76. JSTOR 20488436. Он показал, что при дополнительном предположении, что (ε, η) в совокупности нормальны, модель не идентифицируется тогда и только тогда, когда Икс*s нормальные.

[12] Фуллер, Уэйн А. (1987). «Единственная пояснительная переменная». Модели ошибок измерения. Джон Вили и сыновья. С. 1–99. ISBN 978-0-471-86187-4.

[13] Пал, Маноранджан (1980). «Последовательные оценки моментов коэффициентов регрессии при наличии ошибок в переменных». Журнал эконометрики. 14 (3): 349–364 [стр. 360–1]. Дои:10.1016/0304-4076(80)90032-9.CS1 maint: ref = harv (связь)

[14] Бен-Моше, Дан (2020). «Выявление линейных регрессий с ошибками по всем переменным». Эконометрическая теория: 1–31. Дои:10.1017 / S0266466620000250.

[15] Dagenais, Marcel G .; Дагене, Дениз Л. (1997). «Высшие оценки момента для моделей линейной регрессии с ошибками в переменных». Журнал эконометрики. 76 (1–2): 193–221. CiteSeerX 10.1.1.669.8286. Дои:10.1016/0304-4076(95)01789-5. В более ранней статье Приятель (1980) рассматривался более простой случай, когда все компоненты вектора (ε, η) независимы и симметрично распределены.

[16] Фуллер, Уэйн А. (1987). Модели ошибок измерения. Джон Вили и сыновья. п. 184. ISBN 978-0-471-86187-4.

[17] Эриксон, Тимоти; Уитед, Тони М. (2002). «Двухшаговая GMM-оценка модели ошибок в переменных с использованием моментов высокого порядка». Эконометрическая теория. 18 (3): 776–799. Дои:10.1017 / s0266466602183101. JSTOR 3533649.

[18] Шеннах, С.; Hu, Y .; Левбель А. (2007). «Непараметрическая идентификация классической модели ошибок в переменных без дополнительной информации». Рабочий документ.

[19] Ньюи, Уитни К. (2001). «Гибкая имитационная оценка момента нелинейной модели погрешностей переменных». Обзор экономики и статистики. 83 (4): 616–627. Дои:10.1162/003465301753237704. HDL:1721.1/63613. JSTOR 3211757.

[20] Ли, Тонг; Вуонг, Куанг (1998). «Непараметрическая оценка модели погрешности измерения с использованием нескольких показателей». Журнал многомерного анализа. 65 (2): 139–165. Дои:10.1006 / jmva.1998.1741.

[21] Ли, Тонг (2002). «Робастное и непротиворечивое оценивание нелинейных моделей ошибок в переменных». Журнал эконометрики. 110 (1): 1–26. Дои:10.1016 / S0304-4076 (02) 00120-3.

[22] Шеннах, Сюзанна М. (2004). «Оценка нелинейных моделей с погрешностью измерения». Econometrica. 72 (1): 33–75. Дои:10.1111 / j.1468-0262.2004.00477.x. JSTOR 3598849.

[23] Шеннах, Сюзанна М. (2004). «Непараметрическая регрессия при наличии ошибки измерения». Эконометрическая теория. 20 (6): 1046–1093. Дои:10.1017 / S0266466604206028.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]