Хорошая статистика - Well-behaved statistic

Хотя термин хорошая статистика часто используется в научной литературе примерно так же, как хорошо воспитанный в математика (то есть означать "непатологический "^[1]^[2]) ему также может быть придано точное математическое значение, причем разными способами. В первом случае значение этого термина будет варьироваться от контекста к контексту. В последнем случае математические условия могут использоваться для получения классов комбинаций распределений со статистикой, которые хорошо воспитанный во всех смыслах.

Первое определение: В отклонение хорошо воспитанного статистический оценщик конечно и одно условие на его иметь в виду это то, что это дифференцируемый в оцениваемом параметре.^[3]

Второе определение: Статистика монотонна, четко определена и локально достаточна.^[4]

Условия для статистики правильного поведения: первое определение

Более формально условия можно выразить таким образом. ${ textstyle T}$ это статистика для ${ textstyle theta}$ это функция образца, ${ textstyle {X} _ {1}, ..., {X} _ {n}}$ . За ${ textstyle T}$ быть хорошо воспитанный мы требуем:

${ textstyle {Var} _ { theta} left [T left ({X} _ {1}, ..., {X} _ {n} right) right] < infty quad forall quad theta in Theta}$ : Состояние 1

${ textstyle {E} _ { theta} left (T right)}$ дифференцируемый в ${ textstyle theta quad forall quad theta in Theta}$ , а производная удовлетворяет:

${ textstyle { frac {d} {d theta}} int {T left ({X} _ {1}, ..., {X} _ {n} right)} prod _ {i = 1} ^ {n} {f left ({x} _ {i} | theta right)} d {x} _ {1} ... d {x} _ {n} = int {T left ({X} _ {1}, ..., {X} _ {n} right) left [{ frac { partial} { partial theta}} prod _ {i = 1} ^ {n} {f left ({x} _ {i} | theta right)} right]} d {x} _ {1} ... d {x} _ {n}}$ : Условие 2

Условия для статистики правильного поведения: второе определение

Для вывода закона распределения параметра Т, совместим с ${ displaystyle { boldsymbol {x}}}$ , статистика должна соответствовать некоторым техническим характеристикам. А именно статистика s как говорят хорошо воспитанный если он удовлетворяет следующим трем утверждениям:

монотонность. Равномерно монотонная связь существует между s и ? для любых фиксированных семян ${ Displaystyle {z_ {1}, ldots, z_ {m} }}$ - чтобы иметь единственное решение (1);
четко определенный. На каждом наблюдаемом s статистика четко определена для каждого значения?, т.е. для любой выборочной спецификации ${ displaystyle {x_ {1}, ldots, x_ {m} } in { mathfrak {X}} ^ {m}}$ такой, что ${ Displaystyle rho (x_ {1}, ldots, x_ {m}) = s}$ имеет плотность вероятности, отличную от 0 - чтобы избежать рассмотрения несюръективного отображения из ${ displaystyle { mathfrak {X}} ^ {m}}$ к ${ Displaystyle { mathfrak {S}}}$ , т.е. связывая через ${ displaystyle s}$ к образцу ${ Displaystyle {x_ {1}, ldots, x_ {m} }}$ а? который не смог сгенерировать сам образец;
местная достаточность. ${ displaystyle {{ breve { theta}} _ {1}, ldots, { breve { theta}} _ {N} }}$ составляет истинную выборку T для наблюдаемых s, так что каждому выбранному значению можно отнести одно и то же распределение вероятностей. Сейчас же, ${ displaystyle { breve { theta}} _ {j} = h ^ {- 1} (s, { breve {z}} _ {1} ^ {j}, ldots, { breve {z}) } _ {m} ^ {j})}$ является решением (1) с затравкой ${ displaystyle {{ breve {z}} _ {1} ^ {j}, ldots, { breve {z}} _ {m} ^ {j} }}$ . Поскольку семена распределены поровну, единственное предостережение исходит от их независимости или, наоборот, от их зависимости от? сам. Эта проверка может быть ограничена семенами, вовлеченными s, т.е. этого недостатка можно избежать, потребовав, чтобы распределение ${ Displaystyle {Z_ {1}, ldots, Z_ {m} | S = s }}$ не зависит от?. Простой способ проверить это свойство - сопоставить спецификации начального числа с ${ displaystyle x_ {i}}$ s спецификации. Отображение конечно зависит от?, Но распределение ${ Displaystyle {X_ {1}, ldots, X_ {m} | S = s }}$ не будет зависеть от?, если указанная выше начальная независимость выполняется - условие, которое выглядит как местный достаточность статистики S.

Остальная часть данной статьи в основном посвящена контексту сбор данных процедуры, применяемые к статистические выводы и, в частности, к группе вычислительно интенсивных процедур, которые были названы алгоритмический вывод.

Алгоритмический вывод

В алгоритмический вывод, наиболее актуальным свойством статистики является шаг поворота, который позволяет перенести вероятностные соображения из выборочного распределения в распределение параметров, представляющих распределение населения таким образом, чтобы вывод из этого статистические выводы шаг совместим с фактически наблюдаемым образцом.

По умолчанию заглавные буквы (например, U, Икс) будем обозначать случайные величины и строчные буквы (ты, Икс) их соответствующие реализации и готическими буквами (такими как ${ displaystyle { mathfrak {U}}, { mathfrak {X}}}$ ) область, в которой переменная принимает спецификации. Лицом к образцу ${ displaystyle { boldsymbol {x}} = {x_ {1}, ldots, x_ {m} }}$ , учитывая механизм отбора проб ${ displaystyle (г _ { theta}, Z)}$ , с ${ displaystyle theta}$ скаляр, для случайной величины Икс, у нас есть

{ displaystyle { boldsymbol {x}} = {g _ { theta} (z_ {1}), ldots, g _ { theta} (z_ {m}) }.}

Механизм отбора проб ${ displaystyle (г _ { theta}, { boldsymbol {z}})}$ , статистики s, как функция ? из ${ Displaystyle {x_ {1}, ldots, x_ {m} }}$ со спецификациями в ${ Displaystyle { mathfrak {S}}}$ , имеет объясняющую функцию, определяемую основным уравнением:

{ Displaystyle s = rho (x_ {1}, ldots, x_ {m}) = rho (g _ { theta} (z_ {1}), ldots, g _ { theta} (z_ {m} )) = h ( theta, z_ {1}, ldots, z_ {m}), qquad qquad qquad (1)}

для подходящих семян ${ displaystyle { boldsymbol {z}} = {z_ {1}, ldots, z_ {m} }}$ а параметр?

Пример

Например, как для Распределение Бернулли с параметром п и экспоненциальное распределение с параметром? статистика ${ Displaystyle сумма _ {я = 1} ^ {м} х_ {я}}$ ведет себя хорошо. Удовлетворение трех вышеупомянутых свойств несложно, если посмотреть на обе объясняющие функции: ${ displaystyle g_ {p} (u) = 1}$ если ${ displaystyle u leq p}$ , 0 иначе в случае случайной величины Бернулли, и ${ displaystyle g _ { lambda} (u) = - log u / lambda}$ для экспоненциальной случайной величины, приводящей к статистике

{ displaystyle s_ {p} = sum _ {i = 1} ^ {m} I _ {[0, p]} (u_ {i})}

и

{ displaystyle s _ { lambda} = - { frac {1} { lambda}} sum _ {i = 1} ^ {m} log u_ {i}.}

Наоборот, в случае Икс после непрерывное равномерное распределение на ${ displaystyle [0, A]}$ та же статистика не соответствует второму требованию. Например, наблюдаемый образец ${ Displaystyle {с, с / 2, с / 3 }}$ дает ${ displaystyle s '_ {A} = 11 / 6c}$ . Но объясняющая функция этого Икс является ${ displaystyle g_ {a} (u) = ua}$ . Следовательно, главное уравнение ${ displaystyle s_ {A} = sum _ {i = 1} ^ {m} u_ {i} a}$ будет производить с U образец ${ displaystyle {0.8,0.8,0.8 }}$ и решение ${ displaystyle { breve {a}} = 0,76c}$ . Это противоречит наблюдаемому образцу, поскольку первое наблюдаемое значение должно быть больше правого крайнего значения Икс классифицировать. Статистика ${ Displaystyle s_ {A} = max {x_ {1}, ldots, x_ {m} }}$ в этом случае ведет себя хорошо.

Аналогично для случайной величины Икс после Распределение Парето с параметрами K и А (видеть Пример Парето для более подробной информации об этом случае),

{ displaystyle s_ {1} = sum _ {i = 1} ^ {m} log x_ {i}}

и

{ displaystyle s_ {2} = min _ {я = 1, ldots, m} {x_ {i} }}

можно использовать как общую статистику по этим параметрам.

В качестве общего утверждения, справедливого при слабых условиях, достаточная статистика хорошо себя ведут в отношении связанных параметров. В таблице ниже приведены достаточные / хорошие статистические данные для параметров некоторых из наиболее часто используемых распределений вероятностей.

Общие законы распределения вместе с соответствующей достаточной и корректной статистикой.
Распределение	Определение функции плотности	Достаточная / корректная статистика
Равномерное дискретное	${ Displaystyle е (х; п) = 1 / nI _ { {1,2, ldots, п }} (х)}$	${ displaystyle s_ {n} = max _ {i} x_ {i}}$
Бернулли	${ displaystyle f (x; p) = p ^ {x} (1-p) ^ {1-x} I _ { {0,1 }} (x)}$	${ displaystyle s_ {P} = sum _ {i = 1} ^ {m} x_ {i}}$
Биномиальный	${ Displaystyle е (х; п, р) = { бином {п} {х}} р ^ {х} (1-р) ^ {nx} I_ {0,1, ldots, n} (х) }$	${ displaystyle s_ {P} = sum _ {i = 1} ^ {m} x_ {i}}$
Геометрический	${ Displaystyle е (х; п) = п (1-р) ^ {х} I _ { {0,1, ldots }} (х)}$	${ displaystyle s_ {P} = sum _ {i = 1} ^ {m} x_ {i}}$
Пуассон	${ displaystyle f (x; mu) = mathrm {e} ^ {- mu x} mu ^ {x} / x! I _ { {0,1, ldots }} (x)}$	${ displaystyle s_ {M} = sum _ {i = 1} ^ {m} x_ {i}}$
Равномерный непрерывный	${ displaystyle f (x; a, b) = 1 / (b-a) I _ {[a, b]} (x)}$	${ displaystyle s_ {A} = min _ {i} x_ {i}; s_ {B} = max _ {i} x_ {i}}$
Отрицательная экспонента	${ Displaystyle е (х; лямбда) = лямбда mathrm {е} ^ {- лямбда х} I _ {[0, infty]} (х)}$	${ displaystyle s _ { Lambda} = sum _ {i = 1} ^ {m} x_ {i}}$
Парето	${ displaystyle f (x; a, k) = { frac {a} {k}} left ({ frac {x} {k}} right) ^ {- a-1} I _ {[k, infty]} (x)}$	${ displaystyle s_ {A} = sum _ {i = 1} ^ {m} log x_ {i}; s_ {K} = min _ {i} x_ {i}}$
Гауссовский	${ displaystyle f (x, mu, sigma) = 1 / ({ sqrt {2 pi}} sigma) mathrm {e} ^ {- (x- mu ^ {2}) / (2 sigma ^ {2})}}$	${ displaystyle s_ {M} = sum _ {i = 1} ^ {m} x_ {i}; s _ { Sigma} = { sqrt { sum _ {i = 1} ^ {m} (x_ { i} - { bar {x}}) ^ {2}}}}$
Гамма	${ Displaystyle е (Икс; р, лямбда) = лямбда / Гамма (г) ( лямбда х) ^ {г-1} mathrm {е} ^ {- лямбда х} I _ {[0, infty]} (x)}$	${ displaystyle s _ { Lambda} = sum _ {i = 1} ^ {m} x_ {i}; s_ {K} = prod _ {i = 1} ^ {m} x_ {i}}$

Хорошая статистика - Well-behaved statistic

Содержание

Условия для статистики правильного поведения: первое определение

Условия для статистики правильного поведения: второе определение

Алгоритмический вывод

Пример

Рекомендации