Направленная статистика - Directional statistics

Направленная статистика (также круговая статистика или же сферическая статистика) является субдисциплиной статистика это касается направления (единичные векторы в рп), топоры (линии через происхождение в рп) или же вращения в рп. В более общем плане направленная статистика имеет дело с наблюдениями на компактных Римановы многообразия.

Общая форма белок можно параметризовать как последовательность точек на устройстве сфера. Показаны два вида сферического гистограмма таких точек для большого набора белковых структур. Статистическая обработка таких данных относится к сфере направленной статистики.[1]

Тот факт, что 0 градусы и 360 градусов - это одинаковые углы, поэтому, например, 180 градусов не является разумным иметь в виду 2 градуса и 358 градусов, является одной иллюстрацией того, что для анализа некоторых типов данных (в данном случае угловых данных) требуются специальные статистические методы. Другие примеры данных, которые можно рассматривать как направленные, включают статистику, включающую временные периоды (например, время дня, недели, месяц, год и т. Д.), Направления по компасу, двугранные углы в молекулах, ориентациях, вращениях и так далее.

Круговые и многомерные распределения

Любой функция плотности вероятности (pdf) на линии может быть "завернутый" по окружности круга единичного радиуса.[2] То есть pdf завернутой переменной

является

Эту концепцию можно расширить до многомерного контекста путем расширения простой суммы до ряда суммы, охватывающие все измерения в пространстве функций:

куда это th евклидов базисный вектор.

В следующих разделах показаны некоторые соответствующие круговые распределения.

круговое распределение фон Мизеса

В распределение фон Мизеса представляет собой круговое распределение, которое, как и любое другое круговое распределение, можно рассматривать как обертывание определенного линейного распределения вероятностей по кругу. Основное линейное распределение вероятностей для распределения фон Мизеса математически трудноразрешимо; однако для статистических целей нет необходимости иметь дело с лежащим в основе линейным распределением. Распределение фон Мизеса имеет двоякую полезность: оно является наиболее математически управляемым из всех круговых распределений, позволяющим более простой статистический анализ, и оно является близким приближением к завернутый нормально распределение, которое, как и линейное нормальное распределение, важно, потому что оно является предельным случаем для суммы большого количества малых угловых отклонений. Фактически, распределение фон Мизеса часто называют «круговым нормальным» распределением из-за его простоты использования и его тесной связи с обернутым нормальным распределением (Fisher, 1993).

PDF-файл распределения фон Мизеса:

куда это модифицированный Функция Бесселя порядка 0.

Круговое равномерное распределение

Функция плотности вероятности (pdf) круговое равномерное распределение дан кем-то

Его также можно рассматривать как фон Мизеса выше.

Обернутое нормальное распределение

PDF-файл обернутое нормальное распределение (WN) это:

где μ и σ - среднее и стандартное отклонение развернутого распределения соответственно и это Тета-функция Якоби:
куда и

Обернутое распределение Коши

PDF-файл обернутое распределение Коши (WC) это:

куда - коэффициент масштабирования и это положение пика.

Распределение Леви в оболочке

PDF-файл обернутое распределение Леви (WL) это:

где значение слагаемого принимается равным нулю при , - коэффициент масштабирования и - параметр местоположения.

Распределения на многомерных многообразиях

Наборы из трех точек, взятые из различных распределений Кента на сфере.

Также существуют дистрибутивы на двумерная сфера (такой как Кент распределение[3]), N-мерная сферараспределение фон Мизеса – Фишера[4]) или тордвумерное распределение фон Мизеса[5]).

В матрица распределения фон Мизеса – Фишера это распределение на Коллектор Штифеля, и может использоваться для построения распределений вероятностей по матрицы вращения.[6]

В Распределение Бингема распределение по осям в N размеров или, что то же самое, над точками на (N - 1) -мерная сфера с выделенными антиподами.[7] Например, если N = 2, оси представляют собой ненаправленные прямые, проходящие через начало координат на плоскости. В этом случае каждая ось разрезает единичный круг на плоскости (которая является одномерной сферой) в двух точках, которые являются антиподами друг друга. За N = 4, распределение Бингема является распределением по пространству единиц кватернионы. Поскольку единичный кватернион соответствует матрице вращения, распределение Бингема для N = 4 можно использовать для построения вероятностных распределений в пространстве вращений, как и матричное распределение фон Мизеса – Фишера.

Эти дистрибутивы, например, используются в геология,[8] кристаллография[9] и биоинформатика.[1][10][11]

Моменты

Исходные векторные (или тригонометрические) моменты кругового распределения определяются как

куда любой интервал длины , - PDF кругового распределения, а . Поскольку интеграл равна единице, а интервал интегрирования конечен, отсюда следует, что моменты любого кругового распределения всегда конечны и хорошо определены.

Аналогично определяются примерные моменты:

Результирующий вектор генеральной совокупности, длина и средний угол определяются по аналогии с соответствующими параметрами выборки.

Кроме того, длины высших моментов определяются как:

тогда как угловые части высших моментов просто . Длина всех моментов будет находиться в диапазоне от 0 до 1.

Меры местоположения и распространения

Различные меры местоположения и распространения могут быть определены как для совокупности, так и для выборки, взятой из этой совокупности.[12] Наиболее распространенной мерой местоположения является среднее круговое. Круговое среднее по генеральной совокупности - это просто первый момент распределения, а среднее по выборке - это первый момент выборки. Среднее значение выборки будет служить объективной оценкой среднего значения генеральной совокупности.

Когда данные сконцентрированы, медиана и мода могут быть определены по аналогии с линейным случаем, но для более разрозненных или многомодальных данных эти концепции бесполезны.

Наиболее распространенные меры кругового распространения:

  • В круговая дисперсия. Для выборки круговая дисперсия определяется как:
и для населения
Оба будут иметь значения от 0 до 1.
  • В круговое стандартное отклонение
со значениями от 0 до бесконечности. Это определение стандартного отклонения (а не квадратного корня из дисперсии) полезно, потому что для обернутого нормального распределения оно является оценкой стандартного отклонения основного нормального распределения. Следовательно, это позволит стандартизировать круговое распределение, как и в линейном случае, для малых значений стандартного отклонения. Это также относится к распределению фон Мизеса, которое близко аппроксимирует свернутое нормальное распределение. Обратите внимание, что для небольших , у нас есть .
  • В круговая дисперсия
со значениями от 0 до бесконечности. Эта мера разброса полезна при статистическом анализе дисперсии.

Распределение среднего

Учитывая набор N измерения среднее значение z определяется как:

что может быть выражено как

куда

или, альтернативно, как:

куда

Распределение среднего () для круглого pdf п(θ) будут выданы:

куда находится на любом интервале длины и интеграл подчиняется ограничению, что и постоянны, или, альтернативно, что и постоянны.

Расчет среднего для большинства круговых распределений аналитически невозможен, и для проведения дисперсионного анализа необходимы численные или математические приближения.[13]

В Центральная предельная теорема может применяться к распределению выборочных средств. (основная статья: Центральная предельная теорема для направленной статистики ). Это можно показать[13] что распределение приближается к двумерное нормальное распределение в пределе большого размера выборки.

Проверка согласия и значимости

Для циклических данных - (например, равномерно ли они распределены):

Смотрите также

Рекомендации

  1. ^ а б Hamelryck, Томас; Кент, Джон Т .; Крог, Андерс (2006). "Hamelryck, T., Kent, J., Krogh, A. (2006) Выборка реалистичных конформаций белков с использованием локального структурного отклонения. PLoS Comput. Biol., 2 (9): e131". PLOS вычислительная биология. 2 (9): e131. Bibcode:2006PLSCB ... 2..131H. Дои:10.1371 / journal.pcbi.0020131. ЧВК  1570370. PMID  17002495.
  2. ^ Бальманн, К., (2006), Направленные функции в онлайн-распознавании рукописного ввода, Распознавание образов, 39
  3. ^ Кент, Дж (1982) Распределение Фишера – Бингема на сфере. J Royal Stat Soc, 44, 71–80.
  4. ^ Фишер Р.А. (1953) Дисперсия на сфере. Proc. Рой. Soc. Лондон сер. А., 217, 295–305
  5. ^ Мардия, КМ. Тейлор; CC; Subramaniam, GK. (2007). "Белковая биоинформатика и смеси двумерных распределений фон Мизеса для угловых данных". Биометрия. 63 (2): 505–512. Дои:10.1111 / j.1541-0420.2006.00682.x. PMID  17688502.
  6. ^ Даунс (1972). «Ориентационная статистика». Биометрика. 59 (3): 665–676. Дои:10.1093 / biomet / 59.3.665.
  7. ^ Бингхэм, К. (1974). «Антиподально-симметричное распределение на сфере». Анна. Стат. 2 (6): 1201–1225. Дои:10.1214 / aos / 1176342874.
  8. ^ Пил, Д .; Whiten, WJ .; McLachlan, GJ. (2001). «Подходящие смеси распределительных устройств Кента для помощи в идентификации соединительных узлов» (PDF). Варенье. Стат. Assoc. 96 (453): 56–63. Дои:10.1198/016214501750332974. S2CID  11667311.
  9. ^ Krieger Lassen, N.C .; Juul Jensen, D .; Конрадсен, К. (1994). «О статистическом анализе ориентировочных данных». Acta Crystallogr. A50 (6): 741–748. Дои:10.1107 / S010876739400437X.
  10. ^ Кент, Дж. Т., Хамелрик, Т. (2005). Использование распределения Фишера – Бингема в стохастических моделях структуры белка. В S. Barber, P.D. Бакстер, К. В. Мардиа и Р. Э. Walls (Eds.), Количественная биология, анализ формы и всплески, стр. 57–60. Лидс, издательство Leeds University Press
  11. ^ Boomsma, Wouter; Mardia, Kanti V .; Тейлор, Чарльз С.; Феркингхофф-Борг, Джеспер; Крог, Андерс; Хамелрик, Томас (2008). «Генеративная вероятностная модель локальной структуры белка». Труды Национальной академии наук. 105 (26): 8932–8937. Bibcode:2008PNAS..105.8932B. Дои:10.1073 / pnas.0801715105. ЧВК  2440424. PMID  18579771.
  12. ^ Фишер, Н.И., Статистический анализ циркулярных данных, Издательство Кембриджского университета, 1993. ISBN  0-521-35018-2
  13. ^ а б Джаммаламадака, С. Рао; Сенгупта, А. (2001). Темы циркулярной статистики. Нью-Джерси: World Scientific. ISBN  978-981-02-3778-3. Получено 2011-05-15.

Книги по направленной статистике

  • Бачелет, Э. Циркулярная статистика в биологии, Академик Пресс, Лондон, 1981. ISBN  0-12-081050-6.
  • Фишер, Н.И., Статистический анализ циркулярных данных, Издательство Кембриджского университета, 1993. ISBN  0-521-35018-2
  • Фишер, Н.И., Льюис, Т., Эмблтон, Б.Дж. Статистический анализ сферических данных, Издательство Кембриджского университета, 1993. ISBN  0-521-45699-1
  • Джаммаламадака С. Рао и СенГупта А. Темы циркулярной статистики, World Scientific, 2001. ISBN  981-02-3778-2
  • Мардия, К.В. и Юпп П., Направленная статистика (2-е издание), John Wiley and Sons Ltd., 2000. ISBN  0-471-95333-4
  • Лей, К. и Вердебу, Т., Современная направленная статистика, CRC Press Taylor & Francis Group, 2017. ISBN  978-1-4987-0664-3