Выборка по важности - Importance sampling

В статистика, выборка по важности - это общий метод оценки свойств конкретного распределение, имея только образцы, сгенерированные из другого распределения, чем интересующее распределение. Это связано с зонтичный отбор проб в вычислительная физика. В зависимости от приложения этот термин может относиться к процессу выборки из этого альтернативного распределения, процессу вывода или тому и другому.

Основная теория

Позволять быть случайная переменная в некоторых вероятностное пространство . Мы хотим оценить ожидаемое значение из Икс под п, обозначенный E[X; P]. Если у нас есть статистически независимые случайные выборки , сформированный согласно п, то эмпирическая оценка E[X; P] является

и точность этой оценки зависит от дисперсии Икс:

Основная идея выборки по важности состоит в том, чтобы сделать выборку состояний из другого распределения, чтобы снизить дисперсию оценки E[X; P], или когда выборка из P затруднена. Для этого сначала выбирается случайная величина. такой, что E[L;п] = 1 и что п-почти всюду .С изменением L мы определяем вероятность это удовлетворяет

Переменная Икс/L таким образом будут отобраны п(L) чтобы оценить E[X; P], как указано выше, и эта оценка улучшается, когда.

Когда Икс имеет постоянный знак над Ω, наилучшая переменная L явно будет , так что Икс/L* - искомая константа E[X; P] и один образец под п(L*) достаточно, чтобы оценить его ценность. К сожалению, мы не можем сделать этот выбор, потому что E[X; P] именно то значение, которое мы ищем! Однако этот теоретический лучший случай L * дает нам представление о том, что делает выборка по важности:

Направо, является одним из бесконечно малых элементов, суммирующих E[Икс;п]:

следовательно, хорошее изменение вероятности п(L) по важности выборка перераспределит закон Икс так что частоты его выборок сортируются непосредственно по их весам в E[Икс;п]. Отсюда и название «выборка по важности».

Выборка по важности часто используется как Интегратор Монте-Карло.Когда - равномерное распределение и , E[X; P] соответствует интегралу действительной функции .

Применение к вероятностному выводу

Такие методы часто используются для оценки апостериорных плотностей или ожиданий в задачах оценки состояния и / или параметров в вероятностных моделях, которые слишком сложно обрабатывать аналитически, например, в Байесовские сети.

Применение к моделированию

Выборка по важности это уменьшение дисперсии техника, которая может быть использована в Метод Монте-Карло. Идея выборки по важности заключается в том, что определенные значения входных данных случайные переменные в симуляция оказывают большее влияние на оцениваемый параметр, чем другие. Если эти «важные» ценности подчеркиваются путем более частого отбора проб, то оценщик дисперсия может быть уменьшена. Следовательно, основная методология выборки по важности заключается в выборе распределения, которое «поощряет» важные ценности. Такое использование «смещенного» распределения приведет к смещению оценки, если оно применяется непосредственно в моделировании. Однако выходные данные моделирования взвешиваются для корректировки использования смещенного распределения, и это гарантирует, что новая оценка выборки важности будет несмещенной. Вес определяется отношение правдоподобия, это Производная Радона – Никодима истинного основного распределения относительно смещенного распределения моделирования.

Фундаментальным вопросом при реализации моделирования выборки по важности является выбор смещенного распределения, которое поощряет важные области входных переменных. Выбор или разработка хорошего предвзятого распределения - это «искусство» выборки по важности. Наградой за хорошее распространение может быть огромная экономия времени выполнения; штраф за плохое распределение может заключаться в более продолжительном времени выполнения, чем при обычном моделировании Монте-Карло без выборки по важности.

Учитывать быть образцом и быть отношением правдоподобия, где - функция плотности (массы) вероятности искомого распределения и - функция плотности вероятности (массы) смещенного распределения / предложения / выборки. Тогда проблему можно охарактеризовать, выбрав выборочное распределение что минимизирует дисперсию масштабированной выборки:

Можно показать, что следующее распределение минимизирует указанную выше дисперсию:[1]

Обратите внимание, когда , эта дисперсия становится равной 0.

Математический подход

Рассмотрите возможность оценки с помощью моделирования вероятности события , куда случайная величина с распределение и функция плотности вероятности , где штрих означает производная. А -длина независимые и одинаково распределенные (i.i.d.) последовательность генерируется из распределения , а число случайных величин, лежащих выше порога подсчитываются. Случайная величина характеризуется Биномиальное распределение

Можно показать, что , и , поэтому в пределе мы можем получить . Обратите внимание, что дисперсия низкая, если . Выборка по важности связана с определением и использованием альтернативной функции плотности. (за ), обычно называемую плотностью смещения, для имитационного эксперимента. Эта плотность позволяет событию встречаться чаще, поэтому длины последовательности становится меньше для данного оценщик дисперсия. В качестве альтернативы для данного , использование плотности смещения приводит к меньшей дисперсии, чем у обычной оценки Монте-Карло. Из определения , мы можем ввести как показано ниже.

куда

является отношением правдоподобия и называется весовой функцией. Последнее равенство в приведенном выше уравнении мотивирует оценку

Это оценщик выборки важности и беспристрастен. То есть процедура оценки заключается в создании i.i.d. образцы из и для каждого образца, превышающего , оценка увеличивается на вес оценивается по образцу. Результаты усредняются по испытания. Легко показать, что дисперсия оценщика выборки важности равна

Теперь задача выборки по важности фокусируется на нахождении плотности смещения. таким образом, что дисперсия оценки выборки важности меньше дисперсии общей оценки Монте-Карло. Для некоторой функции плотности смещения, которая минимизирует дисперсию и при определенных условиях уменьшает ее до нуля, она называется оптимальной функцией плотности смещения.

Обычные методы смещения

Хотя существует множество методов смещения, следующие два метода наиболее широко используются в приложениях выборки по важности.

Масштабирование

Перенос вероятностной массы в область события положительным масштабированием случайной величины с числом больше единицы приводит к увеличению дисперсии (также среднего) функции плотности. Это приводит к более тяжелому хвосту плотности, что приводит к увеличению вероятности события. Масштабирование, вероятно, является одним из самых ранних известных методов смещения, широко применяемым на практике. Он прост в реализации и обычно обеспечивает консервативный выигрыш от моделирования по сравнению с другими методами.

При выборке по важности путем масштабирования плотность моделирования выбирается как функция плотности масштабированной случайной величины. , где обычно для оценки вероятности хвоста. Путем трансформации

а весовая функция

Масштабирование сдвигает вероятностную массу в желаемую область события, но также толкает массу в дополнительную область. что нежелательно. Если это сумма случайных величин, распространение массы происходит в пространственное пространство. Следствием этого является уменьшение важности выборки для увеличения , и называется эффектом размерности. Современная версия выборки важности масштабированием, например так называемая сигма-масштабированная выборка (SSS), при которой выполняется множественный анализ методом Монте-Карло (MC) с различными коэффициентами масштабирования. В отличие от многих других высокодоходных методов оценки (таких как WCD для наихудшего случая) SSS не сильно страдает от проблемы размерности. Кроме того, адресация нескольких выходов MC не приводит к снижению эффективности. С другой стороны, как WCD, SSS разработан только для гауссовых статистических переменных, и в отличие от WCD, метод SSS не предназначен для обеспечения точных статистических углов. Еще один недостаток SSS состоит в том, что работа MC с большими масштабными коэффициентами может стать затруднительной, например. грамм. из-за проблем сходимости модели и симулятора. Кроме того, в SSS мы сталкиваемся с сильным компромиссом смещения и дисперсии: используя большие масштабные коэффициенты, мы получаем довольно стабильные результаты урожайности, но чем больше масштабные коэффициенты, тем больше ошибка смещения. Если преимущества SSS не имеют большого значения в интересующем вас приложении, то зачастую другие методы более эффективны.

Перевод

Другой простой и эффективный метод смещения использует перенос функции плотности (и, следовательно, случайной величины), чтобы поместить большую часть ее вероятностной массы в область редких событий. Трансляция не страдает эффектом размерности и успешно использовалась в нескольких приложениях, связанных с моделированием цифровая связь системы. Часто это дает лучший эффект моделирования, чем масштабирование. При смещении путем перевода плотность моделирования определяется выражением

куда - величина сдвига, которую следует выбирать, чтобы минимизировать дисперсию оценщика выборки важности.

Влияние сложности системы

Фундаментальная проблема с выборкой по важности состоит в том, что проектирование хороших смещенных распределений усложняется по мере увеличения сложности системы. Сложные системы - это системы с большой памятью, поскольку сложная обработка нескольких входных данных намного проще. Эта размерность или память могут вызывать проблемы тремя способами:

В принципе, идеи выборки по важности остаются прежними в этих ситуациях, но дизайн становится намного сложнее. Успешный подход к решению этой проблемы состоит в том, чтобы разбить моделирование на несколько более мелких, более четко определенных подзадач. Затем для решения каждой из более простых подзадач используются стратегии выборки по важности. Примерами методов для прерывания моделирования являются моделирование условий и событий ошибки (EES) и регенеративное моделирование.

Функция дисперсионной стоимости

Разница - не единственное возможное функция стоимости для моделирования и другие функции стоимости, такие как среднее абсолютное отклонение, используются в различных статистических приложениях. Тем не менее, дисперсия является основной функцией затрат, рассматриваемой в литературе, вероятно, из-за использования дисперсии в доверительные интервалы и в показателе производительности .

Связанная проблема заключается в том, что соотношение переоценивает экономию времени выполнения из-за выборки по важности, поскольку она не включает дополнительное время вычислений, необходимое для вычисления весовой функции. Следовательно, некоторые люди оценивают чистое улучшение времени выполнения различными способами. Возможно, более серьезные накладные расходы на выборку по важности связаны со временем, затраченным на разработку и программирование техники и аналитическое получение желаемой весовой функции.


Смотрите также

Примечания

  1. ^ Рубинштейн, Р. Ю., & Крезе, Д. П. (2011). Моделирование и метод Монте-Карло (Том 707). Джон Вили и сыновья.

Рекомендации

  • Аруна, Бухари (2004). «Адаптивный метод Монте-Карло, метод уменьшения дисперсии». Методы Монте-Карло и их приложения. 10 (1): 1–24. Дои:10.1515/156939604323091180.
  • Баклью, Джеймс Антонио (2004). Введение в моделирование редких событий. Нью-Йорк: Springer-Verlag.
  • Doucet, A .; de Freitas, N .; Гордон, Н. (2001). Последовательные методы Монте-Карло на практике. Springer. ISBN  978-0-387-95146-1.
  • Феррари, М .; Беллини, С. (2001). Моделирование выборки по важности кодов турбо-продуктов. Международная конференция IEEE по коммуникациям. 9. С. 2773–2777. Дои:10.1109 / ICC.2001.936655. ISBN  978-0-7803-7097-5.
  • Мазонка, Олег (2016). «Просто как Пи: метод выборки по важности» (PDF). Справочный журнал. 16.
  • Оберг, Томми (2001). Модуляция, обнаружение и кодирование. Нью-Йорк: Джон Вили и сыновья.
  • Нажмите, WH; Теукольский С.А.; Феттерлинг, штат Вашингтон; Фланнери, ВР (2007). «Раздел 7.9.1 Выборка по важности». Числовые рецепты: искусство научных вычислений (3-е изд.). Нью-Йорк: Издательство Кембриджского университета. ISBN  978-0-521-88068-8.
  • Рипли, Б. Д. (1987). Стохастическое моделирование. Wiley & Sons.
  • Smith, P.J .; Шафи, М .; Гао, Х. (1997). «Быстрое моделирование: обзор методов выборки важности в системах связи». Журнал IEEE по избранным областям коммуникаций. 15 (4): 597–613. Дои:10.1109/49.585771.
  • Сринивасан, Р. (2002). Выборка по важности - Приложения в коммуникациях и обнаружении. Берлин: Springer-Verlag.

внешняя ссылка