Экологическое заблуждение - Ecological fallacy

An экологическая ошибка (также экологический вывод заблуждение[1] или заблуждение населения) это формальная ошибка в интерпретации статистический данные, которые возникают, когда выводы о природе индивидов выводятся из выводов о группе, к которой эти индивиды принадлежат. «Экологическая ошибка» - это термин, который иногда используется для описания ошибка разделения, что не является статистической ошибкой. Четыре общих статистических экологических заблуждения: смешение экологических корреляций и индивидуальных корреляций, смешение между средним групповым и общим средним значением, Парадокс Симпсона и путаница между более высоким средним и более высокой вероятностью.

Примеры

Среднее и медиана

Примером экологической ошибки является предположение о том, что среднее значение популяции имеет простую интерпретацию при рассмотрении вероятностей для отдельного человека.

Например, если средний балл группы больше нуля, это не означает, что случайный человек из этой группы с большей вероятностью получит положительный результат, чем отрицательный (при условии, что отрицательных оценок больше, чем положительных). человек с большей вероятностью получит отрицательный результат). Точно так же, если определенная группа людей имеет более низкий средний IQ, чем население в целом, будет ошибкой заключить, что случайно выбранный член группы с большей вероятностью будет иметь более низкий IQ, чем средний IQ. населения в целом; Также не обязательно, чтобы случайно выбранный член группы имел более низкий IQ, чем случайно выбранный член общей популяции. Математически это происходит из того факта, что распределение может иметь положительное среднее, но отрицательное медианное значение. Это свойство связано с перекос распределения.[нужна цитата ]

Рассмотрим следующий числовой пример:

  • Группа A: 80% людей получили 40 баллов и 20% из них получили 95 баллов. Средний балл - 51 балл.
  • Группа B: 50% людей получили 45 баллов и 50% получили 55 баллов. Средний балл - 50 баллов.
  • Если мы выберем двух человек наугад из A и B, есть 4 возможных исхода:
    • A - 40, B - 45 (B выигрывает, вероятность 40% - 0,8 × 0,5)
    • A - 40, B - 55 (B выигрывает, вероятность 40% - 0,8 × 0,5)
    • A - 95, B - 45 (A выигрывает, вероятность 10% - 0,2 × 0,5)
    • A - 95, B - 55 (A выигрывает, вероятность 10% - 0,2 × 0,5)
  • Хотя группа A имеет более высокий средний балл, в 80% случаев случайный человек из A будет иметь более низкий балл, чем случайный человек из B.

Индивидуальные и совокупные корреляции

Предположим, что на индивидуальном уровне протестант снижает склонность к самоубийству, но вероятность самоубийства соседа увеличивает склонность стать протестантом. Тогда, даже если на индивидуальном уровне существует отрицательная корреляция между суицидными тенденциями и протестантизмом, на агрегированном уровне может быть положительная корреляция.

Агрегированная модель правильно описывает однозначно положительную корреляцию между протестантизмом и самоубийством соседей, если и только если внутри каждой другой религии склонность человека к обращению или становлению более религиозным не коррелирует положительно с самоубийством соседей.[нужна цитата ]

Точно так же, даже если на индивидуальном уровне богатство положительно коррелирует со склонностью голосовать за республиканцев, мы наблюдаем, что более богатые государства склонны голосовать за демократов. Например, в 2004 году кандидат от республиканцев, Джордж Буш, победила в пятнадцати беднейших штатах, а кандидат от Демократической партии Джон Керри, выиграла 9 из 11 самых богатых штатов. И все же 62% избирателей с годовым доходом более 200 000 долларов проголосовали за Буша, но только 36% избирателей с годовым доходом в 15 000 долларов или меньше проголосовали за Буша.[2]Корреляция на совокупном уровне будет отличаться от корреляции на индивидуальном уровне, если на предпочтения при голосовании влияет общее богатство государства даже после контроля индивидуального богатства. Возможно, истинным движущим фактором предпочтения при голосовании является самооценка относительного богатства; возможно, те, кто считает себя более обеспеченными, чем их соседи, с большей вероятностью проголосуют за республиканцев. В этом случае человек с большей вероятностью проголосует за республиканца, если станет богаче, но он с большей вероятностью проголосует за демократа, если богатство его соседа увеличится (что приведет к более богатому государству).

Однако наблюдаемая разница в привычках голосования, основанная на уровне благосостояния на уровне штата и на уровне отдельных лиц, также может быть объяснена общей путаницей между более высокими средними значениями и более высокой вероятностью, как обсуждалось выше. Государства могут быть богаче не потому, что в них больше богатых людей (т. Е. Больше людей с годовым доходом более 200 000 долларов), а потому, что они содержат небольшое количество сверхбогатых людей; экологическая ошибка возникает из-за неправильного предположения, что люди в более богатых государствах с большей вероятностью будут богатыми.

Одним из первых примеров экологической ошибки было Эмиль Дюркгейм 1897 год исследование самоубийства во Франции, хотя некоторые обсуждают это.[3][4]

Многие примеры экологических заблуждений можно найти в исследованиях социальных сетей, которые часто сочетают анализ и выводы с разных уровней. Это было проиллюстрировано в академической статье о сетях фермеров Суматры.[5]

Парадокс Робинсона

В статье 1950 года Уильяма С. Робинсона был вычислен уровень неграмотности и доля населения, родившегося за пределами США, для каждого штата и округа Колумбия по состоянию на Перепись 1930 года.[6] Он показал, что эти две цифры связаны с отрицательной корреляцией -0,53; Другими словами, чем больше доля иммигрантов в государстве, тем ниже его средний уровень неграмотности. Однако, если рассматривать индивидов, корреляция составила +0,12 (иммигранты в среднем были более неграмотными, чем коренные жители). Робинсон показал, что отрицательная корреляция на уровне населения штата объясняется тем, что иммигранты имеют тенденцию селиться в штатах, где коренное население более грамотно. Он предостерег от выводов о людях на основании популяционных или «экологических» данных. В 2011 году было обнаружено, что расчеты Робинсона экологических корреляций основаны на неверных данных на уровне штата. Корреляция -0,53, упомянутая выше, на самом деле равна -0,46.[7] Работа Робинсона была плодотворной, но термин «экологическая ошибка» не был введен Селвином до 1958 года.[8]

Формальная проблема

Соотношение агрегированных количеств (или экологическая корреляция ) не равно соотношению отдельных величин. Обозначим через ИксяYя две величины на индивидуальном уровне. Формула ковариации агрегированных величин в группах размеров N является

Ковариация двух агрегированных переменных зависит не только от ковариации двух переменных в пределах одних и тех же людей, но и от ковариаций переменных между разными людьми. Другими словами, корреляция агрегированных переменных учитывает перекрестные эффекты, которые не актуальны на индивидуальном уровне.

Проблема корреляций, естественно, влечет за собой проблему для регрессий по совокупным переменным: поэтому ошибка корреляции является важной проблемой для исследователя, который хочет измерить причинные воздействия. Начните с регрессионной модели, в которой результат подвержен влиянию

Модель регрессии на агрегированном уровне получается путем суммирования отдельных уравнений:

Ничто не препятствует корреляции регрессоров и ошибок на агрегированном уровне. Поэтому, как правило, выполнение регрессии для агрегированных данных не дает оценки той же модели, что и для выполнения регрессии с отдельными данными.

Агрегированная модель верна тогда и только тогда, когда

Это означает, что, контролируя , не определяет .

Выбор между совокупным и индивидуальным выводом

Нет ничего плохого в том, чтобы проводить регрессию агрегированных данных, если кто-то интересуется агрегированной моделью. Например, для губернатора штата будет правильным провести регрессию между полицейскими силами по уровню преступности на уровне штата, если вы заинтересованы в политических последствиях увеличения численности полиции. Однако экологическая ошибка может произойти, если городской совет выведет влияние увеличения полицейских сил на уровень преступности на уровне города из корреляции на уровне штата.

Выбор использования агрегированной или индивидуальной регрессии для понимания совокупного воздействия на некоторую политику зависит от следующего компромисса: агрегированные регрессии теряют данные индивидуального уровня, но отдельные регрессии добавляют сильные допущения моделирования. Некоторые исследователи предполагают, что экологическая корреляция дает лучшую картину результатов действий государственной политики, поэтому они рекомендуют для этой цели экологическую корреляцию, а не корреляцию на индивидуальном уровне (Lubinski & Humphreys, 1996). Другие исследователи не согласны, особенно если отношения между уровнями четко не смоделированы. Чтобы предотвратить экологическую ошибку, исследователи, не располагающие индивидуальными данными, могут сначала смоделировать то, что происходит на индивидуальном уровне, затем смоделировать, как связаны индивидуальный и групповой уровни, и, наконец, исследовать, способствует ли что-либо происходящее на групповом уровне пониманию взаимоотношений. Например, при оценке воздействия государственной политики полезно знать, что влияние политики в разных штатах различается меньше, чем сама политика, что позволяет предположить, что различия в политике не очень хорошо преобразуются в результаты, несмотря на высокую экологическую корреляцию (Rose, 1973). ).

Групповые и общие средние

Экологическое заблуждение также может относиться к следующему заблуждению: среднее значение для группы приблизительно равно среднему значению для всего населения, разделенному на размер группы. Предположим, кто-то знает количество протестантов и уровень самоубийств в США, но не располагает данными, связывающими религию и самоубийства на индивидуальном уровне. Если кто-то интересуется уровнем самоубийств протестантов, было бы ошибкой оценивать его как общий уровень самоубийств, деленный на количество протестантов. среднее значение группы, мы обычно имеем:

Тем не менее закон полной вероятности дает

Как мы знаем, находится между 0 и 1, это уравнение дает оценку для .

Парадокс Симпсона

Поразительное экологическое заблуждение Парадокс Симпсона: тот факт, что при сравнении двух популяций, разделенных на группы, среднее значение некоторой переменной в первой популяции может быть выше в каждой группе и все же ниже в общей популяции. Формально, когда каждое значение Z относится к другой группе и Икс относится к лечению, может случиться так, что

Когда не зависит от , парадокс Симпсона - это как раз то смещение пропущенной переменной для регресса Y на Икс где регрессор это фиктивная переменная и пропущенная переменная это категориальная переменная определение групп для каждого значения. Приложение поражает тем, что смещение достаточно велико, и параметры имеют противоположные знаки.

Юридические приложения

Экологическая ошибка обсуждалась в судебном иске Выборы губернатора в Вашингтоне 2004 г. в котором после выборов был выявлен ряд нелегальных избирателей; их голоса были неизвестны, потому что голосование проводилось тайное голосование. Претенденты утверждали, что незаконные голоса, поданные на выборах, соответствовали бы схеме голосования на участках, на которых они были поданы, и поэтому необходимо внести соответствующие корректировки.[9] Свидетель-эксперт сказал, что такой подход похож на попытку выяснить Ичиро Сузуки средний уровень, если посмотреть на средний уровень всего Сиэтл Маринерс команды, поскольку незаконные голоса были поданы нерепрезентативной выборкой избирателей каждого участка и могли отличаться от среднего избирателя на участке, как Ичиро от остальной его команды.[10] Судья решил, что аргумент претендентов был экологической ошибкой, и отклонил его.[11]

Смотрите также

Рекомендации

Цитаты

  1. ^ Чарльз Эсс; Фэй Судвикс (2001). Культура, технологии, коммуникация: к межкультурной глобальной деревне. SUNY Нажмите. п. 90. ISBN  978-0-7914-5015-4. Проблема заключается в «экологической ошибке» (или ошибке разделения) - стремлении применить характеристики группового или общественного уровня к отдельным лицам в этой группе.
  2. ^ Гельман, Андрей; Парк, Дэвид; Шор, Борис; Бафуми, Джозеф; Кортина, Джеронимо (2008). Красный штат, синий штат, богатый штат, бедный штат. Princeton University Press. ISBN  978-0-691-13927-2.
  3. ^ Фридман, Дэвид А. (2002). «Экологическая ошибка». Калифорнийский университет.
  4. ^ Селвин, Х. (1965). "Дюркгейм Самоубийство: Дальнейшие размышления о методологической классике ». В Нисбет, Р.А. (ред.). Эмиль Дюркгейм: Избранные очерки. Прентис-Холл. стр.113–136. OCLC  883981793.
  5. ^ Матус, Петр (2015). «Социальные сети и управление окружающей средой на нескольких уровнях: сохранение почвы на Суматре». Экология и общество. 20 (3): 37. Дои:10.5751 / ES-07816-200337.
  6. ^ Робинсон, У.С. (1950). «Экологические корреляции и поведение людей». Американский социологический обзор. 15 (3): 351–357. Дои:10.2307/2087176. JSTOR  2087176.
  7. ^ Заметка об исследовании этого любопытного сбоя данных опубликована в Те Гротенхейс, Манфред; Эйсинга, Роб; Субраманян, С.В. (2011). "Робинсона Экологические корреляции и поведение особей: методические поправки ». Int J Epidemiol. 40 (4): 1123–1125. Дои:10.1093 / ije / dyr081. PMID  21596762. Данные, которые использовал Робинсон, и исправления доступны на http://www.ru.nl/mt/rob/downloads/
  8. ^ Селвин, Ханан С. (1958). "Дюркгейм Самоубийство и проблемы эмпирических исследований ». Американский журнал социологии. 63 (6): 607–619. Дои:10.1086/222356. S2CID  143488519.
  9. ^ Джордж Хауленд-младший (18 мая 2005 г.). «Суд над обезьяньим гаечным ключом: вызов Дино Росси на выборах 2004 года имеет шаткое юридическое основание. Но если он победит, наблюдайте, как судебный процесс станет вариантом в ближних гонках повсюду».. Seattle Weekly. Архивировано из оригинал 1 декабря 2008 г.. Получено 17 декабря, 2008.
  10. ^ Кристофер Адольф (12 мая 2005 г.). "Отчет о выборах губернатора в Вашингтоне в 2004 г.". Отчет свидетеля-эксперта в Верховный суд округа Челан по делу Бордерс и др. Против округа Кинг и др.
  11. ^ Borders et al. против округа Кинг и др. В архиве 2008-10-18 на Wayback Machine, стенограмма решения Округ Челан Судья Верховного суда Джон Бриджес, 6 июня 2005 г., опубликовано: 8 июня 2005 г.

дальнейшее чтение

  • Любинский, Д .; Хамфрис, Л. (1996). «Вид на лес с деревьев: при прогнозировании поведения или статуса групп используйте средства корреляции». Психология, государственная политика и право. 2 (2): 363–376. Дои:10.1037/1076-8971.2.2.363. S2CID  45240767.
  • Роуз, Д. (1973). «Национальные и местные силы в государственной политике: последствия многоуровневого анализа политики». Обзор американской политической науки. 67 (4): 1162–1173. Дои:10.2307/1956538. JSTOR  1956538.