Медиана медиан - Median of medians

Медиана медиан
Учебный класс	Алгоритм выбора
Структура данных	Множество
Худший случай спектакль
Лучший случай спектакль
Худший случай космическая сложность	вспомогательный

В Информатика, то медиана медианы является приблизительным (средним) алгоритм выбора, часто используется для обеспечения хорошей опоры для точного алгоритма выбора, в основном быстрый выбор, который выбирает k-й наибольший элемент изначально несортированного массива. Median of medians находит приблизительную медиану только за линейное время, что ограничено, но требует дополнительных затрат на быстрый выбор. Когда эта приблизительная медиана используется в качестве улучшенного поворота, в худшем случае сложность Быстрый выбор значительно уменьшает от квадратичной To линейный, что также является асимптотически оптимальной сложностью любого алгоритма выбора в худшем случае. Другими словами, медиана медиан - это приближенный алгоритм выбора медианы, который помогает построить асимптотически оптимальный, точный общий алгоритм выбора (особенно в смысле сложности наихудшего случая) путем создания хороших сводных элементов.

Алгоритм выбора может быть также использован в качестве стратегии поворота в быстрая сортировка, что дает оптимальный алгоритм со сложностью наихудшего случая O (п бревноп). Хотя этот подход достаточно хорошо оптимизирует асимптотическую сложность наихудшего случая, на практике он обычно уступает по производительности, вместо этого выбирая случайные опорные точки для его среднего значения O (п) сложность выбора и среднее значение O (п бревноп) сложность сортировки без дополнительных затрат на вычисление точки поворота.

Точно так же медиана медиан используется в гибридном интроселект алгоритм в качестве запасного варианта для выбора точки поворота на каждой итерации, пока не будет найден k-й по величине. Это снова обеспечивает линейную производительность в наихудшем случае в дополнение к линейной производительности в среднем случае: introselect начинается с quickselect (со случайным поворотом, по умолчанию) для получения хорошей средней производительности, а затем возвращается к модифицированному quickselect с поворотом, полученным из медианы медианы, если прогресс слишком медленный. Несмотря на то, что такой гибридный алгоритм асимптотически подобен, он будет иметь меньшую сложность, чем простой внутренний выбор с точностью до постоянного множителя (как в среднем, так и в худшем случае) при любой конечной длине.

Алгоритм опубликован в Blum et al. (1973), и поэтому иногда называют BFPRT после фамилий авторов. В оригинальной статье алгоритм назывался ВЫБИРАТЬ, имея в виду быстрый выбор как «НАЙТИ».

Контур

В среднем Quickselect имеет линейное время, но может потребовать квадратичного времени с плохим выбором опорных точек. Это потому, что quickselect - это разделяй и властвуй алгоритм, каждый шаг которого занимает O (п) время в размере оставшегося набора поиска. Если поисковый набор экспоненциально быстро уменьшается в размере (на фиксированную пропорцию), это дает геометрическая серия раз O (п) коэффициент одного шага и, следовательно, линейное общее время. Однако, если набор поиска медленно уменьшается в размере, например, линейно (на фиксированное количество элементов, в худшем случае уменьшается каждый раз только на один элемент), то линейная сумма линейных шагов дает квадратичное общее время (формально, треугольные числа растут квадратично). Например, наихудший случай возникает при повороте к наименьшему элементу на каждом шаге, например, при применении быстрого выбора максимального элемента к уже отсортированным данным и каждый раз при использовании первого элемента в качестве поворотного.

Если вместо этого последовательно выбирать «хорошие» опорные точки, этого можно избежать и всегда получать линейную производительность даже в худшем случае. «Хорошая» точка поворота - это точка, для которой мы можем установить, что постоянная пропорция элементов попадает как ниже, так и выше нее, так как тогда набор поиска уменьшается, по крайней мере, на постоянную пропорцию на каждом шаге, следовательно, экспоненциально быстро, и общее время остается линейный. Медиана - это хороший опорный элемент - лучший для сортировки и лучший общий выбор для выбора - уменьшающий наполовину поисковый набор на каждом шаге. Таким образом, если можно вычислить медиану за линейное время, это только добавляет линейное время к каждому шагу, и, таким образом, общая сложность алгоритма остается линейной.

Алгоритм median-of-medians вычисляет приблизительную медиану, а именно точку, которая гарантированно находится между 30 и 70. процентили (в середине 4 децили ). Таким образом, поисковый набор уменьшается минимум на 30%. Проблема уменьшается до 70% от исходного размера, что на фиксированную пропорцию меньше. Применение того же алгоритма к теперь меньшему набору рекурсивно до тех пор, пока не останется только один или два элемента, приведет к затратам ${ displaystyle { frac {n} {1-0.7}} приблизительно 3,33 {n}}$

Алгоритм

Как указывалось ранее, медиана медианы используется в качестве стратегии выбора опорных точек в быстрый выбор алгоритм, который в псевдокод выглядит следующим образом. Будьте осторожны при обращении оставили, верно и п при реализации. Лучше использовать тот же индекс для оставили, верно и п чтобы избежать преобразования индекса дескриптора. Обратите внимание, что это возвращает индекс n-го по величине числа после перестановки списка, а не фактическое значение n-го по величине числа.

функция выберите (список, слева, справа, n) петля        если left = right тогда            возвращаться left pivotIndex: = pivot (список, слева, справа) pivotIndex: = partition (list, left, right, pivotIndex, n) если n = pivotIndex тогда            возвращаться п еще если n тогда            справа: = pivotIndex - 1 еще            слева: = pivotIndex + 1

Есть подпрограмма под названием раздел который может за линейное время сгруппировать список (начиная с индексов оставили к верно) на три части: те, которые меньше определенного элемента, те, которые равны ему, и те, которые больше, чем элемент (трехсторонняя перегородка ). Группировка на три части гарантирует, что медиана медианы поддерживает линейное время выполнения в случае многих или всех совпадающих элементов. Вот псевдокод, который выполняет раздел об элементе список [pivotIndex]:

функция partition (list, left, right, pivotIndex, n) pivotValue: = list [pivotIndex] список подкачки [pivotIndex] и список [справа] // Перемещаем точку поворота в конец    storeIndex: = left // Перемещаем все элементы меньше точки поворота влево от точки поворота    за я из оставили к справа - 1 делать        если список [я] тогда            список подкачки [storeIndex] и list [i] увеличивают storeIndex // Перемещаем все элементы до точки поворота сразу после    // меньшие элементы    storeIndexEq = storeIndex за я из storeIndex к справа - 1 делать        если list [i] = pivotValue тогда            список подкачки [storeIndexEq] и список [i] увеличивают список подкачки storeIndexEq [справа] и список [storeIndexEq] // Перемещаем точку поворота в последнее место    // Возвращаем местоположение точки поворота с учетом желаемого местоположения n    если n тогда        возвращаться storeIndex // n находится в группе меньших элементов    если n ≤ storeIndexEq тогда        возвращаться п // n находится в группе, равной pivot    возвращаться storeIndexEq // n находится в группе больших элементов

Подпрограмма вращаться это фактический алгоритм медианы из медиан. Он делит свой ввод (список длины $п$ ) на группы, содержащие не более пяти элементов, вычисляет медиану каждой из этих групп с помощью некоторой подпрограммы, затем рекурсивно вычисляет истинную медиану $п / 5$ медианы, найденные на предыдущем шаге:^[1]. Обратите внимание, что вращаться звонки Выбрать; это пример взаимная рекурсия.

функция поворот (список, слева, справа) // для 5 или менее элементов просто получить медианное значение    если справа - слева <5 тогда        возвращаться partition5 (список, слева, справа) // в противном случае перемещаем медианы пятиэлементных подгрупп на первые n / 5 позиций    за я из оставили к верно в шагах от 5        // получаем среднюю позицию i-й пятиэлементной подгруппы        subRight: = i + 4 если subRight> right тогда            subRight: = right median5: = partition5 (list, i, subRight) список подкачки [median5] и список [left + floor ((i - left) / 5)] // вычисляем медиану n / 5 медиан из пяти    середина: = (справа - слева) / 10 + слева + 1 возвращаться выберите (список, слева, слева + этаж ((справа - слева) / 5), середина)

В раздел5 подпрограмма выбирает медиану группы, состоящей не более чем из пяти элементов; простой способ реализовать это вставка сортировки, как показано ниже.^[1] Он также может быть реализован как Древо решений.

функция partition5 (список, слева, справа) i: = left + 1 пока я ≤ правый j: = я пока j> left и list [j − 1]> list [j] делать            список подкачки [j − 1] и список [j] j: = j - 1 i: = i + 1 возвращаться этаж ((левый + правый) / 2)

Свойства стержня

Из п/ 5 групп, половина числа групп (½ ×п/5=п/ 10) имеют их медиана меньше оси поворота (Медиана медиан). Кроме того, другая половина числа групп (опять же ½ ×п/5=п/ 10) имеют их медиана больше оси поворота. В каждом из п/ 10 групп с медианой меньше, чем точка поворота, есть два элемента, которые меньше, чем их соответствующие медианы, которые меньше, чем точка поворота. Таким образом, каждый из пГруппы / 10 содержат как минимум 3 элемента, которые меньше стержня. Аналогичным образом в каждом из п/ 10 групп, у которых медиана больше, чем точка поворота, есть два элемента, которые больше, чем их соответствующие медианы, которые больше, чем точка поворота. Таким образом, каждый из пГруппы / 10 содержат как минимум 3 элемента, которые больше, чем точка поворота. Следовательно, угол поворота меньше 3 (п/ 10) элементов и больше еще 3 (п/ 10) элементы. Таким образом, выбранная медиана разделяет элементы где-то между 30% / 70% и 70% / 30%, что обеспечивает линейное поведение алгоритма в худшем случае. Чтобы визуализировать:

Одна итерация для случайного набора из 100 элементов от 0 до 99
	12	15	11	2	9	5	0	7	3	21	44	40	1	18	20	32	19	35	37	39
	13	16	14	8	10	26	6	33	4	27	49	46	52	25	51	34	43	56	72	79
Медианы	17	23	24	28	29	30	31	36	42	47	50	55	58	60	63	65	66	67	81	83
	22	45	38	53	61	41	62	82	54	48	59	57	71	78	64	80	70	76	85	87
	96	95	94	86	89	69	68	97	73	92	74	88	99	84	75	90	77	93	98	91

(красный = "(один из двух возможных) медиана медиан", серый = "число <красный", белый = "число> красный")

Кортежи из 5 показаны здесь для ясности, отсортированные по медиане. Сортировка кортежей не требуется, потому что нам нужна только медиана для использования в качестве сводного элемента.

Обратите внимание, что все элементы выше / слева от красного (30% из 100 элементов) меньше, а все элементы ниже / справа от красного (еще 30% из 100 элементов) больше.

Доказательство O (п) Продолжительность

Рекурсивный вызов с вычислением медианы не превышает линейное поведение наихудшего случая, поскольку список медиан имеет размер п / 5, в то время как другой рекурсивный вызов повторяется не более чем на 70% списка. Позволять Т (п) быть временем, необходимым для выполнения алгоритма Quickselect на основе медианы медианы на массиве размера п. Тогда мы знаем, что это время:

{ Displaystyle Т (п) Leq Т (п / 5) + Т (п CDOT 7/10) + с CDOT п.}

куда

то Т (п / 5) часть предназначена для поиска истинный медиана п / 5 медианы, запустив (независимый) Quickselect для них (поскольку нахождение медианы - это всего лишь частный случай выбора k-наибольший элемент)
О (п) срок c · n предназначен для работы по разделению для создания двух сторон, одна из которых будет рекурсивно повторяться нашим Quickselect (мы посетили каждый элемент постоянное количество раз, чтобы сформировать их в n / 5 групп и взять каждую медиану за время O (1)).
то Т (п · 7/10) часть предназначена для фактической рекурсии Quickselect (в худшем случае, когда k-й элемент находится в большом разделе, максимальный размер которого может быть n · 7/10)

Отсюда с помощью индукции легко показать, что

{ Displaystyle Т (п) Leq 10 CDOT с CDOT п в О (п).}

Анализ

Ключевым шагом является сокращение проблемы до выбора в двух списках, общая длина которых меньше, чем исходный список, плюс линейный коэффициент для шага сокращения. Это позволяет простой индукцией показать, что общее время работы линейно.

Конкретный выбор групп из пяти элементов объясняется следующим образом. Во-первых, вычисление медианы нечетного списка происходит быстрее и проще; хотя можно использовать четный список, для этого требуется взять среднее значение двух средних элементов, что медленнее, чем простой выбор одного точного среднего элемента. Во-вторых, пять - это наименьшее нечетное число, при котором работает медиана медиан. В группах всего из трех элементов итоговый список медиан для поиска имеет длину. п/ 3, и сокращает список до длины рекурсии ${ displaystyle { frac {2} {3}} п}$ , поскольку он больше 1/2 × 2/3 = 1/3 элементов и меньше 1/2 × 2/3 = 1/3 элементов. Таким образом, это все еще оставляет п элементы для поиска, недостаточно решающие проблему. Однако отдельные списки короче, и можно связать итоговую сложность с ${ Displaystyle О (п журнал п)}$ посредством Метод Акра – Бацци, но это не доказывает линейность.

И наоборот, вместо этого можно сгруппировать по грамм = семь, девять или более элементов, и это действительно работает. Это уменьшает размер списка медиан до п/грамм, и размер списка для рекурсии в асимптоты в 3п/ 4 (75%), поскольку квадранты в приведенной выше таблице составляют примерно 25%, так как размер перекрывающихся линий пропорционально уменьшается. Это снижает коэффициент масштабирования с 10 асимптотически до 4, но, соответственно, увеличивает c срок выполнения работ по разделению. Поиск медианы для большей группы занимает больше времени, но является постоянным фактором (зависит только от грамм), и, таким образом, не меняет общую производительность как п растет. Фактически, учитывая количество сравнений в худшем случае, постоянный коэффициент равен ${ displaystyle { frac {2g (g-1)} {g-3}}}$ .

Если один вместо этого группирует другим способом, скажем, разделив п список элементов в 5 списков, вычисление медианы каждого, а затем вычисление медианы из них - т. е. группировка по постоянной доле, а не по постоянному числу - один не так явно уменьшает проблему, поскольку требует вычисления 5 медиан, каждая в списке п/ 5 элементов, а затем повторяется в списке длиной не более 7п/ 10. Как и в случае группировки по 3, отдельные списки короче, но общая длина не меньше - фактически больше - и, таким образом, можно доказать только сверхлинейные границы. Группировка в квадрат ${ displaystyle { sqrt {n}}}$ списки длины ${ displaystyle { sqrt {n}}}$ так же сложно.

внешняя ссылка

"Конспект лекции от 30 января 1996 г .: Детерминированный отбор ", ICS 161: Разработка и анализ алгоритмов, Дэвид Эппштейн

[clrs-1] а ^б Кормен, Томас Х.; Лейзерсон, Чарльз Э.; Ривест, Рональд Л.; Штейн, Клиффорд (2009) [1990]. Введение в алгоритмы (3-е изд.). MIT Press и McGraw-Hill. ISBN 0-262-03384-4.

[1]