Алгоритмы автоматической кластеризации - Automatic clustering algorithms

Алгоритмы автоматической кластеризации - это алгоритмы, которые могут выполнять кластеризацию без предварительного знания наборов данных. В отличие от других кластерный анализ методы, алгоритмы автоматической кластеризации могут определять оптимальное количество кластеров даже при наличии шума и выбросов.[1][необходим контекст ]

На основе центроидов

Учитывая набор п объекты, основанные на центроидах алгоритмы создают k разделы, основанные на функции различия, такие, что k≤n. Основная проблема при применении этого типа алгоритма - определение подходящего количества кластеров для немаркированных данных. Таким образом, большинство исследований кластерного анализа было сосредоточено на автоматизации процесса.

Автоматический подбор k в K-значит алгоритм кластеризации, один из наиболее часто используемых алгоритмов кластеризации на основе центроидов, по-прежнему является серьезной проблемой в машинном обучении. Наиболее приемлемым решением этой проблемы является локтевой метод. Он состоит из беговых k- означает кластеризацию набора данных с диапазоном значений, вычисление суммы квадратов ошибок для каждого и отображение их на линейной диаграмме. Если диаграмма выглядит как рука, лучшее значение k будет на «локте».[2]

Другой метод, изменяющий k-смыслом алгоритма автоматического выбора оптимального количества кластеров является г- означает алгоритм. Он был разработан на основе гипотезы о том, что подмножество данных следует гауссовскому распределению. Таким образом, k увеличивается до тех пор, пока каждый k- означает, что данные центра являются гауссовыми. Этот алгоритм требует только стандартного уровня статистической значимости в качестве параметра и не устанавливает ограничений для ковариации данных.[3]

На основе подключения (иерархическая кластеризация)

Кластеризация на основе подключения или иерархическая кластеризация основан на идее, что объекты больше похожи на другие близлежащие объекты, чем на более удаленные. Следовательно, сгенерированные кластеры из этого типа алгоритма будут результатом расстояния между анализируемыми объектами.

Иерархические модели могут быть разделенными, когда разделы строятся из всего доступного набора данных, или агломерирующими, когда каждый раздел начинается с одного объекта, а в набор добавляются дополнительные объекты.[4] Хотя иерархическая кластеризация имеет то преимущество, что позволяет использовать любую допустимую метрику в качестве определенного расстояния, она чувствительна к шуму и колебаниям в наборе данных, и ее сложнее автоматизировать.

Разработаны методы улучшения и автоматизации существующих алгоритмов иерархической кластеризации.[5] например, автоматизированная версия иерархического кластерного анализа единой связи (HCA). Этот компьютеризированный метод основывает свой успех на последовательном подходе к сокращению выбросов, за которым следует построение описательной функции, которая позволяет определять естественные кластеры. К этим кластерам также можно отнести отброшенные объекты. По сути, не нужно прибегать к внешним параметрам для определения природных кластеров. Информация, собранная из HCA, автоматизированная и надежная, может быть возобновлена ​​в дендрограмма с количеством естественных кластеров и соответствующим разделением - вариант, которого нет в классических HCA. Этот метод включает в себя два следующих шага: удаление выбросов (это применяется во многих приложениях фильтрации) и необязательная классификация, позволяющая расширять кластеры с полным набором объектов.[6]

БЕРЕЗА (сбалансированное итеративное сокращение и кластеризация с использованием иерархий) - это алгоритм, используемый для выполнения кластеризации на основе подключения для больших наборов данных.[7] Он считается одним из самых быстрых алгоритмов кластеризации, но его требования к количеству кластеров ограничены. Поэтому были разработаны новые алгоритмы на основе BIRCH, в которых нет необходимости обеспечивать подсчет кластеров с самого начала, но при этом сохраняется качество и скорость кластеров. Основная модификация заключается в удалении последнего шага BIRCH, на котором пользователь должен был ввести количество кластеров, и в улучшении остальной части алгоритма, называемого tree-BIRCH, путем оптимизации порогового параметра на основе данных. В этом результирующем алгоритме пороговый параметр рассчитывается из максимального радиуса кластера и минимального расстояния между кластерами, которые часто известны. Этот метод оказался эффективным для наборов данных из десятков тысяч кластеров. Если выйти за пределы этой суммы, возникает проблема расщепления суперкластеров. Для этого были разработаны другие алгоритмы, такие как MDB-BIRCH, которые сокращают разбиение суперкластера с относительно высокой скоростью.[8]

На основе плотности

В отличие от методов разделения и иерархии, кластеризация на основе плотности алгоритмы способны находить кластеры любой произвольной формы, а не только сферы.

Алгоритм кластеризации на основе плотности использует автономное машинное обучение, которое определяет закономерности, касающиеся географического положения и расстояния до определенного числа соседей. Он считается автономным, потому что априорное знание того, что такое кластер, не требуется.[9] Этот тип алгоритма предоставляет различные методы для поиска кластеров в данных. Самый быстрый способ - DBSCAN, который использует определенное расстояние, чтобы различать плотные группы информации и разреженный шум. Более того, HDBSCAN может самонастраиваться, используя диапазон расстояний вместо указанного. Наконец, метод ОПТИКА создает график достижимости на основе расстояния от соседних объектов, чтобы отделить шум от кластеров различной плотности.

Эти методы по-прежнему требуют от пользователя предоставления центра кластера и не могут считаться автоматическими. Алгоритм автоматической кластеризации локальной плотности (ALDC) является примером нового исследования, направленного на разработку автоматической кластеризации на основе плотности. ALDC вычисляет локальную плотность и отклонение расстояния до каждой точки, тем самым увеличивая разницу между потенциальным центром кластера и другими точками. Это расширение позволяет машине работать автоматически. Машина определяет центры кластеров и назначает точки, оставленные их ближайшим соседом с более высокой плотностью. [10]

При автоматизации плотности данных для идентификации кластеров исследования также были сосредоточены на искусственном создании алгоритмов. Например, оценка алгоритмов распределения гарантирует генерацию действительных алгоритмов ориентированный ациклический граф (DAG), в котором узлы представляют процедуры (строительный блок), а ребра представляют возможные последовательности выполнения между двумя узлами. Строительные блоки определяют алфавит EDA или, другими словами, любой сгенерированный алгоритм. По результатам экспериментов искусственно созданные алгоритмы кластеризации сравниваются с ручным алгоритмом DBSCAN.[11]

использованная литература

  1. ^ Выброс
  2. ^ «Использование метода локтя для определения оптимального количества кластеров для кластеризации k-средних». bl.ocks.org. Получено 2018-11-12.
  3. ^ https://papers.nips.cc/paper/2526-learning-the-k-in-k-means.pdf
  4. ^ «Введение в кластеризацию II: алгоритмы кластеризации - GameAnalytics». GameAnalytics. 2014-05-20. Получено 2018-11-06.
  5. ^ https://core.ac.uk/download/pdf/19123336.pdf
  6. ^ Almeida, J.A.S .; Barbosa, L.M.S .; Pais, A.A.C.C .; Формозиньо, С.Дж. (2007-06-15). «Улучшение иерархического кластерного анализа: новый метод с обнаружением выбросов и автоматической кластеризацией» (PDF). Хемометрия и интеллектуальные лабораторные системы. 87 (2): 208–217. Дои:10.1016 / j.chemolab.2007.01.005. HDL:10316/5042. ISSN  0169-7439.
  7. ^ Чжан, Тянь; Рамакришнан, Рагху; Ливны, Мирон; Чжан, Тянь; Рамакришнан, Рагху; Ливны, Мирон (1996-06-01). «BIRCH: эффективный метод кластеризации данных для очень больших баз данных, BIRCH: эффективный метод кластеризации данных для очень больших баз данных». Запись ACM SIGMOD. 25 (2): 103, 103–114, 114. Дои:10.1145/235968.233324. ISSN  0163-5808.
  8. ^ Лорбир, Борис; Косарева, Ана; Дева, Берсант; Софтич, Дженан; Руппель, Питер; Кюппер, Аксель (01.03.2018). «Вариации алгоритма кластеризации БЕРЕЗА». Исследования больших данных. 11: 44–53. Дои:10.1016 / j.bdr.2017.09.002. ISSN  2214-5796.
  9. ^ «Как работает кластеризация на основе плотности - ArcGIS Pro | ArcGIS Desktop». pro.arcgis.com. Получено 2018-11-05.
  10. ^ «Алгоритм автоматического распознавания центров кластеров на основе кластеризации локальной плотности - Публикация конференции IEEE». Дои:10.1109 / CCDC.2017.7978726. Цитировать журнал требует | журнал = (Помогите)
  11. ^ «Автокластеризация: оценка алгоритма распределения для автоматической генерации алгоритмов кластеризации - Публикация конференции IEEE». Дои:10.1109 / CEC.2012.6252874. Цитировать журнал требует | журнал = (Помогите)