Коэффициент кластеризации - Clustering coefficient

В теория графов, а коэффициент кластеризации - это мера степени, с которой узлы в графе стремятся объединяться в кластеры. Факты свидетельствуют о том, что в большинстве реальных сетей, и в частности социальные сети узлы имеют тенденцию создавать тесно связанные группы, характеризующиеся относительно высокой плотностью связей; эта вероятность имеет тенденцию быть больше, чем средняя вероятность связи, случайно установленной между двумя узлами (Holland and Leinhardt, 1971;[1] Уоттс и Строгац, 1998 г.[2]).

Существуют две версии этой меры: глобальная и локальная. Глобальная версия была разработана, чтобы дать общее представление о кластеризации в сети, тогда как локальная версия дает указание на встроенность отдельных узлов.

Коэффициент локальной кластеризации

Пример коэффициента локальной кластеризации на неориентированном графе. Коэффициент локальной кластеризации синего узла вычисляется как доля фактически реализованных соединений между его соседями по сравнению с количеством всех возможных соединений. На рисунке синий узел имеет трех соседей, между которыми может быть максимум 3 соединения. В верхней части рисунка реализованы все три возможных соединения (толстые черные сегменты), что дает коэффициент локальной кластеризации, равный 1. В средней части рисунка реализовано только одно соединение (толстая черная линия) и 2 соединения отсутствуют ( пунктирные красные линии), что дает коэффициент локального кластера 1/3. Наконец, ни одно из возможных соединений между соседями синего узла не реализуется, в результате чего значение коэффициента локальной кластеризации равно 0.

В коэффициент локальной кластеризации из вершина (узел) в график определяет, насколько близко соседи должны быть клика (полный график). Дункан Дж. Уоттс и Стивен Строгац ввела меру в 1998 году, чтобы определить, является ли график сеть малого мира.

График формально состоит из набора вершин и набор ребер между ними. Край соединяет вершину с вершиной .

В район для вершины определяется как его непосредственно связанные соседи следующим образом:

Мы определяем как количество вершин, , по соседству, , вершины.

Коэффициент локальной кластеризации для вершины тогда задается пропорцией связей между вершинами в его окрестности, деленной на количество связей, которые могут существовать между ними. Для ориентированного графа отличается от , а значит, для каждой окрестности Существуют связи, которые могут существовать между вершинами в окрестности ( количество соседей вершины). Таким образом коэффициент локальной кластеризации для ориентированных графов дается как [2]

Неориентированный граф обладает тем свойством, что и считаются идентичными. Следовательно, если вершина имеет соседи, ребра могут существовать среди вершин в пределах окрестности. Таким образом коэффициент локальной кластеризации для неориентированных графов можно определить как

Позволять быть количеством треугольников на для неориентированного графа . То есть, количество подграфов с 3 ребрами и 3 вершинами, одна из которых . Позволять быть числом троек на . То есть, - количество подграфов (не обязательно индуцированных) с 2 ребрами и 3 вершинами, одна из которых и такой, что инцидентен обоим ребрам. Тогда мы также можем определить коэффициент кластеризации как

Легко показать, что два предыдущих определения одинаковы, поскольку

Эти меры равны 1, если каждый сосед, подключенный к также соединен со всеми остальными вершинами в окрестности, и 0, если ни одна вершина не соединена с соединяется с любой другой вершиной, которая связана с .

Поскольку любой граф полностью определяется своим матрица смежности А, коэффициент локальной кластеризации для простого неориентированного графа можно выразить через А в качестве:[3]

куда:

и Cя= 0, когда kя равно нулю или единице. В приведенном выше выражении числитель считает вдвое больше, чем количество полных треугольников, находящихся в вершине я участвует в. В знаменателе kя2 подсчитывает количество пар ребер, которые вершина я участвует в плюс количество одиночных ребер, пройденных дважды. kя - количество ребер, соединенных с вершиной i, и вычитая kя затем удаляет последний, оставляя только набор пар ребер, которые предположительно можно было бы соединить в треугольники. Для каждой такой пары ребер будет еще одна пара ребер, которые могут образовать тот же треугольник, поэтому знаменатель учитывает удвоенное количество мыслимых треугольников в вершине. я может быть вовлечен.

Коэффициент глобальной кластеризации

В глобальный коэффициент кластеризации основан на тройках узлов. Тройка - это три узла, которые связаны двумя (открытая тройка) или тремя (закрытая тройка) неориентированными связями. А треугольный график поэтому включает три замкнутых тройки, по одному центру на каждом из узлов (n.b. это означает, что три тройки в треугольнике происходят из перекрывающихся выборок узлов). Глобальный коэффициент кластеризации - это количество замкнутых триплетов (или трех треугольников) по сравнению с общим количеством триплетов (открытых и закрытых). Первую попытку измерить это сделали Люс и Перри (1949).[4] Эта мера дает представление о кластеризации во всей сети (глобальной) и может применяться как к неориентированным, так и к направленным сетям (часто называемая транзитивностью, см. Вассерман и Фауст, 1994, стр. 243).[5]).

Глобальный коэффициент кластеризации определяется как:

.

Число замкнутых троек в литературе также называют треугольниками 3 ×, поэтому:

.

Обобщение на взвешенные сети был предложен Opsahl и Panzarasa (2009),[6] и новое определение двухмодовых сетей (как двоичных, так и взвешенных) Opsahl (2009).[7]

Поскольку любой граф полностью определяется своим матрица смежности А, глобальный коэффициент кластеризации для неориентированного графа может быть выражен через А в качестве:

куда:

и C= 0, когда знаменатель равен нулю.

Средний сетевой коэффициент кластеризации

В качестве альтернативы глобальному коэффициенту кластеризации общий уровень кластеризации в сети измеряется Уоттсом и Строгатцем.[2] как среднее значение локальных коэффициентов кластеризации всех вершин  :[8]

Стоит отметить, что эта метрика придает больший вес узлам с низкой степенью, в то время как коэффициент транзитивности придает больший вес узлам с высокой степенью.

Граф считается маленький мир, если в графе есть небольшой средняя длина кратчайшего пути который масштабируется с натуральным логарифмом количества узлов в сети,.[9] Например, случайный граф является маленьким миром, в то время как решетка - нет, и безмасштабные графы часто считаются сверхмалыми мирами, поскольку их средняя кратчайшая длина пути масштабируется с .

Обобщение на взвешенные сети был предложен Barrat et al. (2004),[10] и новое определение двудольные графы (также называемые двухрежимными сетями) Latapy et al. (2008)[11] и Opsahl (2009).[7]

Альтернативные обобщения взвешенных и ориентированные графы предоставлены Fagiolo (2007)[12] и Клементе и Грасси (2018).[13]

Эта формула по умолчанию не определена для графов с изолированными вершинами; см. Kaiser (2008)[14] и Barmpoutis et al.[15] Обнаружено, что сети с максимально возможным средним коэффициентом кластеризации имеют модульную структуру и в то же время имеют минимально возможное среднее расстояние между различными узлами.[15]

Перколяция кластерных сетей

Для исследования устойчивости кластерных сетей разработан перколяционный подход.[16][17][18] Устойчивость к локальным атакам изучалась с помощью локальной перколяции.[19]Также изучалась локализация волн в кластерных сложных сетях.[20]

Смотрите также

Рекомендации

  1. ^ П. У. Холланд и С. Лейнхардт (1971). «Транзитивность в структурных моделях малых групп». Сравнительные групповые исследования. 2 (2): 107–124. Дои:10.1177/104649647100200201.
  2. ^ а б c Д. Дж. Уоттс и Стивен Строгац (Июнь 1998 г.). «Коллективная динамика сетей« маленького мира »». Природа. 393 (6684): 440–442. Bibcode:1998 Натур.393..440Вт. Дои:10.1038/30918. PMID  9623998.
  3. ^ Ван, Ю; Гумаре, Эшвар; Ванденберге, Рик; Дюпон, Патрик (2017). «Сравнение различных обобщений коэффициента кластеризации и локальной эффективности для взвешенных неориентированных графов». Нейронные вычисления. 29 (2): 313–331. Дои:10.1162 / NECO_a_00914. Получено 8 августа, 2020.
  4. ^ Р. Д. Люс и А. Д. Перри (1949). «Метод матричного анализа структуры группы». Психометрика. 14 (1): 95–116. Дои:10.1007 / BF02289146. PMID  18152948.
  5. ^ Стэнли Вассерман, Катерина Фауст, 1994. Анализ социальных сетей: методы и приложения. Кембридж: Издательство Кембриджского университета.
  6. ^ Торе Опсаль и Пьетро Панзараса (2009). «Кластеризация в взвешенных сетях». Социальные сети. 31 (2): 155–163. Дои:10.1016 / j.socnet.2009.02.002.
  7. ^ а б Торе Опсаль (2009). «Кластеризация в двухрежимных сетях». Конференция и семинар по двухрежимному социальному анализу (30 сентября - 2 октября 2009 г.).
  8. ^ Кемпер, Андреас (2009). Оценка сетевых эффектов на рынках программного обеспечения: комплексный сетевой подход. Springer. п. 142. ISBN  9783790823660.
  9. ^ http://networksciencebook.com/4#ultra-small
  10. ^ Barrat, A .; Barthelemy, M .; Pastor-Satorras, R .; Веспиньяни, А. (2004). «Архитектура сложных весовых сетей». Труды Национальной академии наук. 101 (11): 3747–3752. arXiv:cond-mat / 0311416. Bibcode:2004ПНАС..101.3747Б. Дои:10.1073 / pnas.0400087101. ЧВК  374315. PMID  15007165.
  11. ^ Latapy, M .; Magnien, C .; Дель Веккьо, Н. (2008). «Основные понятия для анализа больших двухрежимных сетей». Социальные сети. 30 (1): 31–48. Дои:10.1016 / j.socnet.2007.04.006.
  12. ^ Фаджиоло, Г. (2007). «Кластеризация в сложных направленных сетях». Физический обзор E. 76 (2 Пт 2): 026107. CiteSeerX  10.1.1.262.1006. Дои:10.1103 / PhysRevE.76.026107. PMID  17930104.
  13. ^ Clemente, G.P .; Грасси, Р. (2018). «Направленная кластеризация в взвешенных сетях: новая перспектива». Хаос, солитоны и фракталы. 107: 26–38. arXiv:1706.07322. Bibcode:2018CSF ... 107 ... 26C. Дои:10.1016 / j.chaos.2017.12.007.
  14. ^ Кайзер, Маркус (2008). «Средние коэффициенты кластеризации: роль изолированных узлов и листьев в мерах кластеризации для сетей малого мира». Новый журнал физики. 10 (8): 083042. arXiv:0802.2512. Bibcode:2008НДЖФ ... 10х3042К. Дои:10.1088/1367-2630/10/8/083042.
  15. ^ а б Barmpoutis, D .; Мюррей, Р. М. (2010). «Сети с наименьшим средним расстоянием и наибольшей средней кластеризацией». arXiv:1007.4031 [q-bio.MN ].
  16. ^ М. Э. Дж. Ньюман (2009). «Случайные графы с кластеризацией». Phys. Rev. Lett. 103: 058701.
  17. ^ А. Хакетт, С. Мельник и Дж. П. Глисон (2011). «Каскады по классу сгруппированных случайных сетей». Phys. Ред. E. 83: 056107.CS1 maint: лишняя пунктуация (связь) CS1 maint: несколько имен: список авторов (связь)
  18. ^ С. Шао, Х. Хуанг, Е.П. Стэнли, С. Хэвлин (2014). «Устойчивость частично взаимозависимой сети, сформированной из кластерных сетей». Phys. Ред. E. 89: 032812.CS1 maint: несколько имен: список авторов (связь)
  19. ^ , Фань Ван, Жуйцзинь Ду, Лисинь Тянь, Шуай Шао, Х. Юджин Стэнли, Шломо Хавлин (2019). «Локальная атака на сети с кластеризацией Хуэйфан Хао». Новый журнал физики. 21: 013014.CS1 maint: несколько имен: список авторов (связь)
  20. ^ Л. Янке, Дж. У. Кантельхардт, Р. Берковиц, С. Хэвлин Phys (2008). «Волновая локализация в сложных сетях с высокой кластеризацией». Phys. Rev. Lett. 101: 175702.CS1 maint: несколько имен: список авторов (связь)

внешняя ссылка