Анализ ссылок - Link analysis

В теория сети, анализ ссылок это анализ данных техника, используемая для оценки отношений (связей) между узлами. Отношения могут быть идентифицированы между различными типами узлов (объектов), включая организации, люди и сделки. Анализ ссылок был использован для расследования преступной деятельности (Обнаружение мошенничества, контртерроризм, и интеллект ), анализ компьютерной безопасности, поисковая оптимизация, исследования рынка, медицинские исследования, и искусство.

Открытие знаний

Открытие знаний является итеративный и интерактивный процесс, используемый для идентифицировать, анализировать и визуализировать закономерности в данных.[1] Сетевой анализ, анализ ссылок и анализ социальных сетей все методы открытия знаний, каждый соответствующий подмножество предшествующего метода. Большинство методов обнаружения знаний включают следующие шаги (на самом высоком уровне):[2]

  1. Обработка данных
  2. Трансформация
  3. Анализ
  4. Визуализация

Сбор и обработка данных требует доступа к данным и имеет ряд неотъемлемых проблем, в том числе: информационная перегрузка и ошибки данных. После сбора данных их необходимо преобразовать в формат, который может эффективно использоваться как анализаторами людей, так и компьютерами. Инструменты визуализации, созданные вручную или с помощью компьютера, могут быть отображены на основе данных, включая сетевые диаграммы. Существует несколько алгоритмов, помогающих анализировать данные - Алгоритм Дейкстры, поиск в ширину, и поиск в глубину.

Анализ ссылок фокусируется на анализе отношений между узлами через методы визуализации (сетевые диаграммы, ассоциативная матрица). Вот пример отношений, которые могут быть отображены при расследовании преступлений:[3]

Отношения / СетьИсточники данных
1. ДовериеПредыдущие контакты в семье, районе, школе, армии, клубе или организации. Публичные и судебные отчеты. Данные могут быть доступны только в стране происхождения подозреваемого.
2. ЗадачаЖурналы и записи телефонных звонков, электронной почты, чатов, мгновенных сообщений, посещений веб-сайтов. Путевые записи. Человеческий интеллект: наблюдение за встречами и посещение общих мероприятий.
3. Деньги и ресурсыБанковский счет и записи о денежных переводах. Схема и место использования кредитной карты. Предыдущие судебные записи. Человеческий интеллект: наблюдение за посещениями альтернативных банковских ресурсов, таких как Хавала.
4. Стратегия и целиВеб-сайты. Видео и зашифрованные диски доставляются курьером. Путевые записи. Человеческий интеллект: наблюдение за встречами и посещение общих мероприятий.

Анализ ссылок используется для трех основных целей:[4]

  1. Найдите совпадения в данных для известных интересующих закономерностей;
  2. Найдите аномалии, в которых нарушаются известные шаблоны;
  3. Откройте для себя новые шаблоны интересов (анализ социальных сетей, сбор данных ).

История

Клеркс разделил инструменты анализа ссылок на 3 поколения.[5] Первое поколение было представлено в 1975 году как диаграмма анакпапы Харпера и Харриса.[6] Этот метод требует, чтобы эксперт по предметной области просматривал файлы данных, определял ассоциации путем построения матрицы ассоциаций, создавал диаграмму связей для визуализации и, наконец, анализировал сетевую диаграмму, чтобы определить интересующие закономерности. Этот метод требует обширных знаний в предметной области и занимает очень много времени при просмотре огромных объемов данных.

Матрица ассоциаций

В дополнение к матрице ассоциаций матрица действий может использоваться для получения информации, имеющей практическое значение и полезной для правоохранительных органов. Матрица действий, как может подразумеваться этот термин, сосредоточена на действиях и действиях людей по отношению к местам. В то время как матрица ассоциаций фокусируется на отношениях между людьми, организациями и / или собственностью. Различие между этими двумя типами матриц, хотя и незначительное, тем не менее важно с точки зрения результатов завершенного или визуализированного анализа.[7][8][9][10]

Инструменты второго поколения состоят из инструментов автоматического анализа на основе графики, таких как IBM i2 Analyst’s Notebook, Netmap, ClueMaker и Ватсон. Эти инструменты предлагают возможность автоматизировать построение и обновление диаграммы связей после того, как матрица ассоциаций создана вручную, однако для анализа полученных диаграмм и графиков по-прежнему требуется эксперт с обширными знаниями в предметной области.

Третье поколение инструментов анализа ссылок, таких как DataWalk, позволяет автоматически визуализировать связи между элементами в наборе данных, которые затем могут служить основой для дальнейшего исследования или обновления вручную.

Приложения

  • Программа ФБР по задержанию насильственных преступников (ViCAP)
  • Система анализа сексуальных преступлений штата Айова
  • Система анализа сексуальных преступлений штата Миннесота (MIN / SCAP)
  • Система отслеживания расследований убийств в штате Вашингтон (HITS)[11]
  • Расследование убийств и отслеживание потенциальных клиентов штата Нью-Йорк (HALT)
  • Оценка и отслеживание убийств в Нью-Джерси (HEAT)[12]
  • Программа ATAC штата Пенсильвания.
  • Система анализа связей с насильственными преступлениями (ViCLAS)[13]

Проблемы с анализом ссылок

Информационная перегрузка

Из-за огромных объемов данных и информации, которые хранятся в электронном виде, пользователи сталкиваются с множеством несвязанных источников информации, доступных для анализа. Для эффективного и действенного использования данных требуются методы анализа данных. Палшикар классифицирует методы анализа данных на две категории - (статистический модели, анализ временных рядов, кластеризация и классификация, алгоритмы сопоставления для обнаружения аномалий) и искусственный интеллект (AI) методы (интеллектуальный анализ данных, экспертные системы, распознавание образов, методы машинного обучения, нейронные сети ).[14]

Bolton & Hand определяют статистический анализ данных как контролируемые или неконтролируемые методы.[15] Контролируемые методы обучения требуют, чтобы правила были определены в системе, чтобы установить ожидаемое или неожиданное поведение. Неконтролируемые методы обучения сравнить данные с нормой и выявить статистические отклонения. Методы обучения с учителем ограничены в сценариях, которые могут быть обработаны, поскольку этот метод требует, чтобы правила обучения были установлены на основе предыдущих шаблонов. Методы обучения без учителя могут обеспечить обнаружение более широких проблем, однако могут привести к более высокому коэффициенту ложноположительных результатов, если поведенческая норма не установлена ​​или не понятна.

Самым данным присущи проблемы, включая целостность (или ее отсутствие) и постоянные изменения. Данные могут содержать «ошибки упущения и совершения из-за неправильного сбора или обработки, а также когда субъекты активно пытаются обмануть и / или скрыть свои действия».[4] Воробей[16] подчеркивает неполноту (неизбежность отсутствия данных или ссылок), нечеткие границы (субъективность при принятии решения о том, что включить) и динамические изменения (признание того, что данные постоянно меняются) как три основных проблемы анализа данных.[3]

После преобразования данных в пригодный для использования формат могут возникнуть проблемы с открытой текстурой и перекрестными ссылками. Открытая текстура был определен Вайсманн как неизбежная неопределенность значения, когда эмпирические термины используются в разных контекстах.[17] Неопределенность в значении терминов создает проблемы при попытке поиска и перекрестных ссылок на данные из нескольких источников.[18]

Основной метод решения проблем анализа данных - полагаться на базовые знания от эксперта. Это очень трудоемкий и дорогостоящий метод проведения анализа ссылок, который имеет свои собственные проблемы. McGrath et al. пришли к выводу, что макет и представление сетевой диаграммы оказывают значительное влияние на «восприятие пользователем существования групп в сетях».[19] Даже использование экспертов в предметной области может привести к разным выводам, поскольку анализ может быть субъективным.

Судебное преследование vs. предупреждение преступности

Методы анализа ссылок в основном использовались для судебного преследования, так как гораздо легче просматривать исторические данные на предмет закономерностей, чем пытаться предсказать будущие действия.

Кребс продемонстрировал использование матрицы ассоциаций и диаграммы связей террористической сети, связанной с 19 угонщиками, ответственными за 11 сентября атаки путем сопоставления общедоступных сведений, ставших доступными после атак.[3] Даже с учетом преимуществ ретроспективного анализа и общедоступной информации о людях, местах и ​​транзакциях очевидно, что данные отсутствуют.

В качестве альтернативы Пикарелли утверждал, что использование методов анализа ссылок могло быть использовано для выявления и потенциального предотвращения незаконных действий в Аум Синрикё сеть.[20] «Мы должны остерегаться« вины по ассоциации ». Связь с террористом не доказывает вину, но требует расследования ».[3] Уравновешивание правовых концепций вероятная причина, право на неприкосновенность частной жизни и Свобода объединения становятся сложными при просмотре потенциально конфиденциальных данных с целью предотвращения преступлений или незаконных действий, которые еще не произошли.

Предлагаемые решения

Предлагаются четыре категории решений для анализа ссылок:[21]

  1. На основе эвристики
  2. На основе шаблона
  3. На основе сходства
  4. Статистический

Инструменты на основе эвристики используют правила принятия решений, которые основаны на экспертных знаниях с использованием структурированных данных. Инструменты на основе шаблонов используют Обработка естественного языка (NLP) извлекать детали из неструктурированные данные которые соответствуют заранее определенным шаблонам. В подходах, основанных на сходстве, используются взвешенные подсчет очков для сравнения атрибутов и выявления потенциальных ссылок. Статистические подходы определяют потенциальные ссылки на основе лексической статистики.

CrimeNet исследователь

J.J. Сюй и Х. Чен предлагают фреймворк для автоматического анализа и визуализации сети под названием CrimeNet Explorer.[22] Эта структура включает в себя следующие элементы:

  • Создание сети с помощью концептуального пространственного подхода, который использует «совпадение вес, чтобы измерить частоту, с которой два слова или фразы появляются в одном документе. Чем чаще встречаются вместе два слова или фразы, тем больше вероятность того, что они связаны ».[22]
  • Разделение сети с использованием «иерархической кластеризации для разделения сети на подгруппы на основе реляционной силы».[22]
  • Структурный анализ с помощью «трех критериев центральности (степень, промежуточность и близость) для определения центральных членов в данной подгруппе.[22] CrimeNet Explorer нанял Алгоритм кратчайшего пути Дейкстры для вычисления промежуточности и близости от одного узла ко всем остальным узлам в подгруппе.
  • Визуализация сети с использованием метрики Торгерсона многомерное масштабирование (MDS) алгоритм.

Рекомендации

  1. ^ Inc., Проект Tor. «Проект Tor: Обзор».
  2. ^ Ахонен, Х., Особенности систем обнаружения знаний.
  3. ^ а б c d Кребс, В. Э. 2001, Картографирование сетей террористических ячеек В архиве 2011-07-20 на Wayback Machine, Соединения 24, 43–52.
  4. ^ Клеркс, П. (2001). «Сетевая парадигма применима к преступным организациям: теоретические придирки или соответствующая доктрина для следователей? Последние события в Нидерландах». Подключения. 24: 53–65. CiteSeerX  10.1.1.129.4720.
  5. ^ Харпер и Харрис, Анализ материалов ежегодного собрания общества криминальной разведки, человеческого фактора и эргономики, 19 (2), 1975, стр. 232-238.
  6. ^ Пайк, Джон. «FMI 3-07.22 Приложение F Инструменты и индикаторы аналитического анализа».
  7. ^ Анализ социальных сетей и другие аналитические инструменты В архиве 2014-03-08 в Wayback Machine
  8. ^ MSFC, Ребекка Уитакер (10 июля 2009 г.). «Руководство для преподавателя аэронавтики - матрицы деятельности».
  9. ^ Матрица личности / деятельности В архиве 2014-03-08 в Wayback Machine
  10. ^ «Архивная копия». Архивировано из оригинал на 2010-10-21. Получено 2010-10-31.CS1 maint: заархивированная копия как заголовок (связь)
  11. ^ «Архивная копия». Архивировано из оригинал на 2009-03-25. Получено 2010-10-31.CS1 maint: заархивированная копия как заголовок (связь)
  12. ^ «Архивная копия». Архивировано из оригинал на 2010-12-02. Получено 2010-10-31.CS1 maint: заархивированная копия как заголовок (связь)
  13. ^ Палшикар, Г. К., Скрытая правда, Интеллектуальное предприятие, май 2002 г.
  14. ^ Болтон, Р. Дж. И Хэнд, Д. Дж., Обнаружение статистического мошенничества: Обзор, Статистическая наука, 2002, 17 (3), стр. 235-255.
  15. ^ Воробей М.К. 1991. Уязвимости сетей и стратегическая разведка в правоохранительных органах », Международный журнал разведки и контрразведки Vol. 5 # 3.
  16. ^ Фридрих Вайсманн, Проверяемость (1945), стр.2.
  17. ^ Лайонс, Д., Открытая текстура и возможность юридической интерпретации (2000).
  18. ^ Макграт К., Блайт Дж., Кракхардт Д., Просмотр групп в макетах графиков.
  19. ^ Пикарелли, Дж. Т., Индикация и предупреждение о транснациональных угрозах: полезность сетевого анализа, военного и разведывательного анализа.
  20. ^ Шредер и др., Автоматический анализ криминальных связей на основе знаний предметной области, Журнал Американского общества информационных наук и технологий, 58: 6 (842), 2007.
  21. ^ а б c d Сюй, Дж. Дж. И Чен, Х., CrimeNet Explorer: основа для обнаружения криминальной сети, транзакции ACM в информационных системах, 23 (2), апрель 2005 г., стр. 201-226.

внешняя ссылка