Структурная добыча - Structure mining

Структурная добыча или же структурированный анализ данных это процесс поиска и извлечения полезной информации из полуструктурированные данные наборы. Майнинг графов, последовательный анализ шаблонов и молекулярная добыча частные случаи структурированного интеллектуального анализа данных[нужна цитата ].

Описание

Рост использования полуструктурированные данные создал новые возможности для интеллектуального анализа данных, который традиционно был связан с табличными наборами данных, что отражает тесную связь между сбор данных и реляционные базы данных. Большая часть интересных и полезных данных в мире нелегко складывается в реляционные базы данных, хотя поколение инженеров-программистов было обучено верить, что это единственный способ обработки данных, а алгоритмы интеллектуального анализа данных обычно разрабатывались только для работы с табличными данными. .

XML, будучи наиболее частым способом представления полуструктурированных данных, может представлять как табличные данные, так и произвольные деревья. Любое конкретное представление данных, которыми должны обмениваться два приложения в XML, обычно описывается схемой, часто записываемой на XSD. Практические примеры таких схем, например NewsML, как правило, очень сложны и содержат несколько необязательных поддеревьев, используемых для представления данных особого случая. Часто около 90% схемы связано с определением этих дополнительных элементов данных и поддеревьев.

Следовательно, сообщения и данные, которые передаются или кодируются с использованием XML и соответствуют одной и той же схеме, могут содержать очень разные данные в зависимости от того, что передается.

Такие данные представляют большие проблемы для обычного интеллектуального анализа данных. Два сообщения, соответствующие одной и той же схеме, могут иметь мало общих данных. Построение обучающего набора на основе таких данных означает, что если попытаться отформатировать его как табличные данные для обычного интеллектуального анализа данных, большие разделы таблиц будут или могут оказаться пустыми.

При разработке большинства алгоритмов интеллектуального анализа данных предполагается, что представленные данные будут полными. Другая необходимость заключается в том, что используемые фактические алгоритмы интеллектуального анализа данных, контролируемые или неконтролируемые, должны иметь возможность обрабатывать разреженные данные. А именно, алгоритмы машинного обучения плохо работают с неполными наборами данных, в которых предоставляется только часть информации. Например, методы, основанные на нейронные сети.[нужна цитата ] или же Росс Куинлан с Алгоритм ID3.[нужна цитата ] являются очень точными с хорошими и репрезентативными выборками проблемы, но плохо работают с предвзятыми данными. В большинстве случаев достаточно лучшего представления модели с более тщательным и непредвзятым представлением входных и выходных данных. Особенно актуальной областью, в которой поиск подходящей структуры и модели является ключевым вопросом, является интеллектуальный анализ текста.

XPath - это стандартный механизм, используемый для ссылки на узлы и элементы данных в XML. Он имеет сходство со стандартными методами навигации по иерархиям каталогов, используемыми в пользовательских интерфейсах операционных систем. Чтобы анализировать данные и структурировать XML-данные любой формы, необходимы как минимум два расширения для обычного интеллектуального анализа данных. Это возможность связать оператор XPath с любым шаблоном данных и под-операторами с каждым узлом данных в шаблоне данных, а также возможность отслеживать наличие и подсчет любого узла или набора узлов в документе.

Например, если бы кто-то изобразил генеалогическое древо в XML, используя эти расширения, можно было бы создать набор данных, содержащий все отдельные узлы в дереве, элементы данных, такие как имя и возраст на момент смерти, и количество связанных узлов, таких как как количество детей. Более сложные поисковые запросы позволяют извлекать такие данные, как продолжительность жизни бабушек и дедушек и т. Д.

Добавление этих типов данных, связанных со структурой документа или сообщения, упрощает анализ структуры.

Смотрите также

Рекомендации

  • Эндрю Н. Эдмондс, О древовидной структуре данных интеллектуального анализа данных в XML », Конференция по интеллектуальному анализу данных в Великобритании, Ноттингемский университет, август 2003 г.
  • Гасфилд, Д., Алгоритмы на строках, деревьях и последовательностях: информатика и вычислительная биология, Издательство Кембриджского университета, 1997. ISBN  0-521-58519-8
  • Р.О. Дуда, П.Е. Харт, Д. Аист, Классификация паттернов, Джон Уайли и сыновья, 2001. ISBN  0-471-05669-3
  • Ф. Хаджич, Х. Тан, Т.С. Диллон, Интеллектуальный анализ данных со сложной структурой, Springer, 2010. ISBN  978-3-642-17556-5

внешняя ссылка