Семантический разрыв - Semantic gap

В семантический разрыв характеризует разницу между двумя описаниями объекта разными лингвистическими представлениями, например языками или символами. Согласно Андреасу Хайну, семантический разрыв можно определить как «различие в значении конструктов, сформированных в разных системах представления».[1] В Информатика, эта концепция актуальна всякий раз, когда обычная человеческая деятельность, наблюдения и задачи переводятся в вычислительное представление.[2][3][1]

Точнее, разрыв означает различие между неоднозначной формулировкой контекстных знаний на мощном языке (например, естественный язык ) и его звуковое, воспроизводимое и вычислительное представление в формальный язык (например. язык программирования ). Семантика объекта зависит от контекста, в котором он рассматривается. Для практического применения это означает, что любое формальное представление задач реального мира требует перевода контекстных экспертных знаний о приложении (высокоуровневые) в элементарные и воспроизводимые операции вычислительной машины (низкоуровневые). Поскольку естественный язык позволяет выражать задачи, которые невозможно вычислить на формальном языке, нет средств для автоматизации этого перевода в общем виде. Кроме того, изучение языков в рамках Иерархия Хомского указывает на то, что не существует формального и, следовательно, автоматического способа перевода с одного языка на другой выше определенного уровня выразительной силы.

Теоретические основы

Еще не доказанные, но общепринятые Тезис Черча-Тьюринга заявляет, что Машина Тьюринга и все эквивалентные формальные языки, такие как лямбда-исчисление выполнять и представлять все формальные операции соответственно прикладному человеку. Однако выбор адекватных операций для самого правильного вычисления формально не выводится, более того, он зависит от вычислимости основной проблемы. Задачи, такие как проблема остановки, могут быть исчерпывающе сформулированы на естественном языке, но вычислительное представление не прекращается или не дает полезного результата, что подтверждается Теорема Райса. Общее выражение ограничений для основанной на правилах дедукции по Гёделю теорема о неполноте указывает на то, что семантический разрыв никогда не должен быть полностью закрыт. Это общие утверждения, учитывающие обобщенные пределы вычислений на высшем уровне абстракции, где семантический разрыв проявляет себя. Однако есть много подмножеств задач, которые можно переводить автоматически, особенно на более высоких уровнях иерархии Хомского.

Формальные языки

Реальные задачи формализованы языками программирования, которые выполняются на компьютерах на базе фон Неймана архитектура. Поскольку языки программирования являются только удобными представлениями машины Тьюринга, любая программа на компьютере фон Неймана имеет те же свойства и ограничения, что и машина Тьюринга или ее эквивалентное представление. Следовательно, каждый язык программирования, такой как машинный код уровня ЦП, ассемблер или любой язык программирования высокого уровня, обладает той же выразительной силой, которую способна вычислять базовая машина Тьюринга. Здесь нет семантический разрыв между ними, поскольку программа передается с языка высокого уровня в машинный код программой, например а компилятор который сам работает на машине Тьюринга без какого-либо взаимодействия с пользователем. Фактически возникает семантический разрыв между выбором правил и представлением задачи.

Практические последствия

Выбор правил для формального представления реальных приложений соответствует написанию программы. Написание программ не зависит от реального языка программирования и в основном требует перевода специфических знаний пользователя в предметной области в формальные правила работы машины Тьюринга. Именно этот переход от контекстуального знания к формальному представлению нельзя автоматизировать с учетом теоретических ограничений вычислений. Следовательно, любое отображение из реальных приложений в компьютерные приложения требует от пользователя определенных технических знаний, где семантический разрыв проявляет себя.

Это фундаментальная задача программная инженерия чтобы сократить разрыв между знаниями о конкретных приложениях и технически выполнимой формализацией. Для этого необходимо передать специфические (высокоуровневые) знания предметной области в алгоритм и его параметры (низкоуровневые). Это требует диалога между пользователем и разработчиком. Aim - это всегда программное обеспечение, которое позволяет пользователю представить свои знания в виде параметров алгоритма, не зная деталей реализации, и интерпретировать результат алгоритма без помощи разработчика. Для этого пользовательские интерфейсы играют ключевую роль в разработке программного обеспечения, а разработчиков поддерживает рамки которые помогают организовать интеграцию контекстной информации.

Примеры

Поиск документов

Простой пример можно сформулировать как серию все более сложных естественный язык запросы, чтобы найти целевой документ которые могут существовать или не существовать локально в известной компьютерной системе.

Примеры запросов:

  • 1) Найдите любой файл в известном каталоге «/ usr / local / funny».
  • 2) Найдите любой файл, в названии которого есть слово «смешно».
  • 3) Найдите любой текстовый файл где в тексте встречается слово «смешной» или подстрока «юмор».
  • 4) Найдите любой mp3 файл, в метаданных которого присутствует слово «смешной», «комический» или «юмор».
  • 5) Найдите любой файл, относящийся к юмору.
  • 6) Найдите любое изображение, которое может рассмешить мою бабушку.

Постепенная сложность этих запросов представлена ​​возрастающей степенью абстракции от типов и семантики, определяющих архитектуру системы (каталоги и файлы на известном компьютере), до типов и семантики, которые занимают сферу обычного человеческого дискурса (такие темы, как " юмор »и ​​такие сущности, как« моя бабушка »). Более того, это несоответствие сфер усложняется еще и тем, что дырявые абстракции, как это часто бывает в случае запроса 4), где целевой документ могут существовать, но не могут инкапсулировать «метаданные» в манере, ожидаемой пользователем или разработчиком системы обработки запросов.

Анализ изображений

Анализ изображений - это типичная область, для которой требуется высокая степень абстракции от низкоуровневых методов, и где семантический разрыв сразу влияет на пользователя. Если содержимое изображения должно быть идентифицировано для понимания значения изображения, единственной доступной независимой информацией являются данные пикселей низкого уровня. Текстовые аннотации всегда зависят от знания, способности выражения и конкретного языка аннотатора и поэтому ненадежны. Чтобы распознать отображаемые сцены из необработанных данных изображения, алгоритмы выбора и управления пикселями должны быть скомбинированы и параметризованы соответствующим образом и, наконец, связаны с естественным описанием. Даже простое лингвистическое представление формы или цвета, такого как круглая или желтая, требует совершенно иных методов математической формализации, которые не являются ни интуитивными, ни уникальными, ни надежными.

Семантический разрыв в контексте анализа изображений

Многослойные системы

Во многих многоуровневые системы, некоторые конфликты возникают, когда концепции на высоком уровне абстракции должны быть переведены на более низкие, более конкретные артефакты. Это несоответствие часто называют семантический разрыв.

Базы данных

OODBMS Сторонники (объектно-ориентированной системы управления базами данных) иногда утверждают, что эти базы данных помогают уменьшить семантический разрыв между доменом приложения (мини-мир ) и традиционные системы РСУБД.[4] Однако сторонники реляционных технологий будут постулировать прямо противоположное, потому что по определению объектные базы данных фиксируют записываемые данные в единую абстракцию привязки.

Смотрите также

использованная литература

Статья основана на материалах, взятых из Бесплатный онлайн-словарь по вычислительной технике до 1 ноября 2008 г. и зарегистрированы в соответствии с условиями «перелицензирования» GFDL, версия 1.3 или новее.

  1. ^ а б Хайн, А. М. (2010). «Выявление и устранение семантических пробелов в контексте многодоменной инженерии». Тезисы докладов Форума по философии, технике и технологиям 2010 г. Колорадо.
  2. ^ Smeulders, A. W. M .; и другие. (2000). «Поиск изображений на основе содержания в конце первых лет жизни». IEEE Trans Pattern Анальный Mach Intell. 22 (12): 1349–80. Дои:10.1109/34.895972.
  3. ^ Dorai, C .; Венкатеш, С. (2003). «Преодоление семантического разрыва с помощью эстетики вычислительных медиа». IEEE MultiMedia. 10 (2): 15–17. Дои:10.1109 / MMUL.2003.1195157. HDL:10536 / DRO / DU: 30044313.
  4. ^ Schlatter, M .; и другие. (1994). «Система управления бизнес-объектами». Журнал IBM Systems. 33 (2): 239–263. Дои:10.1147 / sj.332.0239.