Неоднозначная грамматика - Ambiguous grammar

В Информатика, неоднозначная грамматика это контекстно-свободная грамматика для которого существует строка что может иметь более одного крайний левый вывод или дерево синтаксического анализа,^[1] в то время как однозначная грамматика является контекстно-свободной грамматикой, для которой каждая допустимая строка имеет уникальное самое левое дерево производных или синтаксического анализа. Многие языки допускают как неоднозначные, так и однозначные грамматики, в то время как некоторые языки допускают только неоднозначные грамматики. Любой непустой язык допускает неоднозначную грамматику, беря однозначную грамматику и вводя повторяющееся правило или синоним (единственный язык без неоднозначных грамматик - это пустой язык). Язык, допускающий только неоднозначные грамматики, называется по своей сути неоднозначный язык, и есть неоднозначные контекстно-свободные языки. Детерминированные контекстно-свободные грамматики всегда однозначны и являются важным подклассом однозначных грамматик; однако существуют недетерминированные однозначные грамматики.

Для компьютера языки программирования справочная грамматика часто бывает неоднозначной из-за таких проблем, как болтается еще проблема. Если присутствует, эти неоднозначности обычно разрешаются путем добавления правил приоритета или других контекстно-зависимый правила синтаксического анализа, поэтому общая грамматика фраз является однозначной.^{[нужна цитата ]} Некоторые алгоритмы разбора (например, (Эрли^[2] или GLR парсеры) могут генерировать наборы синтаксических деревьев (или "синтаксических лесов") из строк, которые синтаксически неоднозначный.^[3]

Примеры

Банальный язык

Простейшим примером является следующая неоднозначная грамматика для тривиального языка, состоящая только из пустой строки:

A → A | ε

… Означает, что продукция может быть либо снова самой собой, либо пустой строкой. Таким образом, пустая строка имеет самые левые производные длины 1, 2, 3 и любой длины, в зависимости от того, сколько раз используется правило A → A.

Этот язык также имеет однозначную грамматику, состоящую из одного правило производства:

A → ε

… Означает, что уникальное произведение может создать только пустую строку, которая является уникальной строкой в языке.

Точно так же любую грамматику непустого языка можно сделать неоднозначной, добавив дубликаты.

Унарная строка

В обычный язык унарных строк данного символа, скажем 'а' (регулярное выражение а *), имеет однозначную грамматику:

A → aA | ε

… Но также имеет двусмысленную грамматику:

A → aA | Аа | ε

Они соответствуют производству правоассоциативный дерево (для однозначной грамматики) или позволяя левую и правую ассоциацию. Это подробно описано ниже.

Сложение и вычитание

В контекстно-свободная грамматика

A → A + A | А - А | а

неоднозначно, так как есть два крайних левых вывода для строки a + a + a:

А	→ А + А	А	→ А + А
	→ а + А		→ A + A + A (Первый A заменяется на A + A. Замена второго A приведет к аналогичному выводу)
	→ а + А + А		→ а + А + А
	→ а + а + А		→ а + а + А
	→ а + а + а		→ а + а + а

Другой пример: грамматика неоднозначна, так как есть два разбирать деревья для строки a + a - a:

Однако язык, который он генерирует, по своей сути не является двусмысленным; Ниже приводится однозначная грамматика, порождающая тот же язык:

A → A + a | А - а | а

Болтается еще

Распространенный пример двусмысленности в языках программирования - это болтается еще проблема. На многих языках еще в Если – то (–еще) оператор является необязательным, что приводит к вложенные условные выражения наличие нескольких способов быть распознанным с точки зрения контекстно-свободной грамматики.

Конкретно, на многих языках можно писать условные выражения в двух допустимых формах: форма if-then и форма if-then-else - по сути, делая предложение else необязательным:^{[примечание 1]}

В грамматике, содержащей правила

Заявление → если Состояние тогда Заявление | если Состояние тогда утверждение еще Заявление | ... Условие → ...

могут появиться некоторые неоднозначные структуры фраз. Выражение

если а тогда если б тогда s еще s2

может быть проанализирован как

если а тогда начать если б тогда s конец еще s2

или как

если а тогда начать если б тогда s еще s2 конец

в зависимости от того, еще связан с первым если или второй если.

Это разрешается по-разному на разных языках. Иногда грамматику модифицируют, чтобы сделать ее недвусмысленной, например, требуя endif заявление или заявление еще обязательное. В других случаях грамматика остается неоднозначной, но неоднозначность разрешается путем создания общей грамматики фразы контекстно-зависимой, например, путем связывания еще с ближайшим если. В последнем случае грамматика однозначна, но контекстно-свободная грамматика неоднозначна.^{[требуется разъяснение ]}

Однозначная грамматика с множественными производными

Существование множественных производных одной и той же строки недостаточно, чтобы указать на неоднозначность грамматики; только несколько крайний левый производные (или, что то же самое, несколько деревьев синтаксического анализа) указывают на неоднозначность.

Например, простая грамматика

S → A + AA → 0 | 1

является однозначной грамматикой для языка {0 + 0, 0 + 1, 1 + 0, 1 + 1}. Хотя каждая из этих четырех строк имеет только одну самую левую производную, у нее есть два разных производных, например

S ⇒ А + А ⇒ 0 + А ⇒ 0 + 0

и

S ⇒ A + A ⇒ A + 0 ⇒ 0 + 0.

Только первый вывод является крайним левым.

Распознавание неоднозначных грамматик

В проблема решения неоднозначности произвольной грамматики неразрешимый потому что можно показать, что он эквивалентен Проблема с почтовой перепиской.^[4] По крайней мере, есть инструменты, реализующие некоторые процедура полурешения для обнаружения двусмысленности контекстно-свободных грамматик.^[5]

Эффективность контекстного анализа грамматики определяется автоматом, который его принимает. Детерминированные контекстно-свободные грамматики принимаются детерминированные автоматы выталкивания и может быть проанализирован за линейное время, например, с помощью Парсер LR.^[6] Это подмножество контекстно-свободные грамматики которые принимаются выталкивающий автомат и может быть проанализирован за полиномиальное время, например, с помощью CYK алгоритм. Однозначные контекстно-свободные грамматики могут быть недетерминированными.

Например, язык четной длины палиндромы в алфавите 0 и 1 имеет однозначную контекстно-свободную грамматику S → 0S0 | 1S1 | ε. Произвольная строка этого языка не может быть проанализирована, не прочитав сначала все ее буквы, что означает, что выталкивающий автомат должен пробовать альтернативные переходы между состояниями, чтобы приспособиться к разной возможной длине частично проанализированной строки.^[7] Тем не менее, устранение грамматической двусмысленности может дать детерминированную контекстно-свободную грамматику и, таким образом, обеспечить более эффективный синтаксический анализ. Генераторы компиляторов, такие как YACC включают функции для разрешения некоторых видов неоднозначности, например, с помощью ограничений приоритета и ассоциативности.

По своей сути неоднозначные языки

Существование изначально неоднозначных языков было доказано с помощью Теорема Париха в 1961 г. Рохит Парих в исследовательском отчете Массачусетского технологического института.^[8]

В то время как некоторые контекстно-свободные языки (набор строк, которые могут быть сгенерированы грамматикой) имеют как неоднозначные, так и однозначные грамматики, существуют контекстно-свободные языки, для которых не может существовать однозначная контекстно-свободная грамматика. Примером по своей сути неоднозначного языка является объединение ${ displaystyle {a ^ {n} b ^ {m} c ^ {m} d ^ {n} | n, m> 0 }}$ с участием ${ displaystyle {a ^ {n} b ^ {n} c ^ {m} d ^ {m} | n, m> 0 }}$ . Этот набор не зависит от контекста, поскольку объединение двух контекстно-свободных языков всегда контекстно-бесконтекстно. Но Хопкрофт и Ульман (1979) предоставить доказательство того, что нет способа однозначно проанализировать строки в (неконтекстно-независимом) общем подмножестве ${ displaystyle {a ^ {n} b ^ {n} c ^ {n} d ^ {n} | n> 0 }}$ .^[9]

Смотрите также

Парсер GLR, тип парсера для неоднозначных и недетерминированных грамматик
Парсер диаграмм, другой тип парсера для неоднозначных грамматик
Синтаксическая двусмысленность

использованная литература

^ Виллем Дж. М. Левелт (2008). Введение в теорию формальных языков и автоматов. Издательство Джона Бенджамина. ISBN 90-272-3250-4.
^ Скотт, Элизабет (1 апреля 2008 г.). "Разбор в стиле SPPF от распознавателей Earley". Электронные заметки по теоретической информатике. 203 (2): 53–67. Дои:10.1016 / j.entcs.2008.03.044.
^ Томита, Масару. "Эффективный алгоритм анализа без расширенного контекста. »Компьютерная лингвистика 13.1-2 (1987): 31-46.
^ Хопкрофт, Джон; Мотвани, Раджив; Ульман, Джеффри (2001). Введение в теорию автоматов, языки и вычисления (2-е изд.). Эддисон-Уэсли. Теорема 9.20, с. 405–406. ISBN 0-201-44124-1.
^ Аксельссон, Роланд; Хельянко, Кейджо; Ланге, Мартин (2008). «Анализ контекстно-свободных грамматик с помощью инкрементального решателя SAT» (PDF). Материалы 35-го Международный коллоквиум по автоматам, языкам и программированию (ICALP'08), Рейкьявик, Исландия. Конспект лекций по информатике. 5126. Springer-Verlag. С. 410–422. Дои:10.1007/978-3-540-70583-3_34.
^ Кнут, Д. Э. (Июль 1965 г.). «О переводе языков слева направо» (PDF). Информация и контроль. 8 (6): 607–639. Дои:10.1016 / S0019-9958 (65) 90426-2. Архивировано из оригинал (PDF) 15 марта 2012 г.. Получено 29 мая 2011.CS1 maint: ref = harv (ссылка на сайт)
^ Хопкрофт, Джон; Мотвани, Раджив; Ульман, Джеффри (2001). Введение в теорию автоматов, языки и вычисления (2-е изд.). Эддисон-Уэсли. С. 249–253. ISBN 0-201-44124-1.
^ Парих, Рохит (январь 1961 г.). Устройства, генерирующие язык. Ежеквартальный отчет, Исследовательская лаборатория электроники, Массачусетский технологический институт.
^ стр.99-103, раздел 4.7

Гросс, Морис (сентябрь 1964 г.). «Внутренняя неоднозначность минимальных линейных грамматик». Информация и контроль. Информация и контроль. 7 (3): 366–368. Дои:10.1016 / S0019-9958 (64) 90422-X.
Майкл, Харрисон (1978). Введение в теорию формального языка. Эддисон-Уэсли. ISBN 0201029553.
Хопкрофт, Джон Э .; Ульман, Джеффри Д. (1979). Введение в теорию автоматов, языки и вычисления (1-е изд.). Эддисон-Уэсли.CS1 maint: ref = harv (ссылка на сайт)
Хопкрофт, Джон; Мотвани, Раджив; Ульман, Джеффри (2001). Введение в теорию автоматов, языки и вычисления (2-е изд.). Эддисон Уэсли. стр.217.CS1 maint: ref = harv (ссылка на сайт)
Брабранд, Клаус; Гигерих, Роберт; Мёллер, Андерс (март 2010 г.). «Анализ неоднозначности контекстно-свободных грамматик». Наука компьютерного программирования. Эльзевир. 75 (3): 176–191. CiteSeerX 10.1.1.86.3118. Дои:10.1016 / j.scico.2009.11.002.CS1 maint: ref = harv (ссылка на сайт)

Заметки

^ В следующем примере используется Паскаль синтаксис

внешние ссылки

dk.brics.grammar - анализатор грамматической неоднозначности.
CFGAnalyzer - инструмент для анализа контекстно-свободных грамматик на предмет универсальности, неоднозначности и аналогичных свойств языка.

[Levelt2008-1] Виллем Дж. М. Левелт (2008). Введение в теорию формальных языков и автоматов. Издательство Джона Бенджамина. ISBN 90-272-3250-4.

[2] Скотт, Элизабет (1 апреля 2008 г.). "Разбор в стиле SPPF от распознавателей Earley". Электронные заметки по теоретической информатике. 203 (2): 53–67. Дои:10.1016 / j.entcs.2008.03.044.

[3] Томита, Масару. "Эффективный алгоритм анализа без расширенного контекста. »Компьютерная лингвистика 13.1-2 (1987): 31-46.

[5] Хопкрофт, Джон; Мотвани, Раджив; Ульман, Джеффри (2001). Введение в теорию автоматов, языки и вычисления (2-е изд.). Эддисон-Уэсли. Теорема 9.20, с. 405–406. ISBN 0-201-44124-1.

[6] Аксельссон, Роланд; Хельянко, Кейджо; Ланге, Мартин (2008). «Анализ контекстно-свободных грамматик с помощью инкрементального решателя SAT» (PDF). Материалы 35-го Международный коллоквиум по автоматам, языкам и программированию (ICALP'08), Рейкьявик, Исландия. Конспект лекций по информатике. 5126. Springer-Verlag. С. 410–422. Дои:10.1007/978-3-540-70583-3_34.

[7] Кнут, Д. Э. (Июль 1965 г.). «О переводе языков слева направо» (PDF). Информация и контроль. 8 (6): 607–639. Дои:10.1016 / S0019-9958 (65) 90426-2. Архивировано из оригинал (PDF) 15 марта 2012 г.. Получено 29 мая 2011.CS1 maint: ref = harv (ссылка на сайт)

[8] Хопкрофт, Джон; Мотвани, Раджив; Ульман, Джеффри (2001). Введение в теорию автоматов, языки и вычисления (2-е изд.). Эддисон-Уэсли. С. 249–253. ISBN 0-201-44124-1.

[9] Парих, Рохит (январь 1961 г.). Устройства, генерирующие язык. Ежеквартальный отчет, Исследовательская лаборатория электроники, Массачусетский технологический институт.

[10] стр.99-103, раздел 4.7

[4] В следующем примере используется Паскаль синтаксис

[1]

[2]

[3]

[примечание 1]

[4]

[5]

[6]

[7]

[8]

[9]