Баквальтерская транслитерация - Buckwalter transliteration

В Buckwalter Арабская транслитерация был разработан в рамках арабского проекта ALPNET, которым руководил доктор Кен Бисли в 1988 году.

Начните

Первым аналитиком по арабскому языку для проекта был студент бакалавриата BYU по имени Дерек Фоксли, нанятый на полставки. В то время Дерек учился на 4-м курсе арабских курсов в BYU. (см. первую страницу одной из первых презентаций, сделанных доктором Бисли в 1989 году в Университете штата Юта, в сносках перечислены участники в порядке до этого момента).[1] Тим Баквалтер был принят на работу через несколько месяцев в качестве штатного сотрудника ALPNET. Тим также был докторантом арабского языка в то время. Одна из его задач в проекте заключалась в том, чтобы сотрудничать с Дереком, работающим неполный рабочий день, и давать ему задания на арабском языке.

Доктор Бисли наставлял Тима и Дерека в некоторых тонкостях лингвистики (поскольку все они сидели в одном офисе 20x20 в Прово, штат Юта, используя рабочие станции DEC и Sun Sparc). И однажды у доски доктор Бизли подтолкнул Дерека и Тима к созданию схемы транслитерации в этот момент. Дерек вводил большую часть данных на тот момент в проекте, поэтому был готов заняться этим. Тем не менее, в тесном сотрудничестве с Тимом он придумал почти все символы, используемые для таблицы транслитерации. Тим следил за задачами Дерека на арабском языке и внес последние корректировки и уточнения в таблицу транслитерации. В то время у него не было названия, однако Тим за несколько лет после проекта ввел тысячи текстовых элементов, используя схему транслитерации, представил ее и отстаивал ее также много раз. Поэтому он был назван в его честь.

В то время такой индивидуальной буквенной транслитерации не использовалось, или, по крайней мере, о ней не было известно команде.

Позже доктор Бисли перешел в Xerox, которая купила права на данные ALPNET в 1990-х годах. Это задокументировано в нескольких других статьях, опубликованных доктором Кеном Бисли за эти годы.

Комментарий к системе

Баквальтерская транслитерация - это ASCII только схема транслитерации, представляющая арабскую орфографию строго один к одному, в отличие от более распространенных романизация схемы, которые добавляют морфологическую информацию, не выраженную арабским шрифтом. Так, например, wāw будет транслитерироваться как ш независимо от того, реализована ли она как гласная / uː / или согласный / w /. Только когда wāw изменен хамза (ؤ) меняется ли транслитерация на &. Это позволяет пользователю вводить или преобразовывать текст в точности так, как он отображается.

Тем не менее, была некоторая критика схемы транслитерации. Некоторые пользователи заявляют, что неизмененные буквы легко читать (за исключением *= дааль и E= айин, v= thaa), но транслитерации букв с диакритическими знаками и характер нужно время, чтобы привыкнуть, например, nunated -un, -an, -in появляются как N, F, K, а сукун ("без гласных") как о. Taʾ marbūṭah ة является п. Сложность, вероятно, возникла из-за того, что обычно используется и / или представляется Баквальтерская транслитерация без объяснения букв. Хотя эти буквы кажутся случайными, на самом деле они мнемонически связаны с исходной буквой.

Кроме того, с тех пор, как была разработана оригинальная схема Баквальтера, появилось несколько других вариантов, хотя не все они стандартизированы. Транслитерация Баквальтера несовместима с XML, поэтому в «безопасных для XML» версиях часто изменяются следующие символы: <> & (أ إ и ؤ соответственно; Баквалтер предлагает транслитерировать их как I O W соответственно). В полностью "безопасных" схемах транслитерации все не буквенно-цифровые символы (например, $ '; *) заменяются буквенно-цифровыми. Полное описание различных схем Баквальтера, а также более подробное обсуждение компромиссов между различными схемами см.[1]

При транслитерации арабского текста может возникнуть ряд других проблем. Во-первых, некоторые арабские символы не указаны в таблице транслитерации, в том числе неалфавитные символы, такие как ۞ и ۝, знаки препинания, например ؛ ?, и Цифры "хинди" или "восточноарабские". Точно так же иногда арабские предложения будут заимствовать неарабские буквы из персидского, некоторые из которых определены в полной таблице Баквальтера.[2] Символы, которые не определены в таблице транслитерации, могут быть удалены, сохранены как нелатинские символы, встроенные в транслитерированный текст, или транслитерированы в различные (не конфликтующие) латинские символы. (Например, преобразовать цифры хинди в арабские цифры несложно.) Другая проблема, которая возникает, - как обрабатывать транслитерацию арабского текста со встроенным текстом ASCII; например, предложение на арабском языке, которое относится к «IBM», или предложение на арабском языке, содержащее цитату на английском языке. Если латинский текст не обозначен явно, то отличить транслитерированный арабский язык от латинского - проблема. Если позже транслитерированный текст со встроенной латиницей транслитерируется обратно на арабский, латинский текст будет транслитерирован на мусорный арабский. Наконец, еще одно важное решение, которое необходимо принять, - насколько нормализация арабского текста должна выполняться во время транслитерации. Это может включать удаление ـ Кашида, удаление коротких гласных и / или других диакритических знаков и / или нормализация орфографии.[1]

С другой стороны, все типичные обозначения, которые можно было бы использовать при написании -! @ #%?.,;: () [] + = Не использовались, потому что они также используются в арабском тексте. Таким образом, если английское слово IBM действительно появилось на английском языке, то в арабском тексте оно в исходной концепции должно было быть помечено двойными кавычками «IBM». Этот механизм позволяет выполнять автоматическую языковую обработку, оставляя неарабский текст как есть, необработанный, когда он видит двойные кавычки. Первоначально даже <> & не использовались, особенно <>, которые заимствованы французскими кавычками, потому что они иногда используются в арабском тексте. Они были добавлены позже по необходимости. Их безопасные XML-версии сохраняются с разработанным мнемоническим устройством (и обсуждается ниже) в том смысле, что I O W соответствуют (если неточно) каждому из издаваемых звуков.

Ключевые концепции при разработке таблицы

В схеме транслитерации использовались три ключевых концепции:

Первый заключалось в том, что каждая арабская буква (звук) может соответствовать только одному символу английского языка. Некоторые арабские буквы при написании издают звук, соответствующий двум английским буквам. Следовательно, для них необходимо использовать одну букву или общий символ.

Секунда концепция заключалась в том, чтобы по возможности использовать знакомое. Если бы арабская буква всегда ассоциировалась с буквой «s» в английском языке, например, тогда было бы легче запомнить, если бы ее можно было сохранить таким образом. (Не изобретайте велосипед!)

Третий Ключевой концепцией было то, что таблица должна быть полностью и легко мнемонической. Следовательно, каждый отдельный элемент коррелирует в следующем порядке предпочтения а) к звуку арабской буквы, или b) к физическому аспекту оригинальной арабской буквы или, c) до имя это называется.

Механика

Предпочтительно использовались строчные буквы. Однако, когда есть несколько арабских букв, которые имеют похожие звуки, тогда для более открытых звуков использовалась строчная буква, а для более близких / ограниченных звуков использовалась буква верхнего регистра. Например, в арабском языке есть 2 буквы со звуком «д». Более открытый звук получил маленькую букву «d», а более тяжелый и закрытый звук получил верхний регистр «D».

Другими словами, верхний регистр указывает на то, что буква похожа на строчную букву, но имеет некоторые качественные различия.

Таблица транслитерации Баквальтера

Арабские буквыابتثجحخدذرزسشصضطظعغفقكلمنهويی[3]
DIN 31635ʾ / āбтǧчасчасdрzsšʿгжqkлмпчасш / ūyя
BuckwalterАvjЧАСИкс*$SDТZEгшyY
Калам'/ aathкхdhш`ghy
БАТРA / aacKz 'ИксEгw / uuyii
IPA (MSA )ʔ, аːбтθ
ɡ
ʒ
часИксdðрzsʃðˤ
ʕɣжqkлмпчасш, uj, я
хамза
  • одинокая хамза: '
  • хамза на алиф:>
  • хамза ниже алифа: <
  • хамза на ва: &
  • Хамза на тебя:}
алиф
  • мадда на алиф: |
  • алиф аль-васла: {
  • кинжал алиф: `
  • Алиф Максура: Y
характер
  • фатха: а
  • дамма: ты
  • касра: я
  • фатхатайн: F
  • дамматайн: N
  • касратайн К
  • шадда: ~
  • сукун: о
та марбута: п
татвил: _

Объяснение мнемоники, используемой в транслитерации Баквальтера

اАЭта буква производит звук «А». Это не строчная буква «а», потому что это будет противоречить диакритическому знаку «фета», который имеет более мягкий звук «а».
بбЭта буква «б» звучит и почти всегда пишется на английском языке как «б».
ةпЭто «тах марбутах», и буква «р» очень похожа на то, как она написана в сочетании с предыдущей буквой.
تтЭта буква издает открытый звук «т» и почти всегда пишется на английском языке как «т».
ثvЭта буква производит звук «th», который встречается в слове «театр». Над ним есть 3 точки, которые при написании выглядят как перевернутая буква «v», поэтому была использована буква «v».
جjЭта буква в MSA произносится как «j» и почти всегда пишется как «j» на английском языке.
حЧАСЭта буква издает тяжелый звук «h», издаваемый в задней части рта / горла, и он конфликтует с мягким звуком «h» другой буквы, поэтому используется верхний регистр «H».
خИксЭта буква издает звук «кх», аналогичный тому, как говорящий по-английски произносит название буквы «х».
دdЭта буква представляет собой мягкий звук «d» и конфликтует с другой буквой «d», найденной позже, поэтому использовалась строчная d.
ذ*Эта буква издает звук «й», встречающийся в слове «это». Часто пишется как «ж». Над ним есть точка, поэтому использовалась единственная звездочка, которая похожа на точку над линией.
رрЭта буква звучит как «р» и почти всегда пишется на английском языке как «р». Строчная буква «r».
زzЭта буква звучит как «z» и почти всегда пишется на английском языке как «z». Строчная буква «z».
سsЭта буква звучит как «s» и почти всегда пишется как «s» на английском языке. Строчная буква «s».
ش$Эта буква похожа на «s», но звучит как «sh», поэтому был использован знак доллара, потому что он выглядит как «s», но также имеет дополнительное свойство (проходящая через него линия). Мы не могли использовать заглавную букву «S» из-за следующей буквы, которая звучит слишком тяжело.
صSЭта буква звучит как «s», но глубже, глубже во рту / горле, поэтому ей присвоена заглавная буква «S», поэтому она не противоречит мягким буквам «s», показанным ранее.
ضDЭта буква звучит как «d», но глубже, глубже во рту / горле, поэтому ей присвоена заглавная буква «d», чтобы она не противоречила мягкому «d», показанному ранее.
طТЭта буква звучит как «т», но глубже, глубже во рту / горле, поэтому ей присвоена заглавная буква «т», поэтому она не противоречит мягкому «т», показанному ранее.
ظZЭта буква звучит как «th» или «zh», но глубже, глубже во рту / горле, поэтому ей присвоена заглавная буква «Z», поэтому она не конфликтует с мягкой буквой «z», показанной ранее.
عEУ этого письма нет английского эквивалента. Итак, чисто физическая мнемоника было использовано. Когда вы смотрите на арабскую букву полностью и на английскую заглавную букву «E» (особенно на написанную от руки букву «E»), они очень похожи.
غгУ этого письма нет английского эквивалента. Его часто писали как «gh». Поэтому мы сохранили букву "g" и использовали физическую мнемонику также. Он похож на строчную букву «g».
فжЭта буква звучит как «f» и почти всегда пишется как «f» на английском языке. Строчная буква "f"
قqЭта буква по звучанию похожа на букву «q» и на английском языке часто пишется как «q». Строчная буква "q"
كkЭта буква звучит как «k» и почти всегда пишется как «k» на английском языке. Строчная буква "k"
لлЭта буква звучит как «л» и почти всегда пишется на английском языке как «л». Строчная "l"
مмЭта буква звучит как «м» и почти всегда пишется на английском языке как «м». Строчная буква "м"
نпЭта буква звучит как «н» и почти всегда пишется на английском языке как «н». Строчные буквы "n"
هчасЭта буква звучит как «х» и мягкая. Это противоречит другому показанному выше более тяжелому звуку «h». Так как этот дает более мягкое звучание «h», был использован нижний регистр.
وшЭта буква звучит как «w», а на английском языке часто пишется как «s».
یYМы использовал физическую мнемонику здесь, как и следующая буква, но без точек внизу. То же самое и в нашей английской транслитерации (это верхний регистр)
يyЭта буква звучит как «Y», а по-английски часто пишется как «y». Это строчные буквы, а буква выше - верхний регистр.
ًFПо-арабски это называется «фетатаин», Двойная фета. Верхний регистр «F», потому что нижний регистр уже используется, а F - напоминание о «Fethatain».
ٌNДвойная «демма» часто упоминается на уроках английского языка как «Нация»Он произносится как мягкий звук« ун ». Строчная буква «n» уже используется, плюс соответствие с буквой «F» для удвоенной маркировки означает, что мы использовали заглавную букву «N».
ٍKЭто "Kesratain», Двойное« кесра », издает звук« в ». Строчная буква «k» уже используется, плюс соответствие с буквой «F» для удвоенной маркировки означает, что мы использовали заглавную букву «K».
َаЭто единственный «фетха», издающий короткий звук «а», многие использовали «а» для обозначения этого, плюс были использованы как «фа», так и «ф». Поэтому традиционно использовалась строчная буква «а».
ُтыЭто единственное слово «demma», которое издает короткий гласный звук «oo», многие использовали «u» для обозначения этого в английском тексте. Так что традиционно использовалась строчная «u».
ِяЭто единственное слово «кесра», которое издает короткий гласный звук «i», многие использовали строчные буквы «i», чтобы представить это в английском тексте,
ّ~Это «шедда», которая представляет собой удвоение звука / буквы, над которой она находится. Тильда также является знаком, который находится над буквой и встречается на большинстве английских клавиатур. Это физическая мнемоника.
ْоЭто «суккун», означающее, что на этой букве нет гласного звука. Мы использовали близкий физическая мнемоника строчной буквы «о»

Первоначальная команда ALPNET быстро приняла эту схему. Несмотря на то, что доктор Бисли не знал арабского языка, он быстро понял и использовал его. Сила Баквальтерской транслитерации состоит в том, что каждая арабская буква представлена ​​отчетливо. Тем не менее, его использование традиционных транслитераций или мнемонических устройств для чего-либо нетрадиционного делает его очень простым в изучении.

Образец

Первая статья Всеобщая декларация прав человека:

Арабский текст

يُولَدُ جَمِيعُ ٱلنَّاسِ أَحْرَارًا مُتَسَاوِينَ فِي ٱلْكَرَامَةِ وَٱلْحُقُوقِ. وَقَدْ وُهِبُوا عَقْلًا وَضَمِيرًا وَعَلَيْهِمْ أَنْ يُعَامِلَ بَعْضُهُمْ بَعْضًا بِرُوحِ ٱلْإِخَاءِ.[4]

Баквальтерская транслитерация

yuwladu jamiyEu {ln ~ aAsi> aHoraArFA mutasaAwiyna fiy {lokaraAmapi wa {loHuquwqi. waqado wuhibuwA EaqolFA waDamiyrFA waEalayohimo> ano yuEaAmila baEoDuhumo baEoDFA biruwHi {lo

Английский текст

Все люди рождаются свободными и равными в своем достоинстве и правах. Они наделены разумом и совестью и должны действовать по отношению друг к другу в духе братства.[5]

Заметки

  1. ^ а б Хабаш, Низар. Введение в обработку естественного арабского языка. Морган и Клейпул, 2010 г.
  2. ^ Баквалтер, Тим. Баквальтерская таблица транслитерации арабского языка.
  3. ^ В Египте, Судане и иногда в других регионах окончательная форма иногда ی (без точек).
  4. ^ «Всеобщая декларация прав человека - арабский (аларабия)». ohchr.org. УВКПЧ. 2016 г.. Получено 22 октября, 2016.
  5. ^ «Всеобщая декларация прав человека - на английском языке». ohchr.org. УВКПЧ. 2016 г.. Получено 22 октября, 2016.

внешние ссылки